PLoS ONE: Mirna Profiler i lymfoblastoidcellelinier finske prostatakræft Families

Abstrakt

Baggrund

Arvelige faktorer er åbenbart involveret i prostatakræft (PRCA) carcinogenese, men i øjeblikket, genetiske markører er ikke rutinemæssigt anvendes i screening eller diagnosticering af sygdommen. er behov for mere præcise oplysninger for at gøre behandlingen beslutninger at skelne aggressive sager fra indolent sygdom, for hvilken arvelige faktorer kunne være et nyttigt redskab. Den genetiske makeup af PRCA er først for nylig begyndt at blive bragt i orden gennem store genom-dækkende forening undersøgelser (GWAS). De hidtil identificerede enkelt nukleotid (SNP’er) forklare imidlertid kun en brøkdel af familiær klyngedannelse. Endvidere er de kendte risikofaktorer SNPs ikke forbundet med det kliniske resultat af sygdommen, såsom aggressiv eller metastaseret sygdom, og kan derfor ikke anvendes til at forudsige prognosen. Udfyldelse af SNPs med dybe kliniske data sammen med miRNA udtryk profiler kan forbedre forståelsen af ​​de underliggende mekanismer af forskellige fænotyper af prostatakræft.

Resultater

I denne undersøgelse microRNA (miRNA) profiler blev undersøgt som potentielle biomarkører til at forudsige udfaldet sygdom. Forsøgspersonerne var fra finske familier prostatakræft høj risiko. For at identificere potentielle biomarkører vi kombineret en ny ikke-parametrisk test med en betydning, foranstaltning fra en Random Forest klassificeringen. Denne kombination leveret et sæt af ni miRNA, der var i stand til at adskille sager fra kontroller. De fundne miRNA udtryk profiler kunne forudsige udviklingen af ​​sygdommen år før den egentlige PRCA diagnose eller opdage eksistensen af ​​andre kræftformer i de undersøgte individer. Desuden bruger et udtryk Quantitative Trait Loci (eQTL) analyse blev regulatoriske SNPs for miRNA miR-483-3p der var også direkte forbundet med PRCA fundet,.

Konklusion

Baseret på vores resultater, foreslår vi, at blod-baserede miRNA ekspression profilering kan anvendes i diagnosen og måske endda sygdommens prognose. I fremtiden kunne miRNA profilering muligvis bruges målrettet screening, sammen med Prostata Specifikt antigen (PSA) test, for at identificere mænd med en forhøjet PRCA risiko

Henvisning:. Fischer D, Wahlfors T, Mattila H, Oja H, Tammela TLJ, Schleutker J (2015) miRNA Profiler i lymfoblastoidcellelinier finske Prostata Cancer familier. PLoS ONE 10 (5): e0127427. doi: 10,1371 /journal.pone.0127427

Academic Redaktør: Xin-Yuan Guan, The University of Hong Kong, KINA

Modtaget: December 19, 2014 Accepteret: April 15, 2015; Udgivet: 28. maj 2015

Copyright: © 2015 Fischer et al. Dette er en åben adgang artiklen distribueres under betingelserne i Creative Commons Attribution License, som tillader ubegrænset brug, distribution og reproduktion i ethvert medie, forudsat den oprindelige forfatter og kilde krediteres

Data Tilgængelighed: Alle relevante data er tilgængelige fra EBI (tiltrædelse nummer E-mtab-3397)

Finansiering:. Dette arbejde blev støttet af Medical Fund Research of Tampere University Hospital (9L091, 9M094, og 9N069), den finske Cancer organisationer, den Sigrid Juselius Foundation, og Finlands Akademi (giver 116.437 og 251.074) til JS. Dette arbejde blev også støttet af Den finske Doctoral Programme i Stokastik og Statistik for DF

Konkurrerende interesser:.. Forfatterne har erklæret, at der ikke findes konkurrerende interesser

Introduktion

Prostata cancer (PRCA) er den mest almindelige noncutaneous malignitet og den anden hyppigste årsag til kræft-relaterede dødsfald blandt mænd i de industrialiserede lande [1]. I Finland blev der 4604 nye prostata kræfttilfælde diagnosticeret i 2012 (finsk Cancerregisteret, https://www.cancer.fi/syoparekisteri/). Aldring og PSA-test kan være de mest indlysende grunde til det øgede antal nye tilfælde. Den stigende forekomst skaber pres på sundhedsvæsenet som bekymring vedrørende overbehandling er betydelig. Derfor er en af ​​de største udfordringer er at forbedre de diagnostiske og prognostiske værktøjer til at kunne skelne dødelig fra indolent sygdom ved en hærdelig tilstand af sygdommen.

Bidraget af genetiske varianter er blevet bredt undersøgt i forbindelse med prostatakræft disposition. Både binding og GWAS sammen med de få eksempler, der følger af kandidat-gen metoder har ført til identificeringen af ​​omkring 100 genetiske loci, der forklarer kun ca. 30% af den genetiske risiko for sygdommen [2] [3] [4] [5]. Men der er ingen indlysende molekylære eller funktionelle bevis for, hvordan variationer i disse kandidat-websteder eller deres co-nedarvet tilstødende varianter kan forårsage PRCA. Faktisk er de fleste af den enkelt-nukleotid-varianter (SNP’er) fundet af GWAS sandsynligvis ikke vil påvirke den kodende sekvens af ethvert gen, men snarere opholde sig i intergeniske regioner. Disse resultater antyder, at de har en regulerende rolle, såsom i transkription, splejsning eller mRNA-stabilitet, i stedet for en direkte virkning på funktionen af ​​genproduktet [6].

I de seneste år, betydningen af ikke-protein kodende genom i den funktionelle regulering af normal udvikling og udvikling sygdommen er blevet klart. MiRNA er korte ikke-kodende RNA’er, som regulerer deres målgenekspression typisk ved binding til den 3 ‘utranslaterede region (UTR) af mål-mRNA [7]. Individuel variation af miRNA ekspressionsniveauer kan påvirke ekspressionen af ​​mRNA målgenet, forårsager fænotypiske forskelle.

Flere undersøgelser har vist, at miRNA ekspressionsniveauer er prædiktive for udfaldet af faste tumorer og leukæmier, men bidraget fra ændrede miRNA ekspressionsniveauer til genetisk kræft modtagelighed er ikke kendt. Den transkriptionelle aktivitet af protein kodende gener nedarves som en kvantitativ egenskab, og regulatoriske polymorfismer associeret med variabilitet i niveauet af mRNA anses for at være eQTL. På trods af den demonstreret betydning, viden om den genetiske regulering af miRNA udtryk er stadig i sin vorden. I en nylig publikation, blev over hundrede eQTLs i primære fibroblaster beskrevet, hvilket indikerer det mindste en delvis rolle for genetisk variation i ændret miRNA udtryk [8]. Kombinerede analyser af fælles SNP’er og variationer i miRNA udtryk profiler kan tjene som en måde at belyse de biologiske funktioner af SNPs identificeret fra GWAS i almindelige sygdomme.

Formålet med denne undersøgelse var at evaluere de miRNA udtryk profiler af lymfoblastoide cellelinier (LCL) stammer fra medlemmer af højrisiko PRCA familier. Altered miRNA udtryk i patientens LCLS sammenlignet med dem fra raske familiemedlemmer gav mulighed for at identificere germlinie varianter i promotor eller andre regulatoriske regioner af protein kodning gener som en betydelig mængde af miRNA udtryk er korreleret til vært og target genekspression [9]. Den store mængde af væsentlige miRNA-wise testresultater inden for data, der kræves også udviklingen af ​​en ny type forskelligt udtryk analyse pipeline. At udvikle en sådan rørledning, har forskelligt udtryk test blevet kombineret med den betydning foranstaltninger i machine learning algoritme, Random Forest [10].

Materialer og metoder

Etik Statement

Denne undersøgelse er blevet godkendt af de respektive IRB bestyrelserne for The Social- og Sundhed (SMT), nationale tilsynsmyndighed for velfærd og sundhed (Valvira) og etiske komité i Tampere University Hospital. Ethvert individ, der deltager i undersøgelsen har givet skriftligt informeret samtykke.

studiepopulation

Alle prøver er af finsk oprindelse og indsamling af familierne er blevet rapporteret tidligere [11]. For miRNA microarray undersøgelsen blev 115 sager fra 70 PRCA familier brugt. De udvalgte familier havde mindst to førstegradsslægtninge diagnosticeret med prostatakræft i alle aldre. Sunde (= ingen diagnosticeret prostatacancer) individer (n = 78) fra 47 familier blev anvendt som kontroller. Den mediane alder ved diagnose i de tilfælde var 65 (44-86.2) år og kontrollen havde en gennemsnitsalder på 57,5 ​​(35.2-83.3) år på det tidspunkt prøverne blev opnået.

En undergruppe af personer ( n = 54) fra microarray eksperiment blev genotype med Illumina s HumanOmniExpress array til et andet eksperiment, og resultaterne er publiceret andetsteds [12]. Derfor kunne disse 54 prøver bruges her til en eQTL analyse (39 PRCA tilfælde og 15 kontroller). Yderligere 83 personer kunne anvendes til validering. Alt i alt var der 137 genotypede personer fra 33 familier (20 overlappende familier med microarray del af undersøgelsen).

Det kliniske resultat af prostatacancer kan groft inddeles i aggressiv og ikke-aggressiv cancer, baseret på PSA , Gleason score og andre kliniske evalueringer [13]. Baseret på disse retningslinjer, blev prostatakræft patienter fra de to forsøg grupperet i 36 (36) aggressiv og 79 (66) ikke-aggressive prostatakræft. Det maksimale antal aggressive tilfælde pr familie var tre, og den mindste var 1. En detaljeret oversigt over de personer i undersøgelsen er givet i figur 1.

For hver sundhed gruppe, antallet af individer fra forskellige er vist eksperimenter. Det samlede antal fra et forsøg derefter angives med de respektive farvet boks plus det røde felt (overlap). lavere: Visualisering af den familiemæssige baggrund. De tre indstillinger ‘PRCA kun “,” kun Sund “eller” PRCA /Sund’ vises og grupperes i overensstemmelse hermed. Derudover vises involvering af forskellige familier i de to forsøg. Bestilling er ifølge en intern familie kode.

RNA ekstraktion fra lymfoblastoidcellelinier

LCLS blev afledt af Epstein-Barr virus transformation af perifere mononukleære leukocytter fra patienter og deres raske pårørende . De lymfoblastoide cellelinier blev dyrket i RPMI-1640-medium (Lonza, Walkersville, MD, USA) suppleret med 10% føtalt bovint serum (Sigma-Aldrich, St. Louis, MO, USA) og antibiotika ved 37a ° C, 5% CO2 og 95% fugtighed. Cellepellets blev lynfrosset, og totalt RNA blev ekstraheret med Trizol ifølge producentens anvisninger (Invitrogen, Carlsbad, CA, USA). RNA udbytter blev kvantificeret ved hjælp af en ND-1000 spektrofotometer (NanoDrop Technologies, Wilmington, DE, USA) og Agilent 2100 Bioanalyzer (Agilent Technologies, Santa Clara, CA, USA).

MicroRNA microarray analyse

microRNA ekspressionsniveauerne i LCLS blev påvist ved anvendelse Agilent Menneskelig miRNA V2 Oligo Microarray Kit (Agilent Technologies). Først blev 100 ng af total RNA anvendes som udgangsmaterialet, og miRNA blev mærket under anvendelse af Agilent miRNA Labelling Kit. Mærket RNA blev hybridiseret til Agilent miRNA microarrays, der har otte identiske arrays pr dias, hvor hver array med prober rettet mod 817 miRNA (719 menneskelige, 76 ikke-humane virale miRNA og 22 kontrol miRNA). I alt blev 26 slides anvendt, og dataene blev udvundet ved hjælp Agilents Feature Extraction software (FES), udgave 10.7.1.1 med gitteret layout D_F_20091030. For dataanalyse blev prøver lav kvalitet først fjernet, hvilket resulterer i 193 individer. Hver enkelt Agilent microarray V2 måler 13,737 funktioner, og FES derefter bruges disse funktioner til at beregne udtrykket værdier for 2.466 (2125 menneskelige) sonder; baseret på disse sonder de 817 miRNA udtryk værdier blev beregnet. Data kan tilgås via tiltrædelse ArrayExpress E-mtab-3397.

miRNA udtryk værdier er typisk beregnet med algoritmen

gTotalGeneSignal

som implementeret i FES, men i denne undersøgelse, men sonde -kloge, blev baggrund trukket medianværdier bruges i stedet. Analysen af ​​forskellige prober med samme miRNA som en enkelt miRNA ekspression værdi syntes ikke at være pålidelige nok, og en analyse ved sonden niveau var mere gennemførlig. Efter beregning af udtryk værdier ved sonden niveau blev alle ikke-menneskelige prober og dem, der ikke opdaget af FES fjernet. Kun de prober, der blev påvist i mindst 50% af prøverne i mindst én sundhedsstatus gruppe blev anvendt til yderligere analyse. Derudover blev ikke-humane kontrolfunktioner fjernes inden analysen. I alt 547 sonder, der repræsenterer 211 miRNA, opfyldte disse kriterier. Den tekniske variabilitet af dataene blev reduceret ved at anvende en fraktil normalisering [14].

Genotypning dataanalyse

Det indre (SNP) genotype data blev genereret ved hjælp af Illumina s HumanOmniExpress array i samarbejde med Institut for Molekylær Medicin Finland (Fimm). Den valgte matrix aktiveret genotypebestemmelse af ca. 700k SNPs. At frembringe de genotypedata blev de rå data analyseret med Genome Studio ifølge producentens instruktioner (Illumina, San Diego, USA).

I alt informationen genotype for 137 individer var tilgængelige, med miRNA ekspression niveauer også målt i 54 af disse personer. Derfor blev eQTL analyse baseret på disse 54 personer. De resterende 83 personer blev anvendt til validering af resultaterne.

Identifikation af differentielt udtrykte sonder bruger retningsbestemt test

PRCA patienter blev inddelt i aggressiv (A) og ikke-aggressive /mild (M) PRCA grupper og sammenlignet med raske kontrolpersoner (H). En ny generalisering af Mann-Whitney typetest blev anvendt til at identificere differentielt udtrykte sonder i tre-gruppen sammenligning. Det samme generalisering blev anvendt til eQTL analyse (for detaljer se [15] og [16]).

For en generel definition, lad prøvestørrelserne af de tre grupper være

N

H

,

N

M

N

en

hvilket resulterer i en samlet stikprøvestørrelse på

N

H

+

N

M

+

N

A

=

N

. Den generaliserede Mann-Whitney test er baseret på probabilistiske indekser beregnet med tredobbelt summer af tilsvarende indikator funktioner. Lad x

s

;

H

= (

x

1,

s

;

H

,

x

2

s

;

H

, …,

x

N

H

,

s

;

H

)

T

, x

s

;

M

= (

x

1,

s

;

M

,

x

2

s

;

M

, …,

x

N

M

,

s

;

M

)

T

og x

s

;

A

= (

x

1,

s

;

En

,

x

2

s

;

En

, …,

x

N

En

,

s

;

A

)

T

være udtrykket værdier for en sonde

s

i hvert sundhed gruppe med underliggende

cdf

‘s

F

s

;

H

,

F

s

;

M

F

s

A

. Den probabilistiske indeks

P

^

H

,

M

,

A

;

s

for sonde

s

anvendes i denne fremgangsmåde kan derefter beregnes byand

jeg

(⋅) er indikatoren funktion, der er 1, hvis tilstand (⋅) er sand, og 0 hvis ikke. Bemærk at den rækkefølge i indekset for

P

^

H

,

M

,

A

;.

s

refererer til den rækkefølge, der anvendes i indikatoren funktionen

Desuden probabilistisk indeks

P

^

H

,

M

,

A

;

s

kan derefter bruges til at teste den retningsbestemte hypothesiswhere ≺ refererer til den stokastiske bestilling af

cdf

‘s. Naturligvis kan forskellige ordrer i tilstanden (⋅) af indikatoren funktion benyttes til at teste for forskellige alternativer. Hertil kommer, når udtryk værdier tildeles genotype grupper i stedet for sundhedstilstand, denne test procedure er ideel til eQTL test, da det tester for de retningsbestemte alternativer, der er klart til stede i forbindelse med en eQTL analyse.

to probabilistiske indeks

P

^

H

,

M

,

A

;

s

P

^

A

,

M

,

H

;

s

blev brugt til test sonder

s

= 1, …, 547, og p-værdier for permutationstest versionen blev beregnet baseret på 5000 permutationer. Testresultater med p-værdi mindre end 0,01 blev anset for at være betydelig. Den testmetode er implementeret i R-pakken

gMWT

[16], og pakken

GeneticTools

denne testmetode for eQTL test exploits. Begge pakker er frit tilgængelige fra Comprehensive R Archive Network (CRAN).

Benjamini-Hochberg multipel testprocedure at kontrollere falske opdagelse sats er visualiseret ved hjælp af afvisning plots og linjer. Forholdet mellem forventede afvisninger under nulhypotesen er afbildet mod det observerede forhold af afvisninger. Hvis denne kurve er over (0, 1) -line, har vi flere afvisninger end forventes under nul-hypotesen. De afvisninger for en fast test størrelse kan visualiseres med en lodret linje, og afvisninger for forskellige multiple test justeringer kan visualiseres ved linier med en vis hældning. Antallet af afviste nulhypoteser bestemmes derefter ved overgangsstedet af kurven og linjen. Yderligere oplysninger findes [15].

Klassificering, Betydningen Mål og Clustering

Maskinen learning klassificeringen Random Forest [10], som gennemført i R-pakken

randomForest

[17], blev påført på de udtryk data, således at datasættet blev opdelt i træningen (75%) og test (25%) data. Træningsdata blev brugt til at skabe en samling af 2500 beslutning træer, og disse træer blev derefter anvendt til at klassificere de testdata. Opdelingen mellem uddannelse og validering af data blev derefter gentaget 2000 gange, og bagefter klassificeringskriterierne resultaterne af alle testdata kørsler blev evalueret. Gini betydning foranstaltning blev også udvundet for hver eneste Random Forest, og den gennemsnitlige betydning af hver probe blev kombineret med den tilsvarende p-værdi fra den retningsbestemte test. Sonder, der havde en p-værdi mindre end 0,01, og som tilhørte de 10% de vigtigste sonder end alle Random Forest kørsler blev anset for at være af stor interesse (HI sonder) og blev derefter brugt i klyngedannelse trin, og i eQTL analysen.

Tilfældige Skove blev trænet for tre mulige udfald klasser sund (H), mild PRCA (M) og aggressiv PRCA (A). Lad

L

jeg

,

r

;

H

,

L

i

,

r

;

M

L

jeg

,

r

;

A

være klassen sandsynligheder, som Random Forest klassificeringen run

r

til individuel

i

med

L

jeg

,

r

;

H

+

L

jeg

,

r

;

M

+

L

jeg

,

r

;

a

= 1. Disse sandsynligheder blev derefter kombineret i en enkelt PRCA severeness værdi

S

i

,

r

=

1

2

L

i

,

r

;

M

+

L

i

,

r

;

A

. Den severness værdi

S

jeg

,

r

blev valgt på en sådan måde, at

S

i

,

r

= 0 i tilfælde af, at

L

jeg

,

r

;

H

= 1 ,

S

jeg

,

r

= 0,5 for

L

jeg

,

r

;

M

= 1 og

S

jeg

,

r

= 1, hvis

L

jeg

,

r

;

a

= 1.

i en 2-vejs Random Forest run, klassificeringen blev udført kun mellem de sunde og PRCA klasser, med samme opsætning som for 3-vejs Random Forest beskrevet ovenfor.

for at beregne arealet under kurven (AUC) af Receiver Operating Karakteristisk (ROC) kurve i Random Forest tilfælde blev to forskellige fremgangsmåder vælges. Først de to sandsynligheder

L

jeg

,

r

;

M

L

i

,

r

;

En

blev sat til at evaluere Random Forest evne til at klassificere PRCA generelt. Så i anden sammenligning, de sandsynligheder

L

jeg

,

r

;

H

L

jeg

,

r

;

M

blev sat til at vurdere sin evne til at identificere aggressiv PRCA. Til sidst, at plotte ROC en kontinuerlig afskæringsværdi i [0, 1] blev påført på sandsynligheden for at klassificere individer til sande /falske positiver.

I den gruppering i Heatmap, Kendall tau korrelationsmatrixen S blandt alle prøver blev beregnet baseret på ekspressionen værdier af HI-prober. Kendall ‘tau mellem to variable er et mål for positiv /negativ afhængighed og er invariant under enhver strengt voksende transformation til de marginale variable. Den tilsvarende afstand mellem variablerne defineres da D = (1 – S) /2. Lad derefter D være matrix af afstande, der anvendes til hierarkisk klyngedannelse.

eQTL Analyse

genotype information fra 700k arrayet blev kombineret med ekspressionen værdier af HI prober under anvendelse af en eQTL analyse. Det kromosomale placeringer af miRNA prober blev identificeret, og alle SNP’er inden et vindue af 1Mb omkring sondens centrale placering var forbundet med denne probe. De probe udtryk værdier blev derefter tildelt til genotype grupper af hver forbundet SNP (fig 2 viser en systematisk skitse af dette trin).

Uafhængig af sundhedstilstanden enkelte, er udtryk værdier grupperet efter den genotypegrupperne over de omkringliggende SNP’er og derefter testet for differentiel ekspression mellem disse grupper. (Figur taget fra [16])

I en eQTL tilgang, tre tilfælde er mulige, afhængigt af om udtrykket værdier er blevet tildelt til en, to eller alle tre mulige genotype grupper. Monomorfiske varianter blev ikke yderligere i analysen, og i to-gruppe tilfælde, en to-sidet Mann-Whitney-test blev anvendt. I de tre-gruppen tilfælde blev den generaliserede Mann-Whitney test for retningsbestemte alternativer anvendes til de to forskellige alternativer, om højere ekspression værdier blev knyttet til vildtype eller den homozygote mutation. Denne type retningsbestemt test blev anvendt i de tre-gruppen sagen som en ordre på udtrykket værdier i forhold til genotype grupperne klart forventet.

komparativ analyse

her brugt to-trins fremgangsmåde blev sammenlignet med to andre almindeligt anvendte metoder. Den første metode var en klassisk variansanalyse (ANOVA), afprøvning af alternative hypotese, at der er en forskel mellem mindst to ud af de tre grupper. Lad

μ

s

,

H

,

μ

s

,

M

og

μ

s

,

A være de gennemsnitlige udtryk værdier sonde

s

for de tre grupper, så er det sonde-wise hypotese for envejs ANOVA

Resulterende p-værdier blev derefter justeret for multipel testning ved hjælp af en Bonferroni korrektion.

den anden metode, der blev brugt som sammenligning var en to-iscenesat logistisk regression med lasso (LRL). Først LRL blev påført på den fulde datasæt med de to klasser raske /syge. Den tuning parameter

λ

blev valgt således, at mængden af ​​udvalgte variabler var i samme størrelsesorden som de her foreslåede metode identificerer. Den anden LRL kørsel blev derefter påført på tilfælde kræft kun og sigter til separation af milde og aggressiv PRCA. Endelig de resulterende prober blev sammenlagt til ét resultat matrix fra LRL analysen.

For at sammenligne resultaterne af ANOVA og LRL med her foreslåede fremgangsmåde blev en hierarkisk klyngedannelse påføres de identificerede sonder bruger også en Kendall s tau baseret distance matrix. Derefter blev den justeret Rand Index beregnet mellem klassificeringen af ​​de tre forskellige clusterings og den sande kræft status enkeltpersoner til at bestemme niveauet af aftalen.

Resultater

Brug af retningsbestemt testprocedure, 146 (87 med højere udtryk i aggressiv PRCA og 59 med højere udtryk i kontroller) ud af i alt 547 sonder blev identificeret med forskellige udtryk profiler. Den kromosomale placering af de betydelige prober og den type test alternativ visualiseres i figur 3.

Væsentlige testresultater, som også hører til de 10% vigtigst (Gini Index) miRNA i Random Forest løb betegnes som HI sonder.

for at identificere HI sonder fra dette uventet store mængde differentielt udtrykte sonder blev en Random Forest klassificeringen også anvendes på de udtryk data. Væsentlige sonder, der var inden for 10% af de vigtigste sonder i Random Forest, målt som Gini Index, blev kaldt HI ​​sonder og er fremhævet i figur 3. De 13 identificerede sonder repræsenterer otte forskellige miRNA og et spliceosomal RNA. Flere detaljer om de 13 identificerede sonder er anført i tabel 1.

Det samlede klassificering resultat baseret på de severeness værdier

S

jeg

,

r

af Random Forest visualiseres i figur 4. Raske personer (grøn) klart tendens til at være i den lavere risiko område, men aggressive PRCA patienter (rød) havde ikke tendens til at have større værdier end ikke-aggressiv PRCA patienter (gul). Desuden blev en gennemsnitlig klassificering hastighed i løbet alle kørsler klassificering bestemmes separat for de sammenligninger mellem sunde og PRCA og mellem aggressiv PRCA og kombineret sunde og ikke-aggressiv PRCA. Random Forest var i stand til at klassificere PRCA med en gennemsnitlig AUC for ROC på ca. 0,89 og aggressiv PRCA versus de kombinerede prøver af ikke-aggressiv PRCA og kontrol af 0,68 (figur 5). De klassificering resultater på det individuelle niveau visualiseres i underbyggende oplysninger (S1 og S2 Fig).

Raske personer sammenlignes med poolede ikke-aggressive /aggressive PRCA resultater (sort kurve) og aggressiv PRCA klassifikationer sammenlignes med de samlede andre grupper (rød).

En hierarkisk klyngedannelse viser betydningen af ​​HI-sonder. Klyngedannelse datasættet baseret på alle sonder resulterede i kun en lidt bedre klassifikation end clustering baseret på de 13 HI-sonder. Dendrogrammet for clustering individer baseret på de 13 HI prober sammen med den tilsvarende Heatmap er vist i figur 6. Her blev evnen klart at adskille mellem aggressive og ikke-aggressiv PRCA begrænset, men interessant kun fem af de 78 raske individer blev grupperet tæt sammen med PRCA individer. I modsætning hertil 46 af 115 PRCA tilfælde var inde i klyngen, der indeholdt de fleste af de sunde individer.

Røde farver refererer til lave udtryk værdier, mens grønne farver repræsenterer store udtryk værdier for særlige sonde. Den miRNA målrettede ID’er, der svarer til de givne probe ID’er er anført i tabel 1. Farver i dendrogram repræsenterer den observerede sundhedstilstand (grøn: sund, gul:. Ikke-AGGR PRCA, rød: aggr.PrCa)

Desuden blev en cis-eQTL (0.5Mb op /downstream vindue) for HI sonder udføres. I alt blev 3863 SNP-miRNA foreninger testet, og 79 havde en p-værdi på ≤ 0,01, (S3 Fig i understøttende information). Alle SNPs, der blev fundet at have en mulig regulerende effekt på en HI-sonde blev derefter testet for en direkte PRCA association ved at anvende en Fisher-test på 2 × 3 viser sammenhængen mellem genotype og sundhed status grupper. For fire SNP’er blev en signifikant sammenhæng fundet for de 53 genotyper af eQTL prøver (prøve størrelse 0,05).

I de prøver hvor der kun genotypen data tilgængelige, blev der fundet seks associerede SNP’er, men betydelige SNPs fra den første, indledende test kunne ikke valideres med yderligere genotypedata. For både datasæt men der var én, henholdsvis fire (ud af 15) signifikant tilknyttede SNPs i cis-placeringen af ​​miRNA HSA-miR-483-3p (se tabel 2 for nærmere oplysninger).

Den øverste del er fra eQTL datasæt, og den nederste del er resultaterne for validering af data.

Endelig her foreslåede metode blev også sammenlignet med en ANOVA tilgang og en LRL. Ved hjælp af en multiple test justeret signifikansniveau

α

= 0,001 resulteret i 14 betydende sonder, mens LRL tuning parameter blev sat sådan, at LRL identificeret 15 sonder til at være af stor interesse. Mængden af ​​krydsende sonder mellem disse to tilgange var syv, mens skæringspunktet for HIprobes med ANOVA sonderne var bare fem og med LRL endda kun tre. Sammenligning af kvaliteten af ​​klyngedannelse på grundlag af disse sonder ved hjælp af Korrigeret Rand Index, resulterede i en Rand Index of 0,168 for sonderne identificeret af her foreslåede fremgangsmåde, 0,130 for ANOVA og 0,131 for LRL tilgang.

diskussion

formålet med undersøgelsen var at anvende nye statistiske metoder, der bedre differentiere aggressiv fra indolent prostatakræft og er robuste over for outliers og at overskue de prognostiske og diagnostiske værdier af blod-afledte miRNA.

i denne undersøgelse anvendte vi et generaliseret Mann-Whitney tilgang [15] kombineret med Random Forest algoritme til at identificere differentielt udtrykte miRNA. Ved at kombinere de to metoder, var vi i stand til at reducere panel af interessante miRNA. Fordelen ved denne fremgangsmåde er, at den effektivt kombinerer de to forskellige metoder til påvisning meningsfulde variabler. Hver tilgang af sig selv identificeret en lang række væsentlige miRNA, selv efter at kontrollere den falske opdagelse sats. Imidlertid kombinere disse to fremgangsmåder gav en kortere liste over miRNA af potentiel interesse, effektivt at reducere mængden af ​​falske positive testresultater. S4 Fig i underbyggende oplysninger viser detaljer om test afvisninger og konsekvenserne af en Benjamini-Hochberg korrektion.

Uden nogen korrektion flere test, viste begge prøvninger afvisning satser på ca. 16% og 10% for en test størrelse på 0,01. Accept en falsk opdagelse sats på 0,05% om afvisning satser var stadig i størrelsesordenen 5-10%. Stedet for at kontrollere netop den falske opdagelse sats, blev en multipel fremgangsmåde testning udeladt, og et ensemble metode, der kombinerer resultaterne fra de to forskellige fremgangsmåder blev anvendt i stedet. Selv om dette blev gjort på en mulig bekostning af mange falske negative testresultater, det her identificerede sæt vundet yderligere tillid ved at kombinere testresultaterne.

Ud over udviklingen af ​​analytiske værktøjer, opnå gode kampe mellem cases og kontroller er vigtigt, især i miRNA undersøgelser, for hvilke resultaterne blandt undersøgelser er ofte modstridende. Brugen af ​​finske familiære PRCA sager og deres sunde slægtninge aktiveret for at reducere baggrunden heterogenitet af miRNA udtryk profiler skal reduceres. Faktisk var personer i familier observeret at dele en miRNA signatur specifik for familien, og familiemedlemmer blev oftere grupperet ved siden af ​​hinanden. Derfor informative miRNA-biomarkører, der kan skelne patienterne fra deres sunde modparter inden for en familie er yderst interessant.

Altered miRNA udtryk er blevet identificeret i forskellige maligniteter. Afhængigt ekspressionsprofilen i tumoren, kan de virker som enten onkogener eller tumorsuppressorer.

Be the first to comment

Leave a Reply