PLoS ONE: På Reproducerbarhed af TCGA kræft i æggestokkene MicroRNA Profiles

Abstrakt

dysreguleret microRNA (miRNA) udtryk er en veletableret funktion i human cancer. Men fortsat uklart, hvilken rolle specifikke miRNA i fastlæggelsen kræft resultater. Brug af niveau 3 udtryk data fra Cancer Genome Atlas (TCGA), identificerede vi 61 miRNA, der er forbundet med den samlede overlevelse i 469 ovariecancere profileret ved microarray (p 0,01). Overraskende er kun 1 miRNA transkript forbundet med ovariecancer overlevelse kræft i begge datasæt. Vores analyser viser, at denne forskel skyldes, at miRNA niveauer indberettet af de to platforme korrelerer dårligt, selv efter korrektion for potentielle problemer, der er forbundet til signaldetektering algoritmer. Korrektioner for falsk opdagelse og microRNA overflod havde minimal indvirkning på denne uoverensstemmelse. Yderligere undersøgelser er påkrævet

Henvisning:. Wan Y-W, Mach CM, Allen GI, Anderson ML, Liu Z (2014) På Reproducerbarhed af TCGA kræft i æggestokkene MicroRNA profiler. PLoS ONE 9 (1): e87782. doi: 10,1371 /journal.pone.0087782

Redaktør: Amanda Ewart Toland, Ohio State University Medical Center, USA

Modtaget: November 6, 2013; Accepteret: 1. januar 2014 Udgivet: 29 Jan 2014

Copyright: © 2014 Wan et al. Dette er en åben adgang artiklen distribueres under betingelserne i Creative Commons Attribution License, som tillader ubegrænset brug, distribution og reproduktion i ethvert medie, forudsat den oprindelige forfatter og kilde krediteres

Finansiering:. Dette arbejde understøttes dels gennem Collaborative Advances in Biomedical Computing Seed Finansiering Program ved Ken Kennedy Institute for Information Technology ved Rice University støttet af John og Ann Doerr fond for Computational biomedicin og gennem center for Computational og Integrativ Biomedical Research Seed Finansiering Program på Baylor College of Medicine. GA er også delvist støttet af NSF DMS-1.209.017. ZD er støttet af Houston Bioinformatik Endowment og NSF DMS-1.263.932. De finansieringskilder havde ingen rolle i studie design, indsamling og analyse af data, beslutning om at offentliggøre, eller forberedelse af manuskriptet

Konkurrerende interesser:.. Forfatterne har erklæret, at der ikke findes konkurrerende interesser

Introduktion

MikroRNA’er (miRNA) er endogene RNA-transkripter, der regulerer forskellige mønstre af genekspression [1]. De fleste menneskelige miRNA er transskriberet som lange forstadier kendt som pri-miRNA. Begyndende i kernen, pri-miRNA gennemgå en række behandlinger begivenheder, som i sidste ende resulterer i den cytoplasmatiske frigivelse af modne transkripter -22 nucleotider i længde. Ældre miRNA katalyserer translationel hæmning ved direkte binding til messenger RNA (mRNA), og fremme deres [2] nedbrydning. De seneste data viser, at miRNA kan hæmme oversættelse uafhængigt af deres evne til at fremkalde mRNA nedbrydning.

Mønstre af miRNA udtryk er blevet grundigt profileret i humane væv. Det er nu klart, at fejlreguleret miRNA ekspression er et træk ved mange forskellige cancere, herunder bryst-, ovarie- og lungecancer [3] – [5]. Men at bestemme de mekanismer, hvormed de enkelte miRNA bidrager til kræft resultater forbliver en central udfordring for biologer i håb om at udnytte deres magt. For nylig, Cancer Genome Atlas Consortium (TCGA) rapporterede, at ovariecancer klynge i distinkte molekylære undertyper baseret på deres mønstre af genet og microRNA ekspression [6]. Men vi har opdaget en foruroligende mangel på sammenhæng mellem de microRNA (miRNA) udtryk profiler oprindeligt bruges af TCGA og en efterfølgende profil af miRNA udtryk genereret af denne gruppe for de samme ovariecancer prøver vha miRNA-Seq. Da disse observationer anfægte gyldigheden af de underliggende data, de også foreslå, at videnskabelige opdagelser udelukkende er baseret på disse data bør fortolkes med forsigtighed.

Resultater

For at afgrænse miRNA forbundet med kræft i æggestokkene patient overlevelse vi udførte en univariate Cox regressionsanalyse ved anvendelse Level 3 TCGA miRNA data for 469 ovariecancer profilerede bruger Agilent microarray teknologi. Initial regressionsanalyse blev yderligere forfinet ved anvendelse af Benjamini-Hochberg (BH) procedure at tilpasse for multipel hypotese testning [7]. Vi fandt, at 16 modne miRNA er signifikant associeret med ovariecancer overlevelse (FDR 0,01) (figur 1A). Af disse MIR-505, MIR-652 og MIR-551b * demonstrere de mest robuste sammenslutninger. Hazard ratio (HR) beregnet for disse miRNA var -1,73, -1,8, og 9,3 hhv. Dette resultat indikerer, at hver af disse miRNA potentielt spiller en vigtig rolle i fastlæggelsen af kræft i æggestokkene overlevelse.

P-værdi plots af univariate Cox regression for microRNA forbundet med æggestokkene overlevelse kræft identificeret ved microarray (A) eller miRNA-Seq (B) data. P-værdi 0,01 (Solid linje). Falsk opdagelse sats (FDR) 0,1 (stiplet linje). I både A B, blå prikker indikerer miRNA forbundet med overlevelse af miRNA array, mens røde prikker indikerer miRNA forbundet med overlevelse af miR-Seq. Grønne stjerner er miRNA forbundet med overlevelse i begge datasæt. (C) procentdel af overlappende miRNA mellem array og NGS seq platform ved forskellige cut-off grænse for Cox p-værdier, BH justeret FDR, og Storey Q-værdier.

For at validere disse observationer, vi næste afhørt en anden datasæt af miRNA udtryk genereret for de samme ovariecancer prøver vha Next Generation Sequencing (miRNA-Seq). Den TCGA æggestokkræft projektet er enestående i, at miRNA udtryk er blevet profileret ved hjælp af både miRNA array og miRNA-Seq. Disse teknisk distinkte platforme skaber en unik mulighed for at validere opdagelser gjort ved hjælp af en datasæt mod den anden. Ideelt set bør de opnåede resultater korrelerer godt. Bruge Cox proportionel risiko analyse, fandt vi, at 4 miRNA udskrifter er forbundet med overlevelse, når miRNA blev profileret i æggestokkene ved hjælp af miRNA-Seq på en identisk FDR niveau (figur 1B). Der er ingen overlapning mellem de opnåede resultater fra disse to platforme, til trods for, at begge datasæt blev genereret fra de samme prøver.

For at afgøre, om microarray og Næste Gen-platforme vil give mere ensartede resultater, når analyseret ved hjælp af en afslappet tærskel, vi reduceret p-værdi tærskel bruges til vores analyser til 0,01. Dette resulterede i flere miRNA signifikant forbundet med patientens overlevelse i begge datasæt. For eksempel har vi identificeret 61 miRNA fra data genereret ved hjælp array platform. Men hazard ratio anslået for de 12 miRNA identificeret fra miRNA-Seq data er alle meget tæt på 1,0. Kun MIR-652 er forbundet med overlevelse i både miRNA-Seq og microarray datasæt. For at korrigere for multiple test hypotese, vi justeret vores Cox model p-værdier ved hjælp Benjamini-Hochberg procedure [7]. Efter at have afsluttet disse analyser er der ikke miRNA korreleret med overlevelse i begge datasæt, når den falske opdagelse sats blev fastsat til 10%.

For at afgøre om valget af en procedure multipel hypotese justering bidrager til disse resultater, vi re-analyseret de TCGA data ved hjælp af et skøn procedure alternativ q-værdi [8]. Desuden har vi beregnet den procentdel af overlappende miRNA på forskellige FDR eller p-værdi cut-off. Vores resultater viser, at det begrænsede antal overlappende miRNA mellem de to platforme er uafhængig af valget af procedure multiple hypotese justering eller cut-off tærskler (Figur 1C).

For at belyse mulige årsager til denne uventede uoverensstemmelse, vi undersøgt reproducerbarheden af miRNA udtryk mellem de to TCGA filer der beskriver disse data. Pearson korrelationskoefficienter (r) blev beregnet for hver af de 359 modne menneskelige miRNA for der var til rådighed i både miRNA-Seq og microarray databaser Niveau 3 udtryk data. Vi fandt, at korrelationskoefficienter for niveauer af de enkelte miRNA rapporteret af hver teknik varierede meget. For eksempel, miR-505 er den miRNA mest håndfast forbundet med patient resultat i vores analyser af miRNA array-data (HR = -1,7, p 9e-5). Men når de vurderes ved hjælp af sekventering af data, hazard ratio for mir-505 var 0,998 (p = 0,03). Niveauer af miR-505 målt ved miRNA-array og miRNA-Seq data korrelerede kun beskedent (r = 0,59) (Figur 2B). Uoverensstemmelser blev også observeret i en række andre miRNA, der tidligere har været impliceret i ovariecancer, såsom MIR-143 [9]. Korrelationskoefficienten for miR-143 i vores analyser var 0,39 (Figur 2C). En anden miRNA godt undersøgt i ovariecancer er MIR-141, som tidligere er blevet rapporteret til at målrette p38a og modulerer den oxidative stressreaktion [10], [11]. Men sammenhængen mellem niveauerne af miR-141 i TCGA microarray og miRNA-Seq udtryk data er kun 0,32 (figur 2D). Samlet set fandt vi, at korrelationskoefficienter for ~72% af miRNA profileret i begge datasæt var ≤0.5 (figur 3A, 3C), hvilket indikerer ringe reproducerbarhed. Kun 22% af de mRNA’er målt ved Agilent microarray og Illumina HiSeq anvendelse af de samme ovariecancerprøver korrelerer dårligt (r≤0.5, figur 3B, 3C). Således forekommer uoverensstemmelsen rapporterer vi her for at være begrænset til det TCGA miRNA datasæt.

(A) MIR-98, (B) MIR-505 (C) MIR-143 og (D) MIR-141.

(A) Histogram af korrelationskoefficienter for individuelle miRNA målt ved miRNA-Seq og miRNA array. (B) Histogram af korrelationskoefficienter for mRNA profilerede af Illumina HiSeq og mRNA array. (C) Den empiriske kumulative fordelingsfunktion (ECDF) af sammenhængen mellem array og sekventering for miRNA (sort), filtreret miRNA (farve) og mRNA (grå) målinger. Næsten 72% af miRNA demonstrerer en korrelationskoefficient ≤0.5 mens 22% af RNA har en korrelationskoefficient ≤0.5. Når filtreret baseret på udtryk niveau, procentdelen af miRNA med korrelation ≤0.5 mættet til 56%.

En mulig årsag til dårlig reproducerbarhed kan være signal afsløring algoritme, der anvendes til at rapportere niveauer af miRNA udtryk. Niveau 3 TCGA miRNA data er angivet i to formater. Den første, mærket som en “Kvantificering data,” rapporterer niveauer for individuelle menneskelige miRNA. En af fordelene ved miRNA-Seq er imidlertid, at transkripter hentes af denne teknik kan præcist kortlagt. En anden fil, mærket som “Isoform data”, er også blevet frigivet af TCGA. Denne fil rapporter læse tæller for afskrifter efter deres genomiske placering. Som en del af denne fil, er afskrifter identificeres som enten modne miRNA, miRNA * (3p armene på human miRNA), stængel-loop afskrift eller forløber. Mens han arbejdede gennem denne data, lærte vi, at miRNA niveauer rapporteret i TCGA kvantificering fil omfatter læst tæller for miRNA forstadier samt modne miRNA. Fordi miRNA forstadier i øjeblikket menes at mangle biologisk aktivitet, inddragelse af forstadier med tæller for modne miRNA kunne forvirre overlevelse analyser. for at løse dette problem, vi hentet læste tæller for modne miRNA kun fra isoform datafilen og gentog vores analyser. andelen af miRNA korrelationskoefficienter, ≤0.5 dog forblev så højt som 71% på trods af anvendelsen af denne mere præcist definerede data.

En anden mulig forklaring på den observerede uoverensstemmelse kan være, at korrelationer mellem foranstaltninger af miRNA udtryk afhænger af, hvor hyppigt de enkelte miRNA udskrifter udtrykkes. Hvis det er tilfældet, kan sjældent udtrykte miRNA indberettes af en eller begge af de platforme, der anvendes til at profilere miRNA udtryk tilfældigt eller unøjagtigt. For at udforske denne hypotese, vi re-beregnede korrelationskoefficienter for hver miRNA identificeret af begge platforme efter udelukke noget udskrift i miRNA-Seq datasæt med en read tæller mindre end 5. Dette reducerede antallet af forskellige miRNA rådighed til analyse i miRNA- seq datafil fra 705 til 380. imidlertid er andelen af miRNA med korrelationskoefficienter ≤0.5 også faldet fra 72% til 56%. Ligeledes fjerner dårligt udtrykt udskrifter fra puljen af mRNA’er profileret af Illumina HiSeq reducerer andelen af mRNA’er hvis korrelation koefficienter ≤0.5 fra 22% til 20%. Disse observationer indikerer, at problemer detektering sjældent udtrykt miRNA kan påvirke evnen eller en eller begge platforme til pålideligt rapportere miRNA udtryk. Men det faktum, at mere end halvdelen af miRNA udskrifter stadig havde korrelationskoefficienter ≤0.5, selv efter korrektion for dette spørgsmål viser, at dårligt udtrykte udskrifter er ikke alene ansvarlig for de disharmoniske mønstre af miRNA udtryk rapporteret af de to platforme.

for at undersøge dette spørgsmål mere i dybden, vi beregnet række log2 forvandlet ekspressionsniveauerne for alle microRNA i de to datasæt. Vi har også udviklet en algoritme, der tillod os at variere tærsklen til udtryk acceptabel til inklusion til analyse fra en minimumsværdi (0) til den gennemsnitlige log2 forvandlet udtryk niveau af alle udskrifter. For hver tærskel, vi kun betragtes microRNA udtrykt over tærsklen og genberegnet sammenhængen mellem de to platforme. Denne analyse viser, at udelukkelsen af miRNA udskrifter udtrykte mindre hyppigt end gennemsnittet kun lidt forbedrer den generelle sammenhæng mellem de to platforme, der anvendes til at profilere miRNA-ekspression (figur 3C). Som vist grafisk, fandt vi, at 71% af miRNA demonstrere korrelationen mindre end 0,5 uden anvendelse af nogen filtrering. Ved at udnytte et ekspressionsniveau filter som beskrevet, fandt vi, at andelen af transkripter med korrelationskoefficienter på tværs af de to platforme mættet ved 56%. Dette er stadig langt højere end de 22% observeret med mRNA-ekspression profilering systemer.

Diskussion

Meget til vores overraskelse, vores analyser viser, at microRNA forbundet med overlevelse i kræft i æggestokkene afhænger meget af, om prøver blev profileret af TCGA hjælp microarray eller miRNA-Seq. Vores analyser viser, at denne uoverensstemmelse eksisterer, fordi miRNA-Seq og microarray har genereret meget forskellige profiler af miRNA udtryk, selvom data er baseret på de samme kræft i æggestokkene prøver. Vi har ikke i øjeblikket har en klar forklaring på, hvorfor miRNA udtryk profiler rapporteret af TCGA er uharmonisk. Men forstå denne uoverensstemmelse i sidste ende vil være vigtigt for at identificere, hvilke miRNA, hvis nogen er vigtige for bestemmelse kræft i æggestokkene resultater.

En række DNA microarray teknologier er blevet tidligere valideret af efterforskere undersøger inden platform og cross-platform reproducerbarhed [ ,,,0],12] – [14]. Spearman korrelationskoefficienter rapporteret i disse undersøgelser spænder fra 0,59 til 0,94 med et gennemsnit på 0,82. Disse resultater svarer til det, vi har observeret for korrelationer mellem mønstre af genekspression profileret hjælp microarray og Illumina HiSeq platforme af TCGA. Både miRNA-Seq og microarray teknologi er forbundet med flere tekniske begrænsninger, der kan tegne sig for de forskelle, vi har observeret. For eksempel krydshybridisering er et velkendt problem, der kan reducere signal specificitet, når profilering RNA-transkripter ved microarray [15]. synes imidlertid usandsynligt, at krydshybridisering er en primær årsag til uoverensstemmelsen vi observeret, idet antallet af transkripter korrelerede med overlevelse af array er større end antallet forbundet med overlevelse af miRNA-Seq. En alternativ forklaring kunne være, at signalet udvinding algoritme, der anvendes til at analysere miRNA-Seq data ikke præcist rapportere miRNA niveauer. Generelt miRNA-Seq muliggør præcis udskrift kortlægning med langt større tillid. Signalet udvinding algoritmen øjeblikket anvendes af TCGA at rapportere miRNA niveauer omfatter læse tæller for både en moden miRNA og dens tilsvarende forløber. Vores analyser indikerer, forstadier udgør mindre end 1% af de totale miRNA tællinger i TCGA isoform fil. Dette afspejler sandsynligvis anvendelsen af størrelsesfraktioneret RNA til fremstilling biblioteker for miRNA-Seq [5]. Således deres optagelse eller eksklusion i analyser af TCGA datasæt sandsynligvis har meget lidt indflydelse på hvilke miRNA er forbundet med æggestokkene overlevelse kræft.

Kollektivt, disse observationer understreger det presserende behov for veldefinerede algoritmer til behandling af signaler genereret af miRNA-Seq og transkriptionelle profilering platforme. Vores forståelse er, at de samme analyser er udført af TCGA for andre kræftformer, herunder tyktarm, bryst og lunge [16] – [18]. Fordi miRNA ekspression i disse andre cancere ikke er profileret ved microarray, er det ikke muligt at gentage vores analyser for at bestemme, om uoverensstemmelsen rapporterer vi er observeret i andre cancere. I sidste ende, konsekvent og pålidelig genomisk data er afgørende for at konstruere testbare hypoteser og opnå det fulde potentiale af TCGA. Vores observationer identificere en vigtig fare som efterforskere skal være opmærksom på, da de udnytte TCGA miRNA data til at studere kræft i æggestokkene. På kort sigt, kendskab til denne fare understreger behovet for at validere observationer med en eller begge af TCGA miRNA datasæt. Men på lang sigt vil løsningen af denne uoverensstemmelse være vigtigt for at bestemme den mest effektive platform og signal udvinding algoritmer til profilering miRNA udtryk som en del af store genomiske profilering indsats.

Materialer og Metoder

Gene og microRNA Expression data

niveau 3 data dokumenterer mønstre af genekspression for 296 ovariecancerprøver profilerede bruger Agilent G4502A arrays og Illumina HiSeq blev hentet fra TCGA data portalen. Niveau 3 microRNA udtryk data blev også hentet til 469 ovariecancerprøver profilerede hjælp af Agilent 4X15k array og miRNA-Seq. Niveau 3 miRNA data profileret af miRNA-Seq blev hentet fra både miRNA kvantificering og isoform filer til rådighed på TCGA data portal sammen med metafiler udfyldelse hver datasæt. Tilladelse til at få adgang til alle data blev opnået fra Data Access Udvalget for National Center for Biotechnology Information genotyper og fænotyper Database (dbGAP) ved National Institutes of Health.

Overlevelse Analyser

Kodet patient overlevelse data blev udtrukket fra TCGA kliniske oplysninger fil. En Cox proportionel risiko model blev anvendt til at estimere association mellem niveauer af de enkelte miRNA. Patient overlevelse blev beregnet som tiden i måneder gået fra datoen for diagnose, indtil datoen for sidste kontakt.

Statistiske Analyser

Spearman rang korrelationskoefficienter, histogrammer og den empiriske kumulative fordeling blev beregnet og plottet for hver miRNA og gen ved anvendelse af r. Sekventering data blev log transformeret til plotning. Både direkte læse tæller og tæller normaliseret efter millioner af miRNA blev undersøgt som en del af vores analyser. Alle analyser blev udført ved hjælp af både rå og normaliserede læse tæller rapporteret som en del af TCGA miRNA-Seq datasæt.

Tak

Forfatterne takker kommunikation fra David Wheeler, Rehan Akban, Gordon Robertson og Andy Chu om TCGA miRNA dataanalyse algoritmer.

Kronisk sygdom

PLoS ONE: På Reproducerbarhed af TCGA kræft i æggestokkene MicroRNA Profiles

Be the first to comment

Leave a Reply Annuller svar