Abstrakt
Introduktion
Gen-ekspression data antages ofte at være normally- fordelt, men denne antagelse er ikke blevet testet grundigt. Vi undersøger fordelingen af udtryk data i humane cancer genomer og studere konsekvenserne af afvigelser fra normalfordelingen for translationel molekylær onkologi forskning.
Metoder
Vi gennemførte en central øjeblikke analyse af fem kræft genomer og udførte empiriske fordeling montering at undersøge den sande fordeling af udtryk data både på komplette-eksperimentet og på de enkelte-gen niveauer. Vi brugte en række parametriske og parametriske metoder til at teste virkningen af afvigelser fra normalitet på gen-calling, funktionel annotation, og fremtidige molekylær klassifikation ved hjælp en sjette cancer genom.
Resultater
Centrale øjeblikke analyser afsløre statistisk signifikante afvigelser fra normalitet i alle de analyserede kræft genomer. Vi observerer så meget som 37% variation i gen-kald, 39% variation i funktionel annotation, og 30% variation i prospektive, molekylær tumor underklassificering forbundet med denne effekt.
Konklusioner
Kræft genekspression profiler er normalt ikke-fordelte, enten på det komplette-eksperimentet eller på den enkelte-genet niveau. I stedet er de udviser komplekse, tunge-tailed distributioner er kendetegnet ved statistisk signifikant skævhed og kurtosis. Den ikke-Gaussisk fordeling af disse data påvirker identifikation af differentielt udtrykte gener, funktionel annotation og potentielle molekylær klassifikation. Disse virkninger kan reduceres i nogle tilfælde, men ikke helt elimineres, ved hjælp af parametriske analyser. Denne analyse fremhæver to upålidelige forudsætninger om translationel kræft genekspression analyse: at “små” afgange fra normalitet i udtrykket data distributioner er analytisk-ubetydelige og at “robuste” gen-kald algoritmer kan fuldt ud kompensere for disse effekter
Henvisning: Marko NF, Weil RJ (2012) Ikke-gauss Distributions Affect Identifikation af Expression Mønstre, Funktionel Annotation og Prospective Klassificering i human Cancer genomer. PLoS ONE 7 (10): e46935. doi: 10,1371 /journal.pone.0046935
Redaktør: William B. Coleman, University of North Carolina School of Medicine, USA
Modtaget: Marts 17, 2012; Accepteret: September 6, 2012; Udgivet 31. oktober, 2012 |
Copyright: © 2012 Marko, Weil. Dette er en åben adgang artiklen distribueres under betingelserne i Creative Commons Attribution License, som tillader ubegrænset brug, distribution og reproduktion i ethvert medie, forudsat den oprindelige forfatter og kilde krediteres
Finansiering:. NFM er støttet af en bevilling fra American Association of Neurologiske Surgeons ‘William P. VanWagenen Fellowship programmet. RJW understøttes delvist af Grant No.W81XWH-062-0033 fra det amerikanske forsvarsministerium Breast Cancer Research Program, som Melvin Burkhardt stol i neurokirurgiske onkologi, og af Karen Colina Wilson forskning begavelse inden for Brain Tumor og NeuroSearch onkologi center på Cleveland Clinic Foundation. Ingen yderligere ekstern finansiering blev modtaget til denne undersøgelse. De finansieringskilder havde ingen rolle i studie design, indsamling og analyse af data, beslutning om at offentliggøre, eller forberedelse af manuskriptet
Konkurrerende interesser:.. Forfatterne har erklæret, at der ikke findes konkurrerende interesser
Introduktion
Baggrund
Microarray assays af genekspression er blevet en grundpille i grundforskning og translationel kræftforskning. Et betydeligt antal moderne undersøgelser stole på disse værktøjer til at informere hypotese generation [1], for sti analyse [2], [3], for farmakogenomik og lægemiddelforskning [4], og for at udvikle molekylære-baserede klassificering sygdom strategier [5] [6]. Derudover er genekspression data bliver gradvist mere vigtigt for at informere klinisk diagnose og patientens forvaltning [7], [8], og microarray-baserede genomiske profiler bliver nu brugt til at guide patienten indskrivning og lagdeling i store kliniske forsøg [9] , [10].
på denne baggrund betydningen af præcise fortolkning af microarray resultater, og de betydelige konsekvenser af systematiske analytiske fejl viser sig. I de tidlige dage af microarray analyse, høje eksperimentelle omkostninger og betydelig teknisk variabilitet begrænsede de tilgængelige oplysninger, som omfattende analyser af de praktiske konsekvenser af subtile bias i microarray data, eller i dens fortolkning kunne studeres [11]. Dette vil igen, nødvendiggjorde, at visse matematiske og biologiske antagelser gøres [12], [13], og manglen på tilstrækkelige data udelukket tilbundsgående undersøgelse af gyldigheden af disse forudsætninger.
antagelsen om Normality i to beslægtede typer af Expression datasæt
en almindelig antagelse er, at data fra microarray-baserede genom udtryk analyser i overensstemmelse med en standard Gauss (normal) fordeling. Denne antagelse er sjældent eksplicit, men snarere er mest almindeligt implicitte når efterforskere anvender analytiske algoritmer forudsætter at Gauss antagelse. Distribution-relaterede forudsætninger er relevante for mindst to, forskellige sæt udtryk data genereret i microarray-analyser, og normalitet antagelse har været variabelt (ofte implicit) anvendes på både [12] – [15].
første datasæt, som fordelingen er relevant omfatter det komplette sæt af individuelle udtryk værdier på tværs af alle gener og alle prøver i en given eksperiment. For eksempel i en undersøgelse af ekspressionen af 25.000 gener i 100 tumorer, er det sæt af alle 2,5 millioner genekspression værdier. Fordelingen af denne sammensatte datasæt kan være særlig relevant for downstream klyngedannelse og klasse diskrimination analyser, da mange af disse algoritmer er typisk anvendt på hele datasættet som helhed. Når der anvendes algoritmer forudsætter at en standard Gauss fordeling, er den normale antagelse implicit indført.
Den anden datasæt, som fordelingen er relevant, er datasættet omfatter individuelle udtryk værdier for et enkelt gen på tværs af hele spektret af eksperimentel prøver. Fortsat det foregående eksempel, ville dette eksperiment generere 25.000 sådanne datasæt, hver med 100 datapunkter. Fordelingen af disse 100 datapunkter kan være særligt relevant for undersøgelser, der undersøger sammenhængen i opførsel af et specifikt gen i en bestemt tumor type eller analysere mønsteret af sin ændring tværs af en række “klasser” eller “kvaliteter” af en bestemt tumor . Her kan fordelingen en nyttig beskrivelse af opførslen for denne enkelt gen på tværs af flere uafhængige prøver, men den normale antagelse kan implicit indføres, hvis algoritmer anvendes til at analysere adfærden af dette gen forudsætter at en standard Gaussisk fordeling.
antagelsen af normalitet er blevet udtrykkeligt undersøgt i genekspression analyse, om end i begrænset omfang. Selv om det oprindeligt syntes at have både teoretisk [16] og empirisk støtte [11], [17], nyere analyser har foreslået muligheden for ikke-Gauss fordelinger for genekspression data [18] – [21]. På nuværende tidspunkt, men de fleste af disse observationer er afledt af simulerede [19], [21], heterogene [20], [21] eller ikke-kliniske datasæt [18] – [21].
Betydning
den mulighed, at genekspression data overtræder normalitet antagelse kan være af stor betydning for de kliniske og translationelle efterforskere. De fleste nuværende og foreslåede medicinske anvendelser af microarray udtryk data stammer fra analyser forudsætter at denne antagelse, hvoraf mange har påberåbt sig parametrisk statistik for gen-kald og klasse opdagelse [6] – [8]. Translationelle onkologer er blandt de mest ivrige forbrugere af microarray data og den mest sandsynlige til at foreslå den kliniske anvendelse, så et logisk sted at begynde en undersøgelse af størrelsen, omfanget og kliniske implikationer af ikke-Gauss fordelinger i genekspression data med stor , offentligt tilgængelige cancer genom databaser [22], [23]. Uanset, dette spørgsmål er afgørende for nuværende analytiske paradigme for genekspression data generelt, og vi forventer, at resultaterne af denne undersøgelse vil have betydning for området translationel molekylær onkologi.
Denne undersøgelse har to formål og er blevet struktureret i to dele: den første er teoretisk – at studere fordelinger af kræft genekspression data – både på den enkelte gen og på det komplette datasæt niveau – og for at vurdere, i hvilket omfang disse afviger fra normalitet. Det giver grundlaget for den anden, translationel mål: at studere konsekvenserne af ikke-Gaussiske genekspression fordelinger på klinisk-orienterede genomiske analyser. Den eksperimentelle model er bevidst designet til at rekapitulere trofast arbejdsgangen af en typisk, translationel pipeline for genekspression analyse (figur 1).
flowdiagram afbilder typisk microarray analyse workflow (øverste del), de anvendte statistiske metoder ved hvert trin (midterste sektion), og de tilsvarende tabeller og figurer i dette manuskript, at nuværende analyser på hvert niveau (nederste del)
Resultater
Distribution analyse -. komplette datasæt
Vi først undersøgte fordelingerne af det komplette sæt af individuelle udtryk værdier på tværs af alle gener og alle prøver i hver af fem forsøg (den første type datasæt beskrevet i indledningen). Tabel 1 opsummerer resultaterne af den centrale øjeblikke analyse af fem, store (n = 180, hver) human cancer genomer, der blev udført efter normalisering med enten den robuste multichip gennemsnit (RMA) [24] eller DChip [25] metoder. Disse data viser, at mens gennemsnit og standardafvigelser tyder omtrentlige normalitet (μ område: -0.18-0.10; σ interval: 0,84-1,58), tredje og fjerde centrale øjeblikke afvige fra normalitet i en statistisk signifikant måde. Fishers indeks for skævhed og kurtosis, som anses signifikant ved α 0,05, når de overstiger ± 1,96, er 100 for alle prøver. Derudover
F
-test af variansen viser statistisk signifikante afvigelser fra normalitet for alle prøver (tabel 1, S1). Alle fem kræft genekspression distributioner derfor afvige væsentligt fra normalfordelingen. Dette understøttes yderligere af resultaterne af envejs og tovejs KS tests, som viser væsentlige afvigelser fra normalitet for alle datasæt. Desuden resultaterne af den centrale øjeblikke analyse tyder på, at disse distributioner har svag men signifikant skævhed, er markant kurtotic, og er tunge-tailed (figur 2). Lignende resultater fra data normaliseret ved hjælp af både RMA [24] og DChip metoden [25] tyder på, at denne afvigelse fra normalitet er usandsynligt, at være en funktion af normalisering algoritme, og analysen af begge Log
2-transformeret og Log
2-korrigeret data tyder på, at det ikke er relateret til Log subtraktion (tabel 1, S1, Tal S1, S2).
de kildedata for disse grafer er Log
2-trækkes datasæt. Alle bin bredder er blevet sat til 200 for at forbedre visualisering. Røde kurver repræsenterer det bedste-fit normalfordeling. Primærbilledet giver histogrammet med den overlejrede teoretiske normale kurve. Det indsatte præsenterer fraktil-fraktil (QQ) plot, hvor afvigelse fra den linje (y = x, sort) illustrerer afvigelse af empiriske fra den teoretiske normalfordeling. Venstre panel viser data normaliseret med RMA-metoden. Right panel viser data normaliseret med DChip metoden. A: Brain; B: Bryst; C: Colon; D: Gastric; . E: æggestokkene
Disse resultater er ikke nødvendigvis overraskende, da ingen af de normalisering metoder eller processen med log-transformation er specielt beregnet til at producere normalitet; men denne analyse demonstrerer anvendelse af flere ekspressionsvektorer datasæt, at ingen af disse transformationer er tilstrækkelige til at frembringe Gaussian data. Derfor kan det ikke sikkert antages, at data, der er blevet “normaliseret” ved hjælp af en af disse metoder rent faktisk er i overensstemmelse med en “normal” (standard Gauss) fordeling
Distribution Analysis -. Individuelle Gener
vi undersøgte også data fordelinger af individuelle gener på tværs af de 180 prøver af hver af de 5 cancer datasæt. Mange forskere undersøger data fra et forsøg, der indeholder mikroopstillingerne multiple, lignende tumorer kan antage, at en “overudtrykt” gen ville udvise en Gauss fordeling centreret omkring en positiv middelværdi, vil en “underexpressed” gen have en lignende fordeling omkring en negativ værdi, og et gen, hvis ekspression er uændret vil have en Gauss-fordeling centreret omkring nul. Vores analyse viser imidlertid, at variable grader af skævhed og kurtosis samt markante afvigelser fra enhed blandt standardafvigelserne er karakteristiske for udtrykket distributioner for de enkelte gener. Tabel 2 sammenfatter resultaterne af denne analyse, og figur 3 giver et illustrativt eksempel på denne effekt ved at plotte fordelingerne udvalgte gener fra hjernetumor (glioblastom) datasæt.
Disse grafer illustrerer den brede vifte af potentielle skævhed (A) og kurtosis (B), der findes i udtrykket fordelinger af individuelle gener omfattende kræft ekspressions datasæt. Dette imødegår den antagelse, at udtrykket data for enkelte gener følge en tilnærmelsesvis Gaussisk fordeling omkring genets gennemsnitlige ekspressionsniveau. Data for disse grafer blev taget fra loggen
2-korrigeret, RMA-normaliserede glioblastom udtryk data. For skævheden sammenligning blev fem gener med tilsvarende midler, standardafvigelser og kurtosis udvalgt fra delmængder af gener, der repræsenterer omtrent 10
th, 25
th, 50
th, 75
th og 90
th fraktiler for pr-gen skævhed indeholdt i datasættet. Tilsvarende for kurtosis sammenligning fem gener med tilsvarende midler, standardafvigelser og skævhed blev udvalgt fra delmængder af gener, der repræsenterer omtrent 10
th, 25
th, 50
th, 75
th og 90
th fraktiler for pr-gen kurtosis indeholdt i datasættet. Identiteten af generne er ikke relevant til sammenligning.
Curve Fitting
Empirisk kurvetilpasning blev anvendt til yderligere at undersøge den faktiske morfologi af kræft genekspression distributioner ( tabel 3; figur 4, S3, S4, S5, S6). Denne analyse viser, at komplekse, multi-parameter distributioner er forpligtet til mere præcist modellere udtryk data distributioner. I almindelighed er de bedste tilpasning fordelinger var dem, der er parametreret at modellere skævhed, kurtosis, og tunge haler. Disse omfatter multi-parameter fordelinger i forbindelse med β-prime (Pearson VI, i stand til modellering skævhed) (f.eks Log-logistisk, Dagum, Burr), kurtotic distributioner (f.eks hyperbolsk-sekant), og den alsidige, 4-parameter Johnson SU [26].
Distribution montering for hjernekræft datasæt for RMA (øverst) og DChip (nederst) normaliserede data. De tre bedste tilpasning kurver overlejret på histogrammet, og normalfordelingskurven er inkluderet til sammenligning. De specifikke parametre for de bedste tilpasning fordelinger er givet. Det indsatte viser den fraktil-fraktil (QQ) plot for de bedste tilpasning og normalfordelinger. Disse diagrammer viser, at multiparameter distributioner stand til modellering skævhed og kurtosis bedre karakterisere data end standard Gauss (normal) fordeling. Lignende grafer for yderligere tumortyper er givet i tal S2, S3, S4, S5.
Mens disse distributioner passer til dataene mere præcist end normalfordelingen, KS test indikerer at de er ufuldkomne passer (tabel 3). Desuden er der ingen enkelt fordeling, som er klart overlegen til modellering alle sæt udtryk data. Samlet set denne analyse bekræfter væsentlige afvigelser fra normalitet forbundet med kræft genomet udtryk data og viser den komplekse karakter af de underliggende udtryk distributioner
Gene Opkald Funktionelle Anmærkningsværktøjer
Op til dette punkt i analysen har været fokuseret på at undersøge de faktiske fordelinger af genekspression datasæt og sammenligne disse til en teoretisk, normalfordeling. Denne analyse har vist, at human cancer genekspression data normalt ikke-fordelte enten på forsøget eller på single-genet niveau. En passende næste spørgsmål ville være, om disse afvigelser fra normalitet påvirker almindeligt udførte genekspression analytics, herunder molekylær klassifikation, gen-kald, og funktionel anmærkning.
For at undersøge dette spørgsmål, vi foretaget en analyse af en genekspression datasæt fra 23 lav kvalitet gliomer (LGG), herunder en unik delmængde af elleve tumorer med intakte kromosomer 1p og 19q (vilkårligt udpegede
klasse 1
) og en anden undergruppe af otte Oligodendrogliomas med kromosom 1p /19q codeletions [5] [27] (arbitrært betegnet
klasse 2
), blev anvendt til at undersøge virkningerne af data distribution på identifikation gener, der er forskelligt udtrykt mellem kendte tumor delmængder. Dette blev opnået ved at anvende en ensartet transformation (Box-Cox [28]) til ekspression datasæt for at forbedre normalitet i fordelingen af data og derefter sammenligne resultaterne af gen ringer algoritmer anvendes på forælder og transformerede datasæt (figur 5). På denne måde kun formen af fordelingen har ændret sig, og nulhypotesen er, at denne transformation bør ikke have nogen effekt på gen ringer, hvis metoderne er tilstrækkeligt “robust” distribution morfologi eller er virkelig “distribution-uafhængig.”
en Box-Cox transformation anvendt på low-grade gliom datasæt (venstre) resulterer i en fordeling, der mere nærmest en normalfordeling (til højre). Bemærk at den forælder fordeling blev centreres til en nul betyder at kompensere for den standard middelværdien af Robust multichip Normalisering produktion på 7. Denne transformerede fordeling blev derefter anvendt til at analysere distributionsafhængigt virkninger på identifikation af differentielt udtrykte gener, funktionelle annotation, og prospektive molekylær klassifikation
De to-sidet studerendes
t
-test med en standard Bonferroni korrektion (
s
0,01)., identificerede 50 differentielt udtrykte gener mellem
klasse 1
og
klasse 2
bruge den forælder distribution og 55 ved hjælp af den transformerede distribution (9,1% forskel). Niogfyrre (49) af 56 af total differentielt udtrykte gener var fælles for begge lister (87,5%), mens 7 blev entydigt identificeret i kun én af de to lister (12,5%) (tabel 4A, S3).
Selv med de strenge Bonferroni korrektion,
t
-test er en parametrisk test, der gør antagelser om formen af den underliggende fordeling. For at eliminere denne effekt, vi anvendt to, parametriske metoder til gen-kald. En to-klasse, uparrede betydning analyse af microarrays (SAM) [29] identificerede 759 differentielt udtrykte gener i moderselskabet og 478 i den transformerede distribution (37,2% forskel). Af 760 samlede gener, 477 (62,8%) var fælles for begge lister mens 283 (37,2%) var unikke for kun en af de to lister (tabel 4A, S4). En to-klasse, uparrede Kruskal-Wallis (KW) test identificeret 1.801 differentielt udtrykte gener i moderselskabets distribution og 1800 i den transformerede fordeling. Der var 99,9% overlap i disse gen-lister (tabel 4A, S5).
En alternativ strategi for gen-kald benytter lineær modellering for microarrays (LIMMA) [30] en Bayesian tilgang til lineær modellering til at beregne et modereret
t
-test. Selv om denne metode forudsætter normalitet af de underliggende data, det er set af mange for at være overlegen i forhold til standard og korrigeret
t
-tests og betragtes robust til en række forstyrrende matematiske og statistiske effekter [31]. LIMMA identificeret 2.866 differentielt udtrykte gener i moderselskabet og 2981 i den transformerede fordeling. Af 3.047 samlede gener, 2710 (88,9%) var fælles for begge lister, mens 337 (11,1%) var enestående til kun én af de to lister (tabel 4A, S6).
Virkningerne af fordelingen på funktionel anmærkning blev undersøgt først ved hjælp af DAVID [32], [33] for at anmærke for gen-ontologi (GO) [34], [35] og Kyoto Encyclopedia of Gener og genomer (Kegg) [36] udtryk i genet lister tidligere genereret af SAM og KW analyserer og derefter ved at udføre en statistisk berigelse analyse for de annoterede vilkår. Denne identificeret 46 unikke udtryk i SAM lister, med 60,9% overlap mellem de berigede vilkår i moderselskabet og omdannede lister. Omvendt analyse af de lister, der genereres af KW-analyse identificeret 49 berigede vilkår, som alle var ens i de lister fra moderselskabet og omdannede datasæt (100,0% overlapning) (tabel 4B, S7, S8).
Klassifikation
Gene udtryk data anvendes ofte som grundlag for forsøg på molekylær-baserede underklassificering af tumorer med lignende histologi men forskellige kliniske fænotyper. Vi udnyttede
a priori
viden [5] af to sådanne grupper inden for lav kvalitet gliom datasæt (
Klasse 1
og
Klasse 2
) til at simulere klassifikationsprocessen og at undersøge forholdet af resultaterne til formen af den underliggende fordeling af data. Diskriminant analyse (DA) og k-nærmeste naboer (KNN) klassificører blev uddannet på en delmængde af tumorerne med repræsentanter fra hver klasse og blev derefter brugt til at klassificere ti, nye tumorer i en af de to klasser. Identiske analyser blev udført på data fra moderselskabet og transformerede distributioner. Resultaterne af disse analyser demonstrerer en forskel i klasse opgave (2/10 prøver) for DA og 30% (3/10 prøver) for KNN klassificeringen 20%, når der anvendes med den forælder data, men identiske klassificeringer for begge modeller, når de anvendes med den transformerede datasæt (figur 6). Denne effekt er uafhængig af den oprindelige metode til datareduktion (SAM eller
t
-test) (figur S7).
To metoder til prospektiv molekylær klassifikation, den parametriske diskriminantanalyse (DA, top ) og den ikke-parametriske K-nærmeste naboer klassifikator (KNN, nederst), blev brugt i forbindelse med den forælder og transformeret lav kvalitet gliom ekspressionssystemer datasæt for at studere distributionsafhængigt virkninger molekylær tumor underopdeles. Klasse 1 repræsenterer lav kvalitet, 1p /19q-intakte gliomer, og klasse 2 repræsenterer kromosom 1p /19q codeleted, lav kvalitet Oligodendrogliomas. De øverste farve søjler repræsenterer den kendte klasse af hver prøve (sorte bokse, rød = klasse 1, blå = klasse 2). Arealet under farvebjælkerne er en del af genekspressionsprofilen (rød = underexpressed, grøn = overudtrykt). DA anvendes i forbindelse med den forælder (ikke-normal) fordeling producerer to fejlklassificeringer og KNN producerer tre, mens begge metoder, der anvendes med den transformerede datasæt resultat i nøjagtig molekylær underopdeles.
Diskussion
Gene Expression data er ikke normalt-Distributed
fordelingen af genekspression data typisk antages at være i overensstemmelse med en standard Gauss (normal) fordeling [11], [17]. Denne antagelse kan tilskrives en kombination af tre faktorer. Først denne adfærd kan (velsagtens) forudsagt af den centrale grænseværdisætning [16]. For det andet, grundlæggende analyser af genekspression datasæt, som generelt omfatter beregninger af gennemsnit og standardafvigelse samt visuel inspektion af fordelingen data, som regel afslører klokkeformede kurver med midler (μ) centreret nær nul og standardafvigelser (σ) ca. lig med en. For det tredje, i de tidlige dage af genekspression analyse, når disse antagelser blev kodificeret, datasæt var små og observerede forskelle fra disse teoretiske værdier måske ikke har opnået statistisk signifikans.
Den moderne æra af udtryk analyse, karakteriseret ved nedsat pris og forøgede stikprøve tilgængelighed, giver nu den luksus at arbejde med datasæt, der omfatter adskillige gange flere prøver og eksponentielt-flere funktioner end de tidligere. Disse datasæt, ligesom de undersøgte heri dem, tillade mere præcis analyse af fordelinger af udtryk data. I denne analyse har vi gået ud over beregning μ og σ (som i virkeligheden, synes ved første øjekast at være i overensstemmelse med normalitet i disse data) og har udført en omfattende analyse af de centrale øjeblikke for disse distributioner højere ordens. Denne analyse udnytter adgangen til næsten 10
8 funktioner pr datasæt at tillade betydning vurderinger statistiske af tilsyneladende af væsentlige afvigelser fra normalitet. Dermed er det afslører, at disse afvigelser opnå en høj grad af statistisk signifikans for alle de første fire centrale øjeblikke. Dette giver overbevisende dokumentation for, at disse kræft genekspression data ikke er i overensstemmelse med en standard Gaussisk fordeling (figur 2, tabel 1), og at kategoriske antagelser om normalitet for disse typer af datasæt kan være ugyldige.
genekspression data udstiller Komplekse Distribution Egenskaber
Empirisk kurvetilpasning identificerer, i en fordomsfri måde, distributioner, der mest præcist modellerer de observerede fordelinger af udtrykket data. Analyse af empirisk-fit distributioner giver yderligere oplysninger om fordeling af data og kan bruges til at drage generelle konklusioner vedrørende de typer af downstream analyser, der kan være gældende for disse datasæt. Denne analyse viser, at udtrykket distributioner ikke godt modelleret af forenklede, to- parameter distributioner (såsom normalfordelingen), men i stedet kræver distributioner med flere (3-4) shape parametre til at modellere data nøjagtigt. Adskillige derivater af β-prime fordeling (fx Log-logistisk, Dagum, Burr [37], [38]) blev empirisk identificeret som nyttige modeller for disse data. Dette er logisk eftersom β-prime er relateret til Pearson typen VI distribution, som er en af en familie af fordelinger oprindeligt anvendt til at modellere skæve data [38]. Den hyperbolske sekant fordeling blev også almindeligt identificeret blandt disse empiriske modeller. Dette er en mere ligetil, 2-parameter fordeling med en overdreven kurtosis [39], og dets identifikation som en nyttig model til disse data understreger kurtotic karakter datasæt. Endelig er 4-parameter Johnson SU [26] er en alsidig fordeling til model skæve og kurtotic data. Sammen Johnson familie af fordelinger dækker hele skævhed-kurtosis spektrum, og SU fordeling er især nyttigt med logaritmiske data [38]. I aggregat, identifikation af disse særlige familier (β-prime /Pearson, hyperbolske-sekant, Johnson) fremhæver skævhed og kurtosis af disse datasæt og understreger utilstrækkelige normalfordelingen at modellere præcist kræft genekspression data.
målet var at bruge processen med fordeling montering at lære så meget som muligt om den underliggende datastruktur af kræft transkriptomet, ikke at identificere en enkelt, “best-fit” distribution for kræft genekspression data. Faktisk KS analyse (tabel 3) viser, at ingen af de 57 distributioner (Tabel S2) mod hvilken disse data blev testet forudsat en ideel model for de underliggende data. Det er fortsat uklart, om en enkelt fordeling kan beskrive kræft transkriptom hilsen og det er sandsynligt, at ikke to cancer genekspression datasæt vil have den samme, “best-fit” distribution. Vi hypotesen, at den komplekse form af de samlede fordelinger kan afspejle deres sammensætning af forskellige, unikke fordelinger af de indgående gener. Yderligere undersøger denne blanding-model hypotese og dens konsekvenser for gen-kald er uden for rammerne af denne rapport, men fortjener yderligere undersøgelser.
Uanset, identificere en sådan teoretisk model for den samlede fordeling er ikke nødvendigvis forpligtet til at foretage høj- kvalitetsanalyse af udtryk data. I stedet kan undersøgere, der arbejder med genekspression data ønsker at udføre lignende analyser til dem beskrevet for at forstå karakteren af fordelingen af deres unikke datasæt. Dette vil give dem mulighed for at kontrollere, at deres downstream analyser ikke forvirrede af unøjagtige antagelser om formen af data distributioner.
Ikke-Gauss Distributions Affect Gene Calling og Functional Annotation
Efter at have vist, at normalt ikke-fordelte cancer genekspression data, et kritisk spørgsmål, i hvilken grad disse afvigelser fra normalitet påvirke nedstrøms, translationel analyser. Betydelig indsats i translationel onkologi er blevet anvendt på at identificere unikke, genotypiske delmængder af tumorer med klinisk signifikante fænotypiske korrelationer, så vi fokuserede vores analyse af de analytiske virkninger af ikke-Gauss fordelinger på dette område.
Et fælles mål af translationel undersøgelse er at identificere et sæt af gener med differentiale udtryk mellem to, kendt eller mistænkt tumor delmængder. Vi undersøgte dette spørgsmål ved at anvende en normal-transformation til LGG datasæt, ved hjælp af tre forskellige algoritmer til at identificere differentielt udtrykte gener mellem
Class1
Klasse 2
i både moderselskabet og i den transformerede data, og derefter udføre en semi-kvantitativ analyse af de resulterende gen lister.
Bonferroni-korrigeret
t-
test identificeret 50 differentielt udtrykte gener i moderselskabet og 55 i den transformerede fordeling og resulterede i en fordeling-afhængig variabilitet på 12,5% (se
Tekst S1
, for yderligere diskussion af denne beregning) (tabel 4A). I hvilket omfang denne variation afspejler de parametriske antagelser klassificeringen er vanskeligt at afgøre, fordi stringens af Bonferroni-metode resulterer i en lille liste over differentielt udtrykte gener. LIMMA [30], som anses for mere robust end grundlæggende og korrigeret
t
-tests på trods af sin grundlæggende antagelse af normalitet, var også følsom over for ændringer i den underliggende fordeling af data, med en 11,1% forskel i gen kaldelse noteret mellem moderselskabet og transformerede distributioner (tabel 4A, S6). Omvendt parametrisk KW test identificeret 1.801 differentielt udtrykte gener, hvoraf 1.800 (99,9%) var fælles for begge lister (tabel 4A, S5).
Leave a Reply
Du skal være logget ind for at skrive en kommentar.