PLoS ONE: Høj Overensstemmelse i Prognose Forudsigelse af kolorektal cancer tværs uafhængige datasæt af Multi-Gene Module Expression Profiles

Abstrakt

En betydelig del af patienter med kolorektal cancer har en høj risiko for tilbagefald efter operation. Disse patienter kan identificeres ved at analysere udtrykket profiler af signatur gener i tumorer. Men der er ikke enighed om, hvilke gener skal anvendes, og udførelsen af ​​specifikke sæt af signatur gener varierer meget med forskellige datasæt, hæmmer deres gennemførelse i den rutinemæssige kliniske anvendelse. I stedet for at bruge individuelle gener, her identificerede vi funktionelle multi-gen-moduler med betydelige udtryk ændringer mellem tilbagevendende og gentagelse-fri tumorer, brugte dem som de underskrifter til forudsigelse kolorektal cancer tilbagefald i flere datasæt, der blev indsamlet selvstændigt og profileret på forskellige microarray platforme. De multi-gen moduler vi identificeret have en betydelig berigelse af kendte gener og biologiske processer er relevante for udvikling af kræft, herunder gener fra kemokinet vej. Mest påfaldende, at de rekrutterede en betydelig berigelse af somatiske mutationer findes i kolorektal cancer. Disse resultater bekræftede den funktionelle relevans af disse moduler til kolorektal kræft udvikling. Endvidere disse funktionelle moduler fra forskellige datasæt overlappede betydeligt. Endelig har vi vist, at udnytte ovenstående oplysninger af disse moduler, vores modul baseret klassifikatør undgås vilkårlig montering klassificeringen funktion og screening underskrifterne ved hjælp af træningsdata, og opnået mere konsekvens i prognose forudsigelse på tværs af tre uafhængige datasæt, som besidder endda ved hjælp af meget små uddannelse sæt tumorer

Henvisning:. Li W, Wang R, Yan Z, Bai L, Sun Z (2012) høj Overensstemmelse i Prognose Forudsigelse af kolorektal cancer tværs uafhængige datasæt af Multi-Gene Modul Expression Profiler. PLoS ONE 7 (3): e33653. doi: 10,1371 /journal.pone.0033653

Redaktør: Ju-Seog Lee, University of Texas MD Anderson Cancer Center, USA

Modtaget: 12. september 2011; Accepteret: 17 februar 2012; Udgivet: 16 marts, 2012 |

Copyright: © 2012 Li et al. Dette er en åben adgang artiklen distribueres under betingelserne i Creative Commons Attribution License, som tillader ubegrænset brug, distribution og reproduktion i ethvert medie, forudsat den oprindelige forfatter og kilde krediteres

Finansiering:. Finansiering forudsat ved 973 projekt nr 2009CB918801 og nr 2011CBA00802, http: //www.most.gov.cn; National Natural Science Foundation of China fond nr 31171274, https://www.nsfc.gov.cn/. De finansieringskilder havde ingen rolle i studie design, indsamling og analyse af data, beslutning om at offentliggøre, eller forberedelse af manuskriptet

Konkurrerende interesser:.. Forfatterne har erklæret, at der ikke findes konkurrerende interesser

Introduktion

Tyktarmskræft er en førende årsag til dødelighed af kræft. Omkring 20-30% af patienterne på trin II og 50% af patienterne i stadie III erfaring tilbagefald efter kirurgi [1]. Nøjagtighed og stabilitet prognosen forudsigelse er kritiske ved fastsættelsen af ​​passende terapi ordningen vedrørende forskellige gentagelse risiko. De seneste undersøgelser har antydet ekspressionsprofilen af ​​multi-gen-signaturer som en bedre prognose prædiktor for patienter med kolorektal cancer end traditionelle metoder under anvendelse af kliniske eller patologiske træk, og nogle er på vej ind på markedet [2] – [7]. Disse signatur gener blev typisk identificeret fra differentielt udtrykte gener mellem et træningssæt af tumorer fra patienter med eller uden recidiv. Deres udtryk data blev derefter brugt til at træne en statistisk klassificeringen, der bedst kan skelne de to grupper af uddannelse tumorer. I nogle tilfælde, disse trin, dvs. genet udvælgelse og klassificeringen konstruktion, der gentages for at optimere begge valg.

Et stort problem med disse multi-gen klassificører er, at deres underskrift gener varierer betydeligt for forskellige grupper af studier, forskellige populationer af patienter, og forskellige microarray platforme, formodentlig på grund af den lave overensstemmelse mellem microarray udtryk data [8]. For at få en konsensus liste over signatur gener, anslås det, at der vil være behov tusindvis af tumorprøver til træning sådanne klassifikatorer [9]. Som et resultat, de mange rapporterede sæt signatur gener meget afhang af uddannelse prøver og havde kun overlapper minimalt [10]. En anden bekymring er, at valget af en statistisk klassifikator er vilkårlig og mangler eksplicit biologiske basis, således at klassificeringen kan over-monteret af datasæt, hvorfra den blev opfundet. For eksempel i en nylig undersøgelse, multi-gen-klassifikatorer konstrueret ud fra et datasæt var krydsvalideret i en anden datasæt at finde, at deres forudsigelse nøjagtighed væsentligt reduceret [3]. En sådan reduktion var på grund af nogle manglende gener i genet klassificeringen i forhold til den bedste klassificeringen konstrueret af cross-validering datasæt. Derfor har disse faktorer ført til høj variabilitet i den intelligente ydeevne af multi-gen klassificører og begrænset deres generaliseret anvendelse i klinisk praksis.

For nylig, højere overensstemmelse tværs forskellige microarray datasæt er blevet rapporteret i udtrykket mønstre af multi -gen moduler, dvs. grupper af funktionelt beslægtede gener [11] – [14]. Motiveret af dette fund, vi havde til formål at identificere sådanne moduler ved at kombinere både genekspression og protein interaktion data og bruges de mest differentielt udtrykte moduler til at konstruere en roman klassificeringen. Vigtigt er det, vi kontrolleret, at disse moduler er ikke-tilfældigt forbundet med kolorektal cancer tilbagefald i forskellige datasæt, og at modulerne fra forskellige datasæt overlapper med betydeligt flere gener end tilfældige, hvilket indikerer den overlappende procentdel af top klassificeret moduler besad diskriminerende magt. På denne måde undgås det at bruge lav-overensstemmelseserklæringer gen signaturer og en arbitrær statistiske funktion til at passe. Vi demonstrerede sin ansøgning til tre uafhængige datasæt af patienter med tyktarmskræft, der profileret på forskellige microarray platform og opnåede reproducerbare forudsigelser med nøjagtighed på 74%, 76% og 68%, og AUC (areal under ROC) værdier på 79%, 79% og 72 % af Leave-One-Out validering. Rimelige nøjagtigheder ses når mindske størrelsen af ​​uddannelse sæt (34, 10 eller 18 tumorer) og variation på tværs af datasæt fortsat er lav, hvilket er ~ 1/2 af eksisterende multi-gen baserede klassificører.

Materialer og metoder

Datakilde

Tumor udtryk data og forbehandling

Tre offentlige forbehandlede microarray datasæt kolorektale tumorer som nedenfor blev brugt.; Bemærk, at klassificeringen af ​​patienterne, tilbagevendende eller ikke-tilbagevendende, henvises til den aktuelle status er beskrevet i de oprindelige papirer eller beskrivelse filer:

Tysk datasæt [3]: Det omfattede 55 tyske patienter med primær kolorektal cancer (fase i og II), hvor 29 patienter er sygdommen tilbagefald gratis og opfølgningen tid mindst 5,3 år efter operationen. Udtrykket af tumorprøver blev profileret på Affymetrix HG-U133A platform

Barrier datasæt [5]:. Det omfattede 50 patienter med stadie II tyktarmskræft. 25 af dem er sygdomstilbagefald fri og opfølgningen tid mindst 5 år efter operationen. Udtrykket af tumorprøver blev profileret på Affymetrix HG-U133A platform

GSE5206 [15]:. Den omfattede 100 patienter med stadium I-IV tyktarmskræft. 23 af dem havde sygdomstilbagefald efter operation. Der er ingen oplysninger om deres opfølgning tid. Her fjernede vi 37 prøver med højere trin (III og IV) fra de tilbagevendende-fri sæt og flerfarvet 63 patienter til forudsigelse validering. Udtrykket af tumorprøver blev profileret på Affymetrix HG-U133_plus_2 platform.

For hver probe med manglende værdier, vi anvendte R-pakke “imputere” [16] for at fylde med gennemsnittet af dens k- nærmeste naboer Gener med flere sonder blev behandlet som gennemsnittet deres udtryk niveau.

Gene ontologi data.

Gene ontologi (GO) data fra Molecular signaturer Database (MsigDB) v2.5 [17] blev brugt, som omfattede 1454 GO sæt og 8299 gener.

protein interaktionsdata.

protein interaktion data blev hentet fra HPRD databasen [18] (release 8) og BioGRID databasen [ ,,,0],19], som omfattede 6511 knuder og 29694 interaktioner

Kendte gener relateret med kolorektal cancer tilbagefald

Tyktarmskræft gentagelse relaterede gener blev indsamlet på grundlag af deres kommentarer fra to kilder, henholdsvis:.. OMIM database (www.ncbi.nlm.nih.gov/omim) [20] og online litteratur minedrift hjælp PubGene (https://www.pubgene.org/) [21]. Vi opnåede 41 beslægtede gener fra OMIM database. Brug PubGene, vi først søgt efter gener forbundet med begrebet “kolorektal cancer” og “tilbagefald” for at opnå 2793 og 1609 gener, henholdsvis, og så tog skæringspunktet mellem disse to gen-lister som det sidste sæt på 1038 kolorektal cancer tilbagefald relaterede gener .

tarmkræft somatiske mutation data.

de somatiske mutation data for kolorektal cancer er hentet fra COSMIC database [22] i kategorien af ​​’tyktarmen væv «, ikke herunder sub- væv, anus og appendiks, med alle to histologiske vilkår:. adenom og carcinom

Konstruktion GO co-ekspression netværk

Vi byggede netværk for hver GO gen sæt. Det var af tre grunde: (1) det vist sig nyttigt at inkorporere forudgående oplysninger, f.eks gener i de samme veje, for at lette beregningsmæssige metoder i identifikation af funktionelle moduler [23] – [26]; (2) den tillader multi-funktionelle gener at være til stede i mere end én funktionelle moduler; (3) mange interaktion data blev opnået i-vitro og måske ikke eksisterer i fysiologiske situationer og derfor, begrænser samspillet inden for et gen ontologi kan medvirke til at reducere sådanne falske positiver. I detaljer, for hver GO gensæt, gener ikke forekommer i microarray datasæt blev fjernet. De resterende gener i hvert GO sæt anvendes som knudepunkter i nettet og kanterne blev trukket baseret på protein-interaktion data. Hver knude er forbundet med en

n

dimensional ekspressionsvektor hvor

n

er det samlede antal af tumor prøver i datasættet. Værdien ved hver dimension er ekspressionsniveauet af dette gen i den tilsvarende tumorprøven. Kanten mellem to knudepunkter vægtes med deres co-ekspression niveau [27]. Her valgte vi Pearson korrelationskoefficient for at måle co-ekspression niveau. Bemærk, at der er et par alternative målinger, f.eks Spearman korrelation og gensidig information, og disse målinger generelt ført til lignende resultater i netværk ejendomme og modul opdagelse [28]. Endvidere har Pearson korrelationskoefficient været meget anvendt og foreslået at være en god måde at håndtere lyde inden for microarray data [29], [30], da den måler kollaborativ grad af to ekspressionsvektorer men ikke styrken af ​​dem. Konkret vægten af ​​en kant mellem to knuder

jeg

og

j

er defineret som den absolutte værdi af personen korrelationskoefficienten mellem deres ekspressionsvektorer,: (1)

Identifikation funktionelle moduler

Der er flere metoder til at identificere modulære strukturer i et netværk, og valget af metode varierer med flere faktorer, fx de netværksstrukturer [31]. I betragtning af den tætte struktur af hver GO netværk, vi anvendte det vægtede Girvan og Newman (GN) algoritme [32] for modul opdagelse. Sammenlignet med andre eksisterende metoder, der starter med frø noder og udforske omegnen til høje scorede modulstrukturer [11], [33] – [36], GN algoritme er kant-orienteret og søge efter globalt optimale moduler. Den er baseret på korteste-sti algoritme, beregner betweenness af alle kanter og gentagne fjerner kanten med højeste betweenness. Her er betweenness score på en kant defineret af summen af ​​alle korteste veje passerer gennem det og divideres med sin vægt af tilsvarende kant. Den oprindelige GN algoritme skærer altid dendrogram ved højeste Q-værdi, hvilket resulterer i en stor variation i modulet størrelse og undertiden store moduler med lav biologisk sammenhæng [37]. For at undgå dette problem, krævede vi hvert modul at indeholde mere end 20 gener. De detaljerede procedurer er som følger:

Beregn betweenness snesevis af alle kanter i hvert GO netværk

Find kant med den højeste score, og fjerne det fra grafen

Gentag.. ovenstående trin, indtil der ikke isolerede grafer indeholder over 20 gener.

Enkeltfødte med kun ét gen blev ignoreret.

Rank differentielt udtrykt moduler mellem tumorer med og uden tilbagefald

ændringerne udtrykket mellem tumorer med og uden tilbagefald blev evalueret ved vores P-SAGE algoritme [38]. For et modul

s

med i alt

k

gener, den score på differential betydning (SDS) er defineret ved: (2) hvor er det

t

score for

jeg

th gen i modulet

s

. Bemærke, at SDS scorer korrelerer med modulet størrelse

k

fik vi deres tilsvarende p-værdier fra chi i anden fordelingen, som anvendes til at sortere de identificerede funktionelle moduler i stigende. Moduler med højere placeringer, dvs. de differentielt udtrykte moduler med mindre p-værdier, der anvendes til evaluering og prognose forudsigelse.

Prognosen forudsigelse paradigme

Ordningen af ​​forudsigelsen paradigme.

Da et træningssæt af tumor prøver, vi delt det op i to halvdele, [R1] og [R2], hver med n ikke-tilbagevendende og n-1 tilbagevendende tumorer. Disse to halvdele betragtes som to uafhængige datasæt. Derefter antager vi testen tumor (dvs. umærket) X som tilbagevendende og sætte det ind [R1] og [R2], dvs. [R1 + X] og [R2 + X]. Vi identificerede de øverste N-moduler fra [R1 + X] og [R2 + X], henholdsvis og hvis testen tumor X er forbundet med høj risiko for tilbagefald, bør de to sæt af resulterende moduler overlapper betydeligt. Vi beregnede den overlappende procentdel (OPN), som beregnes ved forholdet mellem deres kryds og deres fagforening, efter at være blevet normaliseret mod dobbeltydelser procentdel af tilsvarende moduler identificeret fra [R1] og [R2]. For at undgå potentiel skævhed med en bestemt split, vi gentog tilfældig split og over 10 gange for at opnå en gennemsnitlig OPN . Endelig har vi beregnet OPN for forskellige N = 100, 200 … 500 og bruge gennemsnittet som den prædiktive score OP . Højere OP score indikerer en højere risiko for tilbagefald i forbindelse med testen tumor X. På den måde undgår vi den fælles strategi for at optimere en vilkårlig kerne funktion, der har nogen klar biologiske grundlag.

Evaluering og sammenligning.

For hver datasæt, blev dens tumorprøver opdelt i et træningssæt og en test sæt. Vi rapporterede ydeevne foranstaltning, nøjagtighed og AUC, med R-pakke, ROCR. I orlov én ud validering blev en tumor tilfældigt valgt som test sæt og resten tumorer bruges som træningssættet. På denne måde blev forudsigelsen udført for n gange, hvor n er det totale antal tumorer i datasættet. I valideringer med antallet af uddannelse prøver at være 34, 18 eller 10, gennemførte vi den forudsigelse for (n-34), (n-18) eller (n-10) gange. Derefter valgte vi tilfældigt træningssættet af tumorer til 5 gange og rapporteres gennemsnittet, maksimal og minimal ydeevne. Forestillingen blev sammenlignet med andre metoder ved hjælp af disse tre microarray datasæt

Resultater

Vi brugte to uafhængige datasæt af tidlige kolorektal kræftpatienter til at kontrollere de to centrale hypoteser:. (1) den mest differentielt udtrykte moduler er ikke-tilfældigt forbundet med tumortilbagevenden; (2) sådanne moduler identificeret fra forskellige datasæt overlapper betydeligt i flere gener end tilfældige

Oversigt over de fleste differentielt udtrykte moduler identifikation

Identifikationen af ​​de fleste differentielt udtrykte moduler omfattede tre vigtige trin:. Netværk konstruktion, topologisk modul opdagelse, evaluering af differentieret udtryk på modul-niveau (figur 1, mere detaljeret beskrivelse i METODE OG MATRIERAL afsnit). Kort fortalt vi først grupperet gener i store grupper baseret på deres GO annotation. Som et gen kan have mere end én funktionel rolle, disse går grupper kan overlappe i visse gener. I stedet for at konstruere en enkelt kæmpe netværk, brugte vi protein interaktion data til at opbygge netværk for hver af disse GO sæt af gener og identificerede multi-gener moduler, dvs. grupper af gener, der tæt forbundet i netværk topologi og relativt adskilte fra resten netværk. Endelig blev den differentielle ekspression af hvert modul mellem tumorer med og uden tilbagefald rangeret at opnå de øverste N moduler til efterfølgende analyse.

identificere de mest differentielt udtrykte moduler omfatter tre vigtige skridt. Først GO co-udtrykkes netværk konstrueret ved kombinerede protein-protein-interaktion netværk, som var fra HPRD og BioGRID database, og GO gen sætter sammen. Kanterne af netværk blev vejet ved co-ekspression niveau mellem deres tilsvarende forbundne noder. For det andet blev funktionelle moduler identificeret med det vægtede Girvan-Newman-algoritmen [32]. Endelig blev funktionelle moduler rangeret på deres differentierede niveauer mellem tilbagevendende og ikke-tilbagevendende tumorer, som blev evalueret ved p-SAGE algoritme [38].

De konstruerede GO netværk indeholder 4428 gener i alt for både Barrier og tyske datasæt, som de brugte den samme microarray platform. Vi tog top 100, 200, …, 500 moduler til efterfølgende analyse (tabel S1). Disse moduler har et differentielt udtrykt p-værdi ikke større end 0,005 i både tysk datasæt og Barrier datasæt.

De mest differentielt udtrykt moduler er ikke-tilfældigt forbundet med tumortilbagevenden

Som det kan ses i figur 2, fandt vi en signifikant berigelse af gener relateret med kolorektal cancer tilbagefald i disse moduler identificeret fra tysk datasæt efter begge OMIM og PubGene anmærkninger (se metoder). Til kontrolformål, genereret vi sæt af en samme mængde gener, der er identificeret som den mest differentielt udtrykt ved hjælp af den enkelte gen baserede t-test ( “t-test gener”), eller de mest differentielt udtrykte GO gen sæt sorteret efter P- SAGE. Sammenlignet med disse to kontroller, fandt vi en højere andel af kolorektale kræft tilbagefald relaterede gener var i top 50-500 moduler. De er ca. 1.9~3.5 gange (OMIM) og 2~2.7 gange (PubGene) højere versus højest rangerede individuelle gener, 2.6~4.7 gange (OMIM) og 1.7~2.1 (PubGene) gange højere versus højest rangerede GO gen sæt (figur 2 ). Lignende resultater blev også set for Barrier datasæt (fig S1).

Kendte CRC-gener blev indsamlet fra PubGene (A) eller OMIM (B). Procenterne blev sammenlignet med i top differentielt udtrykte gener (t-test gener) med samme antal gener i højest rangerede N-moduler, eller GO gen-apparater med den samme mængde højest rangerede N-moduler.

Specielt i at analysere den tyske datasæt, fandt vi tre chemokiner (CXCL9, CXCL10 og CXCL11) og deres fælles receptor CXCR3 i top 10 moduler. Dette er i overensstemmelse med den seneste konstatering af, at CXCR3 og en anden ligand CXCL10 fremmer invasion-relaterede egenskaber i kolorektal cancer [39], [40]. For at se, om disse resultater var reproducerbare, vi tilfældigt delt tysk datasæt i to halvdele, som hver er en mindre datasæt med 14 eller 15 ikke-tilbagevendende tumorer og 13 tilbagevendende tumorer, identificeret de 100 moduler og kontrollere, om disse kemokin gener ville dukke op . Vi udførte sådanne tilfældige opdelinger for 1000 gange og tælles hyppigheden af ​​gener, der vises mindst én gang i begge halvdele for top 100 moduler. Også overvejer hub gener, der har mere interagerende partnere ville have en større chance for at dukke op i flere moduler, vi normaliseret frekvensen af ​​hvert gen mod sin tilslutning. Vi fandt tre kemokiner: CXCL10, CXCL9 og CXCL11, endnu ikke deres receptor CXCR3, vises den hyppigste (30,5% -44,1%) i alle 1.000 splits. Men vi udførte den samme analyse på Barrier datasæt og ikke fundet nogen af ​​de tre chemokiner at dukke op i de 100 moduler i en tilfældig split. Vi fandt imidlertid 19 og 18 i medlemslandene gener i kemokinsignalering pathway (190 gener i alt) som kurateret på Kegg database dukkede op mindst en gang i top 100 moduler i tysk datasæt og Barrier datasæt (tabel S2). De overlappet af 9 gener (STAT2, STAT3, LYN, MAPK1, FOXO3, NFKB1, GSK3b, Pak1 og PTK2B). Disse resultater indikerer en mulighed for, at de øverste moduler kunne indfange væsentlige ændringer (10%) i kemokinsignalering pathway associeret med tumor tilbagefald, og er reproducerbare tværs af forskellige datasæt. Men det kan være svært at yderligere komme ned til specifikke gener i disse moduler for at bruge så robuste markører.

Som tumor udvikler med ophobning af somatiske mutationer, vi også vurderet, om der er en signifikant sammenhæng mellem de øverste moduler og somatiske mutationer identificeret i kolorektal cancer fra COSMIC database. Vi først identificeret de moduler, der indeholder betydelig mængde af mutationer ved Fisher eksakt test (p cutoff: 0,05). Disse moduler blev navngivet som Muterede Moduler (MMS). Vi derefter beregnes procentdele af MMS i top N moduler og resten moduler for at opnå en berigelse forhold. Et højere forhold indikerer en højere berigelse af mutationer i de øverste N moduler. For tysk datasæt, fandt vi sine top 50-500 moduler overlapper betydeligt med MMS (Fisher eksakt test, p 0,002), med berigelse scoringer omkring 3-4 (Figur 3). I modsætning hertil gennemførte vi en lignende analyse på toppen gener af lignende numre identificeret af den konventionelle t-test ( “t-test gener”), men fandt ingen signifikant overlap med gener i MMS (Fisher eksakt test, p-værdier 0,25). Procentdelen af ​​muterede gener i top t-test gener vs resten gener er ens. At vurdere, om berigelse af mutationer i topmoduler er forbundet med tumortilbagevenden, vi ionbyttet mærkningen af ​​”tilbagefald” og “ikke-tilbagevendende” for at identificere de bedste moduler og fundet deres berigelse ratio er omkring 1,3, hvilket er sammenlignelige med dem for t-testen gener. De tilsvarende resultater blev også fundet i Barrier datasæt (fig S2).

Derimod kontrollerne er fra t-test-genet og permutation test. T-test-gen-analyse blev udført ved anvendelse af samme antal top differentielt udtrykte gener som antallet af gener omfattet af de tilsvarende vigtigste N moduler.

Til dette formål har vi bekræftede vores første antagelse, at identificerede topmoduler er ikke tilfældigt forbundet med tumor tilbagefald i to forskellige uafhængige datasæt. Derfor kan disse moduler anvendes som mere robuste prædiktorer end specifikke gener for prognose forudsigelse.

De differentielt udtrykte moduler havde højere reproducerbarhed

Dernæst undersøgte vi, om de overlappende procentdele af topmoduler er signifikant højere end kontrol, der skal anvendes som en diskriminerende metric. Vi identificerede top 100-1000 moduler fra Barrier og tyske datasæt, henholdsvis, og fandt disse moduler fra de to forskellige datasæt overlappede signifikant (p 1.75E-74). Deres overlappende procenter (25,3% -54,9%) er over 7 gange højere end de overlappende procentdele af top t-test gener (3,3% -6,6%) og er også omkring 2 gange i de gennemsnitlige overlappende procentsatser for topmoduler identificeret efter permutering etiketter (figur 4). Bemærkelsesværdigt, disse overlappende procenter er også højere end de ekstreme værdier opnået i permutation sager, som outliers (Grubbs outlier-test, p-værdier 0,006). Tilsammen disse resultater støttede vores anden antagelse og foreslog de overlappende procenter af top moduler er informativt at forudsige tumor tilbagefald.

Den overlappende procent beregnes som forholdet til antallet af krydset og forening af generne. Vi sammenlignede andelen af ​​overlappende gener på højest rangerede N-moduler, top t test gener med samme antal gener i top N moduler, og deres tilsvarende permutation test kontroller.

En roman klassifikatør baseret på fleste differentielt udtrykte moduler kan give mere robuste prognose forudsigelser

i betragtning over valideringer af vores to centrale antagelser, vi designet prognosen forudsigelse paradigme som følger. Kort fortalt, vi delt træningssættet af tumorer i to forskellige sæt. Hvert sæt indeholder både tilbagevendende og ikke-tilbagevendende tumorer, så de tilsvarende topmoduler kan udledes. En overlappende procentdel (OP_old) af disse moduler fra begge sæt blev beregnet. Givet en test tumor, vi overtog det er “tilbagevendende”, og sætte det ind i hvert sæt for at identificere de nye topmoduler og beregnet den nye overlappende procentdel (OP_new). Hvis testen tumor er “tilbagevendende” som forventet, bør de gamle og nye overlappende procentdele være sammenlignelige; ellers ville de nye overlappende procenter være lavere. På denne måde, vi undgået ved anvendelse af de specifikke gener men bruges hele information af de øverste moduler, da som vist ovenfor, kun den sidstnævnte er ikke-tilfældigt associeret med tumor tilbagefald. Vi undgik også det problematiske trin i montering uddannelse tumor data til en vilkårlig statistisk funktion. I stedet blev de overlappende procentdele af topmoduler anvendes som vi viste bør være af tilstrækkelig evnen til skelnen. Flere detaljer kan findes i METODE OG MATRIERAL sektion og figur 5. I det følgende viste vi evalueringen af ​​denne metode i tre uafhængige datasæt og sammenlignet dens præstationer med den tidligere metoder ved hjælp af de samme datasæt.

uddannelse tumor sæt er først samplet tilfældigt fra hele tumor datasæt og derefter delt tilfældigt i to lige store dele, hver del inklusive engangsomkostninger og tilbagevendende sæt. Deres tilsvarende topmoduler blev udledt af den tilgang, nævnt ovenfor, og den overlappende procentdel (OP_old) blev beregnet. For hver test tumor X, vi sætter det ind i de tilbagevendende sæt til begge dele til at udgøre det nye udtryk matricer. De mest differentielt udtrykte moduler til to nye ekspressionssystemer matricer udledt henholdsvis. Den overlappende procentdel (OP_new) af disse to sæt topmoduler beregnes og normaliseret af OP_old. Overvejer forspændingen ved opsplitningen i trin 2, blev de tilfældige spalter gentages 10 gange. Gennemsnittet af normaliserede OP er tildelt til at teste tumor X.

Lad én ud validering.

Vi først evalueret effektiviteten af ​​vores forudsigelse metode Leave-One-Out validering, som er et populært valg anvendt i tidligere undersøgelser. Vi rapporterede resultaterne af nøjagtighed (den sande positive sats på det punkt nærmest til punkt (0,1) i ROC), sensitivitet, specificitet og AUC til at sammenligne med de eksisterende multi-gen klassificører (Figur 6, de detaljerede oplysninger i tabel S3 ). For tysk datasæt, vores metode opnåede højere ydelse end de seneste to metoder, en nøjagtighed på 76%, omkring 5-7% højere (Lin07: 71%; Garman08: 69%), en følsomhed på 65%, omkring 3-24% højere (Lin07: 62%; Garman08: 41%), og en specificitet på 93%, ca. 5-14% højere (Lin07: 79%; Garman08: 88%). For Barrier datasæt, vores metode opnåede en nøjagtighed på 74%, en følsomhed på 72%, en specificitet på 84%, hvilket er lidt mindre end den Barrier06 resultater (nøjagtighed: 80%; sensitivitet: 75%; specificitet: 85%) ved hjælp af dette datasæt og de resulterende Barrier06 signaturer. Men det er meget højere end en anden resultat med det samme datasæt og en anden Wang04 signatur (nøjagtighed: 67%). For GSE5206 datasæt, der ikke har nogen specifik opfølgning tid, vores metode opnåede den laveste men stadig rimelig nøjagtighed (68%). Det er også meget lavere end de nøjagtigheder opnås ved de oprindelige metoder opfundet ved hjælp af denne datasæt (90%; Garman08 metoden). bemærkede dog, at denne Garman08 metode, når den anvendes på en anden datasæt (tysk datasæt), kun opnåede 69% nøjagtighed. Forskellen omkring 21% af Garman08 metode i forskellige datasæt kan foreslå et potentiale over-montering problem med sin klassificeringen eller en uønsket høj variation i sine præstationer. I modsætning hertil vores metoder havde meget mindre variabilitet (8% forskel), med 74-76% nøjagtighed for tidligt (I eller II) tumorer i Barrier og tyske datasæt, og 68% nøjagtighed for trin I-IV tumorer i GSE5206 datasæt. De tilsvarende AUC værdier i vores metode var også lignende på tværs af alle tre datasæt:. Tysk – 79%, Barrier – 79% og GSE5206 – 70%

Sammenligningen af ​​AUC (A) og nøjagtighed (B) for tre datasæt: Forskellige farve ordninger og form angiver tre uafhængige datasæt (orange cirkel: Tysk datasæt; blå diamant: Barrier dataset; grøn firkant: GSE5206 datasæt). TX_Y metoder (X: top 500 eller 1000 MDMs; Y: 10 eller 18 referencepunkter tumorer eller Leave-One-Out metode (LOO)). De fyldte symboler angiver middelværdien af ​​AUC’er; Sammenligningen af ​​nøjagtigheder (C), følsomhed (D) og særlige (E) for prognose forudsigelse mellem vores metode og nuværende metoder med samme datasæt, herunder loo resultater fra Lin07 (L) [3], Garman08 (G) [42] , Barrier06 (B) [5], og også Barrier06 resultater opnået ved hjælp af 34 tumorer (TS34), 18 tumorer (TS18) eller 10 tumorer (TS 10) som træningssættet. De fyldte symboler er middelværdi. * De punkter i den stiplede cirkel er resultaterne fra de metoder, der blev valideret ved hjælp af beslutningstagere opdaget af den ene og samme datasæt.

For at verificere prøver størrelse indvirkning på forudsigelse metoder, mindre prøver størrelse ved 34, 18, 10 er blevet udført. Den gennemsnitlige værdi og rækkevidde (minimum og maksimum værdi) nøjagtighed, følsomhed, specificitet og AUC er rapporteret i hvert tilfælde (figur 6, de detaljerede oplysninger i tabel S3, og ROC kurve i figur S3).

Validering med 34 uddannelse prøver.

Vi plukket tilfældigt op n prøver fra hvert datasæt, hvor n = 34, som uddannelse indstillet til at forudsige gentagelse risiko for resten tumorer. For de tyske og Barrier datasæt, forestillingerne er meget højere end resultaterne i LOO validering. I detaljer, for tysk datasæt, vores metode opnåede en nøjagtighed på 78%, AUC på 80%, en følsomhed på 80% og en specificitet på 76%. For Barrier datasæt, det opnåede højere nøjagtighed på 81% og specificitet på 86%, og mindre følsomhed på 78% end andre metoder (ved hjælp af Barrier signatur: nøjagtighed: 80%; sensitivitet: 91%; specificitet: 72%; hjælp Wang04 signatur: nøjagtighed: 70%). Desuden er vores metode havde kun meget mindre variation (13% for Barrier datasæt) end Barrier06 metode (31%). For GSE5206 datasæt, udførelsen er ens med LOO validering, en nøjagtighed på 70%, AUC på 66%, en følsomhed på 74% og en specificitet på 68%.

Validering med 18 eller 10 uddannelse prøver.

Be the first to comment

Leave a Reply