PLoS ONE: Konsensus Pathways impliceret i Prognose for kolorektal cancer identificeret ved Systematic Berigelse Analyse af Gene Expression Profiling Studies

Abstrakt

Baggrund

Et stort antal af genekspression profilering (GEP) undersøgelser på prognose af colorectal cancer (CRC) er blevet udført, men ingen pålidelig gen signatur for forudsigelse af CRC prognose er fundet. Bioinformatik berigelse værktøjer er en kraftfuld metode til at identificere biologiske processer i analyse med højt gennemløb data.

vigtigste resultater

Vi har for første gang samlet resultaterne fra 23 hidtil offentliggjorte uafhængige GEP undersøgelser på CRC prognose. I disse 23 studier blev 1475 unikke, kortlagte gener identificeret, hvoraf 124 (8,4%) blev rapporteret i mindst to undersøgelser, med 54 af dem viser bestående retning i ekspression skift mellem de enkelte undersøgelser. Ved hjælp af disse data, forsøgte vi at overvinde den manglende reproducerbarhed observeret i generne rapporteret i enkelte GEP studier ved at udføre en pathway-baseret berigelse analyse. Vi brugte op til ti værktøjer til overrepræsentation analyse af Gene ontologi (GO) kategorier eller Kyoto Encyclopedia of Gener og genomer (Kegg) veje i hver af de tre gen lister (1475, 124 og 54 gener). Denne strategi, som er baseret på afprøvning af flere værktøjer, tilladt os at identificere den oxidative phosphorylering kæden og de ekstracellulære matrix-receptor interaktionskategorier, samt en generel kategori relateret til celleproliferation og apoptose, som den eneste løbende været stærkt overrepræsenterede veje i tre genet lister, som blev rapporteret af flere berigelse værktøjer.

konklusioner

Vores vej-baserede berigelse analyse af 23 uafhængige genekspression profilering undersøgelser om prognosen for CRC identificeret markant og konsekvent overrepræsenterede prognostiske kategorier for CRC. Disse overrepræsenterede kategorier er blevet funktionelt klart relateret til kræft progression, og fortjener yderligere undersøgelser

Henvisning:. Lascorz J, Chen B, Hemminki K, Försti A (2011) Konsensus Pathways Involveret i Prognose for kolorektal cancer identificeret ved Systematic berigelse Analyse af genekspressionsprofilering Studies. PLoS ONE 6 (4): e18867. doi: 10,1371 /journal.pone.0018867

Redaktør: Chad Creighton, Baylor College of Medicine, USA

Modtaget: December 1, 2010; Accepteret: 15. marts 2011; Udgivet: 25 April, 2011

Copyright: © 2011 Lascorz et al. Dette er en åben adgang artiklen distribueres under betingelserne i Creative Commons Attribution License, som tillader ubegrænset brug, distribution og reproduktion i ethvert medie, forudsat den oprindelige forfatter og kilde krediteres

Finansiering:. Dette arbejde blev støttet af den tyske National Genome Research Network (NGFN-Plus) (01GS08181), Deutsche Krebshilfe (tysk Cancer AID) (107.318), og den Europæiske Union (EU) (SUNDHED-F4-2007-200767). De finansieringskilder havde ingen rolle i studie design, indsamling og analyse af data, beslutning om at offentliggøre, eller forberedelse af manuskriptet

Konkurrerende interesser:.. Forfatterne har erklæret, at der ikke findes konkurrerende interesser

Introduktion

Kolorektal cancer (CRC) er den tredje mest almindelige kræftform og den fjerde-hyppigste årsag til kræft død på verdensplan, med en levetid risiko i vesteuropæiske og nordamerikanske befolkninger omkring 5% [1].

Mange genekspression profilering (GEP) undersøgelser af CRC er udført i de sidste ti år ved hjælp af microarray-teknologi. Ifølge deres potentielle kliniske anvendelser, kan de inddeles i tre grupper [2]: undersøgelser af carcinogenese proces, undersøgelser på prognose forudsigelse, og undersøgelser af behandlingsrespons forudsigelse. De viser ringe overlapning i de identificerede gener, og ingen pålidelige signatur anvendelige i klinisk praksis er fundet. I øjeblikket, Den Internationale Union Against Cancer (UICC) TNM klassifikation af maligne tumorer baseret på klinisk-patologisk iscenesættelse forbliver standarden for CRC prognosticering [3].

Vi fokuserede på de undersøgelser af prognose forudsigelse, som omfatter en heterogen gruppe af GEP undersøgelser. De har til formål at identificere en genekspressionsprofilen at skelne mere aggressiv fra mindre aggressiv CRC, baseret på forskellige funktioner i forbindelse med sygdomsprogression, såsom tilstedeværelsen af ​​tilbagefald, tilstedeværelsen af ​​metastase eller overlevelsesdata. Til dato har kun én metaanalyse af ti GEP studier rapporteret en liste over 13 gener udtrykkes forskelligt i CRC med god versus dårlig prognose, rapporteret af mindst to uafhængige undersøgelser [4].

Flere grunde har været foreslået at forklare denne mangel på reproducerbarhed i GEP undersøgelser af CRC, såsom underdimensioneret studier, manglende validering af resultater, forskelle i forsøgsprotokol og statistiske faldgruber i at analysere microarray udtryk data for kræft udfald [3]. Ændringer i biologiske egenskaber kræver en koordineret variation i ekspression af gensæt som regulerer biologisk aktivitet, og denne information kan næppe ekstraheres fra ændringer i ekspression af individuelle gener, når overlappende blandt undersøgelser er så lav [5]. Berigelse analyseværktøjer, der estimerer overrepræsentation af særligt gen kategorier eller veje i et gen liste, er en lovende strategi for at identificere biologiske kategorier impliceret i den undersøgte proces [6].

En omfattende analyse af tilgængelige bioinformatiske berigelse værktøjer har for nylig blevet offentliggjort [6]. Baseret på algoritmen anvendt, kan de berigelse værktøjer klassificeres i tre klasser: ental berigelse analyse (SEA eller klasse I); sæt berigelse gen-analyse (GSEA eller klasse II); og modulær berigelse analyse (MEA eller klasse III). I alle værktøjer, er input liste over gener kortlagt til de biologiske vilkår i databaser, og derefter statistisk analyse undersøger berigelse af gen medlemmer for hver af de annotation vilkår og korrigerer for multiple test [6]. Vi anvendes flere SEA værktøjer til de samme input gen lister, og kun beriget kategorier opnået med flere værktøjer blev anset tegn på ægte forudsigelse. Denne strategi, der bygger på test af flere værktøjer, anbefales for at opnå de mest tilfredsstillende resultater [7].

Gene Ontology (GO) [8] og Kyoto Encyclopedia of Gener og genomer (Kegg) [9] er de to vigtigste annotation databaser indsamler biologisk viden om gener, som gør dem meget velegnet til bioinformatik scanning for berigelse analyse [6]. I øjeblikket indeholder GO oplysninger for 18261 menneskelige genprodukter, mens Kegg kortlægger 373 forskellige veje. Vores mål var at identificere de funktionelle kategorier (GO vilkår og Kegg veje), som er konsekvent overrepræsenteret i en statistisk signifikant måde på listen over differentielt udtrykte gener udledes af GEP undersøgelser om CRC prognose. Vi indsamlede første data fra de 23 offentliggjorte uafhængige GEP undersøgelser af prognosen for CRC at udtrække de gener rapporteret hos mindst to af dem, og derefter disse gener blev anvendt til systematisk berigelse analyse med adskillige uafhængige SEA værktøjer. Denne måde, vi overvandt den manglende reproducerbarhed observeret i både rapporteret i enkelte GEP undersøgelser gener og de overrepræsenteret kategorier rapporteres af berigelse analyseværktøjer, og kunne identificere konsekvent beriget kategorier.

Resultater

Meta -analyse af GEP undersøgelser

i alt 1897 forskellige gen identifikatorer (IDS) blev rapporteret at være differentielt udtrykt i de 23 uafhængige GEP undersøgelser af prognosen for CRC (tabel 1). Fra dem, antallet af unikke, kortlagte gener var 1475, hvoraf 603 gener blev opreguleret og 794 nedreguleres i dårlig prognose prøver, mens 78 havde en modsat retning i ekspression skift mellem enkelt undersøgelser. Fra 1475 gener, blev 124 gener (8,4%) rapporteret i mere end én GEP undersøgelse (115 i to, og ni ud af tre undersøgelser), 19 af dem (15,3%) blev opreguleret i dårlig prognose prøver i to undersøgelser, 35 nedreguleret (28,2%), og 70 med kontrasterende retning i ekspression skift mellem to undersøgelser. Således 54 ud af de 124 gener (43,5%) rapporterede samme retning i genekspression ændring i to forskellige GEP undersøgelser. Fra de ni gener rapporteret i tre studier (ATP5C1, CA2, CYP51A1, fn1, HSP90AB1, IQGAP1, RPS5, SPP1, og TXN), kun CYP51A1 og SPP1 viste den samme retning i udtryk ændring i alle tre studier (tabel S1). Alle disse ni gener blev medtaget i 54-genet listen. Der var ingen tendens generne indberettet af to undersøgelser til at komme op oftere fra to GEP studier, der undersøger samme funktion relateret til sygdom prognose (eksistensen af ​​tilbagefald, tilstedeværelsen af ​​metastaser eller overlevelse) end fra to undersøgelser. De syv studier, der undersøger tilbagefald rapporteret 541 unikke gener, 15 af dem (2,8%) i to undersøgelser. De 13 undersøgelser vedrørende metastaser rapporteret 934 unikke gener, med 50 af dem (5,3%) i to undersøgelser. Endelig er de to undersøgelser i forbindelse med overlevelse rapporterede 34 unikke gener, ingen af ​​dem fælles for begge undersøgelser.

Se tabel S1 og tabel S2 for en komplet liste af gener.

Berigelse analyser

Tre gen lister blev anvendt til berigelse analyser: alle 1475 gener rapporteret i de 23 uafhængige GEP undersøgelser, rapporterede de 124 gener i mindst to GEP studier (uafhængigt af konsistens i udtrykket skift mellem studier), og de 54 gener rapporteret hos mindst to GEP studier med ensartet retning i genekspression skift mellem prøver med dårlig og god prognose. Ti berigelse værktøjer blev brugt til at opnå betydeligt overrepræsenteret GO biologisk proces, GO Molekylær Funktion kategorier, og Kegg veje (tabel S3, S4, S5).

Antallet af indberettede berigede kategorier viste en betydelig variation mellem de forskellige værktøjer brugt (tabel 2), selv om den samme betydning tærskel (P-værdi 0,05 efter korrektion for multiple test) og analyse betingelser (hele genomet som reference baggrund og mindst to gener fra input listen i berigede kategori) blev anvendt i alle analyser . De resulterede P-værdier for berigelse af en enkelt GO eller Kegg udtryk ofte varierede flere størrelsesordener mellem de forskellige værktøjer (tabel S3, S4, S5). Generelt værktøjer GeneCodis [10] og WebGestalt [11] rapporterede mere berigede kategorier end de andre værktøjer, og mange af de berigede kategorier blev kun rapporteret af GeneCodis (tabel S3, S4, S5). GeneCodis klassificeret også en signifikant lavere antal gener fra input listen i de rapporterede berigede GO kategorier. På den anden side, den INDSAMLING værktøjet [12] rapporterede mindre berigede kategorier end de andre værktøjer (tabel 2).

Identifikation af konsekvent beriget kategorier

På trods af variationen i antallet af overrepræsenteret kategorier indberettet af de forskellige berigelse værktøjer blev adskillige kategorier rapporteret af mange af de værktøjer, der anvendes. For at undgå falske positiver, anvendt vi to tærskler strenge udvælgelseskriterier, før vi betragtes som en kategori som konsekvent beriget. Først blev kun de kategorier rapporteret til blive beriget af flere værktøjer i et gen liste valgt (tabel S6). Fra dem, blev kun de kategorier fælles i mindst to af de tre gener lister anses for at være konsekvent beriget. Ved hjælp af disse to udvælgelseskriterier, seks generelle GO Biologiske Proceskategorier (celleproliferation, positiv regulering af biologisk proces, positiv regulering af cellulær proces, regulering af apoptose, regulering af celledeling, og reaktion på kemiske stimuli), fem GO Molekylær Funktion kategorier ( hydrogen ion transmembrane transportør aktivitet, uorganisk kation transmembrane transportør aktivitet, monovalent uorganisk kation transmembrane transportør aktivitet, proteinbinding, og udfoldet protein binding), og syv Kegg pathways (ekstracellulær matrix-receptor interaktion, fokal adhæsion, Huntingtons sygdom, oxidativ phosphorylering, veje i cancer , Parkinsons sygdom, og småcellet lungecancer) blev konsekvent overrepræsenteret i GEP undersøgelser om prognose af CRC (tabel 3). Andelen af ​​op- og ned-regulerede gener var ens i hver af de konsekvent beriget GO og Kegg kategorier, som i 124-genet liste (data ikke vist). Forholdet mellem berigelse var højere for de mere specifikke og veldefinerede Kegg veje end for de brede GO kategorier (Figur 1). En høj overlapning af de enkelte gener mellem disse 18 kategorier blev også observeret (Tabel 4). Baseret på denne overlap blev tre biologisk meningsfulde enkelte kategori grupper endelig opnået:

En stor gruppe, herunder de seks overordnede GO biologisk proces kategorier (celledeling, positiv regulering af biologisk proces, positiv regulering af cellulær proces, regulering af apoptose, regulering af celledeling, og respons på kemisk stimulus), sammen med to GO Molekylær Funktion kategorier proteinbinding og udfoldet proteinbinding. De Kegg kategori veje i kræft også overlappe disse GO kategorier.

De tre Kegg veje oxidativ fosforylering, Huntingtons sygdom og Parkinsons sygdom, sammen med tre GO Molekylær Funktion kategorier (brint ion transmembrane transporter aktivitet, uorganisk kation transmembrane transporter aktivitet, og monovalent uorganisk kation transmembrane transporter aktivitet), der omfatter fire til seks almindelige gener.

de to Kegg veje ekstracellulær matrix-receptor interaktion og fokal vedhæftning, med alle seks gener i disse to Kegg kategorier også indgår i store GO Molekylær Funktion kategori proteinbinding.

Ratio af berigelse = antal observerede divideret med antallet af forventede gener fra hver GO eller Kegg kategori i genet listen (ifølge WebGestalt eller alternativt DAVID eller GoTM værktøjer). GO BP, Gene Ontologi biologisk proces; GO MF, Gene ontologi Molekylær Funktion; Kegg, Kyoto Encyclopedia of Genes og genomer. Vejviser

Berigelse analyse ved hjælp af Ingenuity software bekræftede de opnåede resultater med farten og Kegg databaser. Det eneste overrepræsenteret kanoniske sti på 124 gen listen var oxidative fosforylering (P

korrigeret = 2,7 × 10

-2), mens denne kategori var den tredje mest betydningsfulde vej (P

korrigeret = 1,0 × 10

-5) blandt de 159 beriget kanoniske veje i 1475 gen sæt. Resultaterne for Bio Funktion kategorier var for uspecifikke, på grund af det store antal berigede kategorier rapporteret for hver af de tre gen lister (61 til 77 beriget udtryk) (tabel 2). Men den generelle kategorier celledød, kræft og cellulær vækst og proliferation var blandt de øverste fire berigede udtryk i de tre gen lister, med korrigerede P-værdier mellem 10

-4 og 10

-20 (data ikke vist) .

berigelse analyse med alle berigelse værktøjer blev også udført individuelt for de fire enkelt GEP studier rapporterer mere end 100 unikke kortlagte gener [13] – [16] (tabel S7). Fra de 18 GO /Kegg vilkår, blev de generelle GO kategorier indberettes kun af nogle af de fire individuelle GEP studier, mens de mere specifikke Kegg veje syntes at være mere almindeligt rapporteret. I GEP undersøgelse fra Bertucci et al. [14] næsten alle 18 kategorier kom ud som overrepræsenteret i genet listen.

Diskussion

Det store antal publicerede microarray undersøgelser af prognosen for CRC, der viser en meget lav overlap i resultaterne, har forudsat ingen generelt accepteret genekspressionsprofil til forudsigelse af CRC prognose. Derudover er der ikke genom-dækkende forening undersøgelser af udfald i CRC blevet offentliggjort, men er nu i gang [3]. Heterogeniteten i GEP forsøgsdesign vedrørende de funktioner relateret til sygdomsprogression løber et konsistent sammenligning af resultater mellem de enkelte undersøgelser meget vanskelige [17]. Her rapporterer vi resultaterne af vores tilgang, hvor vi brugte den største samling af GEP undersøgelser af CRC prognose hidtil, og for første gang anvendt og sammenlignet flere berigelse værktøjer til de udpakkede gen lister. Denne strategi tillod os at identificere den oxidative phosphorylering kæden og de ekstracellulære matrix-receptor interaktionskategorier, samt en generel kategori relateret til celleproliferation og apoptose, som den eneste løbende været stærkt overrepræsenteret baner for CRC progression.

i den første del af undersøgelsen, forsøgte vi at afhjælpe manglen på reproducerbarhed i GEP undersøgelser om CRC prognose ved at vælge de gener, rapporteret i mere end én undersøgelse, i et forsøg på at reducere falske positive resultater. Fra i alt 1475 unikke, kommenterede gener identificeret i 23 uafhængige GEP undersøgelser, 124 gener (8,4%) blev rapporteret i mindst to undersøgelser, og kun 9 af dem (0,6%) i tre undersøgelser, som giver os en klar idé om den manglende reproducerbarhed på individuelt genniveau. Denne mangel på reproducerbarhed synes ikke at være forårsaget af de forskellige undersøgte funktioner i forbindelse med cancer prognose, da andelen af ​​gener rapporteret af to undersøgelser af samme klasse (2,8% for tilbagefald, 5,3% for metastase undersøgelser, og 0% for overlevelse undersøgelser) var endnu lavere end for alle undersøgelser sammen (8,4%). Uventet, 70 af disse 124 gener (56,5%) viste kontrasterende retning i ekspression skift mellem to individuelle undersøgelser, mens det for de andre 54 (43,5%) udtrykket ændring var i samme retning, 19 opreguleret (15,3%) og 35 nedreguleret (28,2%). Andelen af ​​op- og ned -regulated gener var næsten det samme også inden hver af de konsekvent beriget GO og Kegg kategorier. De uoverensstemmelser i retning af differentieret udtryk kan tilskrives flere faktorer: for det første det store antal falske positiver observeret i microarray genekspression undersøgelser [18]; sekunder, overgeneralization af sammenligninger i metaanalyser, især relateret til eksperimentel design og baggrund reference for ytringsfrihed; tredje, heterogenitet i de vævsprøver, der anvendes i hver undersøgelse; og fjerde, unøjagtige resultater på grund af dårlig udformning af undersøgelsen [19]. Men en klar forklaring på disse uoverensstemmelser mangler. Kun én tidligere metaanalyse af ti GEP studier har rapporteret en liste over 13 gener udtrykkes forskelligt i CRC med god versus dårlig prognose, rapporteret af mindst to uafhængige undersøgelser [4]. En sammenligning med vores resultater viste, at otte af generne er også til stede i vores 124 gen liste, med samme retning i ekspression ændring (IGF2, IQGAP1, YWHAH, DEK, TP53, OAS1, RaRb, og PDCD10), tre af dem ( IGF2, TP53 og RaRb), der tilhører gruppen af ​​brede kategorier relateret til celledeling og apoptose. De øvrige fem gener rapporteret af Cardoso et al. var faktisk ikke til stede i et af de to GEP undersøgelser, der er nævnt i meta-analysen.

Den anden del af vores analyse gjort brug af frit tilgængelige berigelse værktøjer til at registrere, hvilken GO kategorier eller Kegg veje var signifikant overrepræsenteret i tre gensæt opnået fra de 23 genekspressionsprofilering undersøgelser (1475 124 eller 54 gen liste). Her forsøgte vi at overvinde de kendte forskelle i overrepræsentation analyseresultater ved at bruge op til ti forskellige ental berigelse analyse (SEA eller klasse I) berigelse værktøj. Vi valgte kun de kategorier, som blev rapporteret til at blive overrepræsenteret af flere værktøjer og i mindst to af de tre gen lister som konsekvent beriget kategorier. Gene sat berigelse analyseværktøjer (GSEA eller klasse II) blev ikke betragtet, da de kræver en opsummeret biologisk værdi (fx udtryk fold ændring) for hver af generne i input, som ikke var tilgængelige for de fleste af undersøgelserne. Nyligt udviklede modulære berigelse analyseværktøjer (MEA eller klasse III) overveje indbyrdes relationer GO vilkår, men de kræver relativt store gen input lister for en biologisk meningsfuld analyse [6], og dette var ikke tilfældet i vores undersøgelse.

Berigelse værktøjer lider af adskillige begrænsninger, som er beskrevet detaljeret andetsteds [6], [7], og det anbefales at teste flere værktøjer, selv om de har lignende egenskaber og funktioner [7]. For eksempel er det blevet observeret, at for den samme datainput, ti forskellige ontologiske analyse programmer resulterede i p-værdier i området flere størrelsesordener for nogle GO termer [7]; den samme virkning blev observeret i vores undersøgelse. Kegg veje repræsenterer relativt veldefinerede kendte biologiske veje, snarere end de mere brede GO kategorier. Brugen af ​​værktøjer pathway klassificering er alligevel ikke fri for problemer [20]. En nylig overrepræsentation analyse af veje fra genom-dækkende forening undersøgelse data også rapporteret forskelle i resultatet mellem tre af sti berigelse værktøjer vi brugte (DAVID, indsamle og WebGestalt) [20]. Faktorer, der kan forårsage disse forskelle i resultater kan nævnes: kilderne og versioner af annotationsfiler; den statistiske model anvendes til berigelse analyse det sæt af reference- gener, mod hvilke P-værdier for hvert udtryk i resultaterne beregnes; og metoden til korrektion for flere eksperimenter [21]. I vores analyse blev hele genomet anvendes som referenceramme, og et signifikansniveau tærskel på korrigerede P værdi 0,05 blev anvendt i alle analyser. På trods af denne ensartethed i de betingelser, der anvendes, vi også observeret en betydelig variation i antallet af rapporterede beriget kategorier, og i P-værdier. Således kan denne variation skyldes den statistiske model anvendes til berigelse analyse, til metoden til korrektion for multiple test, og forskelle i de versioner af GO og Kegg datakilder brugt. Men på trods af denne tilsyneladende variation, de fleste af de berigede kategorier rapporteret af de strengere værktøjer blev inkluderet i dem indberettet af de nævnte værktøjer rapportering et større antal udtryk, hvilket viser anvendeligheden af ​​vores undersøgelse strategi. Således bioinformatiske berigelse værktøjer er en kraftfuld metode til at identificere biologiske processer i high-throughput dataanalyse, men udvælgelsen af ​​berigede kategorier baseret på kun én berigelse værktøj synes at være helt vilkårlig.

Endelig, efter anvendelse af streng udvælgelse kriterier, blev i alt 18 kategorier (11 GO vilkår og syv Kegg veje) betragtes som konsekvent overrepræsenteret i de gen-lister udvundet fra de 23 forskellige GEP undersøgelser om CRC prognose. I genet listen 124, blev en meget høj overlapning af gener blandt de 18 kategorier observeret, at reducere antallet af kategorier med biologisk signifikans til tre klart forskellige grupper. Først blev en meget generel gruppe relateret til celleproliferation, apoptose og protein binding, som omfattede en høj andel af generne fra hver af de tre gensæt. For det andet, og mere interessant, den oxidative fosforylering kæde, herunder syv gener (ATP5C1, ATP6AP1, ATP6V1H, COX5B, COX6B1, NDUFA1, og UQCRC1) (Figur S1), fem af dem delte med Huntingtons og Parkinsons sygdom Kegg kategorier. Allerede flere årtier siden blev det foreslået, at forringet oxidativ metabolisme kan forårsage malign vækst [22]. Denne antagelse, kendt som Warburg hypotese, er blevet genopdaget af en bred vifte af eksperimentelle tilgange viser samspillet mellem mitokondrie metabolisme og tumorvækst [23], [24]. Hertil kommer, at germline mutationer i mitokondrie-succinat-dehydrogenase (kompleks II i den oxidative fosforylering kæde) subunits SDHD, SDHC, og SDHB er en hyppig årsag til paragangliomer i hoved og hals og af fæokromocytom [25]. Også Huntingtons og Parkinsons sygdom, de to andre beriget Kegg veje med gener fra den oxidative phosphorylering kæde, er forbundet med mitokondriel dysfunktion [26]. For det tredje, både Kegg vilkår ekstracellulær matrix-receptor interaktion og fokal vedhæftning inkluderet fire fælles gener (COL5A1, fn1, SPP1, og TNXB) (figur S2). Specifikke interaktioner af de ekstracellulære matrixmolekyler styre cellulære aktiviteter såsom adhæsion, differentiering, apoptose og proliferation [27]. Således og baseret på funktionelle klasser af generne, de ser lovende ud for undersøgelser med henblik på at undersøge deres mulige indflydelse på prognosen for CRC. Især den Kegg veje oxidative fosforylering, ekstracellulær matrix-receptor interaktion og fokal vedhæftning kan tilvejebringe nye mål for udvikling af lægemidler. Seks af de 23 uafhængige GEP undersøgelser foretaget en berigelse analyse af GO og /eller Kegg kategorier med deres liste over differentielt udtrykte gener, i alle tilfælde ved hjælp af kun én berigelse værktøj. Kun GEP undersøgelse fra Jorissen et al. [16] rapporterede to Kegg veje også rapporteret i vores analyse (ECM-receptor-interaktion og fokal vedhæftning). Når vi søgt efter overrepræsenteret kategorier i de enkelte GEP studier, blev der observeret klare forskelle mellem undersøgelserne. Selvom form af specifik Kegg veje oxidativ phosphorylering og ekstracellulære matrix molekyler blev almindeligt rapporteret, blev de generelle GO vilkår rapporteret i vores globale tilgang kun identificeret ved nogle af undersøgelserne. Disse resultater viser, at vores tilgang til at kombinere data fra 23 individuelle GEP undersøgelser ikke kun er i stand til at identificere de fælles veje rapporteret af enkelte store undersøgelser, men det er også i stand til at rapportere nye konsekvent overrepræsenterede veje, der kan gå tabt i små studier.

som konklusion vores forløb-baseret berigelse analyse af 23 uafhængige genekspression profilering undersøgelser om prognose CRC angivet den oxidative phosphorylering kæde, den ekstracellulære matrix-receptor interaktion kategori, og en generel kategori relateret til celleproliferation og apoptose som markant og konsekvent overrepræsenterede prognostiske kategorier for CRC. Disse kategorier har været funktionelt klart relateret til kræft progression, og fortjener yderligere undersøgelse. Det ville være af særlig interesse, hvis fremtidige GEP studier udført i store prøve kohorter kunne validere vores resultater og identificere disse kategorier klassificører for dårlig prognose.

Materialer og metoder

Genekspression profilering (GEP) undersøgelser

i alt 27 GEP undersøgelser for prognose forudsigelse af CRC indgik i analysen (tabel 1): de 16 GEP undersøgelser nævnt i to seneste anmeldelser [2], [3], tre yderligere undersøgelser indgår i en meta-analyse [4], og otte nyere undersøgelser (PubMed søgning fra januar 2009 til marts 2010) ikke medtaget i den tidligere anmeldelser /meta-analyse. Fire af de 27 undersøgelser, der anvendes delvist overlappende prøver [28] – [31], og en anden undersøgelse [32] var faktisk en opfølgning af en tidligere [33], hvilket reducerer det samlede antal uafhængige undersøgelser til 23. Ifølge den undersøgte funktion relateret til sygdomsprogression, syv af de undersøgelser var baseret på eksistensen af ​​tilbagefald, tretten om tilstedeværelsen af ​​metastaser, to på overlevelsesdata, og én på en kombination af overlevelse og gentagelse af data. På grund af den heterogene karakter af de tilgængelige data, blev gjort noget forsøg på at udføre kvantitative metaanalyser.

Gene sæt indsamlingen

Det er blevet rapporteret, at den type gen identifikator bruges til at angive differentielt regulerede gener kan potentielt påvirke resultaterne af den efterfølgende analyse [21]. Vi brugte den officielle HUGO gen symbol som en konsistent identifikator for de rapporterede gener. Hvis genet symbolet ikke blev rapporteret i GEP undersøgelsen, brugte vi følgende værktøjer til at konvertere de rapporterede identifikatorer i gen symbol: NetAffx fra Affymetrix (www.affymetrix.com), EntrezGene fra NCBI (www.ncbi.nlm.nih. gov /gen /), og Gene ID konverteringsværktøj fra DAVID bioinformatik ressourcer [34]. I mange tilfælde ændrede antallet af gen identifikatorer (ID’er) rapporteret af GEP undersøgelsen ikke rent faktisk svarer til den kommenterede gener, men til prober på ekspressionen matrix eller GenBankIDs. Hertil kommer, at flere undersøgelser tælles nogle gener mere end én gang. Derfor er den nuværende antal kommenterede gener endelig anvendte var lavere end den, rapporteret af størstedelen af ​​GEP forsøg (tabel 1).

Gene lister

Listerne over kommenterede gener rapporteret af hver af de 23 uafhængige GEP undersøgelser for prognose af CRC medtaget i analysen blev kombineret for at identificere de gener, rapporteret i to eller flere undersøgelser. Tre forskellige gen lister blev anset for den efterfølgende berigelse analyse: alle unikke, kommenterede gener rapporteret (1475 gener) (tabel S2); de gener rapporteret hos mindst to GEP undersøgelser (124 gener) (tabel S1); og dem, som desuden viste den samme retning i genekspression forandring, enten op- eller nedregulering, i to GEP studier (54 gener) (tabel S1).

Berigelse analyse

Vi udført berigelse analyser ved hjælp af databaserne GO (biologisk proces og Molekylær Function) og Kegg veje. For alle berigelses- værktøjer, input gensæt bestod af genet listen 1475 genet liste 124, eller 54-genet listen henholdsvis.

Ti berigelse softwareværktøjer (se URL’er) blev udvalgt på grundlag af deres freeware tilgængelighed , deres hyppige optræden i de seneste publikationer og deres brugervenligt program. Standard indstillinger blev anvendt i alle redskaber, med et signifikansniveau tærskel på 0,05 for justerede P-værdi, mindst to gener fra input listen i berigede kategori, og hele genomet som reference baggrund. For INDSAMLING, den anbefalede ln (Bayes faktor) blev 6 brugt som signifikans tærskel. Den Ingenuity software gør brug af sine egne to databaser, Top Bio Funktion og Top Canonical Pathways, som dog kan sammenlignes med GO og Kegg databaser henholdsvis anvendes af de andre berigelse værktøjer. Vigtige statistiske og flere test korrektion metoder, som hver værktøj er vist i tabel S8.

Konsekvent beriget kategorier

Kun GO eller Kegg kategorier rapporteret at være signifikant beriget med flere berigelse værktøjer i et gen liste blev anset som konsekvent overrepræsenteret. I et forsøg på at vælge kun toprangerede kategorier, vi tog hensyn til de størrelse forskelle mellem GO og Kegg kategorier samt forskellene i antallet af kategorier rapporteret af hvert værktøj. Antallet af værktøjer, der er etableret som en tærskel var, for hvert gen liste og GO eller Kegg databaser, den ene indberetning mindst fem fælles berigede kategorier for at række værktøjer (tabel S6). For både 54 og 124 gen listen, tærsklen var tre berigelse værktøjer til GO biologisk proces og Molekylær Funktion og to berigelse værktøjer til Kegg veje. For det gen listen 1475, tærsklen var fem berigelse værktøjer til GO biologisk proces og Molekylær Funktion, og fire berigelse værktøjer til Kegg veje (tabel S6).

Be the first to comment

Leave a Reply