Abstrakt
En sammenlignende undersøgelse af offentlig gen-udtryk data fra syv typer af kræft (bryst-, tyktarms-, nyre, lunge, bugspytkirtel, prostata og mavekræft) blev gennemført med det formål at udlede markørgener, sammen med associerede veje, som er enten fælles for flere typer kræft eller specifikke for individuelle cancere. Analyseresultaterne viser, at (a) hver af de syv cancertyper kan skelnes fra dens tilsvarende kontrolvæv baseret på ekspressionsmønstre for et lille antal gener, fx 2, 3 eller 4; (B) udtrykket mønstre af nogle gener kan skelne flere kræftformer fra deres tilsvarende kontrol væv, potentielt tjener som generelle markører for alle eller visse grupper af kræft; (C) proteinerne kodet af nogle af disse gener forudsiges at være blod sekretorisk, hvilket giver potentielle cancer markører i blod; (D) antallet af differentielt udtrykte gener på tværs af forskellige typer kræft i sammenligning med deres kontrol væv korrelerer godt med de femårige overlevelsesrater forbundet med de enkelte kræftformer; og (e) nogle metaboliske og signalveje er unormalt aktiveres eller deaktiveres tværs af alle typer kræft, mens andre veje er mere specifikke for visse kræftformer eller grupper af kræft. De nye resultater af denne undersøgelse giver stor indsigt i disse syv kræftformer og har potentiale til at skabe nye spændende retninger for diagnostisk og terapeutisk udvikling
Henvisning:. Xu K, Cui J, Olman V, Yang Q, Puett D, Xu Y (2010) En komparativ analyse af Gene-Expression data Multiple cancertyper. PLoS ONE 5 (10): e13696. doi: 10,1371 /journal.pone.0013696
Redaktør: Vladimir Brusic, Dana-Farber Cancer Institute, USA
Modtaget: Juli 22, 2010; Accepteret: 4 oktober 2010; Udgivet: 27 oktober 2010
Copyright: © 2010 Xu et al. Dette er en åben adgang artiklen distribueres under betingelserne i Creative Commons Attribution License, som tillader ubegrænset brug, distribution og reproduktion i ethvert medie, forudsat den oprindelige forfatter og kilde krediteres
Finansiering:. Denne undersøgelse blev delvist understøttet af National Science Foundation (DBI-0.354.771, ITR-IIS-0.407.204, CCF-0.621.700, DBI-0.542.119), National Institutes of Health (1R01GM075331), en “Distinguished Scholar” bevilling fra Georgia Cancer Coalition, og startkapital fra University of Georgia. De finansieringskilder havde ingen rolle i studie design, indsamling og analyse af data, beslutning om at offentliggøre, eller forberedelse af manuskriptet
Konkurrerende interesser:.. Forfatterne har erklæret, at der ikke findes konkurrerende interesser
Introduktion
Kræft er en vigtig trussel mod menneskers sundhed og liv, der tegner sig for ~13% af alle sygdomsfremkaldende dødsfald i verden [1]. I 2007, 7,6 millioner mennesker døde af kræft på verdensplan. I US, blev rapporteret over 1,4 millioner nye kræfttilfælde om året i de seneste par år, og kræft bliver den næststørste dødsårsag efter hjertesygdom. Statistik fra seeren rapporter viser, at dødeligheden på tværs af alle kræftformer i USA gik fra 195,4 per 100.000 sager i 1950, fortsatte en opadgående tendens indtil 1978 nåede 204,4, og derefter faldet støt til 184,0 i 2005 [2]. Denne faldende tendens har været mest på grund af de forbedrede diagnostiske teknikker til påvisning af den tidlige fase af kræft. Generel overlevelse statistik for kræft viser, at tidlig påvisning og behandling er nøglen til længere overlevelse på tværs af alle typer kræft.
Udfordringer i detektering tidlig kræft opstår hovedsageligt fra den virkelighed, at de fleste patienter er symptomfri i de tidlige stadier af kræft, og kun nogle få effektive kræft-screening tests er klinisk tilgængelige. Mens nogle tests har vist sig at være effektive til at opdage kræft på sin tidlige fase, er de ofte for invasive, såsom koloskopi, skal rutinemæssigt anvendes under regelmæssige physicals og er i øjeblikket begrænset til kun et lille antal af cancertyper. Ofte en cancer er allerede i et fremskredent stadium, når diagnosen; klart, er der behov for mere effektive teknikker til tidlig detektion af kræft.
er blevet foreslået en række genetiske markører til forskellige kræftformer, såsom BRCA1 og BRCA2 for brystkræft og CDH1 for mavekræft. Desuden har en række lovende serum- markører for cancer blevet anvendt klinisk. Blandt dem, PSA (prostataspecifikt antigen) er den mest velkendte og har været meget anvendt til diagnosticering af prostatacancer ved hjælp af blodprøver [3]. Men dens effektivitet for afsløring er langt fra tilstrækkelig, bredt anses for at have en falsk positiv sats, der er for høj til at være en pålidelig kræft-indikator [4]. Der er gjort lignende observationer om andre serum markører såsom CA125 for ovariecancer [5].
Heri præsenterer vi en beregningsmæssige undersøgelse om forudsigelse af både genetiske og serum markører for syv kræftformer, baseret på den offentlige microarray gene- ekspressionsdata og et computerprogram til forudsigelse af blod-sekretoriske proteiner [6]. I forhold til tidligere undersøgelser om kræft markør identifikation, herunder meta-analyser på multi-typer af kræft [7] Den foreliggende undersøgelse har følgende enestående funktioner: (i) fokus på identifikation af multi-genmarkører gennem udtømmende analyse af alle mulige kombinationer af gener, der tager fuld fordel af de tilgængelige højt niveau computerkraft, frem for at bruge heuristiske metoder, som måske ikke nødvendigvis finde de optimale markører; (Ii) et forsøg på at finde markører til grupper af cancere ud over dem for individuelle cancere; (Iii) et forsøg på at knytte oplysninger fra transkriptomisk data af væv til markering forudsigelse i serum under anvendelse af den hidtil ukendte forudsigelse programmet [6]; og (iv) identifikation af veje, der er unormalt regulerede, enten fælles på tværs af flere typer cancer eller specifikke for enkelte typer kræft. Vi mener, at disse nye data vil vise sig meget værdifuldt i belyse de genetiske ændringer i forskellige kræftformer, samt at tilbyde potentielle retninger for nye tilgange i diagnostik og terapi.
Materialer og metoder
1. Microarray genekspression data for humane cancere
Microarray genekspression data blev downloadet i syv cancertyper, nemlig, bryst, colon, nyre, lunge, pancreas, prostata og mavekræft fra GEO database af NCBI [8]. For at sikre, at vores forudsigelse resultater kan generaliseres til forskellige datasæt blev to uafhængige test sæt anvendes til at vurdere robustheden af de forudsagte genmarkører opnået fra træningssættet. Detaljerede oplysninger om dataene er anført i tabel S1. I denne undersøgelse har vi valgt de største tilgængelige microarray datasæt fra hver af de syv cancertyper, hvor hvert datasæt indeholder de (normaliseret) genekspressionsniveauer af hvert gen i både cancer og kontrol væv af hver patient, sammen med information fase for størstedelen af cancer prøver (nogle data ikke har denne information). Bemærk, at alle microarray datasæt anvendes, er normaliseret ved hjælp af RMA, som er blevet rapporteret at være mere nøjagtigt afspejler biologiske ændringer i forhold til andre metoder som MAS5 (Affymetrix). Fordelingerne af folden-ændringer (FC) af individuelle gener på tværs af alle gener mellem kræft og de tilsvarende væv til de syv typer af kræft kontrol blev kontrolleret og fundet at være meget ens. Figur S1 viser én sådan sammenligning af FC fordelinger mellem brystkræft og lungekræft; derfor mener vi, at sammenligninger af fold-ændringer på tværs af forskellige kræft datasæt i vores undersøgelse er meningsfulde.
2. Identifikation af differentielt udtrykte gener
I datasæt med uparrede cancer og kontrolprøver fra de samme patienter, Mann-Whitney-test blev anvendt til at identificere gener, som udtrykkes differentielt i cancer
versus Salg kontrolprøver. For de datasæt med parret information testen er som følger: I betragtning af den hypotese, at et særligt gen ikke er differentielt udtrykt i cancer
versus
kontrolgruppen, afvisningen af denne hypotese betyder, at genet differentielt udtrykkes i cancer . Lad og være gen udtryk niveauer i kontrol- og kræft væv af
jeg
th patient,
i = 1 … m
, og
m
være antallet af patienter . Det er indlysende, at hvis hypotesen er sand, så er sandsynligheden = = 0,5, antager genets ekspression er en kontinuerlig tilfældig variabel. Lad
K
være antallet af patienter med, så den stokastiske variabel
K /m
ca. følger en normalfordeling (ifølge centrale grænseværdisætning eller de Moivre-Laplace Sætning) med sin middelværdi = 0,5 og et standard variation =, eller følger en normalfordeling
N Hotel (0,1). Således
s
-værdi kan estimeres som
P Hotel (
X
), hvor antallet af patienter tilfredsstillende. Samlet set anser vi et gen bliver differentielt udtrykt hvis statistikken betydning,
s
-værdi, er mindre end 0,05, og dens fold-ændring er mindst 2.
3. Forudsigelse af blod secernerede proteiner
Alle gener forventes at være differentielt udtrykt mellem kræft og de tilsvarende kontrolprøver blev analyseret for at forudsige, om deres proteiner er blod-sekretorisk, ved anvendelse af et program, som vores gruppe nylig udviklet [6]. Den grundlæggende idé af algoritmen er at træne en støtte vektor maskine (SVM) -baseret klassifikator at skelne mellem blod-sekretoriske proteiner og proteiner, som ikke udskilles, under anvendelse af forskellige sekvensspecifikke baserede funktioner såsom signalpeptider, transmembrane domæner, glycosyleringssteder og polaritet foranstaltninger. På en stor uafhængig test sæt indeholder 105 sekretoriske proteiner og 7.258 ikke-sekretoriske proteiner af mennesker, klassificeringen opnåede ~94% forudsigelse følsomhed og ~98% forudsigelse specificitet.
4. Forudsigelse af markørgener for hver kræft typen
For hver
k
-genet kombination af de differentielt udtrykte gener, der er defineret i ovenstående afsnit blev en SVM-baserede klassifikatør uddannet til at opnå den højest mulige klassificering nøjagtighed defineret aswhere
TP
og
NP
er antallet af sande positive og negative henholdsvis og
N
er det samlede antal prøver. En lineær kerne funktion blev anvendt til uddannelse gennem LIBSVM [9]. For hver kræft type, blev alle markeringer rangeret efter den 5-fold krydsvalidering ydeevne om uddannelse datasæt. For at finde markører, der er generelle godt til andre datasæt, vi testede de forudsagte genmarkører på to uafhængige test datasæt.
5. Forudsigelse af markører for flere typer kræft
For at identificere
k
-genet diskriminatorer for flere typer kræft, alle gener, der konsekvent udviser differentierede udtryk i mindst to kræfttyper blev overvejet. For hver
k
-genet kombination blandt disse gener, blev dens klassificering nøjagtighed mellem hver kræft type og de tilsvarende kontrol væv beregnet. Derefter
k
-genet kombinationer udviser kræsne magt på tværs af flere typer kræft blev bestemt. De øverste diskriminatorer til multi-cancertyper blev selekteret ved anvendelse af en fast cut-off på nøjagtigheder klassifikation. Gennem resten af dette papir,
k
-genet grupper refererer til kombinationer af
k
-genes for k = 1, 2, 3, 4, medmindre andet er angivet.
6. Pathway berigelse analyse af differentielt udtrykte gener
Funktionel analyse og sti berigelse analyse blev udført ved hjælp af DAVID [10], hvor oplysningerne vej er baseret på annotation fra Kegg, BBID og BIOCARTA. En
s
-værdi 0,05 blev anvendt til at sikre signifikansniveau en beriget vej
Resultater
Denne undersøgelse fokuserer på syv af de mest udbredte typer kræft i. verden, som også har store sæt af microarray gen-ekspression data tilgængelige i det offentlige rum, er indsamlet på et genom skala fra væv af hver kræft type, samt fra deres tilsvarende noncancerous kontrol væv. Ved at arbejde på flere typer kræft samtidigt, kan vi udlede potentielle markører enten specifikke for enkelte typer kræft eller generelle for alle eller grupper af kræft, samt at identificere unormalt aktiveres eller deaktiveres veje.
1. Forventede markørgener for de enkelte typer kræft
Vi har søgt efter individuelle gener og gen-kombinationer, hvis udtryk mønstre kan bedst skelne mellem kræft og tilhørende styresystemer væv for hver type kræft. Specifikt blev alle 1-, 2-, 3- og 4-genkombinationer kodet i det humane genom rangeret med hensyn til deres kræsne magt i adskille cancer prøver fra de tilsvarende prøver for hver cancertype kontrol. Derudover har vi også rangeret
k
-genet kombinationer, baseret på deres kræsne magten mellem tidlig kræft prøver og kontrolprøver, hvis er tilgængelige og tilstrækkeligt stort de relevante data.
A. Brystkræft.
Analysen blev udført på et gen-udtryk datasæt bestående af 43 parrede brystkræft og kræft-tilstødende kontrol væv fra de samme patienter [11]. Af de 43 prøver, 32 var tidlige fase kræftformer (trin I og II). 294 gener viste sig at være konsekvent og unormalt udtrykt med mindst 2-gange ændring i deres udtryk på tværs af kræft og kontrolforanstaltningerne væv, 81 som blev opreguleret og 213 blev nedreguleret i cancer væv. Blandt de differentielt udtrykte gener, 69 af deres kodede proteiner forudsiges at være blod sekretorisk af vores forudsigelse programmet [6], og kunne således tjene som potentielle serum biomarkører (Supplerende oplysninger File S1).
Klassifikation analyse blev derefter gennemført (se materialer og metoder), med det mål at identificere
k
-genet kombinationer, hvis udtryk mønstre kan præcist skelne mellem kræft og kontrolprøver. Figur 1 (A) og (D) viser klassificering nøjagtighed den bedste 100
k
-genet kombinationer på hele træningssæt og på træningssættet, der kun indeholder prøver tidlige fase, hhv. To uafhængige evaluering sæt bruges til at vurdere den generelle betydning af de identificerede genmarkører, som består af 31 og 68 brystkræft, og 27 og 61 kontrolprøver [12], hhv. Figur 1 (B) og (C) viser klassificeringen ydeevne ved de trænede klassifikatorer på de to evaluering sæt. Den detaljerede liste over disse 100
k
-genet kombinationer er givet i Suppplementary Information S1
For hvert panel, x-aksen er listen over 100
k
. – genmarkører bestilt af deres klassificering præstationer på uddannelse datasæt, og y-aksen repræsenterer klassificering nøjagtighed. (A) klassificering nøjagtighed ved top 100
k
-genet kombinationer mellem brystkræft og referenceprøver i træningssættet, og (B) og (C) på de to test sæt; (D) klassificering nøjagtighed ved top 100
k
-genet kombinationer mellem tidlig brystkræft og tilsvarende referenceprøver i træningssættet og (E) på test sæt.
Som vist i figur 1, at størstedelen af den øverste
k
-genet kombinationer, især for
k
1, klarer sig godt på både uddannelse og de uafhængige test sæt med samlede nøjagtighed bedre end 85% selv om deres ranking ordrer på de to datasæt kan ikke være godt bevaret. Udsvingene i deres nøjagtigheder klassificering menes at skyldes den lille størrelse af træningsdata. Lignende observationer blev foretaget på alle de forudsagte top markører på tværs af de syv kræftformer.
De bedste tre enkelt gen diskriminatorer er PCOLCE2, ANGPTL4 og LEP, der har 88,4%, 88,4% og 87,2% klassificering nøjagtighed på træningssættet og 94,8% og 84,1%, 84,5% og 79. 5% og 96,6% og 96,1% på de to test sæt, hhv. De øverste tre 2-, 3- og 4-gen kombinationer er {TACSTD2 + CHRDL1, TACSTD2 + CAV1, PPARG + TMEM97}, {RRM2 + COL1A1 + PPARG, RRM2 + COL1A1 + PCOLCE2, RRM2 + GPR109B + SPINT2}, og { RRM2 + COL1A1 + GPR109B + SPINT2, RRM2 + GPR109B + INHBA + SPINT2, TACSTD2 + IGFBP6 + IGF1 + TF} hhv. Tilsvarende for tidlig brystkræft, de bedste tre
k
-genet diskriminatorer er {GPR109B, PCOLCE2, PCSK5}, {PCSK5 + COL10A1, FERMT2 + SPINT2, MAOA + IGJ}, {COL1A1 + PCSK5 + TF, GPX3 + COL1A1 + SPINT2, GPX3 + FAP + TMEM97}, og {RRM2 + COL1A1 + GPR109B + IGJ, RRM2 + COL1A1 + GPR109B + IGJ, RRM2 + COL1A1 + GPR109B + SPINT2} hhv.
Selv om bedste tre diskriminatorer repræsenterer nye opdagelser, vi bemærket nogle lavere rangerende gener er blevet betragtet som mulige brystkræft markører ved tidligere undersøgelser. For eksempel er ADIPOQ (adiponectin) fandt, at være tæt forbundet med en bryst-cancer risiko [13]. The SPINT2, en inhibitor af HGF aktivator, blev rapporteret at have højere ekspressionsniveauer i tidlig fase brystkræft og forbundet med en dårlig prognose [14], i overensstemmelse med vores resultater. Nogle andre er involveret i aktiviteterne i kræftceller i almindelighed. For eksempel, CAV1, nedreguleret i cancer prøver, viste sig at hæmme brystkræft vækst og metastase [15]; nedreguleringen af PPARG er forbundet med lokalt recidiv og metastase i brystcancer [16]; og ANGPTL4 kan fungere som en regulator af angiogenese [17]. Så vi ved, alle de 2-, 3- og 4-gen diskriminatorer repræsenterer nye opdagelser.
Lignende analyser er udført på seks andre typer kræft. De vigtigste resultater på hver af disse seks cancertyper er fremhævet nedenfor, med resuméet bliver givet i tabel S2 og gen-navne blev Supplerende oplysninger File S1. Desuden Supplerende oplysninger File S2 viser klassificering nøjagtighed ved den bedste 100
k
-genet diskriminatorer på både uddannelse og test sæt til hver kræft type, henholdsvis.
B. Tyktarmskræft.
Vores analyse blev udført på en microarray datasæt bestående af 53 tyktarmskræft og 28 kræft-tilstødende kontrol væv fra de samme patienter (nogle af kræft prøverne har ingen referenceprøver) [18]. 247 gener viste sig at være konsekvent og unormalt udtrykt med mindst 2-gange ændring i deres udtryk på tværs af kræft og kontrol- væv i vores træningsdata, 56 af dem er opreguleret og 191 er nedreguleret i colon cancer væv . To uafhængige testsæt, der består af 24 og 22 coloncancer og 24 og 20 kræft-tilstødende kontrolprøver fra de samme patienter [19], henholdsvis blev anvendt til at vurdere det generelle i de forudsagte markører.
Vi fandt de bedste tre single-gen diskriminatorer for tyktarmskræft er MMP7, DPT og MMP1 have 97,5%, 96,3% og 95,1% klassificering nøjagtighed på træningssættet, og 97,9% og 90,9%, 97,9% og 74,6%, og 91,7% og 84,1 % på de to test sæt, hhv. De øverste tre 2-gen diskriminatorer er SLIT3 + MMP7, MATN2 + MMP7, og MMP7 + PTGS1. Nogle af vores bedste diskriminatorer er tidligere blevet undersøgt i forbindelse med kolorektal cancer. F.eks MMP1 er en invasion-fremmende faktor, og dens opregulering, som observeret i vores data, er forbundet med invasivitet af kræft [20]. MMP7 er kendt for at spille en vigtig rolle i væksten af kræft, og dens opregulering kunne være en vigtig mekanisme for kræftceller ‘flugt fra immune overvågning [21].
C. Nyre kræft.
Analysen blev gennemført på et microarray gen-ekspression datasæt bestående af 49 nyrekræft og 23 kræft-tilstødende kontrol vævsprøver fra de samme patienter [22]. 231 gener viste sig at være konsekvent og unormalt udtrykt med mindst en 2-gange ændring i deres ekspression på tværs af cancer og kontrol væv i vores træningsdata, 129 som er opreguleret og 102 er nedreguleret i cancer. To uafhængige evaluering sæt, bestående af 35 og 36 nyrekræft prøver og 12 og 9 kræft-tilstødende kontrolprøver fra de samme patienter, henholdsvis blev brugt til at vurdere den generelle betydning af de forudsagte markører [23], [24]. De bedste tre enkelt gen diskriminatorer findes at være UMOD, ACPP og CCL18 for nyrekræft, der har samme klassificering nøjagtighed, 98,6% på træningssættet og 100% og 94,4%, 95,7% og 86,11% og 89,4% og 68,1% på de to test sæt, hhv. De øverste tre 2-gen-kombinationer er EGF + ALB, ACPP + UMOD, og UMOD + ALB. Blandt de bedste diskriminatorer har UMOD blevet rapporteret at være relateret til nyresygdom [25]. SERPINA5, nedreguleret i cancer, regulerer den invasive potentiale renal vækst kræft og invasion. Andre top diskriminatorer repræsenterer nye opdagelser. For eksempel har AFM ikke blevet rapporteret at være relateret til cancer, og C6orf155 har ikke en karakteriseret funktion.
D. Lungekræft.
Analysen blev udført på en microarray datasæt bestående af 58 lungekræft væv og 49 kræft-tilstødende kontrol vævsprøver fra de samme patienter [26]. 683 gener viste sig at være konsekvent og unormalt udtrykt med mindst en 2-gange ændring i deres ekspression på tværs af cancer og kontrol væv i vores træningsdata, 255 som er opreguleret og 428 er nedreguleres i lungekræft væv. To uafhængige sæt, bestående af 27 og 20 lungekræft og 27 og 19 kræft-tilstødende kontrolprøver fra de samme patienter [27], blev anvendt til at vurdere det generelle i de forudsagte markører.
De tre bedste enkelt gen diskriminatorer er CAV1, SFTPC og VWF for lungekræft, der har samme klassificering nøjagtighed, 99,1% på træningssættet og 98,2% og 100%, 96,3% og 82,5%, og 88,9% og 100% på de to test sæt, hhv. De øverste tre 2-gen-kombinationer er FERMT2 + GREM1, TEK + NFASC, CAV1 + MMP1. Blandt de bedste diskriminatorer har CAV1 vist sig at være nedreguleret i brystcancer [28], og er blevet rapporteret at være forbundet med metastase i lungecancer [29]. SFTPC er blevet rapporteret at være associeret med interstitiel lungesygdom [30]. FAM107A, der undertrykker cellevækst, kan spille en rolle i cancer udvikling [31]. Andre top diskriminatorer repræsenterer nye observationer. For eksempler, TNXB, SPP1 og EMCN er ikke tidligere blevet rapporteret som kræft-relateret.
E. Kræft i bugspytkirtlen.
Analysen blev udført på en microarray datasæt bestående af 39 parrede bugspytkirtelkræft og kræft-tilstødende kontrol vævsprøver fra de samme patienter [32]. 885 gener viste sig at være konsekvent og unormalt udtrykt med mindst 2-gange ændring i deres udtryk på tværs af kræft og kontrol væv i træningsdata, 616 af dem er opreguleret og 269 er nedreguleret i bugspytkirtelkræft. To uafhængige sæt, bestående af 36 og 29 bugspytkirtelkræft prøver og 16 og 5 kræft-tilstødende kontrolprøver fra de samme patienter [33], blev anvendt til at vurdere den generelle betydning af de forudsagte markører.
De tre bedste single -genet diskriminatorer er KRT17, COL10A1 og CTHRC1 for kræft i bugspytkirtlen, der har samme klassificering nøjagtighed, 93,6% på træningssættet og 88,5% og 80,4%, 84,6% og 73,2%, og 84,6% og 85,7% på de to test-apparater, henholdsvis. De tre 2- og 3-gen top diskriminatorer er {MMP7 + AZGP1; MMP7 + FGL1; MMP7 + PLA2G1B} og {CTHRC1 + SGPP2 + CCL18; TNFRSF21 + EGFL6 + CTHRC1; COL10A1 + S100A6 + RSAD2} hhv. Blandt de øverste diskriminatorer er KRT17 kendt for at være involveret i væv reparation [34]. AZGP1 er blevet rapporteret at forårsage omfattende tab af fedt, ofte i forbindelse med fremskredne kræftformer [35]. Andre top diskriminatorer repræsenterer nye resultater. For eksempler, RSAD2, der er involveret i antiviral forsvar, ikke er blevet rapporteret som værende relateret til kræft, samt SGPP2, kendt for at være involveret i pro-inflammatorisk signalering [36], og CST4.
F. Prostatakræft.
Analysen blev udført på en microarray datasæt bestående af 65 prostatakræft og 63 kræft-tilstødende kontrol vævsprøver fra de samme patienter [37]. 118 gener viste sig at være konsekvent og unormalt udtrykt med mindst 2-gange ændring i deres udtryk på tværs af kræft og kontrol væv i vores uddannelse data, hvoraf 23 er opreguleret og 95 er nedreguleret i lungekræft væv. To uafhængige sæt, bestående af 62 og 53 prostatakræft prøver og 47 og 14 cancer-tilstødende kontrolprøver fra de samme patienter [38], blev anvendt til at vurdere det generelle i de forudsagte markører.
De tre bedste single gen diskriminatorer er MYLK, PALLD og CAV1 for prostatakræft, der har 73,4%, 71,9% og 71,1% klassificering nøjagtighed på settet uddannelse og 83,5% og 62,3%, 69,6% og 72,6%, og 94,2% og 75,5% på de to test satte henholdsvis. De tre 2- og 3-gen top diskriminatorer er {LTF + IGF1; LTF + SPARCL1; SMTN + CCK}, {SMTN + CCK + CCL2; SMTN + CCK + COMP; SMTN + CCK + PLA2G7} hhv. Blandt de bedste diskriminatorer er LTF kendt for at inhibere væksten af tumorer [39]. IGF1, en vækstfaktor, spiller en rolle i udviklingen af prostatacancer [40] og er blevet rapporteret som en indikator for fremskreden prostatacancer [41]. Andre top diskriminatorer repræsenterer nye opdagelser. For eksempel kan CHRDL1 spille en rolle i reguleringen af angiogenese [42], men er ikke blevet rapporteret at være relateret til cancer. Det samme er med SMTN.
G. Mavekræft.
Analysen blev udført på en microarray datasæt bestående af 89 mavekræft og 23 kræft-tilstødende kontrol væv fra de samme patienter [43]. Ud af 89 kræft vævsprøver de 31 er debuterende kræftformer. 311 gener viste sig at være konsekvent og unormalt udtrykt med mindst en 2-gange ændring i deres ekspression på tværs af cancer og kontrol væv i vores træningsdata, 166 som er opreguleret og 145 er nedreguleres i lungekræft væv. To uafhængige sæt, bestående af 38 og 16 mavekræft prøver og 31 og 13 kræft-tilstødende kontrolprøver fra de samme patienter [44], [45] blev anvendt til at vurdere den generelle betydning af de forudsagte markører, heraf 12 stage prøver tidlige delvist parret med 10 kontrolprøver.
de bedste tre single-gen diskriminatorer er SERPINH1, BGN og COL12A1 for mavekræft, idet 99,1%, 98,2% og 98,2% klassificering nøjagtighed på træningssættet og 94,2% og 96,7 %, 88,4% og 93,3%, og 84,1% og 75,8% på de to test sæt, hhv. De øverste tre 2-gen-kombinationer er CHGA + SERPINH1, TGFBI + CHGA og PGC + SERPINH1 hhv. For tidlig mavekræft, de bedste tre
1
-genet diskriminatorer er også SERPINH1, BGN og COL12A1 hhv. Blandt de bedste diskriminatorer er BGN kendt for at have en rolle i regulering af cellevækst i cancer [46]. Den abnorme ekspression af CTHRC1, en regulator af matrix deposition, er blevet bredt fundet tværs af forskellige faste cancere og anses for at være forbundet med cancer invasion og metastase [34]. Af særlig interesse er, at PGC er blevet foreslået som en indikator for gastrisk cancer [47], og serumniveauet af PGC blev anvendt som en biomarkør for præcancerøse læsioner i maven [48]. Andre top diskriminatorer repræsenterer nye opdagelser. For eksempel ABCA5, ADAMTS12 og CLEC3B er ikke blevet rapporteret til at være kræft relateret.
Interessant, at antallet af differentielt udtrykte gener på tværs af forskellige typer cancer har en bred spredning, der spænder fra 118 (prostata), 231 (nyre ), 247 (colon), 294 (bryst), 311 (mave) til 683 (lunge) og 885 (pancreas). En mulig forklaring er, at disse tal kan afspejle aggressiviteten af de tilsvarende cancersygdomme. Vi har bemærket, at der er stærk sammenhæng mellem antallet af differentielt udtrykte gener i en given kræftform og de fem-års overlevelse på patienter med at kræft [49] (Figur 2). De detaljerede statistikker er givet i tabel S3. En anden interessant observation er, at mens de fleste af de differentielt udtrykte gener med mindst 2-fold ændring i fem cancertyper (bryst, colon, lunge, prostata, mave) er nedreguleret i nyre og pancreascancer, flertallet af sådanne gener er opreguleret, muligvis antyder unikke kendetegn ved disse to kræftformer.
2. Markører for flere cancertyper
Vi har også forsøgt at identificere gener, der kan anvendes som indikatorer for kræft i almindelighed og for en gruppe af cancere. Det er muligt at finde fælles gen “markører” på tværs af forskellige typer kræft på grund af den iagttagelse, at de fleste af de kræftformer, hvis ikke alle, gennemgår et fælles sæt af ændringer [50] under onkogenese, såsom selvforsyning i vækstsignaler, ufølsomhed over for antigrowth signaler, unddragelse af apoptose, og væv invasion og metastase. Nogle af disse biologiske processer kan gennemføres af de samme grupper af proteiner under dannelsen og udviklingen af forskellige kræftformer, og derfor muligvis kan give anledning til fælles markører for forskellige typer kræft.
A. Identifikation af gener udtrykkes forskelligt på tværs af flere typer kræft.
Vi har undersøgt differentielt udtrykte gener med mindst to-fold ændringer mellem kræft og tilsvarende kontrol væv på tværs af alle syv cancertyper og forsøgte at finde de gener der er fælles for flere kræft typer. De vigtigste resultater er opsummeret i tabel 1.
85 gener er fundet at være udtrykt forskelligt over mindst tre kræftformer (Tabel S4), hvoraf 19 gener er over mindst fire kræftformer, og fem gener (ABCA8, DPT, FHL, cdc2 og TOP2A) på tværs af fem kræftformer. Forskellene i genekspression tværs af forskellige cancertyper kan indikere enten en generel eller særlig relevans af genet til de tilsvarende cancere, som er blevet delvist bekræftet ved den funktionelle analyse og en omfattende litteratursøgning. Den detaljerede molekylære funktion af disse gener er opsummeret i tabel S4. 63 ud af de 85 gener er blevet rapporteret at være cancer associeret med tidligere undersøgelser. For eksempel cdc2, opreguleret i fem af de syv cancere undersøgte, er blevet rapporteret at være relateret til colon, prostata og mavekræft, hvilket ikke er overraskende i lyset af dets rolle i reguleringen af cellecyklussen, fx post fra G
1 til S; TOP2A, igen opreguleret i fem af de syv cancere, er blevet rapporteret at være associeret med gastrisk [51], bryst [52] og ovariecancer [53], i overensstemmelse med dens funktion i DNA-streng regulering; Begge disse to gener er blevet betragtet som multi-type kræft markører af en tidligere meta-analyse af cancer microarray data [7]. RRM2, opreguleret i fire af de syv cancere, er blevet foreslået at være relateret til spiserøret og gastriske cancere og prostatacancer, i overensstemmelse med dets afgørende rolle i DNA-syntese, som skal opretholdes i hurtigt delende celler. Desuden har 49 gener blevet rapporteret at være relevant for immune sygdomme, såsom CXCL12, COL1A1, MMP9, og CD36 [54], [55], [56], [57], sandsynligvis afspejler en inflammatorisk-type ofte forbundet med kræft. Blandt dem, MMP9, vigtigt i ekstracellulær matrix-nedbrydning, er opreguleret i tre af de syv cancere, og CD36, som kan fungere i celleadhæsion, er nedreguleret i tre af de syv cancere;
Leave a Reply
Du skal være logget ind for at skrive en kommentar.