PLoS ONE: en netværksbaseret Gene Expression Signature Informerer Prognose og behandling for tarmkræft Patienter

Abstrakt

Baggrund

Flere undersøgelser har rapporteret genekspression signaturer, der forudsiger tilbagefald risiko i fase II og III kolorektal cancer (CRC) patienter med minimal gen medlemskab overlapning og udefineret biologisk relevans. Målet med denne undersøgelse var at undersøge biologiske temaer bag disse underskrifter, at udlede gener af potentiel mekanistisk betydning for CRC gentagelse fænotype og at teste, om der kan udvikles nøjagtige prognostiske modeller ved hjælp mekanistisk vigtige gener.

Metoder og Resultater

Vi undersøgte otte offentliggjorte CRC genekspression signaturer og fandt ingen funktionel konvergens i Gene ontologi berigelse analyse. Ved hjælp af en random walk tilgang, vi integreret disse underskrifter og offentligt tilgængelige somatisk mutation data på en protein-protein-interaktion netværk og udledes 487 gener, der var plausible kandidat molekylære fundament for CRC gentagelse fænotype. Vi navngivet liste over 487 gener en NEM signatur, fordi det integrerede information fra Netværk, Expression, og Mutation. Signaturen viste signifikant berigelse i fire biologiske processer tæt relateret til kræft patofysiologi og forudsat god dækning af kendte onkogener, tumor undertrykkere og CRC-relaterede signalveje. En NEM signatur-baserede Survival Support Vector Machine prognostisk model blev uddannet ved hjælp af et microarray genekspression datasæt og testet på et uafhængigt datasæt. De modelbaserede scoringer viste en 75,7% overensstemmelse med de i real overlevelsesdata og adskilt patienterne i to grupper med signifikant forskellige tilbagefald overlevelse (

s

= 0,002). Lignende resultater blev opnået med tilbageførte uddannelse og afprøvning datasæt (

s

= 0,007). Endvidere blev adjuverende kemoterapi signifikant associeret med forlænget overlevelse af patienter med høj risiko (

s

= 0,006), men ikke til gavn for patienter med lav risiko (

s

= 0,491).

konklusioner

NEM signatur ikke kun afspejler CRC biologi, men også informerer patient prognose og behandlingsrespons. Således netværksbaserede dataintegration metode giver en konvergens mellem biologisk relevans og klinisk anvendelighed i gen signatur udvikling

Henvisning:. Shi M, Beauchamp RD, Zhang B (2012) en netværksbaseret genekspression Signature Informerer prognose og behandling for tarmkræft Patienter. PLoS ONE 7 (7): e41292. doi: 10,1371 /journal.pone.0041292

Redaktør: Valerie W. Hu, The George Washington University, USA

Modtaget: Marts 3, 2012; Accepteret: 19. juni 2012; Udgivet: 23 Jul 2012

Copyright: © 2012 Shi et al. Dette er en åben adgang artiklen distribueres under betingelserne i Creative Commons Attribution License, som tillader ubegrænset brug, distribution og reproduktion i ethvert medie, forudsat den oprindelige forfatter og kilde krediteres

Finansiering:. Dette arbejde blev støttet af NIH (https://www.nih.gov/) giver GM088822, CA069457, DK052334, og støtte fra Vanderbilt Ingram Cancer center Support Grant CA068485 og GI Cancer SPORE Grant CA095103. De finansieringskilder havde ingen rolle i studie design, indsamling og analyse af data, beslutning om at offentliggøre, eller forberedelse af manuskriptet

Konkurrerende interesser:.. Forfatterne har erklæret, at der ikke findes konkurrerende interesser

Introduktion

Kolorektal cancer (CRC) er den tredje hyppigste årsag til global kræft dødelighed [1]. Ifølge etaper defineret af amerikanske Blandede Cancer (AJCC), 5-års overlevelse satser er 93,2% for fase I, 82,5% for fase II, 59,5% for fase III, og 8,1% for trin IV CRC patienter [2] . Adjuverende kemoterapi (CTX) til fase III CRC patienter har vist overlevelse; dog vil 42-44% af patienterne behandlet med kirurgi alene ikke gentager sig i 5 år [3]. På den anden side, selv om de enkelte kliniske forsøg ofte har undladt at vise fordelene ved adjuverende CTX for fase II-patienter, ca. 20% af stadie II patienter vil gentage sig inden for 5 år. Derfor er det afgørende at udvikle en præcis metode til stratificere patienterne stadie II og III CRC ved risiko for tilbagefald, så adjuverende CTX kan gives til patienter med høj risiko, mens lavrisiko-patienter kan give afkald på disse giftige behandlinger for at undgå potentielle skade som såvel som den økonomiske byrde.

Baseret på den direkte sammenligning af microarray data fra meget aggressive og mindre aggressive CRC tumorer, flere undersøgelser har rapporteret genekspression signaturer, der forudsiger tilbagefald risiko i fase II og III CRC patienter [4] [5], [6], [7], [8], [9], med minimal overlapning af deres gen lister [10]. Mangel på konkordans er en almindelig observation i genekspression signatur undersøgelser [11], hvilket rejser spørgsmål om deres kliniske implikationer [12]. Imidlertid har prognostiske modeller baseret på flere CRC genekspression signaturer blevet valideret i selvstændige patientkohorter [6], [7], [8]. Desuden har en tidlig undersøgelse i brystkræft vist, at der tilsyneladende adskilte signaturer kan vise en betydelig aftale i resultatet forudsigelse [13]. Det er blevet foreslået, at forskellige signaturer kan have fælles biologiske temaer, der ikke er synlige på det individuelle gen-niveau [12]. Derfor sti og netværksbaserede metoder er blevet udviklet i et forsøg på at afsløre biologiske mekanismer der ligger til grund overensstemmende prognose blandt forskellige genekspression signaturer i brystkræft og prostatakræft [14], [15], [16], [17].

at finde fælles biologiske temaer underliggende genekspression signaturer mindsket tidligere bekymringer om den biologiske gyldighed af signatur gener [18]. Ikke desto mindre er det et faktum, at gen-signaturer bestemt af overvåget dataanalyse er stærkt påvirket af den delmængde af patienterne, der anvendes til gen-valg, og medlemskab af et gen i en sådan signatur er ikke udtryk for vigtigheden af, at genet i kræft patologi [19 ]. Fordi forskellige kombinationer af gener kan vælges til at bygge tilsvarende nøjagtige forudsigelsesmodeller [20], en spændende men ubesvaret spørgsmål er, om begrænsende genomisk plads til mekanistisk vigtige gener kan producere nøjagtige prognostiske modeller. Et positivt svar på dette spørgsmål vil føre til en bedre overensstemmelse mellem biologisk betydning og klinisk prognose, hvilket igen vil give indsigt i romanen målrettede terapeutiske strategier.

I dette arbejde, vi studerede de biologiske temaer underliggende offentliggjort CRC genekspression signaturer. Ved at integrere genekspression signaturer og somatisk mutation data på en protein-protein-interaktion netværk, viser vi, at CRC gentagelse fænotype involverer dysregulering af flere biologiske processer, og hver signatur kun fanget et par gener i disse processer. Baseret på disse observationer, vi den hypotese, at en genekspression signatur med mekanisk vigtige gener udledes netværksanalyse bedre kan repræsentere underliggende biologi og kan føre til prognostiske modeller med forbedret ydeevne. Til dette formål har vi udviklet Survival Support Vector Machine (SSVM) modeller bruger to uafhængige datasæt baseret på en sådan underskrift og cross-testet deres præstationer. Resultaterne viser, at vores model nøjagtigt kan forudsige CRC gentagelse. Desuden patient stratifikation baseret på forudsagt risiko for tilbagefald giver nyttige oplysninger om adjuverende CTX gavn for CRC patienter.

Metoder

Udgivet CRC Gene Expression Signaturer

Gennem manuel litteraturgennemgang på papirer offentliggjort mellem 2000 og 2010, vi identificeret fra syv papirer [4], [5], [6], [7], [8], [9], [21] otte genekspression signaturer, der er i stand til at adskille fase II og /eller fase III CRC patienter i lav risiko og høj risiko undergrupper. Underskriften i Jorissen et al. [22] blev ikke medtaget, fordi de genekspression datasæt anvendes til at udlede, at signaturen blev brugt til model udvikling og evaluering i den aktuelle undersøgelse. De otte underskrifter omfattede i alt 208 gener.

Gener muteret i CRC

Brug af CanProVar databasen [23] (https://bioinfo.vanderbilt.edu/canprovar), vi hentede 549 gener med observerede somatiske mutationer i CRC prøver.

humant protein-protein interaktion Netværk

protein interaktion data blev hentet og integreret fra BioGRID, MINT, HPRD, REACTOME, DIP og MINT i 2010, som tidligere beskrevet [24]. Proteinet interaktion netværk omfattede 94,066 interaktioner mellem 11,521 proteiner

onkogener og tumorsuppressorgener

Kendte onkogener og tumorsuppressorgener blev hentet fra CancerGenes [25] og GLAD4U (http:. //Bioinfo. vanderbilt.edu/glad4u). For hvert værktøj, vi hentede to gen-lister ved hjælp af forespørgslen vilkår onkogen og tumor suppressor henholdsvis.

Gene Expression datasæt

To genekspression datasæt af primære kolorektale tumorer (GSE17536 [8] og GSE14333 [22]), blev hentet fra Gene Expression Omnibus GEO database (). Fase I og fase IV prøver blev udelukket fra denne undersøgelse. GSE14333 omfattede nogle af prøverne fra GSE17536, der blev fjernet fra GSE14333 i denne undersøgelse. Klinisk og patologisk information af de to datasæt er vist i tabel 1. Begge datasæt blev genereret på Affymetrix U133 plus 2.0 array. cel-filer til datasættene blev normaliseret ved hjælp af den Robust multichip Analysis (RMA) algoritme [26] som gennemført i BioConductor. De datasæt blev behandlet hver for at sikre deres uafhængighed. Probe sæt identifikatorer (IDS) blev kortlagt til gen symboler baseret på kortlægningen, som GEO-databasen. Probesæt der mappet til multiple gener blev elimineret. Når flere probesæt blev kortlagt til det samme gen, proben indstilles med den største interkvartile område (IQR) blev valgt på grund af dets høje forskelle mellem prøver. For at gøre udtryk niveau sammenlignelige på tværs af gener, blev udtryk værdier for hvert gen standardiseret ved hjælp af en Z-score transformation. I denne undersøgelse blev hvert datasæt anvendt som en uddannelse-sæt efter tur og udviklet prognostiske modeller blev testet mod den anden datasæt.

Netværk-baserede Prioritering

Vi brugte en modificeret version af vores tidligere offentliggjorte NetWalker algoritme [24] at integrere ekspressionsvektorer signaturer og offentligt tilgængelige somatisk mutation data på en protein-protein-interaktion netværk for at identificere gener af potentiel mekanistisk betydning for CRC gentagelse fænotype (figur 1). Netwalker er baseret på den random walk med genstart teknik [27]. Givet et netværk og starte sandsynligheder for hver node repræsenterer forudgående oplysninger om deres relative betydning, algoritmen beregner en endelig prioriteret score for hver node baseret på steady state sandsynligheder. Random walk med genstart formelt defineret som følgende ligning: hvor

r

er genstart sandsynlighed,

W

er kolonnen-normaliseret nabomatrix af netværket grafen, og

p

t

er en vektor af størrelse lig med antallet af knuder i grafen, hvor

jeg

th element holder sandsynlighed for at være på node

i dele på tidsskridt

t

.

Udgivet genekspression signaturer og somatiske mutation data blev kortlagt til en protein-protein interaktion netværk. Gennem integration af oplysninger fra Mutation, Expression, og Network, blev en NEM signatur afledt ved hjælp af NetWalker algoritme baseret på random walk med genstart teknik. Biologisk relevans af signaturen blev evalueret baseret på funktionel oplysninger, herunder Gene ontologi, kendte kræft gener og signalveje. Klinisk relevans af signaturen blev evalueret ved at udvikle en Survival SVM model baseret på en genekspression datasæt og afprøvning i et uafhængigt datasæt for dets nøjagtighed i prognosen og forudsigelse respons på behandlingen.

Selvom vores tidligere tildeler implementering lige starte sandsynlighed til alle frø noder, denne modificerede version giver forskellige start- sandsynligheder for frø noder. I denne undersøgelse, vi oprettet start sandsynligheder for alle gener baseret på deres involvering i genekspression signaturer og det muterede gen listen. Lig totalvægt blev givet til genekspression signatur data og mutationsdata. For genekspression signatur data, blev relativt højere vægt givet til gener involveret i flere signaturer. For mutation data, blev relativt højere vægt givet til gener med flere varianter. Start sandsynlighed for gen

i

() er formelt defineret som følgende ligning: hvor

s

Jeg

er antallet af CRC genekspression signaturer i hvilket gen

i

er et medlem,

m

jeg

er antallet af kendte mutation varianter i CRC prøver i CanProVar for gen

jeg

, og

n

er det samlede antal af gener i proteinet interaktion netværk.

for NetWalker algoritme, genstart sandsynligheden var sat til 0,5 og konvergens blev bestemt ved hvor er sandsynligheden for gen

i

t

th iteration.

for at vurdere den statistiske signifikans af scorer for hvert gen, vi bygget 1000 sæt tilfældigt permuteres start- sandsynligheder og omsatte 1000 sæt tilfældige scoringer. For hvert gen i netværket, blev en lokal

s Drømmeholdet værdi estimeret ved at sammenligne den reelle score tilfældige scorer fra det samme gen, og en global

s Drømmeholdet værdi blev anslået ved at sammenligne den reelle score til tilfældige scoringer fra alle gener [24]. Gener med både lokale og globale

s

værdier mindre end 0,05 blev betragtet som signifikante gener. Vi kaldte listen over væsentlige gener en NEM signatur, fordi det integrerede information fra Netværk, Expression, og Mutation.

Til sammenligning har vi også udført netværksbaseret prioritering ved hjælp start- sandsynligheder tildelt kun baseret på genekspression signatur data eller mutation data henholdsvis med tilsvarende betydelige gen lister navngivet som NE underskrift eller NM signatur.

Gene ontologi berigelse analyse

Gene Ontology (GO) berigelse analyse blev udført ved hjælp WebGestalt [28]. Standard korrektion multiple prøvningsmetode “Benjamini Hochberg “blev anvendt til FDR beregning. For at tage højde for den afhængige indlejrede GO struktur, WebGestalt præsenterer berigede GO kategorier i en rettet Acycliske graf (DAG) for at lette hurtig identifikation af de store ikke-redundante beriget biologiske temaer. Vi udførte en manuel undersøgelse af beriget DAG og rapporteres de mest repræsentative udtryk for hver gren.

Udvikling og Evaluering af SSVM Model

En R implementering af survsvm rådighed i survpack pakke [29 ], [30] blev ansat til SSVM model udvikling, og den gaussiske kerne-funktionen blev brugt. Gennemførelsen af ​​SSVM har to parametre c og σ, hvor c er omkostningerne til fejl i den forudsagte hændelsesforløb og σ er den parameter for Gaussisk kerne. I denne undersøgelse, lader vi hver af disse parametre varierer blandt kandidat mængden {10

-5, 10

-4, 10

-3, 10

-2, 10

-1 , 10

0, 10

1, 10

2, 10

3, 10

4, 10

5} for at danne forskellige parameter kombinationer. Femdobbelt krydsvalidering blev anvendt, og gentaget fem gange for at identificere de optimerede parametre ifølge C-indeksværdi (se nedenfor for beskrivelse). Fuldt udviklede SSVM model baseret på de optimale parametre blev derefter evalueret i den uafhængige datasæt, hvor en SSVM-baseret score blev afledt for hver patient.

Survival Analysis

Foreningen mellem SSVM-baserede score og reelle patienternes prognose blev bedømt ved de C-indeksværdier, Kaplan-Meier-overlevelseskurver og log-rank test. Den C-indeks er en sandsynlighed for, at overensstemmelsen mellem forudsagte og observerede overlevelse, med C-indeks = 0,5 for tilfældige forudsigelser og C-index = 1 for en perfekt diskriminerende model. Standard Kaplan-Meier-overlevelseskurver blev genereret for patientgrupper dannet på grundlag af de SSVM scoringer, og overlevelse forskellen mellem grupperne var statistisk evalueret ved brug af log-rank test.

Resultater

Berigelse Analyse mislykkedes at afsløre Funktionel konvergens af de signaturer

Vi undersøgte 8 CRC genekspression signaturer (tabel 2). Syv ud af de 8 underskrifter blev udviklet baseret på en sammenligning af tilbagevendende og ikke-tilbagevendende tumorer, hvor nogle undersøgelser omfattede tumorer i alle faser, mens andre omfattede kun tumorer af udvalgte etaper. Undersøgelsen af ​​Smith et al. [8] integreret humane tumor data med data fra CRC mus cellelinje modeller i signatur udvikling. Undersøgelsen fra Barrier et al. [21] anvendte ikke-neoplastisk slimhinde fra trin II patienter i stedet for tumorer.

t

-test og dens varianter blev anvendt til udvælgelse signatur i de fleste af studierne, og forskellige machine learning teknikker blev anvendt til opførelse af prognostiske modeller. Trods af den tekniske forskel i eksperimentelle og beregningsmæssige procedurer, alle prognostiske modeller var i stand til at adskille fase II og /eller stadie III patienter i lav risiko og højrisikogrupper. Flere modeller er blevet valideret på en patient kohorte uafhængig af den, der bruges til underskrift og model udvikling.

I overensstemmelse med tidligere rapporter [10], fandt vi minimal overlapning mellem disse genekspression underskrifter på individuelle gen-niveau (Figur 2 ). For at teste om disse underskrifter konvergerer ved fælles biologiske processer, vi udførte Gene Ontology (GO) berigelse analyse for hver signatur ved hjælp WebGestalt. Kun to underskrifter viste beriget biologiske processer på signifikansniveauet på False Discovery Rate (FDR) mindre end 0,01 (figur 2). Signature_3 blev beriget i “translationel forlængelse” (9 gener, FDR = 3.21e-12) og Signature_5 blev beriget med “immunsystem proces” (9 gener, FDR = 0,001) og “celle-celle signalering” (6 gener, FDR = 0,0067). Berigning resultater fra underskrifter 3 og 5 foreslået, at forskellige signaturer kan være forbundet med forskellige biologiske mekanismer. Endvidere manglende funktionel konkordans til andre signaturer indikerede, at forskellige gener i en signatur kan udgøre særskilte biologiske temaer og eventuelt støj. For yderligere at teste, om de fælles biologiske temaer kunne identificeres ved at kombinere alle underskrifter, vi udførte berigelse analyse for alle 208 gener i de 8 underskrifter. Beriget biologiske processer identificeret inkluderet “translationel forlængelse” (10 gener, FDR = 4.0e-4) og “decidualisering” (4 gener, FDR = 0,0049). Førstnævnte var tydeligvis bidraget primært ved signature_3. Således berigelse analyse undladt at afsløre funktionel konvergens mellem CRC genekspression signaturer. Interessant, selvom tidligere undersøgelser rapporteret bred overensstemmelse mellem de biologiske processer fanget af forskellige brystkræft prognostiske underskrifter, en nylig undersøgelse [31] sammenligne to maskine-learning baseret brystkræft prognostiske underskrifter kun fundet statistisk signifikant konkordans i celleproliferation.

Hver cirkel repræsenterer en genekspression signatur med nummeret i parentes angiver signatur størrelse. Numrene anmærke berigede biologiske processer, antal gener der er involveret i de processer, og tilsvarende Falske Discovery priser for betydningen af ​​berigelse.

Integrativ Network Analysis Identificerede fælles mekanismer Underbygning CRC Gentagelse

tidligere undersøgelser tyder på, at gener, der vides at være forbundet med den samme sygdom fænotype tendens til at ligge tæt på hinanden i et protein-protein-interaktion netværk [27], [32]. Endvidere Chen et al. [16] viste, at cancer signatur gener er mere tilbøjelige til at være tæt på kendte onkogener og tumor suppressorer i et protein-protein-interaktion netværk. Derfor brugte vi en netværksbaseret tilgang til at integrere disse underskrifter på protein-protein interaktion netværk i et forsøg på at identificere gener af potentiale mekanistisk betydning for CRC gentagelse fænotype. Foruden genekspression ændring, kan somatiske mutationer i mekanisk vigtige gener også føre til den samme fænotype. Derfor vi yderligere indsamlet 549 gener med somatiske mutationer i CRC fra CanProVar databasen [23] for at forbedre netværket analyse under anvendelse af NetWalker algoritmen [24]. Begge signatur gen lister og det muterede gen Listen omfattede mekanistisk vigtige gener (fx driver mutationer og effektorer) og andre gener (fx personbiler mutationer og epiphenomena). Desuden kan nogle mekanistisk vigtige gener mangler i disse lister. Den NetWalker algoritme udleder gener af potentiel mekanistisk betydning baseret på den antagelse, at disse gener sandsynligvis til at danne tæt forbundne klynger, mens andre har tendens til at være tilfældigt fordelt på netværket. Brug af signatur generne og de muterede gener som “frø”, algoritmen beregnes en score for hvert gen i netværket baseret på dens samlede nærhed til alle frøgener, hvor nærhed måles af random walk lighed [27]. For at vurdere den statistiske signifikans af scorerne konstruerede vi 1000 sæt af tilfældige frø og frembragte 1000 sæt tilfældige scores. For hvert gen, vi estimeret en lokal

s

værdi baseret på alle tilfældige scoringer af det samme gen og en global

s

værdi baseret på tilfældige scorer for alle gener. En betydelig global

s

værdi angiver den samlede betydning af genet med hensyn til input frø, mens en betydelig lokal

s Drømmeholdet værdi sikrer, at betydning er ikke bare på grund af netværk topologi [24 ]. I alt 487 gener med både lokale og globale

s

værdier mindre end 0,05 blev betragtet som signifikante gener, herunder 464 fra de originale lister og 23 tilføjet af algoritmen (figur 3A). Vi kaldte listen over 487 gener NEM signatur, fordi det integrerede information fra Netværk, Expression, og Mutation. Listen omfattede kendte CRC-relaterede gener, herunder APC, CTNNB1, KRAS, TP53, BRAF, blandt andre. Den omfattede også gener med ukendt, men potentielle betydning i CRC gentagelse. En komplet liste over de NEM signatur gener og deres

p

værdier er tilgængelige i tabel S1. For at teste robustheden af ​​metoden med hensyn til forskellige input genekspression signatur lister fjernede vi hvert udtryk signatur fra frø, en ad gangen, og omsatte 8 NEM-7 underskrifter (dermed navn, fordi de brugte kun 7 ud af 8 tilgængelig genekspression signaturer). Disse forsøg ændret det samlede antal input ekspressionssignatur gener fra 4% (når signature_1 blev fjernet) til 28% (når signature_2 blev fjernet). Den DICEs koefficient mellem NEM-7 signaturer og den oprindelige NEM underskrift varierede fra 0,88 til 0,96 med et gennemsnit på 0,93, hvilket tyder på høj robusthed af metoden.

(A) Overlap blandt de publicerede genekspression signaturer ( 208 gener), muterede gener (549 gener), og NEM signatur (487 gener). (B) Procentdelen af ​​onkogener og tumorsuppressorgener i de offentliggjorte genekspression signaturer (a), muterede gener (b), og NEM signatur (c), som kommenteret af CancerGenes. (C) procentdelen af ​​onkogener og tumorsuppressorgener i de offentliggjorte genekspression signaturer (a), muterede gener (b), og NEM underskrift (c), som kommenteret af GLAD4U.

GO berigelse analyse af NEM signatur identificeret fire store biologiske processer med betydelig berigelse (tabel 3), herunder “signaltransduktion” (186 gener, FDR = 7.07e-11), “celleproliferation” (71 gener, FDR = 3.03e-8 ), “programmeret celledød” (75 gener, FDR = 1.83e-9), og “udviklingsproces” (158 gener, FDR = 3.98e-9). Skønt disse processer er brede og ikke nødvendigvis cancer-specifik, de er i overensstemmelse med kendetegnene ved kræft [33]. Bortset Signature_1, alle andre ekspressions- signaturer omfattede et lille antal gener i nogle af eller alle disse biologiske processer (tabel 3). Desuden blev alle disse biologiske processer betydeligt beriget med alle de NEM-7 underskrifter.

Næste, vi beregnede forholdet mellem kendte onkogener og tumorsuppressorgener i foreningen af ​​offentliggjorte genekspression signaturer, den somatisk mutation gen liste, og NEM signatur, baseret på kommentarer fra to forskellige ressourcer, CancerGenes og GLAD4U. Fordi mange af de kendte onkogener og tumorsuppressorgener identificeres på baggrund somatisk mutation, var det ikke overraskende, at somatisk mutation genet listen havde en højere procentdel af disse gener end genekspression signaturer. Det var imidlertid interessant at se, at NEM signatur havde den højeste procentdel af kendte onkogener og tumorsuppressorgener (figur 3, B-C). For bedre at forstå inddragelse af NEM signatur gener i cancer-specifikke veje, vi kortlagt dem til kræft pathway kortet kurateret af Kegg. Som vist i figur S1, genet liste kortlagt til næsten alle kræftrelaterede veje, med en klar berigelse i Wnt signalvejen, TGF-beta-signalvejen, og ErbB signalvejen, at de vigtigste veje er dereguleret i CRC [34]. Sammenfattende viste NEM signatur betydelig berigelse fire biologiske processer tæt relateret til kræft patofysiologi og forudsat god dækning af kendte onkogener, tumor undertrykkere og CRC-relaterede signalveje, hvilket viser en høj relevans for CRC biologi.

de NEM signatur-baserede prognostiske modeller effektivt Predicted CRC gentagelse

for at teste, om NEM signatur med gener centreret om funktionelt vigtige netværk kan forudsige CRC gentagelse, vi udviklede prognostiske modeller ved hjælp af disse gener som funktioner og evalueret ydeevne modeller i selvstændige patientkohorter.

først, vi trænet en SSVM prognostisk model ved hjælp af genekspression datasæt GSE17536 og testet sine resultater på en uafhængig datasæt GSE14333. Blandt de 487 gener i NEM signatur, blev kun de 467 gener i datasættet til at træne modellen. Femdobbelt krydsvalidering blev anvendt, og gentaget 5 gange for at optimere parametrene for SSVM algoritme, og en fuld model baseret på den komplette datasæt blev udviklet under anvendelse af de optimale parametre. For test i GSE14333 blev SSVM scores beregnet for individuelle prøver, med en højere score indikerer højere risiko og kortere overlevelsestid. De beregnede SSVM scores og den virkelige overlevelsesdata viste 75,7% konkordans (C-index = 0,757). Baseret på de SSVM scoringer blev patienterne opdelt i to grupper, en “lavrisiko” gruppe med nedenstående-median scores og en “høj-risiko” gruppe med ovennævnte median scores. Som vist i figur 4A, høj-risiko gruppen havde signifikant dårligere tilbagefald overlevelse (hazard ratio [HR], 7,47; 95% konfidensinterval [CI], 1,64 til 34,0; P = 0,002) end gruppen med lav risiko. Den tilbagefald overlevelse efter 3 år var 96,9% for lav risiko gruppen sammenlignet med 69,3% for gruppen med høj risiko.

Kaplan-Meier-overlevelseskurver for patient undergrupper identificeret i GSE14333 ved hjælp af modeller udviklet baseret på GSE17536 med forskellige gen-sæt. (A) NEM signatur baseret på netværksanalyse med frø noder herunder 208 gener i offentliggjorte signaturer og 549 muterede gener, N = 487; (B) Den NE signatur baseret på netværksanalyse med frø noder herunder 208 gener i offentliggjorte underskrifter, N = 546; (C) De NM signatur gener baseret på netværksanalyse med frø noder herunder 549 muterede gener, N = 435; (D) foreningen af ​​208 gener i offentliggjorte signaturer og 549 muterede gener, N = 753; (E) 208 gener i offentliggjorte underskrifter, N = 208; (F) 549 muterede gener fra CanProVar, N = 549.

Kaplan-Meier-overlevelseskurver for patient undergrupper identificeret i GSE17536 ved hjælp af modeller udviklet baseret på GSE14333 med forskellige gen-sæt. (A) NEM signatur baseret på netværksanalyse med frø noder herunder 208 gener i offentliggjorte signaturer og 549 muterede gener, N = 487; (B) Den NE signatur baseret på netværksanalyse med frø noder herunder 208 gener i offentliggjorte underskrifter, N = 546; (C) De NM signatur gener baseret på netværksanalyse med frø noder herunder 549 muterede gener, N = 435; (D) foreningen af ​​208 gener i offentliggjorte signaturer og 549 muterede gener, N = 753; (E) 208 gener i offentliggjorte underskrifter, N = 208; (F) 549 muterede gener fra CanProVar, N = 549.

En nylig undersøgelse viser, at de fleste tilfældige genekspression signaturer signifikant associeret med brystkræft resultat [35]. Derfor har vi gentaget vores analyse under anvendelse 10 sæt af tilfældigt udvalgte 487 gener. Når modellerne uddannet på GSE17536 blev testet på GSE14333, de fik en median C-indeks på 0,546 og en median P-værdi på 0,568. Således behøver tilfældig gen underskrifter ikke synes at arbejde i CRC prognose.

En overvejelse er, at 487 gener kan være for mange til praktisk klinisk gennemførelse. Derfor forsøgte vi forskellige cutoff værdier i netværksbaserede prioritering proces at ændre antallet af udvalgte gener. Brug af forskellige

p

værdi cutoffs herunder 0,005, 0,01 og 0,1, vi identificeret 45, 105 og 810 gener, hhv. Brug parametre udvalgt baseret på tværs af valideringsresultater blev tre SSVM modeller udviklet på GSE17536 og testet på GSE14333 hhv. Som vist i figur S2, udførelsen af ​​den 810-genet model var sammenlignelig med den for 487-genet model, mens de 105 og 45 gen modeller viste lidt forudsigelse magt. Derfor yderligere reducerer den genomiske rum synes problematisk, muligvis på grund af den underliggende kompleksitet CRC.

(A) Kaplan-Meier-overlevelseskurver for højrisikopatienter i GSE17536 og GSE14333, med (CTX) og uden ( INGEN CTX) adjuverende CTX; (B) Kaplan-Meier-overlevelseskurver for patienter med lav risiko i GSE17536 og GSE14333, med og uden adjuvans CTX.

Fordi NEM signatur integreret information fra mutationer, genekspression signaturer, og protein- protein interaktion netværk, vi forsøgte at dissekere deres individuelle bidrag til den observerede resultater. Netværk signaturer afledt ved hjælp af den samme netværk prioritering metode, men er baseret på enten genekspression underskrifter alene (NE signatur med 546 gener, figur 4B) eller de muterede gener alene (NM signatur med 435 gener, figur 4C) ikke resulterer i sammenlignelige ydeevne som at fra NEM signatur (figur 4A). Konkret C-indekset for NEM signatur-baserede model var 27% højere end for NE signatur-baserede model og 13% højere end for NM signatur baseret model. På den anden side, alle tre modeller afledt fra nettet signaturer (Figur 4A-C) klarede sig bedre end deres modparter uden netværksbaseret prioritering (figur 4D-F). For eksempel C-indekset for NEM signatur-baserede model var 28% højere end for den model, baseret på foreningen af ​​alle gen signaturer og muterede gener.

Be the first to comment

Leave a Reply