Abstrakt
Mange undersøgelser har etableret genekspression-baserede prognostiske signaturer til lungekræft. Alle disse underskrifter blev bygget fra træning datasæt ved at lære korrelationen af genekspression med patienternes overlevelsestid. De kræver alle nye eksempeldata at være normaliseret til træningsdata, i sidste ende resulterer i fælles problemer med lav reproducerbarhed og upraktiske. For at overvinde disse problemer, foreslår vi en ny signatur model, som ikke involverer data uddannelse. Vi hypotesen, at ubalancen af to modsatrettede effekter i lungekræft celler, repræsenteret ved Yin og Yang generne, bestemmer en patients prognose. Vi valgte yin og yang generne ved at sammenligne udtryk data fra normale lunge- og lungekræft vævsprøver ved hjælp af både uovervåget klyngedannelse og veje analyser. Vi beregnede Yin og Yang genekspression betyder ratio (YMR) som risikoscorer patient. Tredive-én Yin og toogtredive Yang gener blev identificeret og udvalgt til signaturen udvikling. I normale lungevæv, den YMR er mindre end 1,0; i lungekræft tilfælde, at YMR er større end 1,0. Den YMR blev testet for lungekræft prognose forudsigelse i fire uafhængige datasæt og det betydeligt lagdelte patienter i høj- og lav risiko overlevelse grupper (p = 0,02, HR = 2,72; p = 0,01, HR = 2,70; p = 0,007, HR = 2,73; p = 0,005, HR = 2,63). Den viste også forudsigelse af kemoterapi resultater for fase II III. I multivariat analyse YMR risikofaktor var mere vellykket på forudsige kliniske resultater end andre almindeligt anvendte kliniske faktorer, med undtagelse af tumor fase. Den YMR kan måles i en enkelt patient i klinikken uafhængig af genekspression platform. Denne undersøgelse forudsat en roman indsigt i biologi lungekræft og belyse den kliniske anvendelighed
Henvisning:. Xu W, Banerji S, Davie JR, Kassie F, Yee D, Kratzke R (2013) Yin Yang Gene Expression Ratio Signatur for lungekræft Prognose. PLoS ONE 8 (7): e68742. doi: 10,1371 /journal.pone.0068742
Redaktør: Tone Frost Bathen, The Norges teknisk-naturvidenskabelige universitet (NTNU), Norge
Modtaget: Januar 15, 2013; Accepteret: 3 juni 2013; Udgivet: 17 juli 2013
Copyright: © 2013 Xu et al. Dette er en åben adgang artiklen distribueres under betingelserne i Creative Commons Attribution License, som tillader ubegrænset brug, distribution og reproduktion i ethvert medie, forudsat den oprindelige forfatter og kilde krediteres
Finansiering:. Forfatterne har ingen støtte eller finansiering til at rapportere
konkurrerende interesser:.. forfatterne har erklæret, at der ikke findes konkurrerende interesser
Introduktion
Lungekræft er den hyppigste årsag til kræft-relaterede dødsfald i Nordamerika. Mens der har været et fald i lungekræft dødsfald blandt mænd på grund af en reduktion i rygning i de sidste 50 år, er det stadig for 29% af alle mandlige kræftdødsfald i 2010 [1]. Det 5-års samlede overlevelsesraten for lungekræft er så lav som 16% og er ikke væsentligt forbedret i løbet af de seneste 30 år [1]. Ikke-småcellet lungekræft (NSCLC) er den mest almindeligt diagnosticeret lungekræft tegner sig for 85% af de årlige tilfælde. Ca. 25% til 30% af NSCLC-patienter til stede med tidlig fase I-sygdom og modtage kirurgisk indgreb. Men mere end 20% af disse patienter tilbagefald inden for fem år [2]. Adjuverende terapi har forbedret overlevelse af en undergruppe af patienter med stadium II og III sygdom. Det er imidlertid ikke kendt, hvilke patienter er mere tilbøjelige til at tilbagefald og ville gavne mere fra yderligere behandlinger.
For at forbedre de kliniske resultater, har forskere investeret mange kræfter i identificere lungekræft biomarkører, der tillader klinikere at gøre en tidlig diagnose , forudser sygdomsforløb, og effekten af behandlingen. Genom-dækkende udtryk profilering ved hjælp microarray-teknikker har identificeret mulige gen signaturer til at klassificere patienter i forskellige overlevelse resultatet kohorter [3] – [17]. Tidligere rapporterede modeller blev bygget ved at lære de korrelationskoefficienter mellem genekspression og patienternes overlevelsestid fra uddannelse datasæt og de kræver, at nye test datasæt normaliseres med træningsdata. Derfor er disse signaturer har lav reproducerbarhed og er upraktiske i en klinik indstilling. Der er ikke meget tegn på, at nogen af de rapporterede genekspression signaturer er klar til klinisk anvendelse [18].
For at løse disse problemer, har vi udviklet en empirisk model, som ikke er baseret på viden om patienternes overlevelsestid for bestemmelse af lungekræft biomarkør signatur. Genregulering er en kompleks flerdimensional proces, som omfatter et spektrum af gener, der enten aktiverede eller undertrykt, og hvis ekspression er enten kontinuerlig eller midlertidig. Vi hypotesen, at prognosen er bestemt af to modsatrettede grupper af gener, som vi kalder Yin og Yang. I lungecancerceller, er det normale gen-ekspression dysreguleret resulterer i cellulær proliferation og formindsket differentiering. Effekten af Yin Yang teori er, at det forenkler komplekse flerdimensionale aspekter af genekspression i to modsatrettede dimensioner – Yin og Yang, og hvor balancen mellem Yin og Yang sikrer et sundt status for celler. Tidligere publicerede studier har henvist til de modsatrettede funktioner kendte tumorsuppressorer og oncoproteiner som yin og yang i tumorigenese [19] – [21]. Vi hypotesen, at i stedet for en individuel gen, to funktionelt ubalancerede grupper af gener (Yin og Yang) i lungecancerceller afgøre skæbnen af tumorcellerne, som i sidste ende bestemmer patientens overlevelsestid. Nøjagtig identifikation af Yin og Yang gener i tumor udvikling kan bruges til at udvikle en prognostisk signatur.
Materialer og Metoder
Lung Cancer Patient Sample data
Vi fokuserede vores undersøgelse på adenocarcinom da det er en mere almindelig lungekræft og genekspression data med tilhørende kliniske information er lettere tilgængelig. De eksempeldata fra Bhattacharjee
et al
. er tidligere blevet beskrevet [22]. Den består af 203 lungekræft patientprøver herunder 139 adenocarcinomer, 20 pulmonale carcinoider, 21 skælcellecarcinomer, 6 småcellet lungekræft og 17 normale lunge vævsprøver fra tilstødende sektioner. Blandt de 139 adenocarcinomer blev 125 patientprøver forbundet med klinisk opfølgning information om overlevelsestid og gentagelse. De eksempeldata fra Bild
et al
. indeholder 58 primære adenocarcinomer indsamlet gennem hertugen Lung Cancer Prognose Laboratory [23]. Disse prøver blev associeret med 1-6 års patienternes opfølgning. The National Cancer Institute direktørens Challenge Consortium (DCC) til Molekylær Klassificering af lungeadenocarcinom prøver består af 442 adenocarcinomer med patienternes kliniske oplysninger [13]. Disse prøver blev indsamlet og behandlet i 4 selvstændige institutioner: Canada /Dana-Farber Cancer Institute (CAN /DF), University of Michigan Cancer Center (UM), HL Moffitt Cancer Center (HLM), og Memorial Sloan-Kettering Cancer Center (MSK ). Stages I, blev II og III adenocarcinomer indsamlet, med ca. 60% af prøverne fra fase I tumorer. Ingen af patienterne fik præoperativ kemoterapi eller strålebehandling, og mindst 2 års opfølgende oplysninger var til rådighed. 288 lunge adenocarcinom (LUAD) prøver fra The Cancer Genome Atlas (TCGA) Projekt har omfattende kliniske oplysninger. Undtaget fra datasættet var 20 patienter, hvis overlevelsestid ikke er tilgængelig og 9 levende patienter med follow up tid mindre end 2 dage.
Gene Expression data
genekspression af Bhattacharjee prøverne blev fundet af Affymetrix HU_U95Av2 GeneChip. De rå hybridisering intensitet datafiler (CEL) blev hentet fra https://www.broadinstitute.org/mpr/lung/. Genekspressionen indekser blev forarbejdet med MAS5.0 algoritme ved hjælp af Expressionist Refiner modul (GeneData, Inc, San Francisco, CA, USA). Ingen yderligere normalisering blev gjort inden for hvert datasæt for at holde den enkelte prøve uafhængig i gen-biomarkør opdagelse. Undtagen i clustering analyse for differentielt udtrykte gen identifikationer, blev den Robust Multi-matrix Average (RMA) afledt og normaliserede udtryk målinger beregnet ud fra de rå CEL-filer. Genekspressionen af Bild prøver blev påvist ved Affymetrix HU_U133plus2 GeneChip og signalintensiteten blev beregnet ved MAS5.0 algoritme. Datasættet blev hentet fra NCBI GEO database (GSE3141). DCC rå HG_U133A CEL filer blev hentet fra NCI caArray database (https://array.nci.nih.gov/caarray/project/details.action?project.id=182) [13]. MAS5.0 algoritme blev anvendt til genekspression sammendrag. Ingen normalisering eller forfiltrering blev anvendt på prøver eller gener. De 259 RNA-seq data blev hentet fra TCGA Data Portal (https://tcga-data.nci.nih.gov/tcga/tcgaDownload.jsp). Den genekspression RKPM (læser pr kilobase per million kortlagt læser) værdi blev udvundet eksempelfiler.
Signature Gener Identifikation og Selection
Udtrykket indeks blev sammenfattet af RMA algoritme og yderligere normaliseret ved itemwise Z-normalisering ved hjælp Genedata Analyst modul (GeneData, Inc, San Francisco, CA, USA). 2-D hierarkisk euklidisk L2 afstand clustering med komplet kobling indstilling for begge gener og prøver blev udført for at udforske de differentielt udtrykte biomarkør gener i lungetumorer. Ureguleret og nedreguleret gener i cancer væv blev udvalgt fra 2D klyngedannelse. Gener, der blev udtrykt højere i normale lungevæv end i lunge kræftceller blev kaldt “Yang” gen-kandidater omvendt gener udtrykt højere i lunge kræftceller end normale lungevæv blev kaldt “Yin” gen-kandidater. Disse to gen-lister blev indtastet i IPA9.0 (Ingenuity® Systems, www.ingenuity.com) til interaktion netværk og sti analyse. Netværkene er bygget af direkte interaktioner. Netværkene med signifikante scoringer blev udvalgt til yderligere analyse.
Gene Signature Classifier Development
Udtrykket værdier af de valgte Yin generne og Yang gener blev udvundet fra offentliggjorte microarray udtryk data. I første omgang, Yin (Y) og Yang (y) udtryk aritmetisk gennemsnit ratio (YMR) blev beregnet som en signatur klassificeringen for hver prøve (YMR =). Siden 31 Yin gener og 32 Yang gener blev identificeret som probe sæt fra HG-U95A GeneChip, vi brugte disse probe sæt for at udtrække yin og yang genekspression værdier Bhattacharjeès prøver. At udtrække Yin og Yang-gener fra forskellige platforme, vi brugte disse 63 probe sæt og /eller deres gen symboler for at matche probe sæt andre platforme. Vi først kigget på de bedste match probe sæt, som deler høj sekvens identitet og repræsenterer de samme gener. De bedste match probe sæt filer kan downloades fra Affymetrix (https://www.affymetrix.com). Hvis der ikke kan findes de bedste match probesæt i en bestemt platform, vi brugte yin og yang gen symboler. Én Yin eller Yang gen symbol kan indeholde en enkelt sonde sæt (samme kamp) eller flere probe sæt. For flere id’er inden for samme gen symbol, blev en gennemsnitlig værdi anvendes. I HG-133plus2 af Bild datasæt, har 62 gener blevet beregnet gennemsnitlige udtryk værdier fra flere probe sæt da kun én bedst matchede sonde indstillet til HG-U95A 39651_at (RECQL4 gen). I HG-133A platform DCC datasæt, 22 Yin gener ‘blev udtryk stammer fra 22 bedst matchede probe sæt, 3 gener matcher enkelt probe sæt og 6 gener’ udtryk var gennemsnit udtryk for flere probe sæt; 29 Yang gener ‘udtryk var fra bedst matchede probe sæt, og 2 gener fra flere probe sæt. Patienten risikoscore blev afledt fra YMR værdier. Ved hjælp af en YMR cutoff-værdier, vi delte patienter i høj- og lavrisiko-prognostiske grupper. Da en 2-fold forskel ofte vælges som en arbitrær værdi i en to-gruppe sammenligning defineret vi en 2-fold Yin løbet Yang som en cutoff og derefter justeret det baseret på normale prøve betyde YMR eller cancer stikprøvemiddelværdi YMR. Hvis den normale lunge prøve YMR er betydeligt mindre end 1,0 (fx de TCGA RNAseq data), vil YMR cutoff justeres til at være lavere end 2,0. Hvis normal prøve betyde YMR er ikke tilgængelig for et bestemt datasæt (f.eks DCC og Bild datasæt), vi justeret en cutoff værdi, der ligger tæt på den gennemsnitlige YMR af lungekræftpatienter datasæt, da mange undersøgelser anvender den gennemsnitlige risikoscore at stratificere patienterne. Udtrykket værdi af et gen kan måles fra et enkelt probe sæt i en platform, men flere probesæt i anden platform. Denne forskel i udtryk måling kan resultere i forskellige YMR cutoff værdier i forskellige platforme. Vi forventer det samme YMR cutoff værdi for den samme platform. Det er værd at bemærke, at disse store skala ekspressionssystemer platforme oprindeligt var designet til forskning formål, ikke til klinisk anvendelse. De vilkårlige YMR cutoff værdier bestemt ud fra disse forskellige platforme bruges kun til YMR signaturvalidering. I fremtiden vil vi optimere et enkelt YMR cutoff værdi for resultater fra et klinisk relevant platform såsom qPCR.
Vi sammenlignede også den aritmetiske YMR med geometriske gennemsnit af Yin og Yang Ratio (gYMR). For at teste optimale gen størrelse, observerede vi effekten af at droppe gener fra 31 Yin og 32 Yang gen listen på forbindelse med kliniske resultater. Vi vurderede også betydningen af YMR signatur ved at sammenligne YMR til forholdet mellem tilfældigt valgte grupper af identiske gruppestørrelse.
Statistisk analyse
For at evaluere resultaterne af den YMR signatur, vi brugte hver YMR som dichotomous eller kontinuerlig kovariat i en Cox proportionel risiko model, med 5-6 år samlede overlevelse eller fornyet-fri som resultatet variable [13], [24] – [26]. Den estimerede hazard ratio, 95% konfidensinterval og p-værdi gav os mulighed for direkte at sammenligne opførelser af YMR kovariat med andre kliniske variable. Kaplan-Meier produkt-limit metoder og log-rank test blev anvendt til at estimere og teste forskelle i sandsynligheden for at overleve mellem lav- og højrisiko-patientgrupper. Den overlevende funktion blev plottet for hver undergruppe. Alle statistiske analyser blev udført ved hjælp af Partek® software-version 6.3 (Partek Inc., St. Louis, MO, USA) eller R statistik pakke Survcomp [27].
Validering
For at validere at YMR er mindre end 1,0 i normale lungevæv og større end 1,0 i lungekræft vævsprøver, målte vi YMR i nye uafhængige datasæt. Disse datasæt blev behandlet af forskellige platforme, herunder Affymetrix GeneChip HG-U95, HG-133A, HG-133plus2, Illumina beadChip, og to-kanals array. De YMRS blev beregnet ud fra disse datasæt enten med eller uden data normalisering baseret på de oprindelige datakilder
For at validere YMR signatur for lungekræft prognose blev fire uafhængige datasæt anvendes:. 125 Bhattacharjee adenokarcinomer prøve datasæt af HG_U95Av2 platform som overlevelsestiden ikke blev brugt i modelbygning, 58 Bild adenokarcinomer prøve data af HG-133Plus2 platform, 442 DCC prøve filer af HG-133A platform, og 259 TCGA prøver af RNA-seq platform. Disse er veldefinerede patientprøver med kliniske oplysninger. Til analyserne i denne undersøgelse, overlevelse eller fornyet-fri resultater blev sammenlignet i henhold til højrisiko-YMR (dvs. YMR er større end 2,0 eller et justeret cutoff) og lav-risiko YMR (YMR er mindre end eller lig med 2,0 eller en justeret cutoff ) patienter. Den YMR score lagdeling i de samme faser, og som respons på behandlingen blev testet i følgende grupper af DCC patienter henholdsvis: Jeg fase; fase II III; modtaget kemoterapi; ingen kemoterapi; kemoterapi på trin I; kemoterapi på scenen II III; ingen kemoterapi på trin I; ingen kemoterapi på scenen II III.
Resultater
Identifikation af kandidatlandene lungekræft biomarkør Gener
Vi sammenlignede normale lunge prøver med lungekræft prøver indsamlet fra patienter af blandet tumor etaper med forskellige overlevelsestid til identificere og vælge gener grupper til underskrift udvikling. Brug uovervåget clustering analyse af microarray data fra Bhattacharjee
et al
. [22] undersøgte vi differentiel genekspression i 17 normale lunge vævsprøver og 83 prøver fra en række forskellige lungekræft typer. I 2D klyngedannelse, valgte vi en region, hvor generne nedreguleret i normale prøver, men opreguleret i næsten alle typer af lungekræft (Figur S1a). Den region, hvor gener blev opreguleret i en eller nogle få cancertyper blev ikke valgt. Vi identificerede 74 probesæt i denne region (fig S1B, tabel S1). Vi identificerede også et område, hvor gener blev opreguleret i normale prøver, men nedreguleret i næsten alle typer af lungekræft (Figur S2A). Den region, hvor generne blev nedreguleret i en eller få cancertyper blev ikke valgt. Vi identificerede 108 probe sæt i denne region (figur S2B, tabel S2, figur 1A).
A. Gruppering af gen identifikation. De probesæt er i rækker og prøverne er i kolonner. Udtrykket indekser på alle de 12,625 probe sæt af de 100 prøver blev sammenfattet af RMA algoritme og yderligere normaliseret ved itemwise Z-normalisering. 74 opreguleres gener (nederste halvdel rækker) og 108 (øverste halve rækker) ned regulerede gener i cancer væv blev udvalgt fra 2D clustering regioner. De forudvalgte 74 og 108 probsets blev vist ved clustering igen. B. Yin (nederst) og Yang (øverst) gener udvælgelse af funktionel analyse. De to cirkler repræsenterer de to kerner af funktionelle virkninger af Yin og Yang. Generne fremhævet af samme farve er i samme interaktion netværk.
Ved at sammenligne genekspression mellem forskellige celletyper af lungekræft til de normale lungeceller, fælles Yin og Yang gener mellem de forskellige kræftformer kunne identificeres. Gene clustering, snarere end gruppe statistik test, ikke kun detekterer ekspressionsmønstre, men viser også en vis grad af genet interaktioner inden det samme mønster. I modsætning til differential genekspression som følge af to koncerninterne statistiske tests, genekspression mønstre som følge af clustering har større tolerance over for variationer på grund af prøvetagning og databehandling. Individuelle gener må ikke til stede i differential gen listen på grund af store variationer, der findes i nogle få prøver, men de samme gener kan vise en lignende samlet udtryk mønster i klyngeanalyse.
Yin Yang gener viste lidt overlap med den tidligere rapporterede lungekræft prognostiske signatur gener. mange Yin gener rapporteret her, blev imidlertid fundet i tidligere undersøgelser, der relaterer lungekræft eller anden vævstype kræft udvikling, såsom GRIN2D [28], GAST [29], AMH [30], TCF3 [31], EXOSC2 [32], GRM1 [33], CDT1 [34], RecQL4 [35], CSTF2 [36], FCGR2B [37], RNASEH2A [38], CDC6 [39], CACYBP [40], BIRC5 [41], Cdc25 [42], de nationale tilsynsmyndigheder [43], EN2 [44], og MIF [45]. Selv om
n-ras
proto-onkogen er i Yin gen listen, har vi ikke finde andre onkogener, der er involveret i lunge tumorigenese. Dette kan skyldes ændring af forskellige onkogener i forskellige undergrupper af lungekræft. vi spekulere dog, at progression gener kan spille større rolle end gener involveret i initiering eller forfremmelse fase af lunge tumorigenese at bestemme lungekræft prognose.
Pathway og interaktion netværk analyser af disse 74 gener tilladt at vælge to vigtigste netværk, der er relateret til tumor morfologi (tabel S3, netværk signifikant score på 42) og DNA-replikation (tabel S4, netværk signifikant score på 30). Disse netværk deltager i de kanoniske molekylære mekanismer i kræft vej (figur 1B, figur S3). Disse netværk indeholder 31 gener, hvis gen symbol navne matchede Affymetrix U95 AV2 sonde sæt identifikatorer. Vi valgte disse 31 gener som Yin gen kandidater (tabel 1). De 108 nedreguleret gener udgjorde to vigtigste netværk tilknyttet til vedligeholdelse (netværk betydelig score på 63) og cellulære udvikling (netværk signifikant score på 23) processer. RAR aktiveringsvej og Hepatisk Stellate Cell Activation pathway (fig S4) af Yang gener påberåbes udøve en lang række virkninger på vævshomeostase, celleproliferation, differentiering og apoptose. Der er beviser for, at lungevæv huser Nedsat Stellate-lignende celler, som er vitamin-A-lagring lungeceller [46] – [47]. Vi hentet fokus generne fra de netværk, der er involveret celle vedligeholdelse og cellulære udvikling proces, der resulterer i to gen-grupper. Disse to grupper (tabel S5, S6) blev kombineret, hvilket resulterede i 32 unikke gener i alt. Vi definerede disse 32 gener som Yang gen kandidater til underskrift udvikling (tabel 2).
Gene Signatur for lungekræft
At opbygge signaturen model vi beregnet den YMR til patienten risikoscorer. Den YMR repræsenterer en simpel kombination eller interaktion effekt af Yin generne og Yang gener. Forholdet indikerer Yin og Yang balance status i lungeceller eller hvilken gruppe af gener er mere aktive end andre og omfanget af denne forskel. I normale lungeceller, Yang er større end Yin. Kræft fænotyper har højere YMR scores derefter er forbundet med højere risiko for sygdom. Vi først valideret vores hypotese, at YMR er mindre end 1,0 i normale lungevæv og større end 1,0 i lungekræft væv. Vi brugte flere uafhængige prøve datasæt med forskellige platforme og forskellige forbehandler (tabel S7). YMRS var mindre end 1,0 i alle normale lunge datasæt [48] – [52] (figur 2). Vi målte også YMRS af 12 forskellige normale typer humant væv i ét datasæt [52] (Tabel S8). De YMRS var mindre end 1,0 i normal lunge, såvel som i andre normale væv, såsom hjerte, milt, skeletmuskulatur, og prostata, men større end 1,0 i andre væv, såsom leveren. Dette resultat antyder, at Yin og Yang genekspressionsprofiler er vævstype specifikke. I de 83 prøver af forskellige lungecancer typer hvorfra Yin og Yang gener blev identificeret via differential genekspression analyse, alle prøver havde en YMR større end 1,0. De YMRS større end 1,0 i andre uafhængige lungekræft prøve datasæt er også vist i figur 2.
Microarray genekspression datasæt fra forskellige rapporter med forskellige platforme blev anvendt. De datasæt blev beskrevet som i tabel S7.
YMR Signature Forudsiger Overlevelse Outcomes
Vi evaluerede YMR for prognose af fire datasæt, hvor patienten klinisk information var tilgængelig. Vi først valideret YMR model for udfaldet af datasættet Bhattacharjee [22], hvorfra modellen blev bygget risiko. Da patientens overlevelsestid eller fornyet-free time information ikke blev anvendt i modelleringen, dette datasæt derfor tjener som en uafhængig datasæt. Vi først testet YMR som en kontinuerlig variabel under anvendelse Cox proportional hazards model og beviste, at den forøgede YMR er forbundet med dårligere behandlingsresultater inden 6 års fornyet rente (p = 0,044, HR = 1,96) (tabel S9). Vi derefter undersøgte YMR som en dikotomisk variabel at stratificere patienterne som høj og lav risikogrupper. Da de normale lunge prøver fra samme datasæt viser en gennemsnitlig YMR på 0,91 og 125 adenocarcinomer har en gennemsnitlig YMR af 2,23 definerede vi en YMR cutoff på 2,0. Vi grupperet 125 adenocarcinomer patienter i høj risiko (YMR 2,0, n = 65) og (YMR = 2,0, n = 60) med lav risikogrupper. Som det ses i figur 3A YMR betydeligt stratificeret den høje tilbagefald og en lav gentagelse risikogrupper (p = 0,013, HR = 2,7). Tidligere undersøgelser har rapporteret en signifikant p-værdi for deres genprodukter signaturer. Dette er forventeligt, da disse signaturer udviklet af patienternes overlevelsestid og derefter bruges igen til at forudsige overlevelsestiden. Som senere demonstreret, at problemet med disse tilgange er deres lave reproducerbarhed for nye uafhængige datasæt. Derimod er YMR tilgang ikke uddannet til en bestemt datasæt og ville antages at arbejde for enhver datasæt. Vi plukket tilfældigt 500 par af grupper af identiske gruppestørrelser på Yin og Yang gener fra 12,625 gener af den HU-95av2 platform og brugte samme forhold cutoff som YMR 2,0. De 500 p-værdier har en gennemsnitlig p-værdi på 0,75 (SD = 0,32) (Figur S5). Vi fandt, at fire p-værdier fra disse tilfældige tests er meget lav (0, 0, 0, 1E-18, henholdsvis), men deres HRs er 1,0 eller tæt på 1,0 således disse grupper ikke kan stratificere risikogrupper.
A. Free-recidiv tid funktion kurve (lav risiko n = 60; høj risiko n = 65) af de adenocarcinomer patienter fra Bhattacharjee
et al
. B. Samlet overlevelsestid funktion kurve af adenocarcinomer patienterne (lav risiko n = 27; høj risiko n = 31) fra Bild
et al
. C. Patient prøver (lav risiko n = 248; høj risiko n = 194) af DCC-projektet. D. RNA-seq prøver (lav risiko n = 121; høj risiko n = 137) fra TCGA. Lav YMR scoringer (i grønt) svarer til den højeste forudsagte overlevelse sandsynlighed og høj YMR scores (i rødt) svarer til den største forudsagt risiko.
Vi derefter evaluerede YMR for en stor uafhængig DCC datasæt . Disse datasæt blev indsamlet og behandlet fra fire forskellige institutioner. De indeholdt patologiske data og kliniske oplysninger beskriver omfanget af sygdommen ved kirurgi og det kliniske forløb af sygdommen efter prøveudtagning [13]. Vi grupperet disse 442 patienter med YMR i høj risiko (YMR 1,8, n = 194) og lav risiko (YMR = 1,8, n = 248) emner siden den gennemsnitlige YMR er 1.85. Som det ses i figur 3C og tabel S9, overlevelse resultaterne af disse to grupper var signifikant forskellige (p = 0,005, HR = 2,63). Ligeledes brugte vi YMR cutoff på 1,4 til Bild datasæt siden middelværdien YMR af de 58 adenocarcinomer er 1.6. Den YMR signifikant stratificeret (p = 0,019, HR = 2,72) Denne uafhængige datasættet til høj (YMR 1.4, n = 31) og en lav (YMR = 1,4, n = 27) risikogrupper (figur 3B). Vi beregnede YMR forholdet hjælp RNA-seq data for 259 TCGA prøver. De kontinuerlige YMR scoringer forbinder med overlevelsesraten signifikant (p-værdi 0,007, HR 1,87) (tabel S9). Den dichotomous YMR signatur betydeligt stratificeret høj- (n = 137) og lav risiko (n = 121) grupper (p = 0,007, HR = 2,73) (Figur 3D og tabel S9).
Vi beregnede geometriske gennemsnit af Yin og Yang genekspression ratio (gYMR) og testet sit samarbejde med dårligt resultat både som en kontinuerlig variabel og en dikotomisk variabel. Som det ses i tabel S10, er den kontinuerlige gYMR ikke arbejde for Bhattacharjee data og Bild data og dikotomisk gYMR fungerer ikke for Bhattacharjee data enten. Den aritmetiske YMR er robust i fire datasæt. Den løbende YMR viste ikke sin forbindelse med kliniske resultater i Bild data sæt HG-133plus2 platform (p = 0,49). Dette skyldes den lille data størrelse er følsomme over for patientens afvigende eller undtagelser. Efter vi fjernet patient GSM70223 hvis YMR er 6.35, p-værdi på kontinuerlig YMR faldet til 0,08. Efter vi yderligere fjernet patient GSM70159 hvis YMR er 2.87, men overlevede 73 måneder, p-værdien faldet til en betydelig grad af 0,0199. Vi har ikke tilstrækkelige data til at hjælpe med at forklare, hvorfor denne undtagelse har en høj YMR men en lang overlevelsestid. Men disse outliers eller undtagelser påvirkede ikke dikotomisk YMR (cutoff 1.4), der væsentligt stratifierer patienternes risiko i dette datasæt (p = 0,02, HR = 2,72) (tabel S9)
Brug af DCC. datasæt, testede vi virkningen af at droppe gener fra genet liste Yin og Yang (fig S6). Dropper en Yin-genet (217871_s_at, gen MIF) væsentligt forbedret p-værdien af YMR, men dens HR aftager samtidigt (øverste panel i fig S6). Dropper en Yin gen påvirker p-værdi på gYMR men påvirkede ikke HR (midterste panel i figur S6). Dropper en Yang gen en tid påvirkede ikke p-værdi på både YMR og gYMR (data ikke vist), eller HR af YMR og gYMR (nederste panel af figur S6). Sammenlignet med YMR, gYMR er mere modstandsdygtige over for drop-off effekt eller øget forening risiko efter nogle gener blev droppet. Dropper tre Yin gener (HIST1H4J, Cdc25A, og IGFBP5) giver bedste ydeevne af gYMR for DCC-data (Middle panel af figur S6). Med undtagelse af de Bhattacharjee data ved hjælp dichotomous YMR, gjorde det samme gen nedkastning ikke forbedre ydeevnen af enten YMR (tabel S11) eller gYMR i andre tre datasæt (tabel S12). Disse resultater indikerer, at Yin og Yang genet liste kunne optimeres yderligere til mindre størrelse ved at fjerne en til tre gener. Imidlertid er denne optimering begrænset af overlevelsestiden for datasættet testet, svarende til de begrænsninger af data træning tilgang. Vi forventer, at omkring 30 Yin og 30 Yang generne vil sikre en repræsentation af hele Yin og Yang effekter af kræftceller og en ensartet ydeevne for forskellige datasæt. Mindre gen lister kan holde den samme eller forbedre formen til et datasæt, men fungerer muligvis ikke godt for andre datasæt.
Sammenligning af YMR med tidligere rapporterede Signaturer
Vi sammenlignede flere aspekter af YMR for dem med tidligere rapporterede signaturer. Som opsummeret i tabel 3, er YMR fremføres i reproducerbarhed og funktionalitet. Vi sammenlignede også den prognostiske ydeevne YMR model til en nylig rapporteret 15-genet signatur [17]. Denne signatur blev hævdet overlegen i forhold til mange andre tidligere rapporterede lungekræft prognostiske signaturer ved at teste et samme datasæt med alle andre signaturer. Vi brugte samme DCC datasæt og de adenocarcinom data Bild [23] fra en anden platform (U133plus2) for denne sammenligning. Som det ses i figur S7A, den 15-genet signatur signifikant stratificeret DCC prøver (p = 0,011, HR = 2,68), men ikke for Bild prøver (figur S7B, p = 0,6). Men YMR ikke kun stratificeret DCC prøver i høj risiko og risikogrupper lave mere markant (figur S7C, p = p = 0,005, HR = 2,63) end de 15-genet signatur, men også (Figur S7D, p = 0,019, HR = 2,72) adskilt de Bild prøverne ind i høj- og lav-risiko grupper, den 15-genet signatur ikke kunne. Vi har ikke sammenligne de to andre datasæt (NLCI, Agilent 44k, JBR 10, RT-qPCR), der blev brugt i Zhu
et al
undersøgelse [17], fordi disse to platforme ikke indeholder nok YMR signatur gener . Vi fandt 15-genet signatur fungerer bedst for pladecelle-lungecarcinomer blandt alle fem datasæt, men YMR fungerede for disse data (data ikke vist), sandsynligvis på grund af forskellen af tumorbiologi mellem planocellulært lungecarcinom og adenocarcinom.
Analyse af YMR og Kliniske kovariater
Vi evaluerede YMR med klinik kovariater i lungekræft prognose.
Leave a Reply
Du skal være logget ind for at skrive en kommentar.