PLoS ONE: Sammenligning af den prognostiske Utility af den Diverse Molekylær data blandt lncRNA, DNA-methylering, microRNA, og mRNA tværs fem menneskelige Cancers

Abstrakt

Introduktion

Fremskridt i high-throughput teknologier har genereret diverse informative molekylære markører for cancer udfald forudsigelse. Lange ikke-kodende RNA (lncRNA) og DNA-methylering som nye klasser af lovende markører fremkommer som væsentlige molekyler i humane cancere; Men den prognostiske anvendelighed af en sådan forskelligartet molekylær data forbliver på at blive udforsket.

Materialer og metoder

Vi foreslog en beregningsmæssige rørledning (IDFO) til at forudsige patientens overlevelse ved at identificere prognose-relaterede biomarkører bruger multi -type molekylære data (mRNA, microRNA, DNA methylering, og lncRNA) fra 3198 prøver af fem kræftformer. Vi vurderede prædiktiv ydeevne både enkelt molekylære data og integrerede molekylære data multi-type i patientens overlevelse lagdeling, og sammenlignet deres relative betydning på hver type af kræft, hhv. Overlevelse analyse ved hjælp multivariat Cox regression blev udført for at undersøge virkningen af ​​IDFO-identificerede markører og traditionelle variabler på det kliniske resultat.

Resultater

Brug af IDFO tilgang, vi opnåede gode prædiktiv ydeevne molekylære datasæt (bootstrap nøjagtighed: 0,71-0,97) i fem kræfttyper. Imponerende, lncRNA blev identificeret som den bedste prognostiske indikator i de validerede kohorter af fire kræftformer, efterfulgt af DNA-methylering, mRNA, og derefter microRNA. Vi fandt inkorporeringen af ​​molekylære data multi-type viste lignende forudsigelseskraft til molekylære data enkelt-type, men med undtagelse af de lncRNA + DNA-methylering kombinationer i to kræftformer. Overlevelse analyse af proportionale hazard modeller bekræftede en høj robusthed for lncRNA og DNA methylering som prognose faktorer uafhængigt af traditionelle kliniske variable.

Konklusion

Vores undersøgelse giver indsigt i systematisk at forstå den prognostiske ydeevne forskellige molekylære data i både enkelt og aggregerede mønstre, som kan have specifik henvisning til senere relevante undersøgelser

henvisning:. Xu L, Fengji L, Changning L, Liangcai Z, Yinghui L, Yu L, et al. (2015) Sammenligning af den prognostiske Utility af den Diverse Molekylær data blandt lncRNA, DNA-methylering, microRNA, og mRNA tværs Fem Menneskelige kræftformer. PLoS ONE 10 (11): e0142433. doi: 10,1371 /journal.pone.0142433

Redaktør: Rossella Rota, Ospedale Pediatrico Bambino Gesu ‘, ITALIEN

Modtaget: Juli 9, 2015; Accepteret: 21 oktober 2015; Udgivet: November 25, 2015

Copyright: © 2015 Xu et al. Dette er en åben adgang artiklen distribueres under betingelserne i Creative Commons Attribution License, som tillader ubegrænset brug, distribution og reproduktion i ethvert medie, forudsat den oprindelige forfatter og kilde krediteres

Data Tilgængelighed: Data er patientdata. På grund af etiske restriktioner, er tilgængelige fra Cancer Genome Atlas (TCGA) Data Portal for forskere, der opfylder kriterierne for adgang til fortrolige data data:. Https://tcga-data.nci.nih.gov/tcga/

finansiering:. forfatterne har ingen støtte eller finansiering til at rapportere

konkurrerende interesser:. forfatterne har erklæret, at der ikke findes konkurrerende interesser

Introduktion

Kræft prognose forudsigelse er afgørende for at kontrollere de lidelser, progression, og død af patienter. Nøjagtig resultat forudsigelse kan bruges klinisk til at vælge det bedste af flere tilgængelige behandlinger til kræftpatienter og forbedre deres chancer for at overleve [1, 2]. Traditionelt er prognosen baseret på kliniske patologiske parametre såsom tumor stadium, metastase, og patologisk diagnostisk alder [3]. For nylig har en række markante molekylære biomarkører blevet undersøgt og anvendt til at få adgang det kliniske resultat af patienter, såsom protein-baserede (phosphoryleringsassays stater, celleoverfladereceptorer), DNA-baseret (SNP, CNV), og RNA-baserede ( mRNA, microRNA, ncRNA) [4-7]. Desuden er der voksende beviser tyder på, at lange ikke-kodende RNA (lncRNA) og DNA methylering kan mægle onkogene eller tumor undertrykkende resultater, der repræsenterer nye klasser af lovende biomarkører [5]. Men de fleste undersøgelser fokuserer på enten en enkelt kræft slægt eller på individuelle platform data, mens en omfattende sammenligning at bestemme den relative prognostisk effekt for hver klasse af molekyler til en bestemt cancer ville ideelt set give en mere effektiv diagnostisk platform. Dette ville også give overvejelser om, hvorvidt målrette de fælles biomarkører ville give bedre kontrol med kræft [2]. På trods af den voksende adgang til data, der beskriver disse forskellige molekyler, tidligere undersøgelser eller tilgængelige rammer /rørledninger har ikke undersøgt disse spørgsmål.

Strategier såsom RT-PCR og immunhistokemi har undersøgt en lang række biomarkører for prognose [8- 10]. Men de fleste af de biomarkører blev fundet af “kvalificerede gæt” snarere end

via

en systematisk, genom-strategi. Desuden skal kun nogle få er blevet anvendt i et klinisk miljø og anvendeligheden af ​​de fleste af disse wet-lab-baserede markører skal stadig bestemmes [4]. For nylig, ved hjælp af high-throughput profiler, beregningsmæssige tilgange ligesom maskine-learning tilgange [11-16] og forskellige overlevelse modeller [17-19] er truffet for at identificere kandidat biomarkører med prognostiske værdier for sygdom. Mens disse metoder har oparbejdet stor mængde molekylære signaturer med acceptabel nøjagtighed, er blevet udført lidt systematisk forskning for at bestemme den prognostiske effekt af forskellige molekylære signaturer og deres relative betydning. Dette er fordi de fleste undersøgelser lider af en eller flere af følgende fire problemer: (i) mangel af molekylære profiler, (ii) begrænset til enkelt cancer slægt, (iii) underudviklede strategier til at udforske optimale prædiktorer i form af høj dimension data og tumor heterogenitet. Ikke desto mindre er The Cancer Genome Atlas (TCGA) projekt aggregeret store mængder af genomisk data viste sig at øge forståelsen af ​​de kliniske patologier af forskellige molekylære platforme i human cancer [20-23], der ville hjælpe oversættelse af biologiske data i prognostisk nytte.

i denne undersøgelse har vi implementeret en rørledning til at identificere prognose-relaterede biomarkører i multi-OMIC profiler herunder RNA-seq, DNA methylering Bead chip, og microRNA-seq og sammenlignet deres relative prognostisk magt i fem TCGA kræftformer . Under modelleringsprocessen blev biomarkører afgørende for kliniske resultat rangeret og udvalgt ved hjælp af vores Iterativ sletning Feature Optimal (IDFO) tilgang. Desuden har vi vurderet de prædiktive værker af både individuel og integreret multi-OMIC prædiktorer for at undersøge deres bidrag til at modellere ydeevne, og den forudsigende magt diverse molekylære prædiktorer i respektive kræftformer blev yderligere evalueret i uafhængige test sæt. Survival-analyse blev anvendt til at bestemme den prognostiske anvendelighed af alene eller i kombination med kliniske variable IDFO-identificerede prædiktorer. Endvidere at lette anvendelsen af ​​vores tilgang, vi også implementeret en offentligt tilgængelig R kildekode (CAPM.R), som gør det muligt for forskerne at bygge prognose modeller for andre datasæt. Vores undersøgelse tilvejebringer et dynamisk system til kræftprognose forudsigelse, som ikke kun afslører den prognostiske anvendelighed af multi-OMIC data på tværs cancertyper risikovurderingen, men også letter forståelsen af ​​lncRNA og DNA-methylering som potentielle prognostiske markører på tumorprogression.

Materialer og metoder

datasæt

Vi samles 3198 offentligt tilgængelige tumorprøver i array-baserede data mellem fem typer af kræft fra The Cancer Genome Atlas (TCGA) projekt, som er blevet offentliggjort i [20, 24-27] (tabel A i S1-fil beskriver de detaljerede prøve distributioner). Alle tumor prøver blev udvalgt på grundlag af følgende kriterier: (a) underskrifter (mRNA /lncRNA /microRNA udskrifter, DNA methylering sonder) fraværende i 50% af tumor prøver blev fjernet som irrelevant, (b) prøver med matchede kliniske oplysninger ( fx overlevelsestid, alder, tumor fase), (c) tumor patienter med kun op til en måned overlevelse efter kirurgi blev udelukket for at undgå enhver potentiel forvirrende påvirkning af postoperative komplikationer. De fleste af tumorprøverne var sammensat af tre forskellige molekylære profilering datasæt, som var RNA-seq, microRNA-seq, og DNA-methylering Bead chip. Fire typer af molekylære signaturer blev udvundet som prognose prædiktorer fra de tre molekylære dataprofiler, herunder lncRNA og mRNA underskrifter fra RNA-seq profiler, DNA methylering underskrifter var fra DNA methylering Bead chip 450 k /27k, og microRNA signaturer var fra microRNA- seq profiler. For hver molekylære data profil, udvalgte vi tilfældigt to tredjedel af tumor prøver at konstruere (dvs. ‘tog’) forudsigelse modeller til at identificere den bedste ydeevne prædiktorer, og den resterende tredjedel af prøverne blev anvendt til en uafhængig test af disse prædiktorer. Datasæt svarende til forskellige kræftformer blev analyseret separat. Desuden til forudsigelse af resultatet af patienter, tumor prøver blev tildelt enten en ‘god’ eller ‘dårlig’ outcome grupper som prognose etiketter. Tærsklen på to udfald grupper blev defineret på grundlag af kliniske karakterisering af respektive kræftformer (som har den fordel, at give to udfald grupper med lige store i hvert kræft).

Dichotomization for overlevelse data

Vi dikotomiseret de censurerede overlevelsesdata for hver type kræft ved at tildele en tærskel på cutoff tid som: 2 år for patienter med colon adenocarcinom (COAD), 3 år for lunge pladecellekræft (LUSC), serøs cystadenocarcinom karcinom (OV), livmoder corpus endometrioide karcinom (UCEC), og 5 år for brystkræft invasiv carcinom (BRCA). De patienter, der levede over cutoff tid var mærket som “god prognose” den afdøde var mærket som “dårlig prognose. Patienter med censureret overlevelsestid, der var før tærsklen cutoff blev udelukket (f.eks mindre end 1 måned)

Pre-behandling af genomiske og epigenome profiler

RNA-seq:. TCGA RNA-seq niveau 2-data blev normaliseret og behandles ved at beregne læser per kilo basis per million kortlagt læser (RPKM) værdi for ekspression af lncRNA /mRNA-transkripter. For at matche de forsamlede udskrifter til detaljerede lncRNAs /mRNA blev alle udskrifter tilpasset til det menneskelige genom i referencelisten fra UCSC (GRCh37 /hg19), mens udskrifter med halvdelen af ​​sine længder med i en lncRNA /mRNA blev identificeret som en kamp [28]

MicroRNA-seq:. microRNA ekspressionsniveauerne blev analyseret

via

TCGA microRNA sekventering niveau 3 data (Illumina Genome Analyzer Hiseq 2000). De beregnede udtryk for udskrifter, der tilpasser til et bestemt miRNA blev hentet fra både miRNA isoform og kvantificering filer (til rådighed på TCGA data portal sammen med metafiler udfyldelse hver datasæt) [29]

DNA-methylering Bead Chip:. Det DNA methylering datasæt i de fleste tumor kohorter er sammensat af Illumina 450K og /eller 27K array-platforme. Derfor valgte vi de overlapninger CpG’er (målt med Infinium type II assay), der var til stede på begge de to platforme (Infinium 450K og 27K) og havde ikke mere end 10% manglende værdier på tværs af alle prøver i hver type kræft, henholdsvis .

Signatur evalueringsmetode: IDFO

IDFO tilgang var sammensat af tre grundlæggende procedurer (Fig 1):

Prognose Risk Prioritering (PRP) ranking. Der var et stort antal af mulige variable inden de forskellige molekylære profiler, som ville koste enorme beregning under model træning. For at overvinde denne “dimension forbandelse”, vi udviklet denne pre-biomarkør ranking strategi: Prognose Risk Prioritering (PRP) for at frasortere de mest repræsentative prognostiske variabler som oprindeligt model træningsfunktioner for hver molekylær profil, hhv. I denne proces, udforskede vi to trin:

en beregning af til udvinding differentielt udtrykte /denatureret underskrifter

x

jeg

mellem de to resultatet grupper. Som formel, (1) Her var den gennemsnitlige udtryk /methylering værdi signatur

x

jeg

i 1

st gruppe, og var den gennemsnitlige udtryk /methylering værdi af

x

jeg

i 2

ed gruppe,

σ

var standardafvigelsen for to respektive gruppe, 1 = gruppe et, 2 = gruppe to.

P

unicox

, en beregning af univariate Cox

s Drømmeholdet værdi af molekylær signatur

x

jeg

, der brugte udtrykket /methylering værdier på

x

jeg

som variabel for en univariate Cox regression overlevelse analyse.

Endelig

PRP

risikoværdi

for undertegnelsen

x

jeg

blev beregnet som ved hjælp af denne formel, (2) Hvor stammer fra ligning 1.

Model bygning. For omfattende vurdering af den prognostiske evne multi-platform molekyler til respektive typer kræft, vi udnyttet 5 machine learning modeller i kombination med 4 feature extraction strategier til at etablere en performance pipeline. blev anvendt to andre trin: modelbygning og funktion udvælgelse. Fem machine learning algoritmer (se i supplerende metoder i S1 fil) blev foreslået i model bygning, som er støtte vektor maskine (SVM), k-nærmeste naboer (KNN), logistisk regression (LR), tilfældig skov (RF) og NaiveBayes ( NB). Udførelsen af ​​hver klassificeringen blev evalueret ved brug 632-Bootstrap metoden, ved hjælp af denne formel, (3) Hvis

n

var det samlede antal af gentagelser, og var

jeg

th

eksperiment tog nøjagtighed og test nøjagtighed. Her deles vi to tredjedele prøver til uddannelse og en tredjedele prøver til test, som begge blev udtrukket fra de oprindelige uddannelse sæt.

Feature valg. I denne procedure, vi foreslog fire feature extraction strategier, nemlig som SVM-RFE, RF-IS, LASSO og PFS (supplerende metoder i S1 File) at bestemme den optimale sæt af funktioner omfattende. Proceduren Funktionen Valg startede med PRP-algoritmen rangeret n-top-vægtede funktioner (for detaljerede tal se supplerende metoder og figur A i S1-fil) og derefter iterativt elimineret et nummer eller en brøkdel af de mindst vigtige /afgørende træk, opgjort efter respektive udvinding strategier indtil den højeste bootstrap nøjagtighed blev opnået. Under funktionen optimeringsproces, blev en gennemsnitlig nøjagtighed på 10.000 gange tilfældig re-sampling med udskiftning beregnet som skønnet nøjagtighed for hver iterativ udvalgte funktionssæt. Til bedømmelse af stabiliteten af ​​PRP karakteristika rækker blev en Monte Carlo simulering ved hjælp R pakke GMCT [30] også ved tilfældigt at udvælge tilsvarende antal funktioner til de respektive molekylære modeller i hver tumor. Endelig blev den højeste bootstrap model identificeret som den bedste prognose modellen og dens screenet ud funktioner blev derefter testet i test sæt til uafhængig validering. Modellen konstruktion, blev statistisk analyse og grafer udføres ved hjælp BioConductor (www.bioconductor.org)

Dette flowchart indeholder tre grundlæggende trin:. (I) PRP ranking af molekylære funktioner, (ii) model byggeri og (iii) funktionen optimering og validering.

Statistik

Students

t

tests blev anvendt til at sammenligne differential udtrykt underskrifter (mRNA, lncRNAs, DNA methylering, og microRNA) blandt to risikogrupper. Den Wilcoxon-test blev vedtaget for at vurdere den statistiske signifikans af overlevelse fordeling af de to prognose grupper klassificeret af MCPHR modeller pr denne formel, (4) Hvis

S

1 og

S

2 var antallet af overlevende i to risikogrupper,

V

1 og

V

2 var variansen af ​​

S

1 og

S

2.

sandsynligheder kvotientkriteriet blev brugt til at sammenligne anfald af to modeller (f.eks IDFO prædiktor modeller med og uden yderligere variabler), som var baseret på beregning af sandsynlighedsforhold. Sandsynligheden funktion blev beregnet ved hjælp af denne formel, (5) Hvis

S Hotel (

t

jeg

) var overlevelsen funktion, som viste den andel af

i

th

patient i live på tidspunktet

t

; Tæthedsfunktionen

f

(

t

jeg

) var sandsynligheden for at dø i den lille tidsinterval

t

;

w

jeg

den vejede gennemsnitlige overlevelse beregnet ud fra, hvor

V

jeg

var variansen af ​​overlevelsesrater ;

n

var det samlede antal patienter i de respektive årgange. Kaplan-Meier-analyse og log-rank likelihood modeller blev anvendt til at teste for forskelle i overlevelse og Kaplan-Meier-kurver blev tegnet er baseret på medianen score risiko.

p

værdier i alle statistiske tests mindre end 0,05 blev betragtet som signifikante. Ovenstående statistiske analyser blev udført ved hjælp af R-pakker: ‘. Overlevelse “og” survcomp’

Multivariate Cox proportional Hazard Regression

Den multivariate Cox proportional hazard regressionsmodellen, som den mest populære matematisk modellering fremgangsmåde blev anvendt til at estimere hazard ratio, relative risici, svarende intervaller 95% sikkerhedsgrænser (CI) og overlevelseskurver ved brug af flere /flere forklarende variable (molekylære og /eller kliniske variabler). Som et eksempel blev en parametrisk model baseret på den eksponentielle fordeling ved hjælp af denne formel, (6) Hvis,

h

(

t

) var faren funktion,

x

1,

x

2

… x

k

var kovariater, og

β

1,

β

2

,

β

k

var koefficienterne for respektive kovariater, hvor

β 0

repræsenterede kovariat risikofaktor forbundet med “dårlig prognose ‘tværtimod,

β 0

indikerede kovariat beskyttet faktor relateret til” god prognose. Den konstante

α

i denne model repræsenterede en log-baseline fare, da log

h

(

t

) =

α

eller

h Hotel (

t

) =

exp Hotel (

α

), når alle de

x

værdier var nul.

Risk scoringer

.

R Hotel (

t

) blev beregnet for den prognostiske risiko for hver patient, og defineret som en lineær kombination af prediktorvariabler vægtet med deres respektive Cox regressionskoefficienter, og beregnet ved hjælp af denne formel, ( 7) Hvis

R Hotel (

t

) var risikoen score på patient

t

,

h

(

t

) var faren beregnes af multivariat Cox regressionsmodellen (afledt af ligning 6)

R koder:. CAPM

for at tillade brugere at anvende vores konstrueret rørledning til andre datasæt, vi implementeret et offentligt tilgængelig R kildekode (CAPM.r) for at udføre kræft prognose forudsigelse, som er frit tilgængelig på https://www.escience.cn/people/lixu/index.html.

Resultater

Evaluering af den prognostiske ydeevne af forskellige molekylære data Salg

rutediagram for vores undersøgelse er vist i fig 2. Vi samles 3198 offentligt tilgængelige tumorprøver i array-baserede data mellem fem TCGA cancertyper: bryst invasive carcinom ( BRCA) [26], colon adenocarcinom (COAD) [27], lunge pladecellecarcinom (LUSC) [25], uterin corpus endometrioide carcinoma (UCEC) [31] og serøs cystadenocarcinom carcinom (OV) [24]. De fem kræftformer blev valgt, fordi deres TCGA kohorter omfattede tilstrækkelige prøver med flere typer af molekylære data og kliniske oplysninger (tabel A i S1 File). Hver kræft typen var sammensat af fire molekylære dataprofiler, herunder (i) lncRNA: Illumina HiSeq 2000 RNA Sequencing V2; (Ii) mRNA: Illumina HiSeq 2000 RNA Sequencing V2; (Iii) DNA methylering: Illumina Infinium Humant DNA-methylering 27K, 450K; (Iv): microRNA: Illumina Genome Analyzer /HiSeq 2000 microRNA sekventering platform. For omfattende vurdere forudsigelseskraft af de fire typer af molekylære signaturer til deres respektive kræftformer, vi konstrueret en gruppe af 5 klassificører (SVM [32], KNN [33], NaiveBayes [34], RandomForest [35], multinomial logistisk regression [14]) i kombination med 4 feature extraction strategier: Den mindst Absolut Svind og Selection Operator (LASSO) [36], Support Vector Machine baseret Rekursiv Feature Elimination (SVM-RFE) [37], Random Forest betydning spektrum baseret funktion udvælgelse (RF-IS) [38], og Prioritering-elimineret funktionen valg (PFS) (supplerende metoder i S1 fil) til at bygge en prognose beregningsmæssige rørledning, som nævnt som den iterative sletning Feature optimering metode (IDFO, se Metoder og figur 1).

Denne rørledning indeholder fire hovedsageligt procedurer: I) Databehandling. Vi samlet en samling af 3198 tumorprøver i fem typer af humane kræftformer, som består af fire typer af molekylære data, herunder: lncRNA, microRNA, mRNA, og DNA-methylering. Hver type af molekylære data i respektive kræftformer blev forarbejdet til matrix baseret matrix hjælp CAPM forbehandling metoder. II) Feature ranking. Molekylære træk forbundet med prognosen blev analyseret og sorteres efter PRP algoritme. For hver type af molekylære data, valgte vi top-vægtede 100 underskrifter som de oprindelige indslag apparater i hver af de fem kræftformer, hhv. III) Model bygning og funktion udvælgelse. I denne proces vedtog vi fem klassificører i kombination med fire funktionen valg algoritmer til at etablere prognosen forudsigelse baseline. Under funktionen udvælgelsesprocessen blev hver gruppe af funktioner trænet med 10.000 gange randomisering og de bedste resultater funktionen panel med højeste bootstrap nøjagtighed blev valgt for hver molekylære data pr kræft. IV) Validering. At evaluere forudsigelseskraft af hver molekylære data blev de bedste resultater funktioner yderligere anvendt på uafhængig test i hver kræft kohorter, henholdsvis.

Under funktionen optimeringsproces, klassificører for hver molekylære data var oprindeligt trænet af Prognose Risk Prioritering algoritme (PRP, se metoder) rangeret funktioner og derefter iterativt elimineret et nummer eller en brøkdel af de mindst vigtige /afgørende træk, der blev bestemt ved fire-feature extraction strategier indtil blev observeret den optimale panel af funktioner. Til bedømmelse af stabiliteten af ​​den PRP metode blev en Monte Carlo Simulation (MCS) også udføres for at vælge lige store funktioner som tilfældig validering for de respektive profiler i hver tumor. En klassifikator med den højeste bootstrap nøjagtighed [39] blev identificeret som den optimale model og de bedste ydeevne prædiktorer blev derefter testet i uafhængige test kohorter. Modellen opførelser af hver molekylære data ( ‘tog’) i kombination med strategier udvælgelse respektive funktion er fremhævet i figur 3a-3e. Vi bemærkede, at en) bootstrap nøjagtighed alle klassificører varierede fra 0,71 til 0,97 (tabel B i S1 File), hvilket indikerede god ydeevne IDFO tilgang til flere typer kræft; 2) de PRP rangeret indslag apparater resulterede i en væsentlig forbedret nøjagtighed sammenlignet med tilfældige udvalgte MCS indslag apparater (gennemsnitlig nøjagtighed: PRP = 0,81, MCS = 0,59; ensidig Wilcoxon-test:

P

1.12e -5); 3), og der var ingen synlig forskel mellem algoritmer klassificeringskriterierne i forhold til tumorer, og udførelsen af ​​diverse molekylære signaturer ikke varierer betydeligt på tværs af kræft, bekræfter en meget robust af genomiske og epigenetiske data i prognose forudsigelse; 4) af alle 20 optimale prognostiske modeller (5 kræftformer * 4 molekylære datasæt), 12 ud af 20 (60%) blev opnået ved PFS algoritmen, efterfulgt af LASSO (30%) og SVM-RFE (10%), der viste, at vores nye funktion udvalg foreslåede tilgang havde gode resultater ligner traditionelle metoder (tabel B i S1 fil). Efterfølgende at sammenligne den prædiktive udførelsen af ​​de fire typer af molekylære signaturer med en fordomsfri validering, vi anvendt de bedste prognose prædiktorer fra hver uddannelse model til en uafhængig test sæt. Især som er vist i fig 3f, de lncRNA underskrifter illustrerede den bedste ydeevne i fire kræftformer: BRCA (test sæt nøjagtighed: 0,78,

N

test sæt

= 159), COAD (testsæt nøjagtighed: 0,85,

N

test sæt

= 48), LUSC (test sæt nøjagtighed: 0,77,

N

test sæt

= 56), og OV (testsæt nøjagtighed: 0,79,

N

test sæt

= 75). DNA methylering var den anden bedste indikator for BRCA (testsæt nøjagtighed: 0,76,

N

test sæt

= 73), COAD (test sæt nøjagtighed: 0,79,

N

test sæt

= 67), LUSC (test sæt nøjagtighed: 0,77,

N

test sæt

= 42), kræft i æggestokkene (test sæt nøjagtighed: 0,7,

N

test sæt

= 146), og den tredje bedste prædiktorer i UCEC (test sæt nøjagtighed: 0,8,

N

test sæt

= 81). mRNA og microRNA som traditionelle kliniske baseline markører blev rangeret lavere end vores oprindelige forventninger. mRNA var den tredje bedste prædiktorer i BRCA (test sæt nøjagtighed: 0,64,

N

test sæt

= 159), COAD (test sæt nøjagtighed: 0,64,

N

test sæt

= 48), LUSC (test sæt nøjagtighed: 0,76,

N

test sæt

= 56) og OV (test sæt nøjagtighed: 0,6,

N

test sæt

= 75). MiRNA data resulterede i dårligere prædiktiv strøm sammenlignet med alle andre datatyper. Hertil kommer, på grund af den bemærkelsesværdige præstationer lncRNAs patient overlevelse lagdeling, vi yderligere udført litteratursøgning at undersøge muligheden for tegn på sammenhængen mellem IDFO-screenet lncRNAs og prognose progression. Af alle 157 optimale lncRNA prædiktorer i fem kræftformer (21 i BRCA, 36 i COAD, 33 i LUSC, 41 i OV, 37 i UCEC), havde 22 lncRNAs tidligere blevet rapporteret i litteraturen (tabel F og figur B i S1 File). Disse resultater foreslog, at vores tilgang potentielt kunne identificere trustable prognose forbundet lncRNAs, og vi postulerede nyligt identificerede lncRNAs, enten isoleret eller som sammensatte markører, kan være afgørende for klinisk praksis.

(AE) Bedste prognosemodeller af hver molekylære data for fem menneskelige kræftformer på tværs af forskellige træk selektionsstrategier (kolonne angivne funktion selektionsstrategier: Lasso, PFS, SVM-RFE, RF-IS, og MCS, rækker angivet molekylære signaturer), (F) Test sæt nøjagtighed på fire typer af molekylære signaturer i fem TCGA kræftformer (rækker angivet molekylære datatyper, søjler angivet kræftformer). For at skelne resultaterne mellem uddannelse og afprøvning, vi udnyttet blå-farvede elementer til uddannelse resultater (Fig 3A-3E) og rød-farvet poster for testresultaterne. * BRCA = bryst invasiv karcinom; COAD = colonadenocarcinom; LUSC = Lung skælcellecarcinom; UCEC = Uterin Corpus endometrioide Carcinoma; OV = serøs cystadenocarcinoma.

Integration af multi-OMIC biomarkører til prognose forudsigelse

Nylige undersøgelser foreslog de integrerede multi-OMIC underskrifter effektivt kunne forbedre modellen ydeevne [28, 40]. At undersøge, om en sådan hypotese var hensigtsmæssigt at den dikotomiseret samlet overlevelse forudsigelse, vi udvidet vores IDFO tilgang til at undersøge effektiviteten af ​​integrativ modellering af molekylære data multi-type i fem kræftformer. Som integrative modeller kræver prøver ikke kun består af multi-OMIC profiler, men også dem, der opfylder de prognostiske kriterier, vi observerede en endelig af 20 integrerede multi-OMIC datagrupper i de fem kræfttyper, herunder 15 dobbelt-kombination grupper og 5 triple -enhed grupper (se tabel C i S1 File). Da der var et utilstrækkeligt antal microRNA-seq prøver overlappende med de tre andre molekylære profiler blev microRNA signaturer udelukket i den integrerede modellering analyse. Tabel C i S1 File opført de prædiktive nøjagtighed ( ‘test’) af de 20 integrerede modeller. Alt i alt havde 80% af de integrerede multi-OMIC datakombinationer ikke viser signifikant forbedret forudsigelseskraft forhold til deres individuelle molekylære data (Fig 4A-4C), med undtagelse af lncRNA + DNA-methylering modeller i to cancer typer OV og UCEC (Fig 4D og 4E) (OV: ensidig Wilcoxon-test, DNA methyl + lncRNA

vs

DNA methyl:.

P

1.2e-4, DNA methyl + lncRNA

vs

lncRNA:

P

4.7e-3; UCEC:. DNA methyl + lncRNA

vs

DNA methyl:.

P

1.7e-4, DNA methyl + lncRNA

vs

lncRNA:

P

8.2e-5).. Ud med stigningen af ​​molekylære typer, udførelsen af ​​tredobbelte kombination grupper var i overensstemmelse med det gennemsnitlige niveau for de enkelt-type molekylære modeller med begrænsede forstyrrelser i alle fem kræftformer. Derfor er de fleste af de integrerede multi-OMIC datamodeller viste lignende forudsigelseskraft med deres respektive individuelle molekylære datamodeller, hvilket tyder på indholdet af integrerede multi-platform data oplysninger kan i høj grad være overflødig i forhold til patientens overlevelse lagdeling. Lignende resultater blev også observeret i en nylig brystkræft modellering behandling undersøgelse [1].

(A) BRCA (N

overlapper

= 178), (B) COAD (N

overlapper

= 161), (C) LUSC (N

overlapper

= 97), (D) OV (N

overlapper

= 145), (E) UCEC (N

overlapper

= 84). For de respektive modeller i hver type kræft, vi udførte 10.000 gange i tilfældig opdeling med 2/3 træning og 1/3 test vha IDFO rørledning. Den stiplede røde boks indikerede væsentligt forbedret ydeevne af to integrerede modeller i (D) OV og (E) UCEC sammenlignet med individuelle data typen modeller (tosidet Wilcoxon-test,

P

0,01); den stiplede blå boks angav de tre individuelle data typen modeller af mr, LNR og meth. Den integrerede gruppe er sammensat af både dobbelt-kombination og triple-kombination molekylær signatur modeller. Individuel gruppe indeholdt de tre individuelle molekylære data typen modeller. Den grå linje på tværs syv kasser viser de prædiktive mønstre af integrerede grupper og enkelte grupper. N

overlapper

er antallet af overlap prøve forekom i alle tre molekylære dataprofiler (mRNA, lncRNA og DNA-methylering), LNR = lncRNA, mr = mRNA, meth = DNA-methylering, mr + LNR = mRNA + lncRNA, mr + meth = mRNA + DNA methylering, LNR + meth = lncRNA + DNA methylering, mr + LNR + meth = mRNA + lncRNA + DNA methylering

Survival analyse:. validering af IDFO prædiktorer på censurerede overlevelsesdata

Ud over at undersøge sammenhængen mellem IDFO prædiktorer og klinisk resultat i BRCA, COAD, LUSC, UCEC og OV, vi udsættes de bedste prædiktorer for respektive dataprofiler til multivariat Cox proportional hazard regression ( MCPHR) analyse [41] for at vurdere korrelationen mellem IDFO-prædiktorer med prognose risiko og undersøge deres kliniske forsyningsselskaber.

Be the first to comment

Leave a Reply