Abstrakt
Baggrund
Prognosen for kræft tilbagefald er et vigtigt forskningsområde i bioinformatik og er udfordrende på grund af de små stikprøvestørrelser i forhold til det store antal gener. Der har været flere forsøg på at forudsige kræft gentagelse. De fleste undersøgelser anvendes et overvåget tilgang, der anvender kun nogle få mærkede prøver. Semi-overvåget læring kan være et godt alternativ til at løse dette problem. Der har været få forsøg baseret på mangfoldige antagelser til at afsløre de detaljerede roller identificerede cancer gener i tilbagefald.
Resultater
For at forudsige kræft tilbagefald, foreslog vi en ny semi-overvåget læring algoritme baseret på en graf regulering tilgang. Vi forvandlede genekspression data i en graf struktur for semi-overvåget læring og integrerede protein interaktion data med genekspression data for at vælge funktionelt relaterede genpar. Så vi forudsagde en gentagelse af kræft ved at anvende en legalisering tilgang til den beregnede kurve indeholdende både mærkede og umærkede noder.
Konklusioner
Den gennemsnitlige forbedring på nøjagtighed for tre forskellige kræft datasæt var 24,9 % i forhold til eksisterende overvågede og semi-overvåget metoder. Vi udførte funktionel berigelse på gen net, der bruges til læring. Vi identificerede, at disse gen netværk er signifikant associeret med cancer-tilbagefald-relaterede biologiske funktioner. Vores algoritme blev udviklet med standard C ++ og er tilgængelig i Linux og MS Windows formater i STL biblioteket. Den eksekverbare program er frit tilgængelig på:. https://embio.yonsei.ac.kr/~Park/ssl.php
Henvisning: Park C, Ahn J, Kim H, Park S (2014) Integrativ Gene Network Byggeri til at analysere Cancer Gentagelse Brug Semi-Overvåget Learning. PLoS ONE 9 (1): e86309. doi: 10,1371 /journal.pone.0086309
Redaktør: Peter Csermely, Semmelweis University, Ungarn
Modtaget: Juli 3, 2013; Accepteret: 9. december 2013; Udgivet: 31 Jan 2014
Copyright: © 2014 Park et al. Dette er en åben adgang artiklen distribueres under betingelserne i Creative Commons Attribution License, som tillader ubegrænset brug, distribution og reproduktion i ethvert medie, forudsat den oprindelige forfatter og kilde krediteres
Finansiering:. Dette arbejde blev støttet af Grundforskningsfonden Korea (NRF) tilskud finansieret af Sydkorea regering (MSIP) (NRF-2012R1A2A1A01010775). De finansieringskilder havde ingen rolle i studie design, indsamling og analyse af data, beslutning om at offentliggøre, eller forberedelse af manuskriptet
Konkurrerende interesser:.. Forfatterne har erklæret, at der ikke findes konkurrerende interesser
Introduktion
Identifikation kræft biomarkører for diagnose og prognose er et af de vigtigste forskningsområder i bioinformatik. Brugen af nøjagtige kræft biomarkører kan hjælpe med at bestemme den passende terapi baseret på patientens tilstand. Disse biomarkører kan præsenteres som en liste over gener eller gen netstruktur. Microarray baseret genekspression er blevet anvendt til at identificere disse biomarkører [1], [2], [3]. Desuden har flere nylige undersøgelser anvendes ikke kun genekspression data, men også interactome data, der kan forbedre den prædiktive ydeevne. Kendte kræftrelaterede gener ikke skelnes ved genekspression plan alene. Chuang
et al
. viste, at integrationen af interactome og transkriptom data var nyttigt til identifikation af co-udtrykte funktionelle sub-netværk, og samspillet mellem de sub-netværk fungerede som en markør med nøjagtighed højere klassifikation [4]. Taylor
et al
. analyseret global modulopbygning på protein interaktionsnetværk og afslørede, at intermodulære hub, en af to typer af hubs, blev hyppigere forbundet med onkogenese [5]. Ahn
et al
. foreslået en ny og nøjagtig klassificering metode ved hjælp af integration af både interactome og transkriptom data [6]. De konstrueret også kræft-specifikke gen-netværk, der stammer fra deres metode klassificering og afslørede, at kræft-relaterede gener i et netværk spiller en vigtig rolle i cancer [6].
Selvom genekspression og interactome data er meget nyttige for kræft forskning, det relativt lille antal prøver i forhold til antallet af gener fører til udfordringer i analyse [7]. Pålideligheden af opdage gener udtrykkes forskelligt i to forskellige betingelser er faldet med små stikprøvestørrelser. Der har været forsøg på at overvinde denne begrænsning af microarray-baserede genekspression data [8]. Shi
et al
. nævnt, at opnå microarray data med klinisk opfølgning information er tidskrævende, dyrt og begrænset af prøven tilgængelighed [9]. Disse resultater indebærer, at de eksisterende tilsyn-learning-baserede tilgange, der kun bruger mærkede data stadig har begrænsninger.
En måde at supplere de små mængder mærket data er semi-overvåget læring, som er en kombination af super- vised og ukontrollerede metoder. Semi-overvågede læring kombinerer mærkede og umærkede data til at konstruere en læringsmodel med forbedret nøjagtighed [10]. Generelt er semi-overvåget klassifikation anvendes, når der er mere umærkede data end mærkede data. I et sådant tilfælde, er det, at kendskabet til de umærkede data vil være nyttige i slutning af reglerne nøjagtig klassificering under læreprocessen.
For nylig, semi-overvåget læring tilgange er blevet almindeligt anvendt til biologisk dataanalyse herunder genetiske interaktioner. Du
et al
. udviklet en graf-baserede semi-overvåget læring klassificeringen, der kan forudsige parvise syntetiske genetiske interaktioner [11]. Fordi genetiske interaktion profiler kan bidrage til at skabe en bedre forståelse af sammenhængen mellem gener og funktionelle veje, en præcis algoritme til at forudsige genetiske interaktioner er meget ønskeligt trods manglen på en høj præcision funktionelt gen netværk. Semi-overvågede tilgange læring er også blevet anvendt på prognose relaterede studier. Nguyen
et al
. foreslået en semi-overvåget læring metode til at forudsige gener involveret i sygdommen ved at udlede både sygdomsgener og deres naboer gennem protein interaktion net [12]. Bair
et al
. foreslået at bruge begge tilgængelige kliniske data og genekspression data til at identificere den delmængde af generne anvendt til semi-overvåget klyngedannelse [13]. Deres fremgangsmåde blev anvendt til at afsløre undertyper af kræft og forudsige patientoverlevelse. Joshua Smith
et al
. brugte genekspressionsprofiler at identificere et gen klassifikator forbundet med en høj risiko for metastase og død fra tyktarmskræft [14].
Som nævnt ovenfor, semi-overvåget tilgange kan supplere de begrænsninger af genekspression dataanalyse, såsom som mangel på en tildelt klinisk klasse for hver patient. Shi
et al
. foreslået en semi-overvåget klassifikatør baseret på lav densitet adskillelse, der kan identificere høj risiko og lav risiko patienter [9]. Denne undersøgelse, som anvendte mærkede og umærkede genekspression prøver, viste forbedret nøjagtighed i forhold til eksisterende metoder baseret på overvåget indlæring. Der har imidlertid ikke været et forsøg på at anvende både semi-overvåget læring og integration af interactome og transkriptom data til at overvinde det lille antal af mærkede prøver og forbedre effektiviteten af klassificering og forudsigelse. Integrationen af heterogene data kan hjælpe til at skelne mere væsentlige gener fra genekspression data, der anvendes til at bygge klassificører, som nævnt ovenfor.
I denne artikel, vi brugte graf legalisering og integration af transkriptom og interactome data til at bygge en roman semi-overvåget læring-baserede klassificeringen for human cancer, og konstrueret en kræft-specifikt gen netværk. Grafen legalisering er baseret på den “manifold antagelse, ‘hvor opførelsen af grafens modeller er en vigtig fase. Ved design af grafen model for klassificering, konstruerede vi grafen under anvendelse af mærkede og umærkede prøver som knudepunkter. Forbindelsen mellem to prøver beregnet ved hjælp af udvalgte informative genpar. Ved udvælgelsen af nyttige genpar, vi integreret Protein-Protein Interaction (PPI) data med genekspression data. PPI data givet oplysninger om den funktionelle forhold mellem proteiner og blev anvendt til gener forbundet med PPI. Efter valg genpar, vi anvendte en scoring ordning foreslået i en tidligere papir [6]. Vi fokuserede på bryst, kolorektal og prostatakræft til at forudsige kræft tilbagefald. Tre kræftpatienters mRNA udtryk data omfattede både umærkede og mærkede prøver.
Vi viste, at (i) den foreslåede semi-overvåget læring baseret klassifikation forbedret forudsigelse ydeevne sammenlignet med eksisterende metoder, herunder TSVM, som er en semi overvåget indlæring version af SVM, (ii) den foreslåede metode var anvendelig til forskellige kræftformer, (iii) den foreslåede metode var robust uanset klassen etiket ratio og (iv) kræft-specifikt gen netværk afledt af klassifikator var biologisk meningsfuld, og cancer-specifikke gener af dette netværk har spillet en rolle som medlemmer af komplekse biologiske processer.
Metoder
at opbygge en semi-overvåget læring klassificeringen, vi først integrerede genekspression data med PPI og identificeret informative genpar med de mærkede prøver. For det andet, vi konstrueret en stikprøve baseret graf model ved hjælp af udvalgte informative gener for at opbygge et klassificeringen.
Data Beskrivelse
Vi hentede de genekspression datasæt tre kræftformer fra Gene Expression Omnibus (GEO ) database. Tabel 1 opsummerer den detaljerede specifikation af datasæt. Den genekspression datasæt GSE2990 var sammensat af 125 invasive prøver brystkræft er klassificeret i to grupper, høj og lav risiko for tilbagefald; 64 prøver havde ikke en klasse etiket. Den genekspression datasæt GSE17536 bestod af 177 patienter med tarmkræft. Prøver blev klassificeret i tre grupper:. “Tilbagefald”, “ingen gentagelse ‘og’ umærket ‘Baseret på observation af tilbagefald inden for fem år opfølgning, blev etiketterne tildelt prøver. De umærkede prøver havde ingen kliniske opfølgende data. Den genekspression datasæt GSE17538 var sammensat af 213 coloncancer prøver, som også blev klassificeret i de tre ovennævnte grupper. En mere detaljeret beskrivelse af de datasæt i henhold til den eksperimentelle platform er vist i tabel S2 i File S1.
Vi hentede også 194,988 menneskelige PPI fra I2D databasen, som omfattede kendt, eksperimenterende, og forudsagde PPI . Fordi proteinerne i disse PPI blev kortlagt i gen-symboler med Universal Protein Resource (UniProt), vi opnåede 108,544 PPI’er efter fjernelse duplikerede PPI og PPI, der indeholdt proteiner, der ikke blev kortlagt til et gen symbol.
Systemoversigt
i dette afsnit beskrives en roman graf-baserede semi-overvåget læring algoritme til kræft prognose. Grafen består af knudepunkter og kanter, der svarer til prøver og interaktioner mellem to prøver. Grafen er konstrueret med både mærkede og umærkede prøver af genekspression data, og de umærkede prøver blev efterfølgende mærket baseret på geometrien af grafen struktur. Derfor er det meget vigtigt at generere en prøve-baseret graf fra den givne datasæt. Vi foreslår en ny graf konstruktion metode, der er specialiseret i en microarray datasæt. Baseret på denne graf byggeprocessen, vi udviklet en semi-overvåget læring algoritme, der bruger graf legalisering.
I denne tilgang, grafen selv er en klassificeringen. Således parametrene til at konstruere grafen antyde, at de er de vigtigste faktorer for klassificeringen. Resultaterne af klassificering afhænger af parametrene. Semi-overvåget læring generelt udnytter funktionen eller underliggende oplysninger af umærkede data. Denne fremgangsmåde forudsætter, at umærket data er i stand til at forbedre klassifikationen ydeevne. Ifølge denne karakteristiske træk ved semi-overvåget læring, tager vi fordel af umærkede data til at bygge en sorterer.
Den foreslåede metode har to faser. Den første fase er at bestemme kandidatlandene optimale parametre for grafen legalisering varierende parameter intervaller i
k
fold krydsvalidering. Efter denne fase, konstruerer vi grafen med både mærkede og umærkede prøver. Så vi identificere, om klassifikationsselskaberne resultater fra grafen legalisering ændres eller konvergeret. Hvis de ændres, betragter vi de klassificerede umærkede data som nyligt mærkede data og bruge dem til at bestemme de optimale kandidat parametre. I denne iterative proces, er informationen af umærkede prøveemner. Den tidligere semi-overvåget læringsmetode foreslået i [9] også brugt umærkede prøver at bygge en klassifikatør baseret på Low Density Separation (LDS). Figur 1 viser hele arbejdsgangen herunder semi-overvåget indlæring modul til bestemmelse af de optimale parametre for vores metode.
Først konstruerer vi en graf for legalisering med kun mærkede prøver ved at variere to parametre. I denne fase bruger vi
k
fold krydsvalidering at bestemme den optimale parametersæt. Vi så anvende semi-overvåget læring med den opnåede optimale parameter sæt og forudsige etiketterne på de ukendte prøver. Den foreslåede metode bruger umærket prøve information til at bygge et klassificeringen ved iteration proceduren.
Detaljerne i den semi-overvåget undervisningsmodul i denne arbejdsgang er beskrevet i de følgende afsnit. Dette modul består af følgende tre centrale trin: (1) identifikation af informativ genpar, (2) konstruktion af sample grafer med udvalgte gener, og (3) legalisering af grafen og forudsigelse af etiketterne på de umærkede prøver. Arbejdsgangen af den semi-overvåget undervisningsmodul er vist i figur 2.
Vi anvender en graf legalisering tilgang til semi-overvåget læring, og formålet med den foreslåede metode er at forudsige etiketterne på umærkede prøver.
Identifikation af Informativ genpar
Der er titusindvis af gener i microarray datasæt, og kun nogle af dem er specifikke for klassificeringen af prøven. Informativ genpar indikerer samspil, der diakritisk i de to strid klasser af mærkede prøver. Vi vedtaget og ændret vores tidligere foreslåede ordning for identifikation interaktioner i genekspression datasæt [6]. I denne undersøgelse påviste vi, at intensiteten af nogle interaktioner kan være forskellig mellem normale celler og tumorceller. Vi belyst også, at ændringer i samspillet niveau kunne være årsagen eller virkningen af tumorigenese, og at ændringen af proteinkomplekser kan påvirke forskellige interaktioner som følge af tumorigenese.
målingen af ændringer i interaktioner kan betragtes som identifikation af graden af afhængighed mellem to gener. En stor korrelationsværdi mellem to gener som en grad af ændring indikerer, at der er stærk afhængighed mellem de to gener. Baseret på disse grundprincipper, foreslår vi helt ordning til at beregne styrken af forbindelsen mellem to gener, som er forbundet af PPI. Ved hjælp af denne foranstaltning, kan vi lette udvælgelsen af informative interaktioner fra genekspression datasæt, da kræften specifikt netværk blev konstrueret på grundlag af en lignende scoring funktion. Med andre ord, kan vi vælge samspillet specificeret for tumor tilbagefald ved hjælp af den foreslåede scoring ordningen. Scoren af to gener beregnes ved følgende ligning: hvor
g
iC
1 og
g
iC
2 er vektorer af mRNA-ekspression værdi af gen
jeg
på klasse 1 og klasse 2 prøver henholdsvis og
g
JC
1 og
g
JC
2 er vektorer af mRNA ekspression værdien af gen
j
på klasse 1 og klasse 2 prøver. Kun genpar med en scoring på mere end
tærskel
g
anses for at være signifikant forskellig mellem to klasser. Denne scoring ordning udføres kun med de mærkede prøver i genekspression datasæt. Et simpelt eksempel på beregning Score værdier er vist i figur S1 i File S1.
Konstruktion af prøven-baserede Graph
Vi konstrueret en stikprøve-baserede graf for legalisering. Vægten af en prøve par beregnes af Pearson Correlation Coefficient (PCC) mellem to eksempel vektorer, som er sammensat af de gener som elementer, hvor der opnås generne fra informative genpar. Både mærkede og umærkede prøver anvendes i grafen. Vægten funktion er som følger: hvor
S
*
Jeg
og
S
*
j
er vektorer af mRNA udtryk værdi prøve
jeg
og prøve
j
henholdsvis af de udvalgte genpar med værdier større end
tærskel
s
. Vi antager, at der er en signifikant sammenhæng mellem to prøver, når de er stærkt forbundet med hinanden med en positiv eller negativ mønster. Vi kan omdanne genekspression datasæt ind i en graf struktur, der kan lovliggøres. Et simpelt eksempel på beregning af Weight værdien er vist i figur S1 i File S1.
legalisering af grafen
På baggrund af sample-baserede graf struktur afledt af ovennævnte metode, etiketter er henført til de umærkede knudepunkter. For at opnå dette, vi ansætter en grundlæggende lovliggørelse tilgang. For legalisering af grafen, estimerer vi en legalisering ramme baseret på de mangfoldige antagelser. Omkostningerne funktion for legalisering er som følger: hvor
y
Ŷ
henholdsvis angiver de indledende etiketter og de anslåede etiketter til både mærkede og umærkede data.
W
ij
angiver vægten mellem noden
jeg
og node
j
. Det samlede antal af både mærkede og umærkede noder er
n
, og antallet af mærkede knuder er
l
. I vores problem,
y
indikerer mærket og umærkede prøver af kræft datasæt, og
W
ij
opnås ved hjælp af vægten funktion defineret i ovenstående kapitel. Ved hjælp af omkostningerne funktionen, måler vi sammenhængen med den oprindelige mærkning ved hjælp af den første periode, og vi tildeler en straf for legalisering ved hjælp af den anden periode. Brug af anden periode, beregner vi den vægtede forskel mellem to knudepunkter uden hensyntagen til, om de er mærket. Hovedformålet med denne omkostning funktion er at minimere den vægtede forskel mellem alle knudepunkter. Denne proces refererer til regularisering og svarer til etiketten propagation-algoritmen. I vores tilfælde er det ikke nødvendigt at omplacere etiketter til de mærkede data, fordi de allerede er blevet klinisk bekræftet. Derfor, i den første periode af omkostningerne funktion,
y
Jeg
er begrænset til at være lig med
y
jeg
. Som et resultat, kan omkostningerne funktionen omdannes til følgende funktion med en graf Laplace.
hvor
L
er un-normaliseret graf Laplace og
D
er en diagonal matrix af vægt matrix
W
. Denne funktion straffer hurtig etiketændringer i
Ŷ
mellem to tætte datapunkter henhold til den givne vægt matrix. Forskellige tilnærmelser er blevet foreslået for at minimere denne funktion over
y
u
, hvor
y
u
angiver den anslåede etiket for umærkede data og
y
l
angiver de mærkede data. Minimering af funktion med hensyn til
y
u
konverterer det til følgende funktion.
Vi forudser etiketterne for de umærkede data ved hjælp af denne beregning. Da vi ikke fokusere på udvikling af nye semi-overvåget læring algoritme, vi ansætter en generel legalisering tilgang til det vægtede stikprøve grafen, og det er tilstrækkeligt at anvende den generelle tilgang til vores problem.
Resultater
Vi udførte eksperimenter for at opnå den optimale kombination af to tærskler for score på et genpar og vægten af prøven baseret graf. Vi sammenlignede derefter vores metode med flere eksisterende metoder for at vurdere dens ydeevne. Endelig har vi analyseret netværket stammer fra vores metode med den kendte kræft relaterede gen listen.
Modtagelse af den optimale parametre
Vi brugte to parametre til både at identificere informative genpar og tildele vægte for at prøve par . For at finde de optimale kombinationer af disse to parametre, vi målte nøjagtigheden af den foreslåede model klassificering ved hjælp af
k
fold krydsvalidering ved at variere disse to parametre. Vi har ændret
tærskel
g Drømmeholdet værdi 0,15-0,6 i intervaller på 0,05 og
tærskel
s Drømmeholdet værdi 0,72-0,9 i intervaller på 0,02. Samlet set vi udførte 100 forskellige eksperimenter, varierende disse to tærskler og måle nøjagtigheden af hvert forsøg som gennemsnittet af
k
nøjagtigheder genereres under
k
fold krydsvalidering. Figur S2 i File S1 viser arbejdsgangen for evalueringen af vores metode. For at måle nøjagtigheden af den semi-overvåget læringsmetode, vi kun brugt mærkede prøver og antog, at nogle af prøverne var umærket. Ved hjælp af disse to grupper af mærkede og umærkede prøver, vi konstrueret grafen og udførte legalisering.
For at bestemme klassificeringen af umærkede prøver, vi anvendte en heuristisk metode kaldet Klasse Mass Normalisering (CMN) foreslået af [15]. Generelt beslutningen bestemmelser tildeler etiket 1 til node
i
Hvis den beregnede værdi efter regulering er større end 0,5, og etiketten 0 ellers. Men denne beslutning tilgang er kun effektiv, når klasserne er godt adskilt. Da genekspression data ikke altid samme antal prøver for hver klasse, vedtog vi CMN at identificere den endelige klasse etiket. CMN justerer kriterium for etiketten klasse efter forholdet mellem massen af klasser.
De eksperimentelle resultater fra forskellige parametre er vist i figur 3. Vi udførte 100 forskellige eksperimenter, at variere de to tærskelværdier for hver datasæt. For hvert forsøg, vi udførte
k
fold krydsvalidering og gennemsnittet af
k
nøjagtighed. Formålet med denne proces var at sammenligne nøjagtigheden af klassificeringen på 100 forskellige eksperimenter. Vi gennemførte også de samme eksperimenter med en justeret datasæt, som havde det samme antal prøver for både tilbagefald og ikke-tilbagefald grupper da forskellige andele af klasse etiketter kan påvirke ydeevnen af klassificeringen. Vores metode bruger semi-overvåget læring-baserede graf regulering, som er påvirket af den geometriske struktur af grafen, at klassificere etiketten. Hvis de relative forhold mellem to klasser forskellige, kan mærkningen af et lille antal prøver ikke formeres gennem grafen. Dette kan påvirke klassifikation ydeevne. Alle de valgte cancer datasæt blev inddelt i originale og justeret prøvegrupperne. I resten af denne artikel beskriver vi et eksperiment udført med disse to grupper. Vi opnåede to optimale grænseværdier ved maksimal nøjagtighed for hver datasæt, som vist i figur 3. Vi fandt også de optimale tærskler, samtidig ændre
k Drømmeholdet værdi af cross validering. De eksperimentelle resultater af
k
= 5 og
k
= 20 er beskrevet i tabel S5 i File S1. De eksperimentelle resultater er vist i tabel 2. For at vise en effektivitet umærkede data, vi også udført eksperimenterne variere antallet af umærkede prøver. Det eksperimentelle resultat underbygget, at nøjagtigheden blev forbedret efter stigende af antallet af umærkede prøver. Denne eksperimentelle resultat er vist i tabel S6 i File S1.
Vi udførte 100 forskellige eksperimenter, mens ændring af to tærskelværdier og fået 100 gennemsnitlige nøjagtigheder for hver datasæt anvendelse af 10-fold krydsvalidering. Vi fandt maksimum, minimum, og gennemsnitlige nøjagtigheder for hver datasæt i to tilfælde. (1) Vi udførte 10-fold krydsvalidering over 100 gange, variere de to tærskler for de oprindelige prøver som vist i tabel 1. (2) Vi har også udført 10 gange krydsvalidering over 100 gange, at variere de to tærskler efter balancere antallet af prøver i de to klasser. Vi tilfældigt fjernede prøver 27, 73 og 83 fra de ikke-tilbagefald grupper GSE2990, GSE17536, og GSE17538 henholdsvis.
Sammenligning med eksisterende metoder
Vi sammenlignede foreslåede metode med tre typiske algoritmer overvågede klassifikation implementeret i Weka 3.6.8, nemlig Support Vector Machine (SVM) [16], Naïve Bayesian [17], og Random Forest [18]. Desuden har vi sammenlignet også vores metode med TSVM, som er en semi-overvåget indlæring version af SVM og blev implementeret i SVM-lys.
Vi sammenlignede nøjagtighed, herunder følsomheder og særlige, af den foreslåede metode og andre metoder under anvendelse af 10-fold krydsvalidering. Vi delte datasæt i to grupper som nævnt ovenfor, og gentog eksperimentet 15 gange hver i tre kræftformer. Vi beregnede gennemsnitsværdierne for nøjagtighed, følsomhed og specificitet for hvert datasæt i den justerede gruppe. Følsomheden og specificiteten af TSVM kunne ikke beregnes, da TSVM af SVM-lys forudsat nøjagtighed, præcision, og tilbagekaldelse. Tabel 3 opsummerer resultatet af disse tests. I den oprindelige gruppe, nøjagtigheden af vores metode var generelt bedre end den af de sammenlignende metoder. Især forskellen ydeevne mellem den foreslåede fremgangsmåde og andre algoritmer i justeret gruppe var større end i den oprindelige gruppe. Hvis andelen af klasse etiketter er forudindtaget i en uddannelse datasæt, kan klassificeringen være over-monteret mod en større etiket. Andelen af klasse etiketter i den oprindelige gruppe blev forspændt mod den ikke-tilbagevendende label, “-1”. Derfor, følsomheden og specificiteten af de fleste af de metoder sammenlignet, herunder vores metode, var forskellige. Siden forudsige begge mærker er vigtigt at forudsige gentagelse af kræft, højere klassifikation sensitivitet og specificitet er bedre. I den justerede gruppe, vores metode havde højere sensitivitet, specificitet og nøjagtighed end sammenligning metoder. Generelt vi bekræftet, at den foreslåede metode havde ydeevne bedre end de andre metoder.
Den gennemsnitlige nøjagtighed steg 24,9% i forhold til de fire eksisterende metoder. For eksempel som vist i tabel 3, nøjagtigheden af den foreslåede metode var 0,725 og nøjagtigheden af TSVM var 0,543 for brystkræft datasæt uden at tilpasse klasse label ratio, en omtrentlig 33% forbedring. Den gennemsnitlige forbedring ratio for alle datasæt var 24,9%. Fem af seks eksperimentelle datasæt omfattede de justerede prøve grupper, og nøjagtigheden af den foreslåede metode var højere end de eksisterende metoder. Den gennemsnitlige forskel i nøjagtigheden af den foreslåede metode og dens konkurrenter var 0,139. Vi opnåede også AUC-værdier for hver eksperimentel datasæt. Som vist i figur 4, den foreslåede metode viste en særlig højere AUC værdi for brystcancer datasæt og en højere AUC-værdi i forhold til andre eksisterende metoder til fire af de seks eksperimentelle datasæt.
Vi sammenlignede AUC værdier af foreslåede metode og andre overvåget læring algoritmer.
Derudover har vi foretaget en uafhængig test, hvor vi anvendte relief-F for at vælge informative gener i stedet for PPI. Vi foretog også en statistisk analyse af signifikant forskel i nøjagtighed til sammenligning blandt metoder. De detaljerede eksperimentelle resultater er beskrevet i den bærende information i tabel S1, tabel S3, og Tabel S4 i File S1.
Diskussion
en metodes præstation klassificering er påvirket af den andel af uddannelsen data i hver klasse. Den beregningsmæssige bidrag i den foreslåede metode er bestemmelse af sammenhængende nøjagtigheden af forskellene i klassen forhold. Dette er fordelagtigt, da ikke kan justeres antallet af prøver for hver klasse i uafhængige test. Hertil kommer, selvom klassifikation baseret på semi-overvåget læring er blevet anvendt på microarray datasæt, resultaterne af den foreslåede metode viser, at den tilgang, baseret på “glathed antagelse« var tilstrækkeligt for klinisk anvendelse.
For at reducere dimension af microarray data, valgte vi gensæt med stærke biologiske interaktioner. Derfor blev prøven-baserede graf over legalisering bygget på grundlag af biologisk viden. Den valgte gensæt kan omtales som en gentagelse-specifikt gen netværk. Vores analyse viste, at dette gen netværk var biologisk meningsfuld i forhold til kræft tilbagefald. For at analysere cancer-tilbagefald-specifikt gen netværk, vi beriget informativ gensæt afledt af den optimale parametersæt anvendelse af databasen Gene Ontology (GO) og bingo [19]. Blandt de mange beriget GO vilkår, vi fokuseret på dem, der vedrører kræft tilbagefald. Blandt flere gentagelse relaterede termer, vi fokuseret på GO udtryk relateret til “vækst” og analyserede sub-gen netværk for dem GO vilkår, med henvisning til litteraturen. For bedre at analysere detaljerne i sub netværk tilknyttet til proliferation i hver kræft, vi illustreret de netværk ved hjælp Cytoscape [20], som vist i figur 5, figur S3 i File S1, og figur S4 i File S1.
de orangefarvede noder er onkogener.
den foreslåede metode identificerede sub-genet netværk bestående af BRCA1, CCND1, STAT1, og CCNB1, vist i figur 4, hvor det primære onkogen BRCA1 var tilsluttet med en anden onkogen CCND1 og to nav-strukturerede gener, CCNB1 og STAT1. Vi antog, at disse gen sub-netværk var relateret til brystkræft tilbagefald. De CCND1, CCNB1, og STAT1 gener omkringliggende BRCA1 er også blevet rapporteret at have en vigtig rolle i brystkræft tilbagefald. CCND1 er en primær gen i reguleringen af cellecyklusprogression, og Shu
et al
. rapporterede en sammenhæng mellem risikoen for brystkræft og overlevelse baseret på CCND1 polymorfier [21]. CCNB1 en Oncotype DX-genet blev rapporteret, at STAT1 var signifikant relateret til aktiveringen af IFN-γ og dens antitumorvirkninger [22], [23]. Hvis STAT1-afhængige ekspression af MHC-proteiner er forbedret, er tumor proliferation og overlevelse inhiberes ved aktivering af IFN-γ. Desmedt
et al
. konkluderede, at aktivering af STAT1 spiller en vigtig rolle i død af tumorceller og aktiveringen af apoptotiske gener [23].
Konklusioner
I denne undersøgelse foreslog vi en hidtil ukendt semi-overvåget indlæring metode baseret på grafen legalisering for at forudsige kræft gentagelse. Vi viste også, at gentagelsen-specifikt gen net afledt af den foreslåede metode indeholder mange tilbagefald-relaterede gener. Vi har integreret de PPI data med genekspression data til at producere en informativ gen sæt, og til at analysere den biologiske proces relateret til gentagelse.
Leave a Reply
Du skal være logget ind for at skrive en kommentar.