Abstrakte
Kræft er blevet mere og mere anerkendt som en systembiologi sygdom, da mange forskere har vist, at denne maligne fænotype fremgår unormal protein -protein, regulatoriske og metaboliske interaktioner induceret af samtidige strukturelle og lovgivningsmæssige ændringer i flere gener og veje. Derfor er identifikation af onkogene interaktioner og kræftrelaterede signalsystemer net er afgørende for bedre forståelse cancer. Som eksperimentelle teknikker til bestemmelse af sådanne interaktioner og signalering netværk er arbejdskrævende og tidskrævende, vil udviklingen af en beregningsmæssige tilgang stand til at udføre denne opgave være af stor værdi. Til dette formål, præsenterer vi her en roman beregningsmæssige tilgang baseret på netværk topologi og machine learning i stand til at forudsige onkogene interaktioner og udtrække relevante kræft-relaterede signalering undernet fra et integreret netværk af menneskelige gener interaktioner (
INHGI
). Denne tilgang, der kaldes
graph2sig
, er dobbelt: først, det tildeler onkogene scores for alle interaktioner i
INHGI
og derefter disse onkogene scoringer anvendes som kant vægte til at udtrække onkogene signalsystemer undernetværk fra
INHGI
. Med hensyn til forudsigelse af onkogene interaktioner, viste vi, at
graph2sig
er i stand til at genvinde 89% af kendte onkogene interaktioner med en præcision på 77%. Endvidere er de interaktioner der fik høje oncogene scores beriget med gener for hvilke mutationer er blevet kausalt impliceret i cancer. Vi viste også, at
graph2sig
er potentielt anvendelige ekstraktion onkogene signalveje undernetværk: mere end 80% af den beregnede undernet indeholder mere end 50% af de oprindelige interaktioner i deres tilsvarende oncogene lineære veje stede i Kegg PATHWAY databasen. Desuden de potentielle onkogene signalsystemer subnetværk opdaget af
graph2sig
er understøttet af eksperimentelle beviser. Tilsammen disse resultater tyder på, at
graph2sig
kan være et nyttigt redskab for efterforskere involveret i kræftforskning interesseret i at opdage signalering netværk er mest tilbøjelige til at bidrage med fremkomsten af maligne fænotype
Henvisning:. Acencio ML, Bovolenta LA, Camilo E, Lemke N (2013) Forudsigelse af oncogen Interaktioner og kræftrelaterede Meldefunktioner Networks Baseret på Network Topology. PLoS ONE 8 (10): e77521. doi: 10,1371 /journal.pone.0077521
Redaktør: Julio Vera, University of Erlangen-Nürnberg, Tyskland
Modtaget: April 1, 2013; Accepteret: 3. september 2013; Udgivet: 25 oktober 2013
Copyright: © 2013 Acencio et al. Dette er en åben adgang artiklen distribueres under betingelserne i Creative Commons Attribution License, som tillader ubegrænset brug, distribution og reproduktion i ethvert medie, forudsat den oprindelige forfatter og kilde krediteres
Finansiering:. Dette arbejde er blevet støttet af tilskud # 2010 /20.684-3, # 2012 /13.450-1, # 2012 /00.741-8 og # 2013 /02.018-4 fra São Paulo Research Foundation. De finansieringskilder havde ingen rolle i studie design, indsamling og analyse af data, beslutning om at offentliggøre, eller forberedelse af manuskriptet
Konkurrerende interesser:.. Forfatterne har erklæret, at der ikke findes konkurrerende interesser
Introduktion
kræft fænotype er drevet af den samtidige udtryk for seks biologiske funktioner: selvforsyning i vækstsignaler, ufølsomhed over for antigrowth signaler, undgåelse af apoptose, vedholdende angiogenese, grænseløs replikativ potentiale og væv invasion og metastase [1] . Alle disse “kendetegnende for kræft” opstår som et resultat af det komplekse samspil mellem onkogene signaler, der er sæt af sekventielle fysiske og biokemiske reaktioner, dvs. phosphorylering, dephosphorylering, binding, dissociation etc., der er udløst af onkogener eller tumorsuppressorgener og kulminerer i ekspressionen af fundamentale celle fysiologi ændringer forbundet med den maligne fænotype.
generelt onkogene signaler forstyrre de normale interaktioner, så længe disse signaler overført via signaleringsnetværket. For eksempel overekspression af
CCND1
, et gen, som er en vigtig regulator i cellecyklusprogression, er resultatet af den konstitutive onkogen signalering udløses af muteret KRAS i mange cancerceller [2]. Samspillet nedstrøms til KRAS og opstrøms til CCND1 forstyrres, og som en konsekvens,
CCND1
er overudtrykt. Men overekspression af CCND1 alene ikke er tilstrækkelig til at drive onkogen transformation gennem selvforsyning i vækstsignaler understøttet af muteret KRAS. I stedet er yderligere onkogene signaler ændring nuklear handel og ubiquitinmedieret proteolyse skal fremme nuklear retention af overudtrykte CCND1 [3], betingelse hvoraf den fortsatte proliferation af celler, en af de funktioner, der er nødvendige til en fuldstændig malign transformation, kan være opretholdt.
ovennævnte eksempel styrker det faktum, at en normal celle vil blive omdannet til en kræftcelle, hvis flere normale samspil samtidig bliver forstyrret af flere onkogene signaler. I denne henseende bestemmelse af den onkogene rolle af individuelle gener eller proteiner er utilstrækkelig til at afkode de snørklede af signalvejene er involveret i cancer. Bestemmelsen af onkogen rolle gener og proteiner i et system niveau, på den anden side, ville være at foretrække med henblik herpå, og som en kendsgerning, at systemer biologi tilgange er blevet overbevisende vist være en succes i at afdække funktion cancer signalveje (for anmeldelser på kræft systembiologi, se [4] og [5]).
kombinationen af machine learning og grafteori er en af de systemer, biologi tilgange anvendes til at bestemme og forudsige, hvordan fænotyper frem fra samspillet mellem biologiske enheder. Vi har tidligere brugt denne metode til at forudsige væsentlige gener på en genom-plan og bestemme cellulære regler for væsentlighed om
Escherichia coli
[6] og
Saccharomyces cerevisiae
[7]. Desuden har vi også brugt en kombination af machine learning og grafteori til at forudsige morbide og druggable gener og bestemme reglerne for sygelighed og druggability i menneskelig [8]. Udover at opnå succesfulde forudsigelse satser, har vi også opnået biologisk plausible cellulære regler i disse tilfælde. Disse resultater fik os til at undersøge, om kombinationen af machine learning og grafteori ville også være nyttigt at afsløre i et system-niveau, hvordan kræft signalveje handle i fællesskab for at generere den maligne fænotype.
Til dette formål, vi stede i dette papir en ny beregningsmetode baseret på maskine læring og grafteori,
graph2sig
, der bestemmer (1) den onkogent potentiale for en interaktion, dvs. dens evne til at transmittere onkogene signaler i et integreret netværk af menneskelige gen interaktioner (INHGI) og (2) ekstrakter fra INHGI potentielle kræft-relaterede signalering subnetværk givet to gener af interesse ved hjælp af onkogene potentielle scoringer er tildelt interaktioner. Brug
graph2sig
, var vi i stand til pålideligt forudsige onkogent potentiale for interaktioner samt at udvinde fra
INHGI
undernetværk indeholder kendte og potentielle onkogene veje understøttet af eksperimentelle beviser. Så vidt vi ved, er dette den første gang, at kombinationen af maskinindlæring og grafteori anvendes til at forudsige både den onkogene potentiale for interaktioner og potentielle cancer-beslægtede signalsystemer undernet.
Materialer og metoder
formålet med
graph2sig
er dobbelt: forudsigelse af onkogent potentiale for interaktioner (figur 1) og udvinding af potentielle onkogene signalering subnetværk fra
INHGI
(figur 2). Det første skridt i
graph2sig
er opførelsen af
INHGI
beregningen af netværk centralities af gener i
INHGI
(tabel 1). Det andet trin vedrører brugen af disse beregnede netværk centralities som træningsdata til træning machine learning algoritmer (eller elever) til at generere forudsigelsesmodeller til at tildele onkogent potentiale til interaktioner. Det tredje skridt er tildelingen af en “onkogent potentiale” () til hver vekselvirkning af disse modeller til forudsigelse (figur 1).
Efter at have bygget
INHGI
og beregning af netværk centralities, afbalanceret træning grupper er konstrueret og præsenteres for den valgte machine learning algoritme (sække J48), som til gengæld genererer forudsigelsesmodeller som afbildet i (A). Disse forudsigelse modeller er kombineret i en sidste forudsigelse model af Vote algoritmen. Denne endelige model derefter bruges til at tildele onkogene score til interaktioner i
INHGI
oprindelse
wINHGI
som vist i (B).
(A) Ansøgningen af
REA
på
wINHGI
genererer en liste over stier sammen med deres omkostninger for hvert par af gener og disse omkostninger er konverteret til vægte og normaliserede, så den minimale vægt er nul og den maksimale vægt er 1. (B) Tyve undernet er genereret ud fra denne liste over stier og subnetværket med den højeste gennemsnitlige klyngedannelse koefficient er valgt. (C) For hvert par af gener, der er 41 undernet genereres og blandt disse undernet, er den med den højeste gennemsnitlige clustering koefficient valgt som den sidste potentielle kræft-relaterede undernetværk.
det fjerde trin er at finde de stier mellem to gener af interesse, og i
INHGI
med de højeste værdier ved hjælp af rekursive optælling algoritme (
REA
) [9], en sti finde algoritme, der viser stierne i den rækkefølge, deres vægt (i dette tilfælde). Det sidste trin er udvælgelsen og sammenlægning af stier fundet af
REA
for at bygge potentielle kræft-relaterede signalering subnetværket indeholder de højeste onkogene veje forbinder og (figur 2). Disse trin blev gennemført i et bash script til rådighed på https://www.lbbc.ibb.unesp.br/graph2sig
Første trin:.
INHGI
konstruktion og beregning af netværk centralities
INHGI
konstruktion.
INHGI
, som kun indeholder eksperimentelt verificerede interaktioner, blev konstrueret baseret på antagelsen om, at to gener, og, kodning henholdsvis proteiner og, interagerer gener, hvis
(i)
og interagere fysisk (protein fysisk interaktion),
(ii)
transskriptionsfaktoren direkte regulerer transskriptionen af genet, dvs. binder til promotorområdet af (transkriptionel regulering interaktion) eller
(iii)
enzymerne og dele metabolitter, dvs. at et produkt dannet ved en reaktion katalyseret af enzym, der anvendes som reaktant ved en reaktion katalyseret af enzymet, eller enzymet frembringer en metabolit, interagerer med en ikke-enzymatisk (metabolisk interaktion). De eksperimentelt verificerede menneskelige interaktioner blev opnået fra forskellige kilder ifølge type interaktion som beskrevet nedenfor.
Protein-protein fysiske interaktioner data blev opnået fra version 1.3 af Human Integreret protein-protein-interaktion reference (HIPPIE), en database, dedikeret til indsamling af eksperimentelt verificerede og scorede humane protein-protein interaktioner integreret fra flere kilder [10]. Vi indsamlet fra HIPPIE kun interaktioner påvist af eksperimentelle teknikker, der har modtaget snesevis af 5 eller flere, dvs. teknikker, der af Hippie ekspert kuratorer som dem med høj pålidelighed og lav fejlprocent [10]. Protein-protein interaktioner fra HIPPIE (og fra alle andre lignende databaser i virkeligheden) betragtes ikke-styrede interaktioner, fordi denne type interaktion formodes at være ikke-retningsbestemt. Men som udvinding af potentielle onkogen signalering undernet fra
INHGI
afhænger retningen af interaktioner, dvs. retningen af signalet flow mellem proteiner, og interaktioner, som vores kilde til træningsdata, den Kegg PATHWAY [11], er rettet (se flere detaljer i afsnittet “Opførelse af uddannelse datasæt”), hver protein-protein interaktion – blev omdannet i to forskellige rettet interaktioner: og
Menneskelig transkriptionelle regulering interaktioner blev opnået fra den aktuelle version af. human Transkriptionel forordning Interaction database (HTRIdb [12]). Lavet af vores gruppe, HTRIdb er en samling af eksperimentelt verificerede interaktioner mellem menneskelige transkriptionsfaktorer og deres målgener opdaget af 14 forskellige eksperimentelle teknikker omfavne både små og store teknikker. Vi indsamlet fra HTRIdb alle transkriptionsfaktorer /målgener interaktioner.
Metaboliske interaktioner udvundet fra det menneskelige stofskifte model Recon 1 [13] af en kode implementeret i Mathematica
® 7,0 (Wolfram Research, Inc.) . Vi ekskluderede de metaboliske interaktioner genereret af de såkaldte “valuta metabolitter”, rigelige molekylære arter i hele cellen meste af tiden, og derfor, som ikke forventes at pålægge begrænsninger på dynamikken i metaboliske reaktioner [14]. Vi overvejede valuta metabolitter de otte mest tilsluttede metabolitter (ADP, ATP, H, HO, NADP, NADPH, orthophosphat og pyrophosphatforbindelser) i den oprindelige metaboliske model Recon 1. Derudover har vi tilføjet til det sæt af metaboliske interaktioner nogle vigtige interaktioner, der er mangler i Recon 1: PIK3CA PDPK1, PIK3CA ILK, PIK3CA Akt3, PIK3CA AKT2, PIK3CA Akt1, PIK3CB PDPK1, PIK3CB ILK, PIK3CB Akt3, PIK3CB AKT2, PIK3CB Akt1, PIK3CD PDPK1, PIK3CD ILK, PIK3CD Akt3, PIK3CD AKT2, PIK3CD Akt1 og PTEN Akt1.
den sidste
INHGI
er en rettet netværk dannet af integration af protein fysiske, metaboliske og transkriptionelle regulering interaktioner gennem gener fælles for disse datasæt (se datasæt S1). Før udførelse af integrationen, vi konverteret alle menneskelige gen navne til deres GeneID – som oplyst af Entrez Gene databasen [15] -. At undgå at skabe falske interaktioner på grund af gen-navn tvetydighed
Beregning af netværk centralities.
for hvert gen i
INHGI
, vi beregnede 4 netværk centrale foranstaltninger som anført i tabel 1. Kort fortalt grad centralitet () er defineret som antallet af links til node (i vores tilfælde, gen). Clustering koefficient () af et knudepunkt (i vores tilfælde, et gen) kvantificerer hvor tæt knudepunktet og dets naboer er at være en klike, dvs. alle knuder forbundet til alle knudepunkter. For
INHGI
, er defineret som den andel af forbindelser mellem gener i nabolaget af divideret med antallet af links, der kunne være mellem dem. Betweenness centralitet () afspejler den rolle, som en knude spiller (i vores tilfælde, et gen) i det globale netværk arkitektur og, for det
INHGI
, er defineret som den del af korteste veje mellem og passerer igennem. Nærhed centrale () foranstaltninger, hvor tæt en node (i vores tilfælde, et gen) er at alle andre i netværket og for
INHGI
, er defineret som middelværdien korteste vej mellem og alle andre gener kan nås fra det. Alle disse netværk centrale foranstaltninger blev beregnet ved Python pakken
NetworkX
1.6 [16]
Andet trin:.. Generation af modeller
Konstruktion af uddannelse datasæt
Vi konstrueret to grupper af balancerede uddannelse datasæt, dvs., datasæt indeholder det samme antal positive (i vores tilfælde, kendt onkogene interaktioner) og negative (i vores tilfælde, ikke-onkogene interaktioner) eksempler: “normale datasæt” og ” blandes datasæt “. Disse træningsdata er tilgængelige på https://www.lbbc.ibb.unesp.br/graph2sig
For at konstruere uddannelse datasæt, vi først samlet en liste over onkogene interaktioner -. Interaktioner kendt for at transmittere onkogene signaler – fra kræft pathway kortene leveres af Kegg pATHWAY database [11] og derefter kortlagt dem til INHGI. Den endelige liste over onkogene interaktioner anvendt som positive eksempler for at træne vores maskine learning algoritme er omfattet af 265 onkogene interaktioner stede i INHGI (se Datasæt S1). Med hensyn til de negative eksempler, vi betragtes som “ikke-onkogene interaktioner” de resterende interaktioner stede i INHGI fordi øjeblikket er det ikke muligt at opbygge en liste over interaktioner ikke kendt for at overføre onkogene signaler. Vi valgte tilfældigt 1000 forskellige sæt af 265 af disse ikke-onkogene interaktioner og kombinere dem med en liste over 265 kendte onkogene interaktioner til at bygge 1000 forskellige uddannelse datasæt indeholdende 530 interaktioner hver. Det er de “normale datasæt”. Fra disse normale datasæt, vi genererer 10000 forskellige “blandes datasæt” ved tilfældigt at blande klasse etiketter (onkogene og ikke-onkogene) blandt interaktioner (figur 1).
Konstruktion af modeller.
Vi ansat den version 3.7.5 af WEKA (Waikato Miljø for Knowledge Analysis) softwarepakke, en samling af machine learning algoritmer til data mining opgaver [17], til at generere prognosemodeller. Vi brugte træningsdata beskrevet i det foregående afsnit for at træne bootstrap sammenlægning (sække), en maskine læring ensemble meta-algoritme, der kombinerer flere base-elever [18]. I vores tilfælde valgte vi som base lærende på J48 algoritme, en WEKA implementering af C4.5 beslutningstræet [19], med standardparametre.
Normalt generation af modeller af sække gennemføres som følger: (1) bootstrap replikater af uddannelsen datasæt er skabt; (2) hver gentagelse præsenteres til basen lærende at end bygger forudsigelse modeller; og (3) disse forudsigelse modeller er eventuelt kombineret i en enkelt model. I vores tilfælde blev sække konfigureret til at producere 20 bootstrap replikater af hver uddannelse datasæt, og disse gentagelser blev derefter præsenteret for J48, som til gengæld genereret 20 forudsigelse modeller for hver træning datasæt. Disse modeller blev endelig kombineres i en enkelt model for hver uddannelse datasæt i alt 1000 tilsammen “normale” modeller (genereret fra de normale datasæt) og 10000 kombineret “blandet” modeller (genereret fra blandet datasæt).
Ydelse af konstrueret forudsigelsesmodeller.
Vi vurderede effektiviteten af vores forudsigelse modeller ved at vurdere deres tilbagekaldelse, præcision og området under den modtagende opererer karakteristik (ROC) kurven (AUC). Recall er andelen af faktiske onkogene interaktioner, som er korrekt forudsagt som sådan mod alle faktiske kræftrelaterede interaktioner:
TP (sand positiv) angiver mængden af faktiske kræftrelaterede interaktioner korrekt forudsagt som sådan og FN (falsk negativ) angiver mængden af faktiske kræftrelaterede interaktioner forkert forudsagt som ikke er kendt for at være relateret til kræft, hhv.
Præcision er andelen af faktiske kræftrelaterede interaktioner, som er korrekt forudsagt som sådan mod alle interaktioner forudsagt som relateret til kræft:
FP betegner mængden af interaktioner faktisk ikke kendt for at være relateret til kræft forkert forudsagt som kræftrelaterede interaktioner henholdsvis
AUC er et summarisk mål for ROC. kurve – en afbildning af den sande positive rate versus falske positive, som angiver sandsynligheden for en sand positiv forudsigelse som funktion af sandsynligheden for en falsk positiv forudsigelse for alle mulige tærskelværdier [20] – og svarer til sandsynligheden for, at en tilfældigt udvalgt negativ eksempel (i vores tilfælde, en ikke-onkogene interaktion) vil have en mindre estimerede sandsynlighed for tilhørsforhold til den positive klasse end en tilfældigt udvalgt positivt eksempel (i vores tilfælde, en onkogen interaktion) [21].
Brug WEKA, vi skønnede ovennævnte præstationsmål ved at udføre en 10-fold krydsvalidering at teste 1000 kombineret normal og 10000 kombineret blandet forudsigelse modeller. Den 10-fold krydsvalidering fungerer således: hver datasæt tilfældigt opdelt i 10 undergrupper. Af de 10 undergrupper, er en enkelt delmængde bevaret som validering af data til test af modellen, og de resterende 9 undergrupper anvendes som træningsdata. Krydsvalideringscyklussen gentages derefter 10 gange, med hver af de 10 undersæt anvendes nøjagtigt en gang som validering data. De 10 Resultaterne fra folderne midles da for at fremstille en enkelt skøn for hver ydelse foranstaltning for hvert forudsigelsesmodel. I vores tilfælde, hver forestilling mål for hver forudsigelsesmodel er et gennemsnit af 200 resultater da hver model er en kombination af 20 andre modeller. Endelig rapporterede vi de præstationsmål anslået af den 10-fold krydsvalidering som medianer af 1000 kombineret normal og 10000 kombineret blandet prognosemodeller.
De statistiske sammenligninger af præstationsmål anslået af vores prognosemodeller genereret af normale og blandes datasæt blev udført af Mann-Whitney-U-test [22]. Ifølge etablerede konventioner i machine learning samfund, brugte vi denne test, da det giver ingen antagelser om den underliggende fordeling af resultatmål anvendes til at evaluere de prognosemodeller [23]. Forskelle mellem præstationsmål anslået af vores forudsigelse modeller genereret af normale og blandes datasæt med en p-værdi 0,005 blev betragtet som statistisk signifikant
Tredje trin:. Forudsigelse af potentielle onkogene interaktioner
Vi samlet 1000 kombineret normale forudsigelsesmodeller bygget i det forrige trin i en enkelt model (findes på https://www.lbbc.ibb.unesp.br/graph2sig) ved brug af “Stem”, en WEKA gennemførelse af de stemmeberettigede meta-algoritme, der kombinerer output forudsigelser af hver forudsigelse model ved forskellige regler [24]. Vi anvendte derefter dette enkelt forudsigelsesmodel, der indeholder 20000 modeller som følge af kombinationen af de 1000 kombinerede modeller, på sin side indeholder 20 modeller hver, at tildele værdier, dvs. imidlertid overføre onkogene signaler, til hele sættet af interaktioner i INHGI værdier. Den endelige værdi er et gennemsnit på 20000 værdier individuelt tildelt af hver model i det indre forudsigelse model
Fjerde skridt:. Udførelse af den rekursive optælling algoritme (
REA
)
for at finde de stier med de højeste værdier mellem to gener og i
INHGI
,
graph2sig
anvendelser
REA
[9]. Denne algoritme opregner stier mellem en start og en slutning node i omvendt rækkefølge af deres omkostninger, således at stien med minimum er rangeret første blandt stierne. Før udførelse af
REA
, værdier i
INHGI
omdannes til omkostningerne () da
REA
anser vægten af kanter som omkostninger. På denne måde, stien med maksimum, hvor er det samlede antal interaktioner i stien, svarer til stien med minimum for
REA
.
I
REA
foruden at vælge en start node – i vores tilfælde et gen, der udløser den onkogene signal – og en ende node – i vores tilfælde et gen af interesse, der modtager den onkogene signal udløst af start-genet – det er også muligt at definere op til en maksimumsværdi forudbestemt for hver størrelse af netværket. For
INHGI
, for eksempel,
REA
giver mulighed for at definere et maksimum på stier. For hvert par -,
graph2sig
kører
REA
med 41 forskellige værdier af: 100 til 1000 i trin på 100 stier, 2000 til 10000 i trin på 1.000 stier, 20000 til 100000 i trin på 10000 stier, 200000 til 1000000 i trin på 100000 stier og 1500000 til 3000000 i trin på 500000 stier.
fra de 41 grupper af stier, der returneres af
REA
, 41 potentielle kræftrelaterede signalering undernetværk er konstrueret til hver – par, som vist i næste afsnit
sidste trin:. udvinding af potentielle kræftrelaterede signalsystemer undernetværk
i denne sidste trin af
graph2sig
, fra hver gruppe af stier, der returneres af
REA
(f.eks gruppe med 1000 stier eller 100000 stier) for hver – par, er den potentielle cancer-relaterede signalering subnetværket konstrueret som følger:
for hver sti, omdannes til vægt, hvor;
værdier er normaliseret, så og som følgende: (1) hvor er normaliseret for sti og er den beregnede vægt (1) for vej;
Tyve undernetværk er konstrueret således, at hver undernet består af et sæt kurver med hvor går fra 0 til 0,95 i trin på 0,05 (Figur 2);
undernet med den højeste gennemsnitlige klyngedannelse koefficient blandt alle 20 undernet vælges som den potentielle cancer-relaterede signalering subnetværket (figur 2)
på dette niveau,
graph2sig
indeholder en samling af 41 potentielle kræftrelaterede signalering undernet for hver -. par . Den ultimative potentielle kræft-relaterede signalering undernetværk for hver – par er subnetværket med den højeste gennemsnitlige klyngedannelse koefficient blandt de 41 undernetværk (figur 2)
Resultater og Diskussion
INHGI
: generelle træk
opførelsen af
INHGI
er grundlæggende for
graph2sig
da udnyttelsen af netværket centrale mål for gener som træningsfunktioner i machine learning foreslåede tilgang her er kernen i hele processen. Desuden, udvinding af en signalering undernet kun mening i et netværk sammenhæng. Således er det vigtigt at være opmærksom på nogle generelle funktioner i
INHGI
da disse funktioner kan tjene som nyttige ressourcer til analyse og fortolkning af resultater.
INHGI
er en rettet netværk bestående af 19789 gener og 318332 interaktioner. Ud fra disse 19789 gener, 13932 interagerer med hinanden via 242.716 protein fysiske interaktioner (betragtes her som rettet interaktioner, se detaljer i “Methods”), 1166 via 24299 metaboliske interaktioner og 18310 via 51.317 transkriptionelle regulering interaktioner. Desuden 896 gener interagerer med hinanden via protein fysisk og metaboliske interaktioner, 12508 via protein fysisk og transkriptionel regulering interaktioner og 1042 via metaboliske og transkriptionelle regulering interaktioner (se Datasæt S1).
INHGI
er helt sikkert langt fra komplet, hvis vi anser for eksempel skøn beregnes af Stumpf og kolleger [25]: de har anslået, at størrelsen af den menneskelige netværk af protein-protein interaktioner er omkring 650000 interaktioner. Derfor
INHGI
indeholder 19% af det samlede antal estimerede humane protein-protein interaktioner som 121358 styrede protein-protein interaktioner er til stede i dette netværk. Desuden
INHGI
indeholder ca. 46% af de allerede identificerede 43059 humane gener (ifølge EntrezGene databasen [15] adgang den 10. september, 2012). De resterende 23211 gener fraværende fra
INHGI
er transkriptionelt reguleret af mindst en transskription faktor indebærer, at der i fremtiden,
INHGI
vil blive øget ved tilsætning af mindst 23211 transkriptionelle regulering interaktioner.
på grund af ufuldstændige
INHGI
diskuteret ovenfor – faktisk en mærkbar karakteristisk for alle netværk udelukkende er indrettet med eksperimentelt validerede interaktioner -, der er beskrevet i de næste afsnit resultater gælder kun for den strøm
INHGI
. Enhver ændring i strukturen af
INHGI
vil også ændre netværk centrale foranstaltninger, og som en konsekvens, opførelse af modeller samt tildeling af værdier.
Evaluering af arbejdet i forudsigelsesmodeller
den anden og tredje trin i
graph2sig
bekymring henholdsvis generation af modeller og tildeling af onkogene potentielle scoringer, at interaktioner i
INHGI
. Forud for tildeling af værdier (som beskrevet i detaljer i “Methods”), vi søgte at estimere effektiviteten af de genererede forudsigelse modeller i inddrivelse kendte onkogene interaktioner og skelne ikke-onkogene fra onkogene interaktioner. Til dette formål, vi vurderede deres præstation ved at måle deres median tilbagekaldelse, præcision og AUC på tværs af de 1000 normale modeller (se “metoder” for flere detaljer).
Før analysere præstationsmål vores forudsigelse modeller, vi skønnede de præstationsmål af forudsigelsen modeller genereret fra de blandes datasæt og derefter sammenlignet dem med de prognosemodeller genereret fra de normale datasæt. Dette blev gjort for at kontrollere, om forudsigelse modeller bygget af træning af sække J48 på ikke-blandes datasæt lærte de træk faktisk er forbundet med kræft i stedet for træk forbundet med nogen tilfældig delmængde af gener. Til denne sammenligning, brugte vi Mann-Whitney-U-test [22], som beskrevet i “metoder”. For blandet modeller, tilbagekaldelsen varierede fra 0,22 til 0,81 med en median på 0,49, præcision varierede fra 0,39 til 0,69 med en median på 0,5 og AUC varierede fra 0,38 til 0,62 med en median på 0,49. Alle disse værdier er statistisk forskellige fra præstationsmål normale modeller (p-værdi for alle foranstaltninger), hvilket indikerer, at de træk faktisk er forbundet med kræft, blev lært af vores normale forudsigelsesmodeller.
Efter bekræftelse af, at forudsigelsen modeller genereret fra normale datasæt er tilbøjelige til at lære de træk faktisk er forbundet med kræft, vi havde til formål at analysere deres præstationsmål. Som vist i figur 3, tilbagekaldelse af prædiktionsmodeller varierede fra 0,83 til 0,94 med en median på 0,89, og deres præcision varierede fra 0,71 til 0,83 med en median på 0,77. Derefter de prognosemodeller inddrevet korrekt 89% af kendte onkogen interaktion med en præcision på 77%. Endvidere er sandsynligheden for en interaktion forudsiges onkogen faktisk tilhører sættet af kendte onkogene interaktioner varierede fra 84% til 93% med en median på 89% som angivet ved den mediane AUC (figur 3).
Boxplot viser fordelingen af tilbagekaldelse, præcision og AUC-værdier for 1000 forudsigelse modeller genereret fra normale datasæt (røde kasser) og 10000 forudsigelse modeller genereret fra blandet datasæt (blå kasser). Fordelingerne af bremsevirkningen for modeller, der genereres fra normal og blandes datasæt er statistisk forskellig ifølge Mann-Whitney-U-test (p-værdi for alle foranstaltninger).
Mens vores forudsigelse modeller er i stand til at genvinde det meste af kendte onkogene interaktioner som afsløret ved deres høje tilbagekaldelse (median på 89%), deres evne til at skelne onkogene fra ikke-onkogene er mindre udtalt som afsløret af deres moderat præcision (median på 77%). Dette indikerer en vis støj i uddannelsen data, der sandsynligvis er forbundet med eksistensen af delte fælles træk mellem onkogene og ikke-onkogene interaktioner, der inducerede vores forudsigelse modeller til at give en moderat præstation i at diskriminere onkogen fra ikke-onkogene interaktioner.
Leave a Reply
Du skal være logget ind for at skrive en kommentar.