Abstrakt
Syntetiske Lethal (SL) genetiske interaktioner spiller en central rolle i forskellige typer af biologisk forskning, der spænder fra at forstå genotype-fænotype relationer på at identificere lægemiddelkandidater-mål mod kræft. Trods de seneste fremskridt inden for empiriske måling SL interaktioner i humane celler, den menneskelige genetiske interaktion kort er langt fra afsluttet. Her præsenterer vi en ny tilgang til at forudsige dette kort ved at udnytte mønstre i kræft genom evolution. Først viser vi, at empirisk bestemte SL interaktioner afspejles i forskellige gen tilstedeværelse, fravær, og dobbeltarbejde mønstre i hundredvis af kræft genomer. Den mest indlysende mønster, som vi opdaget, er, at når et medlem af en SL interaktion genpar er tabt, det andet gen tendens til ikke at være tabt, dvs. fravær af co-tab. Denne observation er i overensstemmelse med forventning, fordi tabet af en SL interagerende par vil være livsfarlige for kræftcelle. SL interaktioner afspejles også i genekspression profiler, såsom en underrepræsentation af de tilfælde, hvor generne i en SL par er begge under udtrykt, og en overrepræsentation af tilfælde, hvor et gen af en SL par er under udtrykt, mens den anden er overudtrykt. Vi har integreret de forskellige hidtil ukendte kræft genom mønstre og de genekspressionsmønstre i en beregningsmæssige model til at identificere SL par. Denne enkle, genom-dækkende model opnår en høj forudsigelse effekt (AUC = 0,75) for kendte genetiske interaktioner. Det giver os mulighed for at præsentere for første gang et samlet genom-liste over SL interaktioner med en høj estimeret forudsigelse præcision, der dækker op til såle- des 591.000 genpar. Denne unikke liste kan potentielt anvendes i forskellige anvendelsesområder spænder fra bioteknologi til medicinsk genetik
Henvisning:. Lu X, Megchelenbrink W, Notebaart RA, Huynen MA (2015) Forudsigelse Menneskelige genetiske Interactions fra Cancer Genome Evolution. PLoS ONE 10 (5): e0125795. doi: 10,1371 /journal.pone.0125795
Academic Redaktør: Joel S. Bader, Johns Hopkins University, USA
Modtaget: December 10, 2014 Accepteret: 25 marts 2015; Udgivet: 1. maj 2015
Copyright: © 2015 Lu et al. Dette er en åben adgang artiklen distribueres under betingelserne i Creative Commons Attribution License, som tillader ubegrænset brug, distribution og reproduktion i ethvert medie, forudsat den oprindelige forfatter og kilde krediteres
Data Tilgængelighed: Alle relevante data er inden for papir og dens støtte Information filer
Finansiering: Dette arbejde blev støttet af Holland Organisation for Videnskabelig Forskning (NWO), No:. CSBR09 /013V, (WM); og Europæiske Unions FP7 storstilede integrerede netværk Gencodys, https://www.gencodys.eu, SUNDHED-241.995, (XL). De finansieringskilder havde ingen rolle i studie design, indsamling og analyse af data, beslutning om at offentliggøre, eller forberedelse af manuskriptet
Konkurrerende interesser:.. Forfatterne har erklæret, at der ikke findes konkurrerende interesser
Introduktion
et syntetisk letal (SL) genetiske interaktion er defineret som et funktionelt forhold mellem to gener, hvor tabet af enten genet er levedygtig, men tabet af begge er dødelig [1]. En omfattende kort over SL interaktioner kaster lys over forholdet mellem genotype og fænotype [2-5], potentielt fremme forståelsen af mekanismerne i komplekse sygdom hos mennesker [6, 7], og selv giver terapeutisk behandling strategier for menneskelige sygdomme såsom kræft [8]. For eksempel har flere undersøgelser vist, at inhibering ét gen i en SL par kunne være dødelige for kræftceller, hvor det andet gen af denne par er muteret [9-11]. Det grundlæggende koncept er, at i en cancercelle, en mutation i et (A) af de to gener i en SL par (AB), som ikke er muteret i den normale celle, giver mulighed for selektivt at dræbe tumorceller ved at inhibere B. Trods seneste gennembrud i teknologi til at identificere SL interaktioner på en genom-plan [12-15], disse interaktioner stort set ukendte i menneskelig, hvilket understreger behovet for forudsigende beregningsmæssige metoder.
Tidligere beregningsmæssige metoder har mest været udviklet til forudsige SL interaktioner i model mikroorganismer, såsom
Saccharomyces cerevisiae
Caenorhabditis elegans
[16-18]. Dog er genetiske interaktioner ikke stærkt bevaret mellem arter, for eksempel blev fundet kun 29% af genetiske interaktioner at være bevaret mellem svampene
S
.
cerevisiae
Schizosaccharomyces pombe
[19] og bevarelse af SL interaktioner mellem mikroorganismer og menneske er endnu ikke fastlagt. For nylig foreslog en undersøgelse for at bruge kræft genomiske data [20] for at identificere SL interaktioner ved hjælp af en “erstatning” mønster: et gen (A) er inaktiv, mens den anden (B) er meget aktive, hvorved der udvælges imod den situation, både gener bliver tabt, og som sådan, hvilket medfører en letal fænotype. Vi har for nylig viste en anden genomisk mønster af SL interagerende genpar: SL interaktioner afspejles i nutidens arter genomer og deres forfædres genomer på en måde, at den kombinerede tab af to gener i en SL par ikke ofte optræde på evolutionære historie [21] . Dette rejser spørgsmålet, om vi kan bruge denne “co-tab underrepræsentationen ‘mønster at forudsige SL par fra humane cancer genomer (Fig 1A). Her brugte vi kopital variationer, dvs. gen tab eller gen-gevinst, på tværs af hundredvis af kræft genomer til at spørge i) er empiriske SL interaktioner afspejles i kræft genom evolution og i bekræftende fald, ii) som gevinst og tab mønstre korrelerer mest med SL interaktioner og iii) kan de fanges i en simpel beregningsmæssige model til at forudsige SL interaktioner genome bredt?
(a) en SL interaktion SL1 mellem gen a og B kan vise en “kompensation” mønster på tværs af kræft genomer, hvor det er mere sandsynligt, at når A er inaktiv (angivet med -1), B er overaktiv (angivet med 1) for at kompensere den inaktive A (genomer 1-10), sammenlignet med, når A er aktiv (genomer 11-30). SL interaktion SL2 kan vise en ‘co-tab underrepræsentationen “, hvor en samlet underskud på A og B (angivet med -1 og -1, genom 10) på tværs kræft genomer er underrepræsenteret i forhold til et tab af den ene af de to ( genomer 2-9 og genom 14-18). Bemærk, at SL1 også kan identificeres via co-tab underrepræsentationen mønster, men SL2 kan kun identificeres via co-tab underrepræsentation mønster. (B) Modellen kræver to typer data som input, i) CNVs målt ved SNP arrays og ii) genekspression variationer målt ved RNAseq. I CNVs, kan status af et gen være en homozygot deletion (to stiplede linier), en heterozygot deletion (en bindestreg og et fuldt optrukket linje) eller normale (to hele linier). For CNVs, genereret vi tre fraktioner at kvantificere sandsynligheden for, at et gen par har en homozygot co-tab (f1), en heterozygot co-tab (f2) eller et blandet co-tab (f3) begivenhed. I genekspression variationer, kan et gen være under-udtrykt (en stiplet linie), normal (en fuldt optrukket linje) eller overudtrykt (en fed linie). For udtryk status, genereret vi to fraktioner, F4 og F5. f4 er sandsynligheden for, at begge gener i et gen par er under-udtrykkes. f5 er sandsynligheden for, at et gen par har et udtryk op-ned begivenhed, hvor den ene er overudtrykt, mens den anden er under-udtrykkes. Alle disse fem fraktioner viste en fordeling forskel mellem SL og ikke-SL par. Ved at integrere disse fem fraktioner i en forudsigelse model, kan vi identificere SL interaktioner der kan præsenteres som et netværk.
Ved at udnytte tilgængeligheden af genekspression data for et stort antal prøver kræft [22] og seneste empirisk målte SL interaktioner i menneskelig [23, 24], fandt vi, at gener med SL interaktioner er mere tilbøjelige til at have et udtryk mønster, hvor et gen er overudtrykt, mens den anden er under-udtrykt, hvilket bekræfter tidligere observationer [ ,,,0],20]. Påfaldende observerede vi, at SL par er mindre tilbøjelige til at være co-fortabte og co-under udtrykt end ikke-SL genpar. På grundlag af disse resultater, vi præsenterer en enkel ensemble-baserede computermodel, der fanger de genomiske mønstre at forudsige genom-dækkende SL par med stor nøjagtighed. Vi giver en unik og omfattende kort over den menneskelige SL interaktion netværk med en høj anslået forudsigelse nøjagtighed på 67%, dvs. 14 gange højere end forventet fra chance, som dækker såle- des 591.000 par. Dette kort forventes at være særdeles værdifuldt i lyset af at forstå sygdom hos mennesker og designe terapeutiske strategier.
Materialer og Metoder
Datakilder
Vi hentede de eksperimentelt målte SL par og ikke-SL par fra to undersøgelser [23, 24]. Vi indsamlede 297 SL par og 6358 ikke-SL par i alt. Efter at have udelukket parrene, som begge gener er placeret på samme kromosom, vi opnåede 270 SL par og 5660 ikke-SL par (S1 tabel).
CNV data direkte hentet fra cBioPortal for Cancer Genomics [ ,,,0],25]. CNV-signaler i databasen genereres som homozygot sletning, heterozygot sletning, normal kopi, dobbeltarbejde og forstærkning. Brug af “cgdsr” R-pakke, vi opnåede CNV data for 14136 tumor patienter fra 31 kræftformer.
RNAseq opnås data fra de overordnede Instituts genom Data Analysis Center (GDAC) brandslange [26]. Linket til download af RNAseq data https://gdac.broadinstitute.org/runs/stddata__2014_03_16/data. For hver kræft undersøgelse vi først hentede filer navngivet som ‘_RSEM_genes_normalized_data.Level_3 «, som indeholder de anslåede ekspressionsniveauerne for hvert gen i humane genom fra RNAseq data ved hjælp af RSEM pakke [27]. I alt indsamlede vi et udtryk profil for 7362 tumor patienter med dækning af 26 typer kræft. Så for hvert gen i en tumor, beregnet vi Z-score og P-værdi at udlede sin over- eller under-udtryk i forhold til ekspressionsniveauerne i normalt væv. Hvis mindst 25 normale prøver fra samme vævstype som den for cancer er til rådighed, vi brugt dette som sammenligningen sæt. Ellers alle normale vævsprøver, uanset den vævsspecificitet, blev anvendt. Antallet af normale prøver for hver type tumor er anført i S2 tabel. For at justere for multipel testning hypotese, vi brugte den False Discovery Rate (Benjamini-Hochberg) metode til at justere p-værdier [28, 29] i R. En cutoff af den justerede P-værdi, 0,05, blev anvendt til at generere den over- eller under-udtryk signal.
Uddrag mønster for SL par fra genomiske variationer
kopi nummer variationer kan være, -2 = homozygot sletning, -1 = heterozygot sletning, 0 = normal kopi , 1 = dobbeltarbejde, og 2 = forstærkning. For et gen par (A, B), co-tab hændelse kan være i) homCL: homozygot co-tab (-2, -2), ii) hetCL: heterozygot co-tab (-1, -1) eller iii ) mixCL: blandet co-tab (-2, -1 eller -1, -2). For hver co-tab begivenhed, vi definerede en fraktion, der kvantificerer sandsynligheden for co-tabsgivende begivenhed. For eksempel for den homozygote co-tabshændelse definerede vi fraktionen for en genparret AB som f
1 = n
homCL /n
t, hvor n
homCL er antallet af patienter med den homozygote co-tab af AB og n
t er det samlede antal patienter, hvor AB har en status som (-2, -2), (-2, 0) eller (0, -2). Vi beregnede f
1 af et gen par uden herunder prøver, der har homozygote sletninger på mere end 2000 gener (hale af fordelingen i figur A i S1-fil). Vi har bemærket, at flere tumorprøver har et meget højt antal homozygote sletninger (figur A i S1 fil). Sådanne prøver kan føre til en inflation af co-tab sandsynlighed, uanset om de har en SL interaktion eller ej. Ligeledes vi definerede to fraktioner, f
2 og f
3, for heterozygote co-tab begivenhed og blandede co-tabsbegivenheder overensstemmelse hermed (tabel 1 og figur 1). Det skal bemærkes, at vi ikke bruger en tilgang, hvor vi, for at kvantificere under repræsentation af co-tab begivenheder, sammenlignede empirisk observerede co-tab på gen par AB med produktet af de enkelte tabsprocenter for gener A og B. Denne tilgang forudsætter uafhængighed mellem tabet af tilfældigt udvalgte gener, som er ikke, hvad vi observerer (Figur B i S1 File)
variationerne i genekspression kan være:. -1 = under -expression, 0 = normal, og 1 = overekspression. Her har vi defineret to fraktioner, f
4 og f
5 (tabel 1 og figur 1). f
4 kvantificerer sandsynligheden for begge gener i et par (A, B) er under-udtrykkes. f
5 anvendes til at kvantificere hvor sandsynligt genpar AB har udtrykket op-ned begivenheder, dvs., A er overudtrykt og B er under udtrykt eller omvendt.
Her hver defineret fraktion er en signalere hvor SL par viser forskel fra ikke-SL par. For f
1, f
2, f
3 og f
4, forventede vi, at SL par har mindre værdier for disse fraktioner end ikke-SL par. til f
5 forventede vi, at SL par har større værdier end ikke-SL par. For at teste disse hypoteser, sammenlignede vi fraktioner i SL par med fraktionerne i ikke-SL parvis via ensidige Wilcoxon rank test i R. Vi udførte fire sammenligninger af homozygote deletion, heterozygot deletion, blandet deletion og co-underekspression at estimere forskellen af co-tab tendens mellem SL og ikke-SL par. I analysen af op-ned kompensation, vi gennemført to sammenligninger udtryksform op-ned eller genomisk op-ned. Bonferroni-metode blev anvendt til at korrigere for 4 multiple sammenligninger i analysen af co-tab tendens og 2 multiple sammenligninger i analysen af op-ned kompensation (p-værdier er angivet med P
adj.).
for at validere robusthed af signalerne, vi sammenlignede fraktioner i SL parvis til fraktionerne i tilfældige par. I hver randomisering, vi først genereret 300 tilfældige par fra alle humane gener for hvilke genekspression og CNV var tilgængelige og sammenlignes derefter middelværdien af fraktionerne i de tilfældige par med middelværdien i SL par. Vi forventede, at de tilfældige par har en mindre gennemsnit af f
1, f
2, f
3 eller f
4, men et større gennemsnit af f
5 end SL par. For at teste hypoteserne, vi talte randomiseringer (n
1), hvor forskellen i middelværdien mellem de tilfældige par og SL par er i modstrid med forventningen. For hver sammenligning gennemførte vi 1000 randomiseringer og beregnet P-værdi for hver hypotesetest som P = (n
1 + 1) /1001.
Under-sampling
Uddannelsen sæt er betydeligt skæv med kun 4,6% af parrene, der tilhører de positive klasse (SL par) og resten tilhører de negative klasse (ikke-SL par). Sådan en skæv træningssæt kan påvirke udførelsen af de fleste klassifikationsselskaber algoritmer standard [30]. , Genereret vi således en mere afbalanceret træningssættet ved tilfældigt under-sampling af negative klasse, således at antallet af genpar i den er lig med den for den positive klasse. Det under-sampling udføres med ROSE pakke i R [31] og gentaget 100 gange. Alle klassificører i undersøgelsen er uddannet om ligelig sæt.
Construct ensemblet-baserede forudsigelse model
Vi vedtog et ensemble-baserede model for at integrere de førnævnte 5 signaler til at forudsige, om et gen par har en SL interaktion eller ej. Den afbalancerede træningssæt (beskrevet ovenfor) blev anvendt til at træne ensemblet-baserede forudsigelse model, der kombinerer flere klassificører, nemlig AdaBoost, J48, LogitBoost, RandomForest, Logit, JRip og DEL. Reglen Kombinationen er simpelthen baseret på den gennemsnitlige funktionen, hvor x er et givent gen par og
s
jeg
(x)
er sandsynligheden for, at x forudsiges at være SL ved klassificeringen i. Sandsynlighederne
s
jeg
(x)
fra alle klassificører, undtagen RandomForest opnås fra “RWeka pakke [32]. Den RandomForest klassificeringen gennemføres med “randomForest” pakke i R [33].
For at kvantificere udførelsen af ensemblet-baserede model, brugte vi en 10-fold krydsvalidering ramme på alle empirisk målte 270 SL par og 5660 ikke-SL par. I hver cross-validering, er ensemblet-baserede model uddannet på ni af de tilfældigt konstruerede 10 fraktioner og forudsigelser er lavet til prøverne i den resterende fraktion. Udførelsen af modellen i hvert krydsvalidering evalueres af en ROC-kurve, den tilsvarende AUC score og en præcision-recall kurve. Gentagelse denne procedure 10 gange, er en gennemsnitlig ROC-kurve, en gennemsnitlig AUC score og en gennemsnitlig præcision-recall kurve beregnet som evalueringen for udførelsen af ensemblet-baserede forudsigelse model.
Konstruktion af genomet hele menneskelig SL interaktion map
for at forudsige SL interaktioner i menneskelig ved en genom-plan, første valgte vi 15620 gener, der er målt for både CNV og mRNA variationer i kræftceller. Som nævnt i afsnittet om resultater, på grund af tilstedeværelsen af armen-niveau kopital variationer, genpar på det samme kromosom, er mere tilbøjelige til at blive co-tabt uanset status for SL interaktion. Således har vi anvendt vores model til ~ 115 millioner gener par, der er placeret på forskellige kromosomer. At konstruere en meget nøjagtig SL interaktion kort, vi forudsagde en liste over mere end såle- des 591.000 SL interaktioner baseret på en sandsynlighed score (
s Hotel (
x
)) grænse på 0,81, som opnåede en præcision på 67% ved en tilbagekaldelse på 10%.
Resultater
Syntetiske dødelige interaktioner afspejles i kræft genom evolution
Vi først spurgt, om empirisk observerede SL interaktioner afspejles i gen tilstedeværelse /fravær og genekspression i cancerceller. For at besvare dette, brugte vi to typer af genom variation fra Cancer Genome Atlas (TCGA) [22], dvs. i) kopi nummer variationer (CNVs) og ii) genekspression variationer. Den TCGA Konsortiet målte 14136 tumor prøver til CNVs og 7362 tumor prøver til genekspression variationer. For at bestemme, om gener i prøver kræft er væsentligt over- eller under-udtrykt, vi bestemt deres udtryk-niveauer i forhold til normale prøver af samme vævstype (Methods). Vi opnåede de empiriske SL interaktioner fra to nylige undersøgelser [23, 24], der målte SL interaktion i colontumorcellelinier og har den højeste genom dækning blandt alle tilgængelige undersøgelser. I alt indsamlede vi 270 SL par og 5660 ikke-SL par (S1 tabel).
Vi først testet, om SL par er mindre tilbøjelige til at være co-tabt i et genom end ikke-SL par. Et gen kan enten være homozygot eller heterozygously slettet. Vi først fokuserede på homozygote tab, hvor begge kopier af et gen er gået tabt. Vi udtrykker sandsynligheden for homozygote co-tab af begge gener i en genparret med fraktionen f = n
1 /n
2, hvor n
1 er antallet af tumorprøver med en co-tab af begge gener og n
2 er antallet af tumorprøver, hvori mindst et gen går tabt (se Metoder og figur 1). Faktisk fandt vi, at SL par er mindre tilbøjelige til at være homozygot co-mistet end de ikke-SL par (0.00728 vs 0,0104, ensidet Wilcoxon rank test, P
adj. = 0,008, Fig 2A).
SL par er mindre tilbøjelige til at have (a) homozygote co-tab begivenheder, (b) heterozygot co-tab begivenheder og (c) blandede co-tab begivenheder end ikke-SL par eller tilfældige par. Fraktionerne for disse tre typer af co-tab begivenheder er beskrevet som f
1, f
2, f
3 i Metoder og figur 1. Hver prik er den fraktion for en given par og den vandrette bjælke repræsenterer middelværdien af fraktionerne. P-værdier for sammenligningen mellem SL og ikke-SL parrene blev beregnet ved anvendelse ensidet Wilcoxon rank test. P-værdier for sammenligningen mellem SL og tilfældige par blev beregnet ud fra 1000 randomiseringer. P-værdier blev justeret for multipel sammenligning ved hjælp af Bonferroni korrektion (se detaljer i Methods).
Vi udførte en række yderligere analyser at vise, at dette resultat er gyldigt og robust. Først viste vi, at forskellen i co-tabsbegivenheder ikke skyldes forskellen i enkelt gen tabsprocenter. Faktisk den homozygote gendeletion rate af generne i SL parvis er ikke forskellig fra sletningen hastigheden af generne i ikke-SL par (0,00402 vs 0,00406, tosidet Wilcoxon rank test, P = 0,38). For det andet på grund af den begrænsede genom dækning af de kendte SL og ikke-SL par til rådighed for vores analyse, vi sammenlignet også sandsynligheden for co-tab begivenheder SL par med tilfældige par fra det humane genom. Vi fandt en signifikant forskel i co-tab mellem SL par og tilfældige par (0.00728 vs 0,0128, 1000 randomiseringer, P
adj. = 0,012, Fig 2A). Dette viser, at forskellen i sandsynligheden for co-tabsbegivenheder mellem SL par og de tilfældige genpar er en konsekvent signalet over det humane genom. Forskellen mellem SL par og tilfældige par er større end forskellen mellem SL par og ikke-SL par (Fig 2A). Dette skyldes sandsynligvis det faktum, at generne er inkluderet i forsøgene tendens til at blive forspændt mod dem, der ofte tabt, dvs. den homozygote deletion på gener i SL /ikke-SL par er højere end den tilfældige par (0,0049 vs. 0,0042 , ensidet Wilcoxon rank test, P = 0,04). Det skal endvidere bemærkes, at vi kræver, at genpar der indgår i analysen at være sammensat af gener på forskellige kromosomer. Grunden til dette er, at tilstedeværelsen af armen-niveau kopital variationer altid vil medføre en høj sandsynlighed for co-tab for genpar på det samme kromosom, uanset om de har en SL interaktion eller ej.
Udover den homozygote co-tab, hvor begge gener er homozygot slettet, findes der mulighederne for en heterozygot co-tab, hvor begge gener er heterozygously slettet, og en blandet co-tab, hvor et gen er homozygot slettet, og den anden er heterozygously slettet. For den heterozygote co-tab og for den blandede co-tab begivenhed vi foretaget den samme analyse som udført ovenfor for de homozygote co-tab. For begge typer af co-tab arrangementer, fandt vi en signifikant og robust signal, dvs. SL par er mindre tilbøjelige til at være co-tabt end de ikke-SL par (for heterozygot co-tab 0,1935 vs 0,216, ensidig Wilcoxon rank test, P
adj = 1.08e-08, figur 2B;. til blandet co-tab 0,189 vs 0,2008, ensidet Wilcoxon rank test, P
adj = 0,02, fig 2C).. Som det var tilfældet for de homozygote co-tab, begge signaler er konsistente, når SL par sammenlignes med tilfældige genpar (for heterozygot co-tab 0,1925 vs 0,218, P
adj. 0,004, figur 2B, for blandet co -loss 0,189 vs 0.210, P
adj. = 0,032, fig 2C).
vi undersøgte næste genekspression niveauer, hvor vi forventes at finde en lignende signal til den, vi fandt på niveau med gen fravær /tilstedeværelse, idet under-ekspression af et gen også kan resultere i tab af dens aktivitet. Faktisk fandt vi, at SL par er mindre tilbøjelige til at være både under-udtrykt end ikke-SL par (0,0443 vs 0,0586, ensidet Wilcoxon rank test, P
adj. = 2.39e-10, fig 3A). Kun par bestående af gener på forskellige kromosomer er inkluderet i analysen. Igen signalet er konsekvent, når SL par sammenlignes med tilfældige genpar (0,0443 vs 0,0570, P
adj. 0,004, Fig 3A).
(a) SL par er mindre tilbøjelige til at blive co -underexpressed forhold til kontrollen dvs. ikke-SL eller tilfældige par. Fraktionen til co-underekspression arrangementer er beskrevet som f
4 i metoder og Fig 1. (b) SL par er mere tilbøjelige til at have ekspression op-ned begivenheder, hvor et gen er overudtrykt, mens den anden i under-udtrykt . Fraktionen for sådan mønster er beskrevet som f
5 i Metoder og figur 1. Hver prik er brøkdelen for et givet par og den vandrette bjælke repræsenterer middelværdien af fraktionerne. P-værdier for sammenligningen mellem SL og ikke-SL par blev beregnet med en ensidet Wilcoxon rank test. P-værdier for sammenligningen mellem SL og tilfældige par blev beregnet ud fra 1000 randomiseringer. P-værdier blev justeret for multipel sammenligning ved hjælp af Bonferroni korrektion (for detaljer se Metoder).
Tidligere undersøgelser [34, 35] har vist et andet mønster i gener i SL par på transskription niveau. I dette mønster ét gen af en SL interagerende par er overudtrykt, mens dens partner er under-udtrykkes. Forventede vi således, at sammenlignet med ikke-SL parvis ville SL parrene har højere sandsynligheder for at have en ekspressionsmønster hvor ét gen er overudtrykt, mens den anden er under-udtrykkes. Vi henviser til dette som udtryk op-ned. Sandsynligheden for dette ekspressionsmønster kvantificeres ved fraktionen f = n
1 /n
2, hvor n
1 er det antal tumorprøver der har mønstret og n
2 er den antal tumorprøver, der har en under-ekspression af mindst et af generne (se Metoder og figur 1 for detaljer). Som forventet, fandt vi, at SL par er mere tilbøjelige til at have denne ekspressionsmønster end ikke-SL par (0.250 vs 0,211, ensidet Wilcoxon rank test, P
adj. = 2.10e-04, fig 3B). Igen, vi valideret konsistensen af signalet ved at sammenligne sandsynligheden for dette udtryk mønster i SL par mod dets sandsynlighed i tilfældige par (0,250 vs 0,146, 1000 randomiseringer, P
adj. 0,002, figur 3B). Vi bemærker, at forskellen mellem SL par og tilfældige par er højere end mellem SL par og ikke-SL par. Dette skyldes muligvis den kendsgerning, at de gener, der indgår i forsøgene blev forspændt mod dem, der er mere tilbøjelige til at være over-udtrykkes, når man er muteret, dvs. overekspression af gener i ikke-SL par er højere end den for tilfældige gener (0.0957 vs 0.0789, ensidet Wilcoxon rank test, P = 1.08e-06). Vi analyserede også et genomisk mønster på gen- tilstedeværelse /fravær niveau ved at beregne sandsynligheden for hvert gen par til at have en CNV mønster, hvor et gen er dubleret eller forstærkes, mens den anden er homozygot eller heterozygously slettet, benævnt genomisk op-ned i resten af teksten. Vi fandt, at SL par faktisk have en større sandsynlighed for at have det genomiske op-ned kombination på DNA-niveau end ikke-SL par (0,300 vs 0,274, ensidet Wilcoxon rank test, P
adj. = 1.65e-07 ), men dette er ikke væsentligt, når vi sammenlignede SL parvis til tilfældige genpar.
i alt fandt vi fem mønstre i CNVs og genekspression variationer i cancerceller, som alle viste, at syntetiske dødelige interaktioner afspejles i kræft genom evolution. Disse fem mønstre falder i to kategorier: i) gener i SL par er mere tilbøjelige til at være over-udtrykkes, når deres interaktion partner under-udtrykt og ii) gener i SL par er mindre tilbøjelige til at blive co-tabt enten på DNA-niveauet eller på genekspressionsniveauet.
et ensemble-baserede model til forudsigelse syntetiske dødelige interaktioner
Vi næste spurgt, om disse fem genomiske mønstre er stærke nok til pålideligt at forudsige SL par i menneske på et genom -dækkende skala. For at gøre, at vi udviklede et ensemble-baseret model, der integrerer de fem mønstre. Det skal bemærkes, at vi ikke omfatter den genomiske op-ned mønster findes i CNVs siden SL par er ikke signifikant forskellig fra tilfældige par. Et ensemble-baserede model er en klassificeringen som kombinerer forudsigelse resultater fra flere klassificører, såsom beslutningsprocesser træer og logistisk regression. Det er kendt, at en sådan et ensemble-baserede model kan forbedre ydeevnen i forhold til en enkelt klassifikation [36], især for komplekse problemer såsom SL forudsigelse involverer støjende input [37].
Vi brugte empirisk målte 270 SL par og 5660 ikke-SL par som beskrevet i den foregående analyse. For at konstruere forudsigelse model, vi først brug for at håndtere ubalance af stikprøvestørrelsen mellem den negative klasse, det vil sige ikke-SL par, og den positive klasse, dvs. SL par. Den skæve fordeling af klasser kan påvirke ydeevnen af modeller [30]. For at løse dette problem, vi tilfældigt under-samplet den negative klasse (ikke-SL par, 95,4% af træningssættet) til at producere et sæt af negative prøver af samme størrelse som den positive klasse (SL par, 4,6% af uddannelsen sæt). Denne afbalanceret kombination af to sæt anvendes til at træne et ensemble-baseret model for SL forudsigelse. Bemærk, at under-sampling kun påføres træningssættet. I alt valgte vi syv forskellige enkelt klassificører som base for ensemblet model: AdaBoost [38], J48 [39], LogitBoost [40], RandomForest [41], Logit [42], JRip [43] og DEL [44] som enten er robust over for støjende data eller over-fitting. Efter at være blevet trænet med den afbalancerede sæt, hver enkelt klassificeringen genererer en sandsynlighed for, at et gen par har en SL interaktion. Så vi integreret alle syv sandsynligheder fra disse enkelte klassificører ved at beregne gennemsnittet af de syv sandsynligheder og bruges der som den sidste forudsagt sandsynlighed.
For at vurdere resultaterne af ensemblet-baserede forudsigelse model, vi brugte en 10- fold krydsvalidering på alle de empirisk målte 270 SL par og 5660 ikke-SL par. Plottet i følsomhed (dvs. sand positiv rate) versus falske positive af ensemblet-baserede model viser, at vores model opnår et område under ROC-kurven (AUC) på 0,75 (standardafvigelse = 0,016, Fig 4B). Det skal bemærkes, at denne høje AUC kun opnås når man kombinerer alle mønstre (figur 4A). Vi fandt også, at ensemblet-baserede model opnåede den højeste AUC sammenlignet med alle syv enkelt klassifikatorer (Fig 4B). For at forudsige et genom-dækkende SL interaktion kort, vi anslået de gennemsnitlige præcision og tilbagekaldelse værdier fra 10 fold krydsvalidering (figur 4C). Vi anvendte derefter modellen til alle genpar på genomet. Blandt ~ 115 mio par for hvilke genekspression og CNV data var tilgængelige, vi forudsagde mere end såle- des 591.000 SL interaktioner baseret på en sandsynlighed score grænse på 0,81 (figur 4C), hvilket svarer til en anslået nøjagtighed på 67% baseret på vores træningssæt, dvs 14 gange højere end forventet fra chance (S1 datasæt). Bemærk, at modellen opnår en lignende præcision (60% ved p = 0,81), når du bruger et uafhængigt sæt eksperimentelt målte SL’er (figur C i S1 File).
(a) Ensemblet-baserede forudsigelse model baseret på alle fem kombinerede mønstre har et areal under kurven (AUC) på 0,75 (blå linje), der estimeres ved krydsvalidering 10 gange. Ensemble-baserede forudsigelse modeller baseret på ikke-kombinerede individuelle mønstre, dvs. co-tab i CNVs, co-underekspression og udtryk op-ned, er vist i rød, grøn og lilla henholdsvis og har lavere AUC. Standardfejllinjer sættes til hver ROC. (B) ensemble-baserede forudsigelsesmodel (den blå ROC-kurven) har en bedre ydeevne end alle de syv single. (C) præcision og tilbagekaldelse kurve estimeres ud fra 10-fold krydsvalidering. Standardfejllinjer tilsættes. Kurven er farvet i henhold til cutoff af sandsynlighed. Farven panel af sandsynligheden plottes i højre side. De cutoffs af sandsynlighed score (
s Hotel (
x
)), 0,81, udskrives på de tilsvarende kurve positioner.
Leave a Reply
Du skal være logget ind for at skrive en kommentar.