Abstrakte
Seneste screening af narkotika følsomhed i store paneler af kræft cellelinjer giver en værdifuld ressource til at udvikle algoritmer, der forudsiger lægemiddelrespons. Da flere prøver giver øget statistisk styrke, de fleste tilgange til forudsigelse af narkotika følsomhed pool flere typer kræft sammen uden forskel. Dog kan pan-cancer resultater være misvisende på grund af de forstyrrende effekter af væv eller kræft undertyper. På den anden side, er uafhængig analyse for hvert cancer-typen hæmmet af lille prøvestørrelse. For at afbalancere dette trade-off, præsenterer vi CHER (kontekstuel Heterogenitet aktiveret Regression), en algoritme, der opbygger prædiktive modeller for narkotika følsomhed ved at vælge forudsigende genomiske funktioner og beslutte, hvilke der bør-og bør ikke-deles på tværs af forskellige kræftformer, væv og narkotika . CHER giver betydeligt mere nøjagtige modeller af narkotika følsomhed end sammenlignelige Elastisk net-baserede modeller. Desuden CHER giver bedre indsigt i de underliggende biologiske processer ved at finde en sparsom sæt fælles og typespecifikke genomiske funktioner
Henvisning:. Chen BJ, Litvin O, Ungar L, Pe’er D (2015) Context følsomme Modeling of Cancer Drug følsomhed. PLoS ONE 10 (8): e0133850. doi: 10,1371 /journal.pone.0133850
Redaktør: Julio Vera, University of Erlangen-Nürnberg, Tyskland
Modtaget: Februar 4, 2015; Accepteret: 3 juli 2015; Udgivet: 14 August, 2015
Copyright: © 2015 Chen et al. Dette er en åben adgang artiklen distribueres under betingelserne i Creative Commons Attribution License, som tillader ubegrænset brug, distribution og reproduktion i ethvert medie, forudsat den oprindelige forfatter og kilde krediteres
Data Tilgængelighed: Data er fra kræftcellen Linje Encyclopedia projektet (https://www.broadinstitute.org/ccle/home) og er tilgængelige efter brugerregistrering på hjemmesiden
Finansiering:. Denne forskning blev støttet af Stand Up til kræft Innovative Research Grant (IRG08), National Institutes of Health (R01CA164729) og nationale Centers for Biomedical Computing Grant 1U54CA121852-01A1. D.P. har en Packard Fellowship for Science and Engineering
Konkurrerende interesser:.. Forfatterne har erklæret, at der ikke findes konkurrerende interesser
Introduktion
Med de seneste fremskridt inden næste generation sekventering teknologier, udsigterne til personlig sundhedspleje ser lysere end nogensinde [1]. Brugen af genomforskning til at vejlede kliniske pleje er måske mest udbredt i kræft [2, 3]. Mange pioner undersøgelser har vist, hvordan man kan bruge underskrifter af genekspression at forudsige kliniske resultater for de enkelte patienter [4-6]. For nylig to store samlinger af matchede lægemiddelscreeninger og genomik profiler af cancercellelinjer er offentliggjort [7, 8]. Disse data er blevet brugt til at bygge prognosemodeller af narkotika respons ved at knytte genomiske træk med narkotika følsomhed i kræft cellelinjer [9-12]. Derudover kan forbinde narkotika følsomhed over for specifikke genomiske funktioner hjælper belyse mekanismerne i narkotika handling og belyse de underliggende årsager til resistens mod behandlingen. Således er disse data giver mulighed for at udvikle metoder, der kan bruges til personlig behandling.
En central udfordring i at knytte genetiske egenskaber til narkotika følsomhed er den rolle, kontekst i biologiske systemer. For eksempel har regulering af genekspression vist sig at have mønstre specifikke væv og celletyper [13-16]. I tumorigenese, har forskellige mønstre af mutation, genekspression, og epigenetisk regulering også blevet observeret i kræft-specifikke eller vævsspecifik måde [17, 18]. Denne sammenhæng afhængighed spiller en vigtig rolle i effektiviteten af behandlingen. For eksempel PLX4732, en RAF-inhibitor målretning onkogen
BRAF
V600E
, er en potent behandling for melanom patienter med mutationen [19]. Men colon cancer patienter med den samme mutation ikke svare PLX4732 [20]. Det er derfor vigtigt at tage hensyn til den kontekst skabt af cancertyper, når man analyserer genomics af narkotika følsomhed.
Det er ingen overraskelse, at prognosemodeller bygget ved hjælp af kun melanom data giver bedre forudsigelse for melanom prøver end dem, bygget ved hjælp af data for blandede typer kræft [7]. Dette argumenterer for, at vi skal fokusere på én kræft type, når bygge modeller for narkotika følsomhed. Mens en sådan strategi giver os mulighed for at undgå confounding indflydelse af kontekst, det begrænser os til et lille antal prøver. På grund af stikprøvestørrelse, aktuelle datasæt mangler statistiske styrke til at bygge separate modeller for hver kræft.
Vi udnytter fællestræk mellem kræft typer og medicin til at overvinde manglen på data. Vi foreslår CHER (kontekstuel Heterogenitet aktiveret Regression), en algoritme, der opbygger forudsigende modeller ved at vælge genomiske træk og beslutte, hvilke der er fælles eller ej mellem kræft typer, væv og narkotika. CHER er bemyndiget af to antagelser. Først, Cher antager lignende cancertyper kan have lignende mekanismer underliggende stof følsomhed. For eksempel basal-lignende brystkræft og kræft i æggestokkene deler mange molekylære signaturer [21]; Derfor er disse to cancertyper sandsynligvis har de samme prædiktive genomiske funktioner til lægemiddelfølsomhed. For det andet, Cher antager, at hvis to stoffer fremkalde lignende reaktioner, deres prædiktive modeller sandsynligvis ens. Disse antagelser tillader CHER at øge sin magt for at afdække biomarkører prædiktive af narkotika følsomhed ved at dele information mellem kræft og narkotika.
Vi anvendte CHER til tre datasæt fra Cancer Cell Linje Encyclopedia (CCLE) [7], og vise, at CHER giver væsentligt mere nøjagtigt modellering af lægemiddelfølsomhed i disse datasæt forhold til andre metoder. I modsætning til tidligere metoder, der antager alle prøver har de samme prædiktive funktioner, Cher udtrykkeligt lærer som prædiktive funktioner bør deles eller ej mellem kræft eller undertyper. For data med flere undertyper af prøver, Cher identificerer også de relevante undertype, der dikterer sammenhæng specificitet, der tilbyder muligheden for at kaste lys på mekanismerne bag farmakogenomik.
Nedenfor vi først præsentere motivation og begrebet CHER, efterfulgt af resultaterne fra ansøgningen til CCLE data. Vi sammenligner derefter Chers præstationer med andre metoder og demonstrere Chers overlegen ydelse. Eksempel modeller fra CHER er fremvist og diskuteret. Detaljer om CHER algoritme derefter præsenteres i Materialer og Metoder og S1 tekst.
Resultater
kontekstuel Heterogenitet aktiveret Regression
Vi bruger data fra Cancer cellelinje Encyclopedia (CCLE) [ ,,,0],7] for vores analyse. Den CCLE kohorte omfatter 36 forskellige kræftformer, der typisk samlede sammen til analyse uden skelnen mellem typer [7]. Men virkningerne af væv på narkotika følsomhed er indlysende (S1 Fig).
En måde at løse dette problem er at relatere de betyde effekten af væv gennem multivariat variansanalyse (MANOVA) og derefter modellere rester af alle prøver sammen [8]. Det betyder dog ikke tage sig af den kontekstuelle effekt. Det vil sige, at virkningen af væv-gen interaktioner. F.eks
MDM2
overekspression vides at være prædiktiv for følsomhed over for Nutlin-3 i akut myeloid leukæmi [22] og akut lymfoblastisk leukæmi [23]. Men sammenhængen mellem
MDM2
udtryk og følsomhed over for Nutlin-3 varierer meget mellem væv (Pearsons korrelationskoefficient r: -0,01 ~ -0,53). S2B Figur viser sammenhængen mellem
MDM2
udtryk og følsomhed over for Nutlin-3 i forskellige væv. Selv om denne forening kan påvises ved hjælp af alle prøver (r = -0,38, p 5e-8), sådan forening er vildledende, som
MDM2
udtryk ikke har nogen prædiktiv strøm til væv som sådan lunge eller bugspytkirtel (S2B fig). Desuden, hvis vi kassere prøver fra de væv, hvor foreningen er fraværende, kan vi se forbedret forening (S2A Fig) og en stigning i
MDM2 s
forudsigende magt i disse væv. Da hver væv kan have forskellige grader af association mellem
MDM2
udtryk og følsomhed over for Nutlin-3, sådanne vævsspecifikke geneffekter bliver
væv-gen interaktionseffekter
når alle prøver puljes sammen til analyse. Brug MANOVA blot relatere den gennemsnitlige effekt af de enkelte væv vil ikke løse sådant væv-specifikt gen effekt.
Ideelt ville vi begrænse analysen til en kræftform ad gangen, men desværre den resulterende prøve størrelse er for lille. De tilgængelige lægemiddelfølsomhed data i CLLE omfatter færre end 40 prøver for de fleste kræftformer, undtagen lungecancer (n = 91), cancere stammer fra hæmatopoietiske og lymfoide væv (n = 70), og hudkræft (n = 40) (S3 Fig) og selv disse prøvestørrelserne er relativt små. Manglen på statistisk styrke på grund af lille prøvestørrelse forværres yderligere af størrelsen og kompleksiteten af det humane genom.
For at få statistisk styrke og tegner sig stadig for kontekst specificitet vi udviklet
CHER
(kontekstuel heterogenitet aktiveret Regression), en algoritme baseret på overførsel læring [24], der vælger forudsigende genomiske funktioner og bygger regressionsmodeller for narkotika følsomhed. I modsætning til andre algoritmer, Cher har til formål at afdække prædiktive funktioner, der deles på tværs af kontekster, samt funktioner, der er prædiktive kun i visse sammenhænge. En kontekst kan være en cancer type, vævstype eller cancer subtype. Vi henviser til denne sammenhæng, da det
relevant undertype
, eller
split
, der adskiller individer i to grupper, hvor den prædiktive program af narkotika følsomhed kan være anderledes.
CHER samtidig opnår to mål: CHER udtrykkeligt udfører sparsomme funktion valg samtidig optimere ydeevne forudsigelse af narkotika følsomhed. Betragtninger optimere forudsigelse af narkotika følsomhed forudsigelse er afgørende for præcision medicin, sparsomme funktion valg giver mulighed for biologisk fortolkning af de resulterende modeller. Sidstnævnte er især vigtigt, fordi det kan give en forståelse af resistens, der kunne kaste lys over måder at forbedre lægemiddeludvikling eller kombinatorisk terapi.
Vores algoritme er inspireret af overførsel læringsteori [24]. Vi øger magt ved at dele information mellem kræft og mellem narkotika. Først lærer vi modeller fra lignende kræftformer, væsentlige dele information mellem kræft ved at antage, at de kan dele de samme genomiske funktioner med ansvar for narkotika følsomhed (Fig 1A). Ved at samle prøver af lignende kræftformer, øge vi magt til at lære prædiktorer fælles for dem. Hvis du vil vide kontekst-specifikke eller cancer-type specifikke prædiktorer, introducerer vi en
split
variabel, der repræsenterer typer /undertyper af kræft. Denne split variable betingelser de prædiktive virkninger af kontekst-specifikke funktioner via interaktion vilkår mellem split variable og prædiktorer i modellen (for eksempler, gen-A og mutation M i melanom, Fig 1A). Bemærk, at valget af opdelingen er en del af optimeringen problemet. CHER lærer at adskille prøver i to grupper, når en sådan adskillelse af prøver øger forudsigelseskraft. På dette stadium har CHER lært en første model, der kan indeholde både prædiktorer, der deles mellem kræft eller specifikke for en af dem.
A. Eksempel på en model læres af Cher hvor lægemidlet følsomhed melanom prøver kan forudsiges ved mutation af M og genekspression af A og S, mens det i gliom, ekspression af genet S og B er prædiktorer. CHER udnytter pooling prøver sammen at vinde statistisk styrke, identificere både fælles (gen S) og kontekst-specifikke funktioner (A, B og M). I tilfælde, hvor den relevante kontekst er ukendt, algoritmen søger efter den bedste “split”, hvis nogen, til separate prøver i to grupper. Yi repræsenterer narkotika følsomhed for den i’te prøve, xi er de tilsvarende funktioner i den i’te prøve, zit = 1 præsenterer den i’te prøve er melanom, og jeg (.) Er en indikator funktion. B. Iterativ learning arrangement med Cher. CHER oprindeligt lærer modeller med ensartet før (dvs. hver genomisk funktion har samme sandsynlighed for at blive inkluderet i modellen). Under hver iteration, Cher træner regressionsmodeller med bootstrapping, som gør det muligt algoritmen til at fastsætte hyppigheden af hver funktion vælges. Så CHER justerer priors efter fordelingen af frekvens og ligheden mellem fænotyper.
Næste, vi øge Chers læring ved at overføre information mellem lægemidler (Fig 1B). Vi antager, at hvis to lægemidler inducerer en lignende reaktion, deres prædiktive modeller minder sandsynligvis også. For eksempel, hvis to lægemidler inducerer højt korreleret respons, og vi har observeret gen
En
som prædiktor for følsomhed for ét stof, er det mere sandsynligt gen
En
er også prædiktiv for andet lægemiddel . Dette giver os mulighed for at tilpasse vores tro på de enkelte funktioner er prædiktive for narkotika følsomhed ved at sammenligne modeller, der er afledt af lignende stoffer. Fra Bayesian perspektiv, er de første modeller af narkotika følsomhed lært antager hver funktion har lige stor sandsynlighed for at blive valgt (uniform før), og den efterfølgende deling af modeller mellem narkotika giver os mulighed for at lære en funktion valg forud for hvert lægemiddel. Denne iterative deling mellem narkotika er central for læring magt Cher.
Under hver iteration vi udnytter L0-norm normaliseret regression for at vælge forudsigende funktioner for følsomhed for hvert lægemiddel. I L0-normen afklaret regression, er en straf påført proportionalt med antallet af funktioner tilføjet til modellen, som i klassiske trinvise regression metoder, men de funktioner tilføjet til modellen er ikke skrumpet som i lasso [25] eller elastisk-net [26]. L0-norm regulering har flere fordele. For det første legalisering sigt i regressionen er parametrisk, da den sparsomme udvalg af prædiktorer i L0-norm regulering er styret af den mindste beskrivelse længde (MDL), hvor valget af de enkelte funktioner er kodet som en
cost
eller straf, der sikrer sparsomme modellen (materialer og metoder). For det andet, korrespondancen mellem MDL og Bayesianske statistikker giver os mulighed for at iterativt justere vores tro ved at sætte prisen på de enkelte funktioner i henhold til sandsynligheden for, at funktionen er valgt. Ved hver iteration, bruger vi L0-norm legaliseret regression med bootstrapping at bygge en sandsynlighedsfordeling (før) for hver enkelt funktion baseret på antallet af gange, det blev valgt. Denne forudgående fordeling yderligere justeres ved at dele information mellem narkotika, konstruere en straf for funktionen valg i næste iteration (Fig 1B). For det tredje, bruger vi en grådig algoritme til effektivt at konstruere en L0-norm normaliseret regression; modellerne følger af denne søgning er blevet demonstreret at have fremragende præstation [27]. Behandlingen af kontekstuelle prædiktorer kræver, at søgningen rummet omfatter samspillet mellem genomiske funktioner og sammenhænge. Selv om en sådan stor funktion plads kan udgøre udfordringer for mange algoritmer, den grådige-søgning giver CHER effektivt søge de relevante prædiktorer i denne store funktion rum.
For at evaluere Chers præstationer, vi teste den på en syntetisk datasæt, der er simuleret fra de virkelige data (S1 tekst). Vi sammenligner CHER til det elastiske net algoritme tidligere blev brugt til disse data og evaluere tre målinger: præcision, tilbagekaldelse, og F-måler (S1 Tekst, figur 2). F-measure scorer det harmoniske gennemsnit af præcision og tilbagekaldelse og repræsenterer samlede resultater af de to algoritmer. CHER handler off nogle tilbagekaldelse at producere større præcision i forhold til det elastiske net. I biologiske anvendelser præcision foretrækkes ofte til at huske, da minimere falske positiver sparer fremtidige dyre eksperimentelle valideringer. Således præcision og F-måler scoringer i de sidste iterationer tyder det overordnede overlegenhed CHER identificere korrekte prædiktorer (S1 Tekst og S4-S6 Figner).
bootstrapped elastisk net (EN) sammenholdes med bootstrapped Cher. En tærskelværdi på 0,3 og 0,5 anvendes til den relevante frekvens (
τ
) for at bestemme robuste funktioner i Cher og elastisk, henholdsvis. Præcisionen, husker, er F-mål for hver fænotype fra EN (x-aksen) plottet mod at fra CHER (y-aksen). Den første række viser resultaterne af CHER fra første iteration og den anden række resultaterne af CHER fra 10
th iteration. Hver prik repræsenterer en fænotype, farvet af støjniveauet tilføjet.
Anvendelse af CHER til CCLE datasæt
CHER udnytter pooling prøver fra lignende kræftformer at forøge effekten. Vi konstrueret test datasæt baseret på forudgående kendskab til kræft lighed og antallet af tilgængelige prøver fra hver kræft type (S3 Fig), som stort set begrænset vores udvalg. Vi samles blod og lymfoide cancer cellelinjer (n = 70, CCLE-Blood) baseret på væv oprindelse. Vi samlet bryst (n = 27) og ovarie (n = 25) kræft prøver (CCLE-BreastOvary) på grund af de genomiske ligheder mellem basale-lignende brystkræft og high-grade serøse ovariecancer [28]. Endelig blandt alle tilgængelige CCLE data, vi yderligere poolet sammen melanom (n = 38) og gliom (n = 25) (CCLE-SkinGlioma) fordi melanocytter og neuroglia er begge embryologisk afledt af ektoderm. Delte tumorassocierede antigener [29] og dysregulerede pathways [30], er blevet rapporteret i melanom og gliom. Desuden observerede vi høj lighed mellem prøver af centralnervesystemet og hud væv, som det er vist i fremskrivningen af prøver på hovedkomponenter afledt genekspressionsprofiler (S7 Fig). Det er derfor muligt, at disse to cancertyper deler nogle biologiske veje eller genomiske træk, som medvirker til lægemiddel følsomhed.
Hver datasæt indeholder forskellige antal mulige split variabler til at angive eventuelle kontekstuelle påvirkninger. I CCLE-SkinGlioma, er kun én mulig split tilladt: om en prøve er gliom eller ej. I CCLE-BreastOvary, er to mulige splits overvejes: vi kan adskille prøver ved vævsoprindelse (bryst vs. ovarie) eller patologi (luminale brystcancer vs. basal-lignende bryst- og ovariecancer). Endelig er syv potentielle splittelser overvejes i CLLE-Blood delmængde, der repræsenterer kræft typer af forskellig afstamning oprindelse (S1 tabel). To målinger anvendes til at repræsentere følsomheden over for hvert medikament: den koncentration, der inhiberer 50% af proliferation (IC50) og aktivitetsområdet over kurven monteres mellem lægemiddelrespons data (ACT). Målene for CHER skal (1) at identificere den bedste split, hvis nogen, (2) vælg prædiktive genomiske funktioner, der er fælles eller kontekst-specifikke (inden for den valgte split) for hvert lægemiddel følsomhed fænotype, og (3) lære regressionsmodel til at forudsige narkotika følsomhed.
på grund af den lille prøvestørrelse, vi yderligere at begrænse de mulige funktioner til at mindske søgning plads og dermed øge magten. Vi kompileret lister over gener forbundet med hver kræft fra litteratur og sygdommen databasen [31]. Kun mutation, kopital og genekspression af gener associeret med de analyserede cancere indgår som potentielle prædiktorer. S2 Tabel opsummerer antallet af fænotyper, funktioner og tilgængelige prøver i hvert datasæt.
Vi evaluerer Chers præstationer på CCLE datasæt med ti gange krydsvalidering (materialer og metoder). Pearson og Spearman korrelationskoefficienter anvendes til at evaluere ydeevne. Det elastiske net algoritme [26] er også anvendes på de CCLE delmængder til sammenligning, da den er blevet anvendt til at identificere genomiske funktioner til lægemiddelfølsomhed i [7, 8, 32]. Elastisk net regression muliggør udvælgelse af prædiktive genomics funktioner baseret på L1 og L2-normer; sidstnævnte er velegnet til stærkt korrelerede genekspression funktioner [32]. Men den naive elastiske net algoritme ikke tillader kontekstuelle prædiktorer, og dermed er hver valgt genomisk funktion anvendes til at forudsige medikament følsomhed hver prøve uanset sammenhængen. Anvendelsen af elastisk net her er den samme som indstillingen i [7], hvor der ikke kontekstuelle træk blev overvejet. At supplere den manglende kontekstuelle modellering i elastisk net, er de opdelte variabler, der anvendes i Cher også inkluderet som binære funktioner i funktionen pulje til elastisk net.
Figur 3 sammenligner effektiviteten af CHER og det elastiske net (Materialer og fremgangsmåder). Som vist i fig 3A, elastisk net modeller over de andres fra den første iteration af Cher. Men efter ti gentagelser af deling mellem modeller (Fig 3B), Cher viser, signifikant forbedring i forhold elastisk net. Dette skyldes den ensartede forudgående anvendt i det første iteration undlader at give modeller for mange fænotyper. Imidlertid er ydeevnen forbedres gennem yderligere iterationer, som udveksles information mellem modeller af lignende fænotyper og priors af funktioner justeres. kan allerede observeres Effekten af overførsel læring i den anden iteration (S8 og S9 Fig), hvilket viser nytten af overførsel læring mellem narkotika af lignende reaktioner, som lægemidler, der deler lignende mål ofte fremkalde lignende følsomhed (S10 Fig).
Pearsons korrelationskoefficienter mellem forudsigelsen og de sande følsomhed data beregnes for hver algoritme og plottet mod hinanden (x-akse: elastisk net, y-akse: Cher). Hver prik repræsenterer en fænotype. A. Forudsigelser for melanom og gliom prøver fra den indledende iteration af CHER algoritme sammenlignes med dem fra elastisk net. B. Forudsigelser for melanom og gliom prøver fra CHER efter ti gentagelser sammenlignes med dem fra elastisk net. C., D. Tilsvarende men for bryst- og ovariecancer prøver. E., F. Tilsvarende, men for blodprøver.
Ved afslutningen af den iterative læringsproces, Cher giver bedre prædiktiv ydeevne (Pearson korrelationskoefficienter, se materialer og metoder) end Elastisk net til 60% (70/116) af lægemidlet følsomhed fænotyper i alle tre datasæt (p 6e-6, en hale parret t-test, til sammenligning Pearson korrelation; p 2e-7 til sammenligning Spearman korrelation, fig 3, S8 og S9 fig). Desuden for disse 70 fænotyper, forbedring af Chers forudsigelse i elastisk net er stort, med en gennemsnitlig forbedring på 0,24 i Pearson korrelation (S11 Fig). Elastisk net udkonkurrerer CHER på kun 46 fænotyper med gennemsnitlig forbedring på 0,12.
Sammenligning af funktioner udvalgt af CHER og det elastiske-net
For at få indblik i modellerne CHER producerer, sammenligner vi de funktioner udvalgt af CHER og elastisk net. Begge algoritmer anvendes på alle prøver i hvert datasæt med bootstrapping. Kun funktioner, der er robust valgt via bootstrap tilbageholdes i den endelige model (materialer og metoder). Bemærk at der er mange fænotyper, for hvilke det elastiske net undlader at vælge en funktion, fordi ingen funktioner er valgt “ofte nok” blandt bootstrap kørsler, hvilket indikerer en mangel på robusthed i elastisk net s funktion valg. For eksempel, Elastisk net ikke vælge nogen robuste funktioner til de fleste fænotyper (35 ud af 39) for CCLE-BreastOvary, mens CHER kun vinder på én fænotype. Derfor er CCLE-BreastOvary faldet fra sammenligning. For de to andre datasæt, er sammenligninger foretaget for en fænotype, når det elastiske-net har også valgt robuste funktioner efter bootstrap.
Først, vi sammenligner antallet af funktioner, valgt af hver algoritme (Fig 4A). Sammenlignet med Cher Elastisk net ofte vælger mange flere funktioner, sandsynligvis på grund af den elastiske nettets L2-normen lovliggørelse, der favoriserer vælge korrelerede funktioner. Vi sammenligner de overlappende og unikke funktioner mellem de to algoritmer ved at adskille dem i fem kategorier: (1) funktioner, der er udvalgt af de to algoritmer (
overlap men CHER-delt
i figur 4A), (2) funktioner, der udvælges af begge men kun prædiktiv for en undertype af prøver i Cher (
overlap men CHER-kontekstuelle
), (3) funktioner, der kun udvalgt af CHER og er prædiktive for alle prøver (
CHER -Kun delt
), (4) funktioner, der kun udvalgt af CHER og er forudsigende kun for en undertype af prøver (
CHER kun kontekstuelle
) og (5) funktioner, der kun udvalgt af elastisk net (
DA-kun
).
A. Række funktioner udvalgt af både og individuelle algoritmer for hver fænotype. For hver fænotype (x-aksen), er antallet af funktioner udvalgt af CHER repræsenteret på den positive y-aksen mens dem udvalgt af elastisk net er repræsenteret på den negative y-aksen. Features adskilles i fem grupper, der svarer til træk udvalgt af begge algoritmer eller ved specifikke for individuelle algoritmer. Fænotype 1-14 er fra CCLE-SkinGlioma og resten er fra CCLE-Blood. B. Justeret R
2 i CHER og elastiske net modeller ved hjælp af de funktioner, udvalgt af begge algoritmer (funktioner i de to første kategorier i A). C. Som B, men alle funktioner udvalgt af hver algoritme anvendes. Fænotyper i alle tre figurer er ordnet efter forskellen i R
2 mellem CHER og elastisk net fra C.
Fra denne nedbrydning, finder vi, at 40/45 fænotyper har mindst én funktion, vælges af både CHER og elastisk net. kun bruger disse funktioner, vi estimere variansen forklaret (justeret R
2) ved CHER og elastisk net (figur 4B). For CCLE-SkinGlioma (Fænotype 1-14 i figur 4B), justeret R
2 s er ens mellem CHER og elastisk net. Dette er fordi der kun er to undertyper af prøver i dataene, og det kan kodes som en binær funktion i det elastiske net. Men når undertyper af prøverne blevet mere kompliceret som i CCLE-Blood, den fordel, at Chers modeller manifesterer i gevinst på R,
2 (Fænotype 15-45 i figur 4B). Selv med det samme sæt af udvalgte funktioner (kategori 1 og 2 ovenfor), forklarer CHER mere varians end elastisk net for 12 fænotyper ved at overveje kontekstuelle effekter af funktionerne.
Når man overvejer alle funktioner udvalgt af hver algoritme, vi se CHER opnår bedre justeret R
2 end elastisk net til 29/45 fænotyper (p 0,007, en-hale parret t-test, fig 4C), selvom Chers modeller ofte indeholder færre funktioner end det elastiske net. Chers gevinster i R
2 er også større end i elastisk net: CHER gevinster 0,2 R
2 over elastisk net til 11/29 fænotyper, mens elastiske nettogevinster 0,2 R
2 i løbet af CHER for 2/14 fænotyper. Sammen tyder resultaterne Chers endelige modeller forklare mere varians i data, sandsynligvis opnås gennem modellering af kontekst.
Sammenligning med andre metoder
Ud over det elastiske net, vi også sammenlignede ydeevne CHER til Multiple Inclusion Kriterium (
MIC
) [27], multi-opgave lasso (
MTLASSO
) [33], det elastiske net med alle kontekst-gen interaktion funktioner (
DA-INT
), og Bayesian multi-opgave multi-kerne-regression (
BMKL
), der for nylig vandt NCI-DREAM narkotika følsomhed forudsigelse udfordring [34]. MIC er en algoritme, der udvælger funktioner via L0-normen og har vist gode resultater i træk udvælgelse og forudsigelse opgaver. Det er forgængeren til Cher som CHER udvider MIC ved at tilføje overførsel læring og kontekst (materialer og metoder). MTLASSO er en udvidelse af lasso, der pålægger sparsity begrænsning på alle læring opgaver på én gang. Det væsentlige deler funktioner mellem alle fænotyper. I modsætning BMKL er en metode, der først bruger flere kerner for hver datatype (fx mutation eller genekspression) at sammenfatte lighed mellem prøver, og derefter bruger Bayesian inference at lære regression vægte på disse at forudsige lægemiddelfølsomhed [34]. En fordel ved BMKL er, at regressionsmodeller kan være ikke-lineær via kernel beregninger. Endelig har vi tilføje alle de kræft-type og gen interaktion vilkår (kontekstuelle funktioner) ind i funktionen rum og anvende det elastiske net med interaktioner (EN-INT). Det vil sige, vi inkluderer i funktion puljer de binære variabler angivelse cancertyper og kræft-type specifikke træk (f.eks. Produkter af binære variabler og genomiske funktioner) for EN-INT. Bemærk alle de opdelte variabler, der anvendes i Cher er også inkluderet som binære funktioner i funktionen pulje for alle metoder.
Vi anvender alle metoder til CCLE datasæt og sammenlign deres præstationer i et ti-fold krydsvalidering (Materialer og fremgangsmåder). Fig 5 og S12 Fig viser de samlede resultater af hver metode. På tværs af alle tre datasæt, Cher udkonkurrerer de fleste metoder og udfører sammenligneligt med BMKL. Specifikt, Cher udkonkurrerer DA (p 6e-6, en hale parret t-test, til sammenligning Pearson korrelation; p 2e-7 til sammenligning Spearman), MTLASSO (p 6e-5 for Pearson, s 2e-8 for Spearman), EN-INT (p 1e-3 for Pearson, s 3e-7 for Spearman) og MIC (p 3e-19 for Pearson, s 3e-24 for Spearman). CHER udkonkurrerer BMKL i CCLE-SkinGlioma (p 0,05 for Pearson, s 4e-3 for Spearman)., Har lignende ydeevne til BMKL i CCLE-BreastOvary, men BMKL præsterer bedre end CHER i CCLE-Blood
Pearson korrelationskoefficienter mellem forudsigelse og følsomheden data beregnes for hver algoritme. Korrelationskoefficienterne fra hver algoritme (x-aksen) er sammenlignet med dem fra Cher (y-aksen). Hver prik repræsenterer forudsigelse ydelse for et stof følsomhed. Metode forkortelse: EN, det elastiske net, MIC, kriterium multipel integration; BMKL: Bayesian multi-opgave multi-kernel regression; MTLASSO: multi-opgave lasso; DA-INT: EN med kontekst-gen interaktioner. P-værdier viser betydningen af Chers forudsigelse forhold til andre metoder (en hale t-test).
Disse sammenligninger fremhæve fordelene ved Cher. Først, Cher udkonkurrerer EN-INT selv om alle de kontekstuelle funktioner stilles til rådighed for det elastiske net. Dette viser Chers overlegen funktion udvælgelse, sandsynligvis nyder godt af overførsel af information mellem flere fænotyper. For det andet, kontekstuelle funktioner er vigtige som CHER udkonkurrerer MIC selvom CHER og MIC bruger samme metode for funktionen udvælgelse.
På trods af den tilsvarende ydelse mellem CHER og BMKL, Cher giver også for fortolkning for forholdet mellem genomiske funktioner og narkotika følsomhed. I de tre datasæt, Cher identificerer mange forudsigende funktioner, der er enten direkte mål af narkotika eller lignende veje, hvilket tyder på forholdet mellem disse funktioner og narkotika følsomhed. For eksempel identificerer CHER BRAF som en indikator for følsomhed for RAF-hæmmer PLX4720 og MEK-inhibitorer (AZD6244 og PD-0.325.901) i CCLE-SkinGlioma; ERBB2 som en indikator for følsomhed for Lapatinib (EGFR og ERBB2 inhibitor) i CCLE-BreatOvary; ABL1 for følsomhed for ABL1 hæmmere (AZD0530, Nilotinib) i CCLE-Blood (S3-S5 Tables). Dette fremhæver CHER evne til at udlede modeller, der ikke kun er prædiktive for narkotika følsomhed, men også hjælper belyse virkningsmekanismen.
Et casestudie af Følsomhed til paclitaxel i melanom og gliomcellelinier
For 0,05.
Leave a Reply
Du skal være logget ind for at skrive en kommentar.