PLoS ONE: Rekursiv Random Lasso (RRLasso) for Identifikation Anti-Cancer Drug Mål

Abstrakte

Afdækning driver gener er afgørende for forståelsen af ​​heterogenitet i kræft.

L

1-typen legaliseringsforanstaltninger tilgange er ofte blevet brugt til at afdække kræft driver gener baseret på genom-skala data. Selvom de eksisterende metoder har været meget anvendt inden for bioinformatik, de besidder flere ulemper: begrænsninger delmængde størrelse, fejlagtige estimationsresultater, multikollinearitet og tung tidsforbrug. Vi introducerer en ny statistisk strategi, kaldet en Rekursiv Random Lasso (

RRLasso

), for høj dimensionel genomisk analyse og efterforskning af chauffør gener data. For tiden-effektiv analyse, vi overveje en rekursiv bootstrap procedure i overensstemmelse med den tilfældige lasso. Derudover introducerer vi en parametrisk statistisk test for føreren gen valg baseret på bootstrap regression modellering resultater. Den foreslåede

RRLasso

er ikke kun hurtig men fungerer godt for høj dimensionel analyse genomiske data. Monte Carlo simuleringer og analyser af “Sanger Genomics of Drug Følsomhed i Krebsen datasæt fra Cancer Genome Project” viser, at den foreslåede

RRLasso

er et effektivt redskab til høj dimensionel analyse genomiske data. De foreslåede metoder giver pålidelige og biologisk relevante resultater for kræft driver gen valg

Henvisning:. Park H, Imoto S, Miyano S (2015) Rekursiv Random Lasso (

RRLasso

) for Identificering Anti Kræft Drug Targets. PLoS ONE 10 (11): e0141869. doi: 10,1371 /journal.pone.0141869

Redaktør: Xiaodong Cai, University of Miami, UNITED STATES

Modtaget: May 5, 2015; Accepteret: 14 oktober 2015; Udgivet: November 6, 2015

Copyright: © 2015 Park et al. Dette er en åben adgang artiklen distribueres under betingelserne i Creative Commons Attribution License, som tillader ubegrænset brug, distribution og reproduktion i ethvert medie, forudsat den oprindelige forfatter og kilde krediteres

Data Stock: Sanger Genomics af Drug Følsomhed i Krebsen datasæt fra Cancer Genome Project (https://www.cancerrxgene.org/) Salg

Funding:.. forfatterne har ingen støtte eller finansiering til at rapportere

Konkurrerende interesser : forfatterne har erklæret, at der ikke findes konkurrerende interesser

Introduktion

Megen forskning i øjeblikket på at forstå kompleksiteten af ​​de heterogene genetiske netværk underliggende kræft.. For at identificere de heterogene genetiske netværk, der ligger til grund for kræft, diverse stor skala-omik projekter (f.eks, The Cancer Genome Project, The Cancer Genome Atlas (TCGA), Sanger Genomics of Drug Følsomhed i Krebsen datasæt fra Cancer Genome Project, og andre) har igangsat og har givet store mængder af data, såsom genomisk og epigenomic data til kræftpatienter eller cellelinier. Et afgørende spørgsmål i kræftforskningen er at identificere kræft driver gener baseret på forskellige genomisk dataanalyse (fx ekspressionsniveauerne, kopiere nummer variationer, methylering og andre), da en effektiv identifikation af kræft lægemiddeltargets letter udviklingen af ​​vellykkede anti-behandlinger mod kræft. Selvom forskellige

L

1-typen legaliseringsprogrammer tilgange, f.eks lasso [1] og elastisk net [2], er ofte blevet brugt til at identificere kræft driver gener, de har flere ulemper som værktøjer til chauffør gen identifikation [3]. Den lasso og adaptive lasso [4] lider begrænsningen af ​​delmængde størrelse (dvs. disse metoder vælge funktioner på de fleste stikprøvestørrelse,

n

). Den elastisk net, som har været meget anvendt i bioinformatik forskning kan give fejlagtige estimering resultater for koefficienter af stærkt korrelerede variable med forskellige størrelser, især dem, der er forskellige i tegn, på grund af sin “gruppering effekt”. Dog er koefficienter for stærkt korrelerede variable med forskellige størrelser ofte observeret i bioinformatik forskning, da gener i fælles biologiske veje normalt er korreleret, og deres regressionskoefficienter kan have forskellige størrelser eller forskellige tegn. Desuden adaptive

L

1-typen legaliseringsprogrammer metoder lider multikollinaritet da deres adaptive data drevet vægte er baseret på mindste kvadraters (OLS) estimatorer.

For at løse disse problemer, Wang et al. [3] foreslået en tilfældig lasso baseret på bootstrap regression modellering med tilfældig skov metode. Selv den tilfældige lasso overvinder ulemperne ved eksisterende

L

1-typen legaliseringsprogrammer tilgange ved hjælp af en tilfældig skov strategi, metoden er beregningsmæssigt intensiv, fordi den beskæftiger to trin bootstrap procedurer. Endvidere Wang et al. [3] foretaget endelige funktion udvælgelse baseret på en vilkårligt besluttet tærskel, selvom resultaterne variable udvalg er stærkt afhængige af tærsklen.

Vi foreslår en ny statistisk strategi for at identificere føreren gener af anti-cancer drug følsomhed på linje med den tilfældige lasso. Vi introducerer rekursive bootstrap tilgange til samtidigt at måle betydningen af ​​hvert gen og udføre driver gen valg. Vi foreslår også en ny tærskel baseret på en parametrisk statistisk test til effektivt at identificere føreren gener baseret på bootstrap regression modellering. Ved at bruge en rekursiv bootstrap procedure, vi udfører tidseffektive bootstrap regression modellering for høj dimensionel genomisk dataanalyse uden tab af modellering nøjagtighed. Endvidere kan den foreslåede funktionen valgmetode hjælp parametrisk statistisk test være et nyttigt redskab for variabel udvælgelse baseret på bootstrap regression modellering.

Brug Monte Carlo simuleringer af forskellige scenarier, vi demonstrerer effektiviteten af ​​den foreslåede rekursive tilfældige lasso og elastisk net med en parametrisk statistisk test for høj dimensionel regression modellering. Vi anvender også den foreslåede statistisk strategi til den offentligt tilgængelige “Sanger Genomics of Drug Følsomhed i Krebsen datasæt fra Cancer Genome Project” (https://www.cancerrxgene.org/), og identificere potentielle driver gener af anti-cancer stof følsomhed . Numeriske analyser viser, at den foreslåede rekursive tilfældige lasso og elastisk net er tid-effektive procedurer, og udkonkurrerer høj dimensionel genomisk dataanalyse (dvs. fra et synspunkt af funktionen udvælgelse og forudsigelig nøjagtighed).

I afsnit 2, introducerer vi den eksisterende

L

1-typen legaliseringsprogrammer tilgange, og påpege deres ulemper. Vi derefter indføre tilfældige lasso, og foreslå den rekursive tilfældige lasso og elastiske net procedurer. I afsnit 3 beskrives Monte Carlo simuleringer og driver gen udvælgelse ved hjælp af Sanger Genomics of Drug Følsomhed i Krebsen datasæt til at undersøge effektiviteten af ​​de foreslåede statistiske strategier. Vi angiver vores konklusioner i afsnit 4.

Materialer og metoder

Antag at vi har

n

uafhængige observationer {(

y

jeg

,

x

i

);

jeg

= 1, …,

n

}, hvor

y

jeg

er tilfældige responsvariabler og x

jeg

er

s

dimensionale vektorer af de prediktorvariabler. Betragt den lineære regressionsmodel, (1) hvor

β

er en ukendt

s

dimensional vektor af regressionskoefficienter og

ε

i

er de tilfældige fejl, som antages at være uafhængigt og identisk fordelte med middelværdi 0 og varians

σ

2. Vi antager, at

y

jeg

er centreret

og

x

ij

er standardiseret af deres middelværdi og standardafvigelse: , og dermed et skæringspunkt sigt er udelukket fra regressionsmodellen i ligning (1). Mange undersøgelser er i øjeblikket i gang på regression modellering, især for høj dimensionel dataanalyse (f.eks genomiske forandringer dataanalyse).

Tibshirani [1] foreslog lasso, hvilket minimerer den resterende sum af kvadrater underlagt en begrænsning, og dets løsning er givet ved (2), hvor

λ

er en tuning parameter styrer model kompleksitet. Ved at indføre en straf sigt summen af ​​de absolutte værdier af regressionskoefficienter, lassoen kan samtidig udføre parameterestimering og variabel udvælgelse.

foreslog Men en nylig arbejde, som lasso kan lide af følgende begrænsninger [ ,,,0],2]:

i

s

n

tilfælde, de lasso vælger på de fleste

n

variabler, på grund af den konvekse optimering problem. Dette indebærer, at lasso er ikke egnet til chauffør gen udvælgelse, da genomisk ændring af data er typisk høje dimensionelle data.

lasso kan ikke redegøre for gruppering effekt af prediktorvariabler, og dermed en tendens til at vælge kun én variabel blandt stærkt korreleret variabler, selv hvis alle er relateret til respons variabel. Imidlertid er genomiske ændringer af gener (fx ekspressionsniveauer, kopiantal variationer, methylering, etc.), der deler en fælles biologisk vej sædvanligvis stærkt korreleret, og generne kan være forbundet med en kompleks cancer mekanisme betragtes som respons variabel. Dette indebærer også, at lasso er ikke egnet til genomisk dataanalyse.

For at overvinde disse ulemper, diverse

L

er blevet foreslået en-type legaliseringsprogrammer metoder . Det elastiske net [2] navnlig har trukket stor opmærksomhed inden for bioinformatik: (3) Straffen tidsrum af det elastiske net er en konveks kombination af ryggen [5] og lasso straffe. Ved at indføre en ekstra

L

2-straf på lasso, det elastiske net udfører effektivt har valg i høj dimensionel dataanalyse, dvs. der er ingen begrænsning på delmængde størrelse. Endvidere kan det elastiske net nyde den følgende gruppe effekt: (4) hvor er prøve korrelation [2]

Selvom det elastiske net fungerer godt for høj dimensionel dataanalyse, Wang et al.. [3] viste, at det elastiske net har følgende ulemper:

Ejendommen af ​​”gruppering effekt” fører til fejlagtige estimering resultater, når koefficienter af stærkt korrelerede variable med forskellige størrelser, især dem med forskellige tegn. Dog er koefficienter for stærkt korrelerede variable med forskellige størrelser ofte observeret i bioinformatik forskning, da gener i den fælles biologisk vej er normalt højt korreleret, og deres regressionskoefficienter kan have forskellige størrelser eller en anden tegn.

Den adaptive

L

1-typen sanktioner er også blevet foreslået og er almindeligt anvendt i forskellige forskningsområder:

adaptive lasso: (5)

adaptive elastisk net: (6)

hvor er en adaptiv data drevet vægt for

γ

0. Ved at bruge vægten, kan vi discriminately pålægge en straf på hver enkelt funktion, afhængigt af deres betydning, og dermed effektivt at udføre funktionen valg. Zou og Hastie [4] og Zou og Zhang [2] etablerede orakel ejendom adaptive lasso og den adaptive elastisk net hhv. Men udførelsen af ​​adaptive legaliseringsforanstaltninger metoder er stærkt afhængig af OLS estimatoren, og dermed disse metoder lider multikollinearitet. Desuden den adaptive

L

1-typen legaliseringsprogrammer metoder lider af de samme ulemper som de fælles metoder, dvs., når du bruger den adaptive lasso, antallet af udvalgte variable kan ikke overstige

n

, og den adaptive elastisk net kan også give fejlagtige estimering resultater, når koefficienter af stærkt korrelerede variable med forskellige størrelser er til stede.

Tilfældig Lasso

Wang et al. [3] detaljeret ulemperne ved eksisterende

L

1-typen tilgange, og foreslog tilfældige lasso baseret på en bootstrap strategi, der beskæftiger den tilfældige skov metoden. I den tilfældige lasso procedure, tilfældigt valgt

q

variabler betragtes som kandidat variabler i regression modellering for hver bootstrap prøve. Således behøver resultaterne ikke lider de meget korrelerede variabler ulemper, da hver bootstrap prøve kan omfatte kun en delmængde af de stærkt korrelerede variabler. Desuden kan den tilfældige lasso overvinde delmængde størrelse begrænsning, da variable Udvælgelsen er baseret på resultaterne af bootstrap regression modellering med tilfældigt udvalgte

q

1 eller

q

2 variabler for hvert bootstrap prøve.

Wang et al. [3] foreslog følgende algoritme baseret på en to-trins bootstrap Proceduren for gennemførelse af tilfældige lasso:

Algoritme 1

Tilfældig lasso

Trin 1: Generering betydning foranstaltninger af prediktorvariabler.

∘ Tegn

b

bootstrap prøver med størrelse

n

ved prøveudtagning med erstatning fra den oprindelige datasæt.

∘ for bootstrap prøve,

b

1 ∈ {1, 2, …,

B

},

q

1 kandidat variabler er tilfældigt udvalgt, og lasso anvendes til regression modellering og vi får estimatorer for

j

= 1, …,

s

.

∘ betydningen mål for

x

j

beregnes som

Trin 2:. Variabel udvælgelse

∘ Tegn

B

bootstrap prøver med størrelse

n

ved prøveudtagning med erstatning fra oprindelige datasæt.

∘ for bootstrap prøve,

b

2 ∈ {1, 2, …,

b

},

q

2 kandidat variabler er tilfældigt udvalgt med et udvalg sandsynlighed for

x

j

proportional med

jeg

j

, og den adaptive lasso anvendes til regression modellering, og vi får estimatoren for

j

= 1, …,

s

.

∘ Beregn den endelige estimator,, som for

j

= 1, …,

s

. Vejviser

for støj prediktorvariabler, koefficienterne i de respektive bootstrap prøver skønnes at være lille eller at have forskellige tegn, og dermed den absolutte værdi af de gennemsnitlige koefficienterne (dvs.

jeg

j

) vil være lille eller tæt på nul . På den anden side kan koefficienterne af afgørende forudsigelsesvariable være konsekvent store i forskellige bootstrap prøver, og derfor en essentiel genet har en stor værdi af

jeg

j

. Dette indebærer, at valget sandsynlighed

jeg

j

giver effektiv funktion valg. Wang et al. [3] anses

q

1 og

q

2 som tuning parametre og betydningen foranstaltning

jeg

j

kan også anvendes til vægt for det adaptive lasso.

Wang et al. [3] bemærkes, at de variable resultater af tilfældige lasso udvælgelse er urimelige, da nogle af de endelige ikke-nul-koefficienter kan skyldes en særlig bootstrap prøve (dvs. kan den tilfældige lasso give falske positiver i variabel markering). Således en tærskel

t

n

= 1 /

n

blev tilføjet for variabel udvælgelse, og prediktorvariabler med blev slettet fra den endelige model.

Rekursiv Random Lasso for effektiv Feature Selection

Den tilfældige lasso kan overvinde ulemperne ved eksisterende

L

1-typen regulering ved hjælp af en tilfældig skov metode med bootstrap regression modellering . Selv den tilfældige lasso fungerer godt for høj dimensionel regression modellering med højt korrelerede prædiktorer, metoden lider også af følgende ulemper:

Den tilfældige lasso er beregningsmæssigt intensiv, da den er baseret på to bootstrap procedurer med respektive B-gentagelser. Den beregningsmæssige kompleksitet af den tilfældige lasso er steget betydeligt i genomisk dataanalyse, fordi datasæt er konstrueret med et meget stort antal prediktorvariabler.

Tærsklen er afgørende i funktionen valg, da funktionen udvælgelsesresultaterne de er stærkt afhængige på tærsklen. Men Wang et al. [3] vilkårligt sat tærsklen som 1 /

n

uden statistisk baggrund.

Metoden har for mange tuning parametre, dvs.

λ

i

L

1-type sanktioner, og

q

1 og

q

2 i tilfældig skov metoden. Det store antal af tuning parametre gør også metoden tidskrævende, da de tilfældige lasso procedurer bør gennemføres flere gange for at vælge den optimale parameter kombination.

Vi foreslår en effektiv modellering strategi på linje med den tilfældige lasso, kaldet en rekursiv tilfældig lasso (eller elastisk net). For effektivt at udføre høj dimensionel genomiske dataanalyse, foreslår vi en rekursiv bootstrap procedure til at generere betydningen foranstaltning og regression modellering. Vi foreslår også en ny tærskel for effektivt vælge prediktorvariabler i bootstrap regression modellering ved hjælp af en parametrisk statistisk test. Desuden en række kandidatlande prædiktorer,

q

er også tilfældigt udvalgt i hver bootstrap prøve (dvs. vi mener ikke,

q

som en tuning parameter). Den foreslåede rekursive tilfældige lasso (elastisk net) gennemføres af følgende algoritme.

Algoritme 2

Rekursiv tilfældig lasso (eller elastisk net)

Tegn

B

bootstrap prøver med størrelse

n

ved prøveudtagning med erstatning fra den oprindelige datasæt.

for første bootstrap prøve (dvs.

b

= 1),

q

kandidat variabler er tilfældigt valgt, og lasso (eller elastisk net) anvendes til regression modellering. Vi derefter få estimatorer for

j

= 1, …,

s

.

For

b

∈ {2, …,

B

}, er betydningen mål for

x

j

beregnet som.

q

kandidat variabler er tilfældigt udvalgt med et udvalg sandsynlighed

jeg

j

, og den adaptive lasso (eller adaptive elastisk net) med

w

j

= 1 /

jeg

j

anvendes til regression modellering. Vi får de estimatorer for

j

= 1, …,

s

.

Afsluttende estimatorer opgøres som.

Endelig har vi udfører variabel udvælgelse baseret på tærsklen

t

* via parametrisk statistisk test.

parametrisk statistisk test for Variable Selection i Bootstrap Regression Modeling (PSTVSboot).

i for effektivt at udføre funktionen udvælgelse, foreslår vi en parametrisk statistisk test baseret på bootstrap regression modellering resultater. Vi først overveje en

B

×

s

binær matrix D opnået fra ovennævnte rekursive bootstrap procedurer. Vi sætter et element af den binære matrix som

D

bj

= 1 for en ikke-nul i

b

th

bootstrap prøve; ellers

D

bj

= 0. Med andre ord mener vi, at den binære matrix er fremstillet af Bernoulli forsøg, og lad

D

j

være en stokastisk variabel er forbundet med Bernoulli forsøg som følger:.

,

Bernoulli stokastisk variabel har følgende tæthedsfunktion (7), hvor sandsynligheden

π

kan anslås som følger, (8), som angiver den gennemsnitlige af udvælgelsen forholdet mellem alle prediktorvariabler i

B

bootstrap prøver. For rimelig variabel udvælgelse, vi så overveje følgende statistik: (9), der angiver antallet af ikke-nul i

B

Bernoulli forsøg (dvs.

B

bootstrap prøver). Statistikken

C

j

følger binomialfordelingen og har følgende sandsynlighedsmassen funktion: (10) Vi ​​beregner derefter en

s

-værdi for hver prædiktor variabel som følger, (11) og endelig udføre variabel udvælgelse baseret på

s

-værdien med en tærskel

t

* = 0,05 som følger (12), hvor

i

(⋅) er en indikator funktion. Vi kan forvente, at den parametriske statistiske test kan overvinde falsk positive træk udvælgelsesresultaterne af bootstrap regression modellering. Selv om vi har beskrevet den foreslåede variable udvælgelse strategi med fokus på den tilfældige lasso procedure, vil parametrisk statistisk test være et nyttigt redskab for bootstrap regression modellering.

Resultater

Monte Carlo Simuleringer

Monte Carlo-simuleringer blev udført for at undersøge effektiviteten af ​​den foreslåede modellering strategi. Vi simulerede 100 datasæt fra følgende lineære regressionsmodel, (13), hvor

ε

jeg

er

N

(0,

σ

2), og sammenhængen mellem

x

l

x

m

er 0,5

Be the first to comment

Leave a Reply