PLoS ONE: Feature Valg og Kræft Klassifikation via Sparse Logistisk regression med Hybrid L1 /2 2 Regularization

Abstrakt

Kræft klassificering og funktion (gen) valg spiller en vigtig rolle i viden opdagelse i genomiske data. Selvom logistisk regression er en af ​​de mest populære metoder klassificering, betyder det ikke fremkalde funktionen valg. I dette papir, præsenterede vi en ny hybrid L

1/2 2 legalisering (HLR) funktion, en lineær kombination af L

1/2 og L

2 sanktioner, for at vælge det relevante gen i logistisk regression. HLR tilgang arver nogle fascinerende egenskaber fra L

1/2 (sparsity) og L

2 (gruppering effekt, hvor højt korrelerede variabler er i eller ud af en model sammen) sanktioner. Vi foreslog også en roman univariate HLR tærskling tilgang til at opdatere de estimerede koefficienter og udviklet koordinatsystemet afstamning algoritme til HLR straffet logistiske regressionsmodel. De empiriske resultater og simuleringer viser, at den foreslåede metode er yderst konkurrencedygtig blandt flere state-of-the-art metoder

Henvisning:. Huang HH, Liu XY, Liang Y (2016) Feature Valg og Kræft Klassifikation via Sparse logistisk regression med Hybrid L

1/2 2 regularisering. PLoS ONE 11 (5): e0149675. doi: 10,1371 /journal.pone.0149675

Redaktør: Fengfeng Zhou, Jilin Universitet, KINA

Modtaget: September 18, 2015; Accepteret: 2 februar 2016; Udgivet: Maj 2, 2016

Copyright: © 2016 Huang et al. Dette er en åben adgang artiklen distribueres under betingelserne i Creative Commons Attribution License, som tillader ubegrænset brug, distribution og reproduktion i ethvert medie, forudsat den oprindelige forfatter og kilde krediteres

Data Tilgængelighed:. Alle relevante data er inden for papir og dens støtte Information filer

Finansiering:.. Dette arbejde blev støttet af Macau Videnskab og Teknologi Udvikle fonde (Grant nr 099/2013 /A3) af Macau SAR Kina

Konkurrerende interesser: et patent relateret til en ny hybrid L

1 /2-2 legalisering (HLR) funktion, en lineær kombination af L1 og L

1/2 sanktioner, for at vælge de relevante variabler i høj demensional data behandles i øjeblikket. Dette ændrer ikke vores tilslutning til PLoS ONE politik om deling af data og materials.The forfattere har erklæret, at der ikke findes konkurrerende interesser.

1. Introduktion

Med fremskridt inden for high-throughput molekylære teknikker, kan forskerne studere udtryk for titusinder af gener samtidigt. Cancer klassifikation baseret på gen-ekspressionsniveauer er en af ​​de centrale problemer i genomforskning. Logistisk regression er en populær klassifikation metode og har et eksplicit statistisk fortolkning, der kan få sandsynligheder for klassificering vedrørende kræft fænotype. Men i de fleste genekspressionsstudier, antallet af gener typisk langt overstiger antallet af stikprøvestørrelsen. Denne situation kaldes high-dimensionel og lav stikprøvestørrelse problem, og den normale logistisk regression metode kan ikke direkte anvendes til at estimere regressionsparametrene.

For at løse problemet med høj dimensionalitet, en af ​​de populære teknikker er legalisering metoden. En velkendt legalisering metode er L

1 straf [1], som er den mindst absolutte krympning og udvælgelse operatør (Lasso). Det udfører kontinuerlig krympning og gen markering på samme tid. Andre L

1 norm typen legaliseringsforanstaltninger metoder omfatter typisk glat-klippet-absolut-afvigelse (SCAD) straf [2], som er symmetrisk, nonconcave, og har singulariteter på oprindelsen til at producere sparsomme løsninger. Den adaptive Lasso [3] straffer de forskellige koefficienter med de dynamiske vægte i L

1 straf. L

1 type legalisering, kan dog give inkonsistente har markeringer i nogle situationer [3], og ofte introducerer ekstra skævhed i forbindelse med vurdering af parametrene i den logistiske regression [4]. Xu

et al

. [5] foreslog L

1/2 straf, en metode, der kan tages som en repræsentant for L

q (0

q

1) sanktioner i både sparsity og beregningsmæssige effektivitet, og har vist mange attraktive egenskaber, såsom unbiasedness, og oracle egenskaber [5-7]. Men magen til de fleste af de reguleringsforanstaltninger metoder, L

1/2 straf ignorerer, sammenhængen mellem funktioner, og dermed ude af stand til at analysere data med afhængige strukturer. Hvis der er en gruppe af variabler blandt hvilke de parvise korrelationer er meget høj, så den L

1/2 metode har tendens til kun at vælge én variabel til repræsenterer den tilsvarende gruppe. I genekspression studie, er gener ofte højt korreleret hvis de deler den samme biologiske vej [8]. var blevet gjort en vis indsats for at håndtere problemet med højt korrelerede variabler. Zhou og Hastie foreslog Elastisk net straf [9], som er en lineær kombination af L

1 og L

2 (højderyggen teknik) sanktioner, og en sådan metode fremhæver en gruppering effekt, hvor stærkt korrelerede gener tendens til at være i eller ud af modellen sammen. Becker

et al

. [10] foreslog Elastic SCAD (SCAD – L

2), en kombination af SCAD og L

2 sanktioner. Ved at indføre L

2 straf sigt, Elastic SCAD arbejder også for de grupper af prædiktorer.

I denne artikel, vi foreslog HLR (Hybrid L

1/2 + 2 Tillempninger) tilgang til passe de logistiske regressionsmodeller for gen udvælgelse, hvor legalisering er en lineær kombination af L

1/2 og L

2 straffe. L

1/2 straf opnår funktion valg. I teorien, en strengt konveks straf funktion giver en tilstrækkelig betingelse for gruppering effekten af ​​variabler og L

2 straf garanterer streng konveksitet [11]. Derfor L

2 straf inducerer gruppering effekt samtidig i HLR tilgang. Eksperimentelle resultater på kunstige og reelle genekspression data i dette papir viser, at vores foreslåede metode er meget lovende.

Resten af ​​artiklen er organiseret som følger. I afsnit 2, definerede vi først HLR tilgang og præsenterede en effektiv algoritme til at løse den logistiske regressionsmodel med HLR straf. I afsnit 3 vurderes vi udførelsen af ​​vores foreslåede fremgangsmåde på de simulerede data og fem offentlige genekspression datasæt. Vi præsenterede en konklusion af papiret i afsnit 4.

2. Metoder

2.1 Tillempninger

Antag at datasæt

D

har

n

prøver

D

= {(

X

1,

y

1), (

X

2

y

2), …, (

X

n

,

y

n

)}, hvor

X

jeg

= (

x

jeg

1,

x

jeg

2, …,

x

ip

) er

jeg

th prøve med

s

dimensionel og

y

jeg

er den tilsvarende afhængige variabel

for enhver ikke-negativ

λ

, den normale legalisering form:. (1), hvor

P Hotel (

β

) repræsenterer legalisering sigt. Der er mange legaliseringsoperationer metoder foreslået i de senere år. En af de populære metoder er L

1 legalisering (Lasso), hvor. De andre L

1 typen reguleringer omfatter SCAD, den adaptive Lasso, elastisk net, Stage kloge Lasso [12], Dantzig vælgeren [13] og elastisk SCAD. Men i genomisk forskning, resultatet af L

1 type legalisering kan ikke sparsomme nok til fortolkning. Faktisk, en typisk microarray eller RNA-seq datasæt har mange tusinde prædiktorer (gener), og forskere ofte ønsker at vælge færre men informative gener. Ved siden af ​​dette, L

1 legalisering er asymptotisk forudindtaget [14,15]. Selvom L

0 legalisering, hvor, giver de sparsest løsninger, det har at gøre med NP-hard kombinatoriske optimeringsproblem. For at få en mere præcis løsning og forbedre den prædiktive nøjagtighed model klassificering, er vi nødt til at tænke ud over L

1 og L

0 reguleringer til L

q (0

q

1) legalisering. L

1/2 legalisering kan tages som en repræsentant for L

q (0

q

1) sanktioner og har tilladt en analytisk udtryksfuld tærskling repræsentation [5]. Med tærskelværdier repræsentation, løse L

1/2 legalisering er meget lettere end at løse L

0 legalisering. Desuden L

1/2 straf er unbiasedness og har oracle egenskaber [5-7]. Disse egenskaber gør den L

1/2 straf blev et effektivt redskab til høje dimensionelle problemer [16,17]. på grund af ufølsomhed af de stærkt korrelerede data, L

1/2 straf tendens imidlertid at vælge kun én variabel til at repræsentere den korrelerede gruppe. Denne ulempe kan forringe ydeevnen af ​​L

1/2 metode.

2.2 Hybrid L

1/2 2 Tillempninger (HLR)

For enhver fast ikke-negative λ

1 og λ

2, definerer vi den hybride L

1/2 2 legalisering (HLR) kriterium: (2) hvor

β

= (

β

1, …,

β

s

) er de koefficienter, der estimeres og

HLR estimator er minimizer af ligning (2) : (3)

Lad α =

λ

1 /(1 +

λ

2), så løse i ligning (3) svarer til optimering problemet: (4)

Vi kalder funktionen

α

|

β

|

1/2 + (1 – α) |

p

|

2 som HLR, som er en kombination af L

1/2 og L

2 straffe. Når α = 0, bliver HLR straf højderyg regularisering. Når α = 1, bliver HLR L

1/2 regularisering. L

2 straf er nyder den gruppering effekt og L

1/2 straf inducerer sparsomme løsninger. . Denne kombination af begge sanktioner gør HLR fremgangsmåde ikke kun er i stand til at håndtere korrelationsdataene, men også i stand til at generere en kortfattet resultat

Figur 1 viser fire legaliseringsoperationer metoder: Lasso, L

1 /2, Elastisk net og HLR sanktioner med en ortogonal design matrix i regressionsmodellen. De estimatorer af Lasso og elastisk net er forudindtaget, mens L

1/2 straf er asymptotisk fordomsfri. Svarende til L

1/2 metode, HLR tilgang udfører også bedre end Lasso og elastisk net i ejendommen af ​​unbiasedness.

Præcis løsninger (a) Lasso, (b) L

1/2, (c) elastisk net, og (d) HLR i et ortogonalt design. Legalisering parametre er

λ

= 0,1 og

α

= 0,8 for Elastisk net og HLR.

(β-OLS er de almindelige mindste kvadraters (OLS) estimatoren)

.

Figur 2 beskriver kontur plots på todimensional for straf funktioner Lasso, elastisk net , L

1/2 og HLR tilgange. Det tyder på, at L

1/2 straf er ikke-konveks, mens HLR er konveks for den givne α. Følgende sætning vil vise, hvordan HLR styrker L

1/2 legalisering.

legalisering parametre er

λ

= 1 og

α

= 0,2 for HLR-metoden.

Sætning 1.

da datasæt (y, X) og (λ

1, λ

2), så HLR estimater er givet ved (5)

L

1/2 legalisering kan omskrives til (6)

beviset for Sætning 1 kan findes i S1 Filer. Therorem1 viser HLR tilgang er en stabiliseret version af L

1/2 regularisering. Bemærk, at er en prøve version af sammenhængen matrix Σ andwhere

δ

=

λ

2 /(1 +

λ

2) krymper, at mod identiteten matrix. Klassificeringen nøjagtighed kan ofte forbedres ved at erstatte med en mere indskrumpet estimat i lineær diskriminationsanalyse [18,19]. Med andre ord, HLR forbedrer L

1/2 teknik ved regulere i ligning (6).

2.3 sparsomme logistisk regression med HLR-metoden

Antag at datasæt

D

har

n

prøver

D

= {(

X

1,

y

1), (

X

2

y

2), …, (

X

n

,

y

n

)}, hvor

X

i

= (

x

i

1,

x

jeg

2, …,

x

ip

) er

i

th prøve med

p

gener og

y

jeg

er den tilsvarende afhængige variabel, der består af en binær værdi med 0 eller 1. Definer en sorterer f (

x

) =

e

x-service /(1 +

e

x

) og den logistiske regression er defineret som: (7)

Hvor

β

= (

β

1, …,

β

s

) er de koefficienter, der skal skønnes. Med en enkel algebra kan regressionsmodellen præsenteres som: (8)

I dette papir, anvender vi HLR’en tilgang til den logistiske regressionsmodel. For enhver fast ikke-negative

λ

og

α

er sparsomme logistisk regressionsmodel baseret på HLR, der defineres som: (9)

2.4 Løsning algoritme for sparsomme logistisk regression med HLR tilgang

koordinat afstamning algoritme [20] er en effektiv metode til at løse legaliseringsoperationer modeller, fordi dens beregningsmæssige tid stiger lineært med dimensionen af ​​problemerne. Dens standard procedure kan vist som følger: for hver

β

j (j = 1,2, …,

s

), for delvist at optimere målet funktion med hensyn til koefficienten med de resterende elementer af

β

fastsat til deres senest opdaterede værdier, iterativt cykle gennem alle koefficienter indtil mødes konvergeret. Den specifikke form for fornyelse koefficienter er forbundet med tærskelværdier operatøren af ​​straffen.

Lad os antage, at datasættet

D

har

n

prøver

D

= { (

X

1,

y

1), (

X

2

y

2 ), …, (

X

n

,

y

n

)}, hvor

X

i

= (

x

jeg

1,

x

jeg

2 , …,

x

ip

) er

jeg

th prøve med

s

dimensionel og

y

jeg

er den tilsvarende afhængige variabel. Variablerne er standardiserede:.

Efter Friedman

et al

. [20] og Liang

et al

. [16], i dette papir, præsenterer vi den oprindelige koordinat-wise opdatering form til HLR tilgang: (10), hvor, og som den delvise residual til montering

β

j

. er L

1/2 tærskling operatør (11), hvor,

π

= 3.14

Eq (9) kan lineariseret ved én sigt Taylor serie ekspansion:. (12 ) hvor er den anslåede reaktion, er vægten for den anslåede svar. er den evaluerede værdi under de nuværende parametre. Således kan vi omdefinere den delvise residual til montering strøm som og. Proceduren for koordinatsystemet afstamning algoritme til HLR straffet logistisk model er beskrevet som følger

Algoritme:. Den koordinat nedstigning tilgang til HLR straffet logistiske model

Trin 1: Initialiser alle

β

j

(

m

) ← 0 (

j

= 1, 2, …,

s

) og

X

,

y

,

indstille

m

← 0,

λ

og

α

vælges af krydsvalidering;

Trin 2: Beregn

Z Hotel (

m

) og

W Hotel (

m

) og tilnærme tab funktion (12) baseret på den aktuelle

β

(

m

)

Trin 3: Opdater hver

β

j

(

m

), og cykle i

j =

1, …,

s

;

Trin 3.1: Compute og

Trin 3.2: Opdatering

Trin 4: Lad

m

m

+ 1,

β

(

m

+ 1) ←

β

(

m

)

Hvis

β

(

m

) dosis ikke konvergens, derefter gentage trin 2, 3,

3. Resultater og diskussion

3.1 analyser af simulerede data

Målet med dette afsnit er at evaluere resultaterne af den logistiske regression med HLR tilgang i simuleringen studiet. Fire tilgange i forhold til vores foreslåede metode: logistisk regression med Lasso legalisering, L

1/2 legalisering, SCAD – L

2 og elastisk net lovliggørelse hhv. Vi simulere data fra den sande modelwhere X ~

N

(0, 1),

ε

er det uafhængige tilfældige fejl og

σ

er den parameter, der styrer signal til støj. Fire scenarier præsenteres her. I hvert eksempel, dimensionen af ​​prædiktorer er 1000. notation. /. var repræsenteret af antallet af observationer i uddannelse og test sæt henholdsvis f.eks 100/100. Her er detaljerne i de fire scenarier.

I scenario 1, datasættet består af 100/100 observationer, vi har sat

σ

= 0,3 og, vi simulerede en grupperet variabel situationwhere

ρ

er korrelationskoefficienten af ​​de sammenbyggede variable.

scenariet 2 blev defineret på samme måde som scenario 1, bortset fra at vi overvejet tilfældet, når der er andre uafhængige faktorer bidrager også til den tilsvarende klassificering variabel

y

,

i scenario 3, sætter vi

σ

= 0,4 og datasættet består af 200/200 observationer, og definerede vi to grupperede variable

i scenario 4, blev de sande funktioner tilføjet op til 20% af de samlede funktioner,

σ

= 0,4 og datasættet består af 400/400 observationer, og definerede vi tre grupperede variable

I dette eksempel var der tre grupper af de korrelerede træk og nogle enkelt uafhængige funktioner. En ideel sparsomme regression metode ville vælge kun de 200 sande funktioner og sætte koefficienterne af 800 støj funktioner til nul.

I vores eksperiment, vi satte korrelationskoefficienten

ρ

af funktioner er 0,3 , 0,6, 0,9 hhv. Den Lasso og elastisk net blev udført af Glmnet (en Matlab pakke, versionen 2014/04/28, download på https://web.stanford.edu/~hastie/glmnet_matlab/). Den optimale legaliseringsoperationer parametre eller tuning parametre (afbalancere afvejning mellem data pasform og model kompleksitet) af Lasso, L

1/2, SCAD – L

2, elastisk net og HLR tilgange blev tunet af 10- fold krydsvalidering (CV) tilgang i træningssættet. Bemærk, at blev det elastiske net og HLR metoder tunet af den 10-CV tilgang på todimensionale parameter overflader. Den SCAD – L

2 blev tunet af den 10-CV tilgang til de tredimensionale parameter overflader. Derefter blev de forskellige klassificører bygget af disse sparsomme logistiske regressioner med de estimerede tuning parametre. Endelig blev de opnåede klassificører anvendt på prøve sæt til klassificering og forudsigelse.

Vi gentog simuleringer 500 gange for hver straf metode og beregnet den gennemsnitlige klassificering nøjagtighed på test sæt. For at vurdere kvaliteten af ​​de valgte funktioner for legaliseringsoperationer tilgange, følsomheden og specificiteten af ​​funktionen udvælgelse ydeevne [21] blev defineret som følger:.. Hvor * er det element-wise produkt, og | |

0 beregner antallet af ikke-nul elementer i en vektor, og er de logiske “ikke” operatører på vektorerne

β

.

Som vist i tabel 1, for alle scenarier, vores foreslåede HLR procedure gav generelt højere eller tilsvarende klassificering nøjagtighed end Lasso, SCAD – L

2, Elastisk net og L

1/2 metoder. Også den HLR fremgangsmåde resulterer i meget højere sensitivitet til at identificere sande funktioner i forhold til de øvrige fire algoritmer. For eksempel, i scenario 1 med

ρ

= 0,9, tjente vores foreslåede metode den imponerende præstation (nøjagtighed 99,87% med perfekt sensitivitet og specificitet). Specificiteten af ​​HLR tilgang er noget reduceret, men ikke meget i forhold til de opnåede i følsomhed.

I fed-de bedste resultater blandt alle de metoder.

3.2 analyser af virkelige data

for yderligere at evaluere effektiviteten af ​​vores foreslåede metode, i dette afsnit, vi brugte flere offentligt tilgængelige datasæt: Prostata, DLBCL og lungekræft. Prostata og DLBCL datasæt blev begge hentet fra https://ico2s.org/datasets/microarray.html og lungekræft datasæt kan downloades på https://www.ncbi.nlm.nih.gov/geo med adgang nummer [GSE40419].

Flere oplysninger om disse datasæt er givet i tabel 2.

Prostata.

Dette datasæt blev oprindeligt foreslået af Singh

et al

. [22]; det indeholder udtrykket profiler af 12.600 gener i 50 normale væv og 52 prostata tumorvæv.

lymfom.

Dette datasæt (Shipp

et al

. [23]) indeholder 77 microarray genekspression profiler af de to mest udbredte voksne lymfoide maligne sygdomme: 58 prøver af diffuse store B-celle lymfomer (DLBCL) og 19 follikulære lymfomer (FL). Den oprindelige data indeholder 7,129 genekspression værdier.

lungekræft.

Som RNA- sekventering (RNA-seq) teknik meget udbredt, er det derfor vigtigt at teste den foreslåede metode, om den har evnen til at håndtere den RNA-seq data. For at bekræfte det, blev en datasæt, der brugte den næste generation sekventering involveret i vores analyse. Dette datasæt [24] indeholder 164 prøver med 87 lunge adenokarcinomer og 77 tilstødende normale væv.

Vi evaluere resultaterne af HLR straffet logistiske regressionsmodeller ved hjælp af tilfældige partition. Det betyder, at vi opdele datasæt tilfældigt således at ca. 75% af de datasæt bliver uddannelsen prøver og de andre 25% som de prøver. De optimale justeringsparametre blev fundet ved hjælp af 10-fold krydsvalidering i træningssættet. Derefter blev klassificeringen model bygget af den sparsomme logistisk regression med de estimerede tuning parametre. Endelig anvendelse af klassificeringen på prøve sættet giver forudsigelse karakteristika såsom klassificering nøjagtighed, AUC under modtageren opererer karakteristik (ROC) analyse. De ovenstående fremgangsmåder blev gentaget 500 gange med forskellige tilfældige datasæt partitioner. Det gennemsnitlige antal af de udvalgte gener, uddannelse og klassifikationsselskaberne test nøjagtighed, blev opsummeret i tabel 3 og de midlede AUC forestillinger blev viste i figur 3.

I fed-den bedste ydeevne.

Som vist i tabel 3, for prostata datasæt, klassificeringen med HLR tilgang giver den gennemsnitlige 10-fold CV nøjagtighed på 97,61%, og den gennemsnitlige test nøjagtighed på 93,68% med omkring 12,6 gener valgt. De klassificører med Lasso, L

1/2, SCAD – L

2 og elastisk net metoder giver den gennemsnitlige 10-fold CV nøjagtighed på 96,22%, 96,13%, 95,99%, 96,28% og den gennemsnitlige test nøjagtighed 92,4%, 92,18%, 91,33%, 91,35% med 13,7, 8,2, 22 og 15,2 gener valgt hhv. For lymfom datasæt, kan det ses, at HLR-metoden opnår også de bedste klassificering forestillinger med den højeste nøjagtighed satser i uddannelse og test sæt. For lungekræft, vores metode fik den bedste uddannelse nøjagtighed. Afprøvningen ydeevne elastisk net var lidt bedre end vores metode. Men HLR metoden opnået sin succes ved hjælp kun omkring 15,6 prædiktorer (gener) sammenlignet med 28,9 gener for det elastiske net metode. Selv om Lasso eller L

1/2 metoder vundet de sparsest løsninger, klassificering udførelsen af ​​disse to tilgange var værre end den HLR-metoden. Dette er en vigtig overvejelse for screening og diagnostiske anvendelser, hvor målet er ofte at udvikle en nøjagtig test bruge så få træk som muligt for at styre omkostningerne.

Som vist i figur 3, vores foreslåede metode opnåede bedste klassificering forestillinger i disse tre reelle datasæt blandt alle konkurrenterne. For eksempel faldt AUC fra ROC analyse af HLR fremgangsmåde til datasæt prostata, lymfom og lungekræft datasæt anslået til at være 0,9353, 0,9347 og 0,9932 henholdsvis. AUC-resultater af Lasso metode for de tre datasæt blev beregnet til at være 0,9327, 0,9253 og 0,9813 henholdsvis som var værre end den foreslåede HLR-metoden.

Vi sammenfattet top 10 rangerede (oftest) gener udvalgt af fem legaliseringsoperationer metoder til lungekræft genekspression datasæt i tabel 4, kunne oplysningerne om top 10 klassificeret gener for de øvrige datasæt findes i S2 Filer. Bemærk, at i tabel 1, den foreslåede HLR metode har de imponerende præstationer for at vælge de sande funktioner i simuleringen data. Det antydes, at de er udvalgt af HLR-metoden i disse tre kræft datasæt gener er værdifulde for de forskere, der ønsker at finde ud af de vigtigste faktorer, der er forbundet med udvikling af kræft. For eksempel i tabel 4, udvælger vores HLR metode biomarkører indbefatter avanceret glycosylering slutprodukt receptor (AGER), som er medlem af immunoglobulin-superfamilien hovedsageligt udtrykkes i lungen. AGER spiller en rolle i epitel organisation, og nedsat udtrykkeligt af AGER i lungetumorer kan conduce til tab af epitelvæv struktur, der kan føre til malign transformation [25]. Den unikke funktion AGER i lunge, hvilket gør det kunne bruges som en supplerende diagnostisk redskab for lungekræft [26], og selv et mål [27]. GATA2 (GATA bindende protein 2) udtrykkes hovedsageligt i hæmatopoietiske afstamninger, og har en væsentlig rolle i udviklingen af ​​multiple hæmatopoietiske celler, herunder erythrocytter og megakaryocytter. Det er afgørende for udbredelsen og vedligeholdelse af hæmatopoietiske stamceller og multi-potentielle stamfædre [28]. Kumar et al. [29] viste en stærk sammenhæng mellem GATA2 og RAS-pathway mutant lunge tumorceller.

For yderligere at verificere biomarkører udvalgt af vores metode, havde vi samlet to uafhængige lungekræft datasæt for validering. Den GSE19804 [30] indeholder 120 prøver med 60 lunge adenokarcinomer og 60 tilstødende normale væv. Den GSE32863 [31] indeholder 116 prøver omfatter 58 lunge adenokarcinomer og 58 raske kontrolpersoner. Disse to datasæt er tilgængelige fra serie tiltrædelse nummer GEO [GSE19804] og [GSE32863].

Vi brugte support vektormaskine (SVM) tilgang til at bygge de klassificører baseret på de første to, først fem og først ti gener udvalgt af forskellige legalisering tilgange fra lungekræft datasæt (tabel 4), og blev uddannet på lungekræft datasæt (tabel 2) hhv. Disse klassificører blev derefter anvendt på de to uafhængige lungekræft datasæt, GSE19804 og GSE32863 henholdsvis.

Det er kendt, at de opnåede prognosemodeller måske kun gælder for prøver fra den samme platform, celletype, miljøforhold og eksperimentelle procedure. Men interessant nok, som vist i tabel 5, kan vi se, at alle klassificeringskriterierne nøjagtighed forudsagt af de klassificører med de udvalgte gener ved HLR tilgang, er højere end 90%. Især klassificering nøjagtighed på GSE32863 datasættet er 97,41% med klassificeringen er baseret på de første ti gener. Sådanne forestillinger er bedre end de udvalgte ved andre metoder gener. For eksempel nøjagtigheden af ​​klassificeringen med de to første gener udvalgt af Elastisk net for GSE19804, blev anslået til at være 86,67%, som var værre end klassificeringen med de valgte af vores metode, 90,83% gener. Udførelsen af ​​klassificeringen med de første fem gener udvalgt af SCAD – L

2, for GSE32863, blev beregnet til 92,24%, som var værre end klassificeringen med de valgte af vores HLR metode, 96,55% gener. Resultaterne indikerer, at den sparsomme logistisk regression med HLR tilgang kan vælge stærke diskriminerende gener.

I fed-den bedste ydeevne.

Udover at sammenligne med Lasso, L

1/2, SCAD – L

2 og elastisk net teknikker, vi også foretage en sammenligning med resultaterne af andre metoder til datasæt prostata og lymfom publiceret i litteraturen. Bemærk, at vi kun betragtes metoder ved hjælp af CV tilgang til evaluering, da metoder baseret på en simpel træning /test sæt partition nu er almindeligt kendt som upålidelige [32]. Tabel 6 viser den bedste klassificering nøjagtigheden af ​​andre metoder. I tabel 6, klassificering nøjagtighed opnås ved HLR tilgang er større end andre metoder. I mellemtiden er antallet af udvalgte gener er mindre end andre metoder, undtagen på lymfom datasættet.

I fed-den bedste ydeevne.

4. Konklusion

I dette papir, har vi foreslået HLR-funktionen, en ny svind og udvælgelsesmetode. HLR tilgang er arvet nogle værdifulde egenskaber fra L

1/2 (sparsity) og L

2 (gruppering effekt, hvor højt korrelerede variabler er i eller ud af en model sammen) sanktioner. Vi foreslog også en roman univariate HLR tærskling funktion til at opdatere de estimerede koefficienter og udviklet koordinatsystemet afstamning algoritme til HLR straffet logistiske regressionsmodel.

De empiriske resultater og simuleringer viser HLR-metoden var yderst konkurrencedygtige blandt Lasso, L

1/2, SCAD – L

2 og elastisk net i at analysere høje dimensionelle og lave sample størrelser data (microarray og RNA-seq data). Således logistisk regression med HLR tilgang er den lovende værktøj til funktionen udvælgelse i problem klassifikationen. Kildekoden af ​​sparsomme logistisk regression med HLR fremgangsmåde blev tilvejebragt i S3-fil.

Støtte Information

S1 fil. Beviset for sætning 1.

doi: 10,1371 /journal.pone.0149675.s001

(PDF)

S2 Filer. . Den hyppigst valgte 10 gener information

Top-10 klassificeret gener udvalgt af alle de metoder til prostata og lymfom datasæt

doi:. 10,1371 /journal.pone.0149675.s002

(PDF)

S3 File. . Kildekode af HLR-metoden

MATLAB kode sparsomme logistisk regression med HLR tilgang

doi:. 10,1371 /journal.pone.0149675.s003

(RAR)

Be the first to comment

Leave a Reply