PLoS ONE: Regnskab for Afhængighed induceret af Vægtet KNN Imputering i parrede prøver, Motiveret af en Colorectal Cancer Study

Abstrakt

Manglende data kan opstå i bioinformatik ansøgninger om en række forskellige årsager, og imputering metoder hyppigt anvendt til sådanne data. Vi er motiveret af en kolorektal cancer studie hvor miRNA ekspression blev målt i parrede tumor-normal prøver af hundredvis af patienter, men der manglede data for mange normale prøver på grund af manglende væv tilgængelighed. Vi sammenligner præcision og kraft ydeevne flere godtgørelsesordninger metoder, og gøre opmærksom på den statistiske afhængighed induceret af K-nærmeste naboer (KNN) imputering. Denne imputering-induceret afhængighed har ikke tidligere været behandlet i litteraturen. Vi viser, hvordan at tage højde for denne afhængighed, og viser gennem simulation, hvordan valget til at ignorere eller redegør for denne afhængighed påvirker både strøm og type I fejlrate kontrol

Henvisning:. Suyundikov A, Stevens JR, Corcoran C, Herrick J, Wolff RK, Slattery ML (2015) Regnskabsmæssig behandling af afhængighed induceret af Vægtet KNN Imputering i parrede prøver, Motiveret af en Colorectal Cancer Study. PLoS ONE 10 (4): e0119876. doi: 10,1371 /journal.pone.0119876

Academic Redaktør: Chuhsing Kate Hsiao, National Taiwan University, TAIWAN

Modtaget: November 19, 2014 Accepteret: 3 februar 2015; Udgivet: April 7, 2015

Copyright: © 2015 Suyundikov et al. Dette er en åben adgang artiklen distribueres under betingelserne i Creative Commons Attribution License, som tillader ubegrænset brug, distribution og reproduktion i ethvert medie, forudsat den oprindelige forfatter og kilde krediteres

Data Tilgængelighed: R-kode til at generere de simulerede data leveres (i a.zip fil) som S1 fil, Simulation Supplement

Finansiering:. Denne forskning blev støttet af en bevilling fra National Institutes of Health, tildeling nummer 1R01CA163683-01A1; MLS principal investigator, med subaward til JRS

Konkurrerende interesser:.. Forfatterne har erklæret, at der ikke findes konkurrerende interesser

Introduktion

MikroRNA’er (miRNA) er små ikke-kodende RNA-molekyler, der regulerer genekspression ved at målrette messenger RNA’er. De blev først opdaget i 1993 under en undersøgelse af udviklingen i nematoden Caenorhabditis elegans (C. elegans) vedrørende proteingenet lin-14 [1]. Lee et al. (1993) fandt, at den overflod af protein lin-14 blev reguleret af en lille RNA kodet af lin-4 locus. Dette blev transkriberet til en 22-nukleotid RNA-molekyle, der kunne undertrykke ekspressionen af ​​lin-14 messenger RNA (mRNA) ved direkte at interagere med dens 3′-utranslaterede område (UTR).

Det videnskabelige samfund er i øjeblikket stærkt interesseret i de funktionelle roller miRNA. Den miRNA biogenese der fungerer ordentligt resulterer i de normale satser for cellulær vækst, proliferation, differentiering og celledød. Men reduktionen eller sletning af miRNA, der er forårsaget af defekter på noget tidspunkt i miRNA biogenese fører til uhensigtsmæssig udtryk for miRNA målgruppen oncoproteiner, der forårsager øget spredning, invasiv, eller angiogenese, eller faldende niveauer af apoptose [2, 3].

miRBase database, en søgbar database af offentliggjorte miRNA-sekvenser og kommentering, havde opført 2.588 unikke modne menneskelige miRNA for juli 2014 (fra https://www.mirbase.org). Da miRNA kan regulere mere end et mål, kan de regulere op til mere end 30% af alle protein-kodende gener i det humane genom (fra https://www.mirnarx.com). Dette gør miRNA en af ​​de største regulatorer af genekspression.

Sammenhængen mellem miRNA og kolorektal cancer (CRC) blev rapporteret for første gang i 2003, hvor de miR-143 og MIR-145 gener blev nedreguleret i CRC tumorvæv sammenlignet med normale væv [4]. Siden da har flere undersøgelser vist, at miRNA udførligt er dereguleret i CRC [5-7].

De miRNA data som de fleste andre udtryk data kan betragtes i form af store matricer af ekspressionsniveauer af funktioner (rækker ) i forskellige individer (søjler). De datasæt kan have enten nogle funktioner mangler i nogle prøver, eller alle funktioner mangler i nogle prøver. Den tidligere tilfælde ofte opstår på grund af utilstrækkelig opløsning, billede korruption, støv eller ridser på dias, og andre forskellige forsøg og tekniske årsager, mens det sidstnævnte tilfælde kan ske på grund af manglende indsamlede væv eller begrænsede midler. Som et eksempel på sidstnævnte tilfælde præsenterer vi casestudie fra forskning til at bestemme sammenslutning af miRNA med CRC i parrede normal-tumor prøver. Som en del af en foreløbig analyse ved hjælp af de første tilgængelige emner, vi ønskede at sammenligne miRNA udtryk profiler af normale og tumor prøver fra hver af mere end 400 personer med 2006 miRNA på hver prøve. Vi indsamlede også omfattende oplysninger om demografiske og livsstil variabler af disse CRC patienter. Der er ikke mange CRC undersøgelser, der har indsamlet så omfattende data for sådanne variabler. Men i sidste ende ved hjælp af alle tilgængelige emner, vil 10% til 50% af individerne har mangler normale prøver på grund af manglende væv tilgængelighed.

Det umiddelbare mål i denne CRC casestudie er at forstå alternativerne til imputering, sammen med deres komparative styrker og svagheder. Konkret ønsker vi at vide for en given imputering metode, om dens anvendelse til manglende miRNA data mellem normale prøver vil give præcise forudsigelser af deres faktiske ekspressionsniveauer, og hvordan sådanne forudsigelser er yderligere påvirket af procentdelen af ​​forsøgspersoner med manglende værdier. Vi ønsker yderligere at forstå, hvordan disse resultater påvirker statistisk styrke til at påvise differentielt udtrykte miRNA samtidig med at kontrollere for type I fejl.

Med udbredelsen af ​​genekspressionsstudier i det seneste årti, er mere opmærksomhed blevet betalt til godtgørelsesordninger metoder til miRNA-data. Konventionelle metoder ofte involverer simpelthen eksklusive miRNA med manglende værdier, erstatte manglende værdier med nuller, eller at tilregne hjælp række eller kolonne gennemsnit. Sådanne muligheder ignorere korrelationsstrukturen af ​​dataene og har begrænset effekt [8]. Desuden har de ikke udnytte potentielt informative demografiske eller livsstil variabler. Mere avancerede indstillinger bruger flere imputering baseret på Markov Chain Monte Carlo (MCMC) og forventningsudvidede maksimeringsforslag (EM) algoritmer, der gør det muligt at indarbejde yderligere kovariater [9-11]

I dette papir, vi indfører og evaluere en modregningsordning metode, der tegner sig for den afhængighed induceret af vægtet K-Nærmeste nabo (KNN) og mener de kovariater i de flere imputering teknikker, der anvender MCMC og EM med bootstrapping algoritmer, samt sagen sletning teknik ved hjælp af karakteristika ved denne store CRC data sæt

Dette papir er arrangeret på følgende måde:. første, vi giver et overblik over godtgørelsesordninger antagelser og metoder, samt RMSE metode til at vurdere resultaterne af forskellige godtgørelsesordninger teknikker. Derefter demonstrerer vi anvendelsen af ​​godtgørelsesordninger teknikker, der anvender simulation datasæt. Endelig har vi slutte med en diskussion af de vigtige spørgsmål præsenteres i papir, såsom udførelsen af ​​KNN modregning metoden samtidig overveje afhængigheden over flere imputering teknikker.

Metoder

Før du udfører en imputering af manglende data, er det nødvendigt at vide, om de manglende data sker tilfældigt, som følge af ikke-observerede faktorer, eller er beregnet til. Vi er nødt til at tage hensyn til to antagelser: mangler tilfældigt (MAR) og mangler helt tilfældigt (MCAR) [12]. De manglende data er MAR når manglende værdier ikke er tilfældigt fordelt over alle observationer, men er tilfældigt fordelt i en eller flere delprøver af data. En variabel (miRNA eller

x

) kan betragtes MAR hvis sandsynligheden for at observere

x

(betinget af observerede variabler) afhænger ikke af

x

. Den MCAR antagelse er et særligt tilfælde af MAR, når de manglende dataværdier er en simpel tilfældig stikprøve af alle data værdier. Man kan definere de manglende data som en manglende ikke tilfældigt (MNAR) hvis hverken MCAR eller MAR antagelser holder. I dette tilfælde kan manglende data ikke tilskrives på grundlag af de tilgængelige data. Således kan godtgørelsesordninger teknikker kun anvendes på de data, som opfylder enten MAR eller MCAR antagelser. De kendetegn for CRC miRNA data opfylder MAR antagelser, fordi sandsynligheden for individer, som har mangler normale prøver ikke afhænger af miRNA udtryk værdier i disse fag.

Vi anser følgende metoder til at estimere miRNA ekspressionsniveauerne for manglende normale prøver af patienter:

Multiple imputering

Multiple imputation (MI) blev oprindeligt designet til at håndtere missingness offentligt anvendelse store datasæt [12]. Anvendelsen af ​​MI-processen er blevet udvidet til forskellige store datasæt, herunder mikroarrays [13]. Metoden erstatter hver manglende værdi med flere alternative værdier, siger

m

, der repræsenterer sandsynlighedsfordelingen for den manglende værdi. En gennemført datasæt er skabt af hvert sæt af tegner. Så den

m

beskyldninger for hver manglende værdi skaber

m

komplette datasæt. De lagres i en ekstra matrix, formere-imputerede datasæt med én række for manglende værdi og

m

kolonner. Den første række i denne matrix svarer til det første sæt af imputerede værdier for manglende værdier, og så videre. Som komplet-data analyser anvendes på hver formere-imputerede datasæt (behandling af imputerede værdier fuldt observerede og uafhængig),

m

forskellige sæt af parameterestimaterne og deres varians-kovarians matricer genereres. At kombinere konsekvenserne af dem, [12] foreslår at tage et gennemsnit af alle resultater, undtagen den standard fejl (SE) sigt. SE er konstrueret af inden variansen af ​​hver datasæt samt variansen mellem imputerede elementer på hver datasæt. Disse to varianser lægges sammen, og kvadratroden af ​​dem bestemmer SE. Forfatteren anbefaler at bruge ikke mere end 5 beskyldninger og nogle gange så lille antal som 2 eller 3 til at generere brugbare statistiske slutninger. Vi bruger

m

= 5 for MI teknikker i vores analyse. Det er vigtigt at bemærke, at det komplette-dataanalyse i MI behandle imputerede data, som om de havde været fuldt overholdt. Denne tilgang mener ikke nogen afhængighed af de imputerede data om den faktiske fuldt observerede data.

MI hjælp Markov kæde Monte Carlo (MCMC)

Flere imputerede datasæt kan genereres ved MCMC metoden , som påføres et arbitrært manglende data mønster, der antager multivariate normalitet. MCMC er blevet brugt til at udforske posterior sandsynlighedsfordelinger at udtrykke ukendte parametre i Bayesianske slutninger. Ved hjælp af denne metode, er hele joint bageste fordeling af de ukendte mængder simuleret og parameterestimaterne baseret på simulation genereres [14].

Denne proces kan beskrives i to trin. Det første skridt er imputering I-skridt, som tilfældigt trækker værdier for manglende værdier fra den antagne fordeling af manglende værdier observerede værdier ved hjælp af den skønnede gennemsnitlige vektor og varians-kovarians matrix, dvs. det trækker værdier for

Y

m

jeg

s Hotel (

t

+

1

)

fra

s Hotel (

Y

mis

|

Y

obs

,

θ

t

), hvor

Y

mis

og

Y

obs

er variable med manglende værdier og observerede værdier henholdsvis og

θ

t

er en parameter estimat på

t

th

iteration.

bageste P-trin simulerer tilfældigt befolkningen betyder vektor og varians-kovarians matrix fra de fuldstændige prøve skøn, dvs det trækker

θ

(

t

+1) fra

p

(

θ

|

Y

o

b

s

,

Y

m

i

s

(

t

+

1

)

)

. Disse nye estimater anvendes derefter i I-trin. Dette skaber en Markov kæde (

Y

m

i

s

(

1

)

,

θ

(

1

)

)

, (

Y

m

i

s

(

2

)

,

θ

(

2

)

)

, …, Der konvergerer i distribution til

s Hotel (

Y

mis

,

θ

|

Y

obs

). Nok iterationer gennemføres for at få pålidelige resultater for en formere tilregnes datasæt og at konvergere til sin stationære fordeling, hvorfra vi kan simulere en tilnærmelsesvis lodtrækning af de manglende værdier [15].

MI hjælp Forventning-Maximization ( EM) med bootstrapping algoritmer

EM-algoritmen er en meget generel iterativ algoritme for maksimal sandsynlighed estimering af manglende data [9]. Man påtager sig en model for data, maksimerer sandsynligheden under det forudsatte model, opnår parameterestimater, og gør slutninger baseret på parameterestimaterne. Den eksplicitte form for parameterestimater normalt ikke eksisterer for manglende data. Her numeriske metoder som Newton-Raphson algoritme er meget kompliceret at bruge. Således kan man anvende EM algoritme, som er en iterativ fremgangsmåde til at maksimere sandsynligheden i manglende data [10]. Sammenlignet med Newton-Raphson algoritme, EM-algoritmen er langsommere, men det øger sandsynligheden med hver iteration og sikkert konvergerer til et maksimum for fordelingen med én tilstand. EM-algoritmen konvergerer til et lokalt maksimum eller en sadel punkt for distribution med flere tilstande.

EM-algoritmen består af to trin, forventningen (E) og de skridt, maksimering (M). Algoritmen beregner den betingede forventning om manglende værdier givet ikke-manglende værdier og aktuelle parameterestimater i forventning trin. I maksimering trin de beregnede forventede værdier bruges til at maksimere sandsynligheden for de fuldstændige data. Disse trin gentages, indtil den maksimale sandsynlighed for data konvergerer. EM-algoritmen kan ikke have et eksplicit formular. I dette tilfælde kunne maksimering være teoretisk opnås ved hjælp iterationer i maksimering trin.

maksimering skridt kan være beregningsmæssigt dyrt, hvilket kan gøre EM-algoritmen uinteressante. Heldigvis EM med bootstrapping algoritme løser dette problem. Det bruger den konventionelle EM-algoritmen på flere bootstrapped prøver af de oprindelige manglende data til at drage værdier af komplet-data parametre. Så det trækker imputerede værdier fra hvert sæt af bootstrapped parametre, der erstatter de manglende værdier med disse trækker. EM med bootstrapping algoritme kan imputere manglende værdier i langt mindre tid end EM algoritmen som sådan [11]

K-nærmeste naboer (KNN):. Modificeret og tegner sig for afhængighed KNN generelt

Den konventionelle KNN metode erstatter manglende værdier ved hjælp af

k

-De fleste lignende ikke-manglende forsøgspersonernes værdier [16, 17]. Det kan imputere både diskrete attributter (ved hjælp den hyppigste værdi blandt de k-nærmeste naboer) og kontinuerlige attributter (anvendelse af den gennemsnitlige blandt k-nærmeste naboer).

[8] gennemførte KNN metode, vægte de bidrag af hver nærmeste nabo ved sin lighed med emnet med den manglende værdi. I vores CRC studie, er vægten af ​​de nærmeste naboer i imputering af manglende værdi målt af den euklidiske afstand målinger af demografiske og livsstil variabler sådan, at de nærmere naboer emnet bidrage mere til sin imputering end de fjernere dem. Baseret på den vægtning metode [8], vi kort skitsere vores vægt beregninger her. Lad

k

være det valgte antal nærmeste naboer,

D

jeg

1 ≤ … ≤

D

jeg

k

være de sorterede afstande

k

nærmeste naboer fra normal-manglende emne

jeg

, og

D

i

(

m

en

x

)

være den maksimale afstand (blandt alle fuldt observerede fag ) fra emne

jeg

. Så vægtene

en

jeg

1, …,

en

jeg

k

blandt de

k

nærmeste naboer til emnet

jeg

opnås som følger: (1) Disse vægte bruges af den vægtede KNN metode til at imputere manglende udtryk værdier af et bestemt gen som i ligning (2).

Vores foreslåede imputering metode tegner sig for den afhængighed induceret af vægtet KNN og kan bruge de ekstra kovariater såsom demografiske, generelt helbred, genetiske og livsstil variabler, samt andre biologisk relaterede information. Den foreslåede imputering metode drager fordel af konventionelle KNN [16, 17] og videreudviklet vægtet KNN [8] imputering metoder robusthed til manglende data, ikke-parametrisk tilgang, og hastigheden i estimere manglende værdier for microarray data, mens overvejer korrelationen datastrukturen. For at imputere manglende prøver i de ovennævnte motiverende CRC casestudie, har den foreslåede metode er blevet ændret for at pålægge udtryk for alle miRNA af manglende normale prøver baseret på multivariate kovariater (demografiske og livsstil variabler) og der tages højde for afhængigheden af ​​den imputerede data i de efterfølgende differentiel ekspression tests. De demografiske og livsstil variabler anses i dette papir er fem kontinuerlig (alder, antal cigaretter /dag, kalorier, BMI (Body Mass Index), og lutein og zeaxanthin koncentration) og fem binær (gender, nylig aspirin /NSAID (Non-steroide anti-inflammatorisk lægemiddel) bruger, nylig ryger, menopause, og efter overgangsalderen tager HRT (hormonbehandling) inden for 2 år statusser) variabler.

Dette ændrede KNN teknik tilregner alle miRNA ekspressionsniveauer af manglende normale prøver ved at finde

k

mest lignende emner, ikke genekspression niveau som i konventionelle KNN-baserede metoder, baseret på distance matricer af demografiske og livsstil kovariater patienters og producerer varians-kovariansmatrixer for hver miRNA. For eksempel kan vi estimere miRNA ekspressionsniveauer i mangler normale væv fra et bestemt emne, baseret på ekspressionsniveauerne af scannede normale væv fra individer, som har samme demografiske og livsstil kovariater.

En anden fordel ved denne fremgangsmåde er at det kan integrere samtidigt multivariate kovarianter ved at samle og normalisere deres afstand matricer (euklidisk, Manhattan, Minkowski, og etc.) for at finde de nærmeste nabo fag. Konkret er to mellem-emne distance matricer bygget på grundlag af de fuldt observerede kontinuerte og diskrete kovarianter separat, hjælp euklidiske og Manhattan afstande henholdsvis. Disse to distance matricer er normaliseret ved skalering mellem 0 og 1 [18] og aggregeret ved at tage det vejede gennemsnit af hver distance matrix for at opnå en enkelt mellem-emne distance matrix.

Valg af optimal

k

Der har været mange undersøgelser for at bestemme det optimale valg (parameter) af

k

for KNN algoritme. [17] foreslår at bruge kvadratroden af ​​det gennemsnitlige antal af komplette tilfælde efter manglende data fjernelse, afrundet til nærmeste ulige heltal. Simuleringsundersøgelserne af forskellig

k

på Likert oplysninger [19] viser, kvadratroden af ​​antallet af hele sager, der er afrundet til nærmeste ulige heltal er et passende valg for

k

. Desuden [20] rapport om

k

= 10 til store data som fra microarrays. [8] hævder, at modregning metoden er forholdsvis ufølsom over for valg af

k

i intervallet 10-20. Som

k

bliver større, den gennemsnitlige afstand til naboer stiger hvilket indebærer, at den beregnede værdi kunne være mindre nøjagtig og imputering tid vil stige.

Men valget af en lille

k

mindsker KNN ydeevne fordi imputering processen overbetoner nogle få dominerende gener (eller emner i vores modifikation) i estimere de manglende værdier. På den anden side, en stor

k

kan omfatte gener (eller emner), som er væsentligt forskellige fra de manglende værdier, der kan resultere i at forringe imputering ydeevne.

Regnskab for afhængighed af KNN- imputerede data

Fordi de vægtede KNN-imputerede udtryk værdier er lineære kombinationer af udtryk værdier af de fuldt observerede forsøgspersonernes udtryk værdier, de imputerede værdier er ikke nødvendigvis uafhængige af de fuldt observerede værdier. Den modificerede KNN-baserede imputering metode har en fordel ved at overveje denne afhængighed induceret af vægtet KNN ved tilvejebringelse varians-kovariansmatrixer af hver miRNA, som kan anvendes ved søgning efter differentielt udtrykte miRNA. Vi henviser til denne metode som “KNN afhængig”, mens der henvises til KNN imputering metode, der ignorerer afhængighed som “KNN uafhængig” i dette dokument. Dens algoritme fungerer næsten det samme som de algoritmer af de konventionelle KNN-baserede metoder, bortset fra at det behandler rækkerne som fag eller prøver, og de kolonner som miRNA.

For at se, hvordan den foreslåede modregning metode anslår miRNA udtryk niveauer i manglende normale prøver og tegner sig for afhængigheden fremkaldt af det vægtede KNN, antage, at i CRC undersøgelse af

N

emner, vi ønsker at estimere ekspressionsniveauerne af

G

miRNA for normale prøver af manglende

S

emner ved hjælp af demografiske og livsstil kovarianteffekter data. For hver normal-manglende emne

jeg

, finder vi

k

mest lignende forsøgspersoner med ikke-mangler normale prøver (sige emner

jeg

1, …,

jeg

k

), og imputere de manglende miRNA udtryk værdier ved at gange de miRNA udtryk fra normale prøver af den

k

individer med deres tilsvarende vægte, der genereres fra mellem-emne distance matrix. Den tilregnelse af ekspressionsniveauet af miRNA

j

i manglende normal prøve

Jeg

vil blive produceret som i ligning (2) 🙁 2)

Her

jeg

= 1, …,

S

og

j

= 1, …,

G

.

x

lj

er den observerede udtryk værdien af ​​miRNA

j

i den observerede normal prøve af emnet

l

, og

en

lj

er vægten af ​​motivet i imputering. Vægtene

en

jeg

1, …,

en

jeg

k

opnås som beskrevet i ligning (1) ovenfor. Vi kan generalisere ligning (2) til ligning (3) 🙁 3)

Her

X

~

^

er en

S

×

G

matrix af imputerede normale væv udtryk værdier

a

~

er en (

N

S

) ×

S

matrix af vægte

en

, og

X

~

er en (

N

S

) ×

G

matrix af observerede normale væv udtryk værdier. I kolonne

i

af

A

~

de eneste ikke-nul elementer er i rækker

jeg

1,

i

2, …,

jeg

k

, og er de koefficienter

en

i

1,

en

jeg

2, …,

en

jeg

k

i ligning (2).

varians-kovarians matrix af det normale væv udtryk for miRNA

j

vil blive beregnet som i ligning (4), under forudsætning af den rækkefølge, dataene er fuldt overholdt

N

S

emner efterfulgt af

S

normal-mangler emner: (4)

Her

σ

j

2

er variansen af ​​miRNA

j

jeg

~

er (

N

S

) × (

N

S

) identitet matrix af ikke-manglende emner til at repræsentere uafhængighed blandt ikke-manglende fag. Matricen del af den højre side af ligning (4) er angivet ved

Σ

~

j

.

Test for differentiel ekspression ( dE) af miRNA, mens der tegner sig for afhængighed

parret t-test [21] kan anvendes til at kontrollere, om miRNA udtrykkes forskelligt i parrede normal-tumor prøver, mens der tegner sig for afhængigheden induceret ved beregning metoden. Den parrede t-test kan forenkles til en én prøve t-test af forskellen mellem normale og tumorprøver. Den per-miRNA null hypotese er, at forskellen i gennemsnitlige ekspressionsniveauer af miRNA mellem normale og tumor prøver er lig med nul. Testen statistik for miRNA

j

kan findes begyndende med følgende ligning, som omtalt i kapitel 3 i [22]. (5)

Her

D

~

j

er en

N

× 1 vektor af forskellen mellem de

j

th

miRNA udtryk for normale og tumor prøver,

μ

j

er en enkelt parameter, der repræsenterer forskellen i gennemsnitlige ekspressionsniveauer af miRNA

j

mellem normale og tumorprøver, og

1

~

er

N

× 1 vektor af 1’er.

V

a

r

(

ϵ

)

=

σ

j

2

V

j

, hvor

V

~

j

er variansen-kovarians matrix af tumor-normal forskel i miRNA udtryk værdier for miRNA

j

, dvs.

V

~

j

=

jeg

~

+

Σ

~

j

, og skal være en positiv konkret matrix.

Den gennemsnitlige tumor-normal forskel for miRNA

j

kan estimeres ved ligning (6) 🙁 6)

μ

^

j

i ligning (7) kan erstattes af eq (6) 🙁 7)

så den estimerede varians af

μ

^

j

ville blive beregnet som i ligning (8) :. (8)

Endelig vil teststørrelsen findes ved hjælp af ligning (9) med en grad af frihed

N

-1 (9)

Denne parret t-test kan bruges sammen med de andre godtgørelsesordninger metoder ved at erstatte

Σ

~

j

med identitet matrix, som repræsenterer den antagne uafhængighed imputerede miRNA-værdier.

Måling ydeevne

udførelsen af ​​godtgørelsesordninger metoder på miRNA data evalueres gennem root mean squared fejl (RMSE). Den RMSE-baserede evaluering teknik er den mest anvendte metode til at sammenligne lighed mellem sande udtryk værdier og imputerede udtryk værdier. Forskellige varianter af RMSE foranstaltninger anvendes i litteraturen: den ikke-normaliserede RMSE foranstaltning [23] og den normaliserede RMSE foranstaltning af forskellige normalisere konstanter: gennemsnitlig værdi over alle observationer i fuldstændige data [8], standardafvigelse af værdierne i komplet data løbet manglende poster [24, 25], og geometriske middelværdi af værdierne i fuldstændige data over manglende poster [26]. Men alle ovennævnte forskellige RMSE foranstaltninger giver meget lignende resultater [27].

I den motiverende CRC casestudie, alle miRNA ekspressionsniveauerne af op til 50% mangler normale prøver, dvs. op til 50% mangler rækker ( prøver) af miRNA data skal tilregnes. Således er den ikke-normaliserede RMSE der måler forskellen mellem den beregnede del af matrix og den oprindelige del af matrix, divideret med antallet af manglende celler, kan anvendes. Den beregnes som ligning (10) 🙁 10)

Her

jeg

= 1, …,

S

og

j

= 1, …,

G

.

x

ij

er den oprindelige værdi for manglende prøve

jeg

og miRNA

j

, mens

x

^

jeg

j

er den imputerede værdi for manglende prøve

jeg

og miRNA

j

.

Resultater

Vi evaluerede effektiviteten af ​​den foreslåede modregning metode, som tegner sig for afhængigheden fremkaldt af vægtet KNN og mener de demografiske og livsstil kovariater (KNN afhængige), i løbet af det vægtede KNN ignorere afhængighed (KNN uafhængig), MI teknikker under anvendelse MCMC og eM med bootstrapping algoritmer, samt tilfældet deletion teknik, der kun finder fuldt observerede individer [9] med simulerede datasæt.

Optimal antal nærmeste nabo forsøgspersoner (

k

)

figur 1 viser effekten af ​​antallet af nabo fag,

k

, der anvendes i KNN modregning metoden på RMSE værdier for simulerede datasæt med forskellige antal fag og procent af normale-mangler fag. Den RMSE falder, dvs. udførelsen af ​​KNN godtgørelsesordninger stiger, mens værdien af ​​

k

stiger. Den faldende af RMSE værdier sinker efter

k

værdi på 10, og bliver omtrent den samme for resten af ​​

k

værdier. Godtgørelsesmetoden præstation bliver tilnærmelsesvis ufølsom over for værdien af ​​

k

i intervallet 10-25 nabo fag. Således har vi brugt 10 nærmeste nabo emner at estimere miRNA ekspressionsniveauerne af normale prøver for manglende fag.

Simulation datasæt

Mens vi har fuldstændig normale og tumor prøve data for mere end 400 emner i CRC undersøgelsen, vi sammenligner imputering metoder ved hjælp af simulerede data til at have klart definerede magt og type i fejl. De imputering analyser blev udført på normalfordelte parret data matricer af

G

= 2000 miRNA funktioner (kolonner) for hver af de normale og tumor prøver med stikprøvestørrelser af

N

= 50, 100, 200, og 400 patienter (rækker). Vi simulerede ekspressionsniveauer af miRNA for normale og tumor prøver ved at kontrollere sande differentielt udtrykte miRNA af tumor prøver på tværs af alle simuleringer. Især alle miRNA karakteristika for normale prøver og kun ikke-differentielt udtrykte miRNA funktioner i tumor prøver blev simuleret på grundlag

μ

= 2 og

σ

= 1,25, mens de differentielt udtrykte miRNA funktioner i tumor prøver, som bestod af 20% af alle miRNA funktioner i tumor prøver blev simuleret på grundlag

μ

= 2,5 og

σ

= 1.25. Denne forskel udtryk på 20% såvel som det gennemsnitlige tumor-normal forskel på 2,5 og standardafvigelse på 1,25 blev valgt baseret på karakteristika for den motiverende CRC undersøgelsen. Vi anvendte tilfældigt missingness fra 10 til 50 procent af de normale datarækker. Vi spillede 25 simuleringer for hver prøve størrelse med forskellig procent missingness.

For at sikre, at de simulerede datasæt afspejlede de særlige kendetegn ved CRC undersøgelsen, og at de demografiske og livsstil variabler foretaget nogle nyttige oplysninger til imputering, den multivariate kovarianteffekter datasæt med demografiske og livsstil variabler af forsøgspersoner blev simuleret på grundlag

z

tilfældigt udvalgte sande differentielt udtrykte miRNA udtryk niveauer ved hjælp karakteristika CRC casestudy kovarianteffekter data. For eksempel blev en kontinuerlig variabel såsom alder af emner simuleret som i ligning (11) 🙁 11)

Her

j

= 1, …,

z

,

C

^

er en simuleret værdi af alder,

β

0 er den gennemsnitlige alder af patienterne i CRC casestudie, og

β

j

er jævnt fordelt med et minimum og et maksimum på op til 5% af den mindste og den største af de CRC case study patienternes alder, hhv. I dette papir, brugte vi 2% af den mindste og den største af de kontinuerlige variabler med

z

= 20, der blev udvalgt til beregningsmæssige enkelthed, at simulere variabler med lignende karakteristika CRC casestudy kovariater.

x

j

er udtryk for virkelig differentielt udtrykte miRNA

j

i tumor, og fejlen sigt

ε

er normalfordelt med nul middelværdi (

μ

= 0) og varians på 10% af variansen af ​​patienternes alder (

σ

2

=

0.1

*

σ

a

g

e

2

).

The binære variabler som køn af emner blev simuleret ved hjælp af en logistisk regressionsmodel i ligning (12) og (13) 🙁 12)

Her

s

er sandsynligheden for

køn = kvindelig

, siger.

Eq (12) kan omskrives til ligning (13) 🙁 13)

Her

P

^ <

Be the first to comment

Leave a Reply