Abstrakt
I kræft biologi, er det meget vigtigt at forstå de fænotypiske ændringer af patienterne og opdage nye kræft undertyper. For nylig har microarray-baserede teknologier belyse dette problem er baseret på genekspressionsprofiler som kan indeholde outliers på grund af enten kemiske eller elektriske årsager. Disse uopdagede undertyper kan være heterogene med hensyn til de underliggende netværk eller veje, og er relateret med kun nogle få af indbyrdes afhængige biomarkører. Dette motiverer et behov for de robuste genekspression-baserede metoder, der kan opdage sådanne undertyper, belyse de tilsvarende netværksstrukturer og identificere kræftrelaterede biomarkører. Denne undersøgelse foreslås en straffet modelbaseret Students t clustering med ubegrænset kovarians (PMT-UC) til at opdage kræft undertyper med klynge-specifikke netværk, idet gen afhængigheder i betragtning og have robusthed mod outliers. I mellemtiden er biomarkør identifikation og genopbygning netværk opnås ved fastsættelse af en adaptiv sanktion midlerne og de inverse skala matricer. Modellen er monteret via forventning maksimering algoritme udnytter den grafiske lasso. Her et netværksbaseret gen udvælgelseskriterium, der identificerer biomarkører ikke som enkelte gener, men som undernet anvendes. Dette giver os mulighed for at implicere lave diskriminerende biomarkører, som spiller en central rolle i subnetværket ved at sammenkoble mange differentielt udtrykte gener, eller har cluster-specifikke underliggende netværksstrukturer. Eksperiment resultater på simulerede datasæt og en tilgængelig kræft datasæt vidner om effektiviteten, robusthed PMT-UC i kræft undertype opdage. Oevrigt maa PMT-UC har evnen til at vælge kræft relaterede biomarkører, der er blevet verificeret i biokemisk eller biomedicinsk forskning og lære den biologiske signifikant sammenhæng mellem gener
Henvisning:. Wu MY, Dai DQ, Zhang XF, Zhu Y (2013) Cancer Undertype Discovery og Biomarkør Identifikation via en ny Robust Network Clustering algoritme. PLoS ONE 8 (6): e66256. doi: 10,1371 /journal.pone.0066256
Redaktør: Zhi Wei, New Jersey Institute of Technology, USA
Modtaget: 8. februar 2013; Accepteret: Maj 2, 2013; Udgivet: 17 juni 2013
Copyright: © 2013 Wu et al. Dette er en åben adgang artiklen distribueres under betingelserne i Creative Commons Attribution License, som tillader ubegrænset brug, distribution og reproduktion i ethvert medie, forudsat den oprindelige forfatter og kilde krediteres
Finansiering:. Finansiering forudsat af National Science Foundation of China (90920007, 11171354), og Undervisningsministeriet Kina (20120171110016). De finansieringskilder havde ingen rolle i studie design, indsamling og analyse af data, beslutning om at offentliggøre, eller forberedelse af manuskriptet
Konkurrerende interesser:.. Forfatterne har erklæret, at der ikke findes konkurrerende interesser
Introduktion
med den stigende ophobning af genom-dækkende udtryk profiler, microarray-baserede metode bliver en vigtig teknik til at identificere kræftrelaterede gener (biomarkører) og opdage nye kræft undertyper [1]. Sammenlignet med kliniske og patologiske risikofaktorer, såsom patientens alder, tumorstørrelse, og steroid receptor status, forståelse af de underliggende gener kan få indsigt i kræft fysiologi [2] – [4], og er mere effektiv til detektion af nye kræft undertyper, såsom brystcancer [5], [6], ovariecancer [7], tyktarmskræft [8]. Disse undertyper kan have forskelle i gen eller protein ekspression, genregulerende eller protein signalering net [9]. Forudsigelse disse undertyper fra genekspressionsprofiler kan ses som en klyngedannelse problem, og at finde generne for forudsigelse kan betragtes som et problem med variabel markering fra høj-dimensionelle umærkede data.
En udfordring for kræft subtype opdagelse er at forskellene i netværk eller vej niveau på tværs af disse undertyper kan gøre de konventionelle clustering metoder baseret på genekspression profiler forskelle utilstrækkelige [9]. Opdagelsen af disse netværk og veje er meget vigtig i forståelsen af kollektive biologiske funktion af gener og deres indvirkning på de fænotypiske ændringer af patienterne [9] – [12]. Desuden er biomarkører ofte udvalgt uafhængigt baseret på deres diskriminerende evner [13]. Men generne ofte nødt til at interagere med andre for at deltage i nogle biologiske processer eller molekylære funktioner [14] – [17]. Nogle af dem kan ikke differentielt udtrykt, men som tilhører en undernetværk, som har samlet diskriminerende aktivitet eller er en nyttig vej for en specifik subtype [3], [9], [18]. Derfor er opgaven med at opdage de undertyper, belyse deres tilsvarende netværksstrukturer, og plukke ud netværksbaserede biomarkører er stadig meget vigtigt i biomedicinske områder.
Der er forskellige klyngedannelse metoder, der anvendes på genekspression datasæt til opdeling biologiske prøver [19]. Den modelbaserede klyngedannelse, som har en solid probabilistisk rammer er meget udbredt i biomarkør og kræft undertype opdage på grund af de gode resultater, for fortolkning og lettere at gennemføre [20]. På nuværende tidspunkt er det gen udvælgelsesprocessen af de fleste tilgange designet ved at pålægge straf begrænsninger på sandsynligheden for at opnå en sparsom løsning.
For straffet modelbaseret klyngedannelse, for at reducere antallet af parametre, en fælles antagelse er, at hver klynge har en diagonal kovariansmatrix, så generne antages at være uafhængige. Hver klynge er ofte modelleret som stokastisk variabel trukket fra blanding Gauss fordeling, og kombineret med flere sanktioner, såsom straf, adaptiv straf og gruppe straf [21], [22]. Da log-sandsynligheden for Gauss fordeling henfalder kvadratisk med afstand fra centrum, det er følsomt for outliers, som er almindeligt observeret i microarray eksperimenter på grund af enten kemiske eller elektriske årsager [23]. En mere robust straffet modelbaseret Students t clustering med diagonal kovarians (PMT-DC) indføres i [24] til at behandle støj og ekstreme gener. De giver også en måde for rangordning gener efter deres bidrag til klyngedannelse processen med en bootstrap procedure. Men de ovennævnte fremgangsmåder ignorere afhængigheder mellem gener i cancer undertyper. En legaliseret Gaussisk blanding model foreslås at tage forskellige afhængigheder i betragtning ved at tillade en behandling af generelle kovariansmatrixer. En forventning maksimering (EM) algoritme udnytte den grafiske lasso bruges til parameterestimering, og opnår bedre undertype opdage ydeevne og gen-udvalg [20]. Som en mellemting mellem en diagonal og en generel kovarians matrix, en anden idé at modellere en kovarians matrix ved hjælp af nogle latente variable som udført i blandingen af faktor analysatorer introduceres [25]. Det har flere begrænser og er mere kompleks end den metode baseret på en ubegrænset kovarians matrix. Det er dog mere effektiv, hvis nogle skjult variabel-induceret kovarians antagelse holder i genekspression datasæt. Begge metoder har svært ved at håndtere de outliers på grund af deres Gaussisk antagelse. Disse konventionelle straffet modelbaserede metoder kun vælge gener baseret på den gennemsnitlige respons, og ignorere deres betydning for de underliggende netværk eller veje som er meget vigtige i forståelsen af kollektive biologiske funktion.
Motiveret af de udfordringer, som den underliggende netværk eller veje og outliers observeret i høj dimensional genekspression datasæt, og begrænsningerne i de ovennævnte metoder, denne undersøgelse foreslår en straffet modelbaseret Students t clustering med ubegrænset kovarians (PMT-UC) for kræft undertype opdagelse og biomarkør identifikation. Den nye foreslåede metode er baseret på multivariate Students t fordeling, som gør algoritmen ikke blive påvirket af ekstreme eller usædvanlige gener. I modsætning til PMT-DC med den uafhængige antagelse, for at overveje forholdet mellem gener og opdage kræft undertyper, der afviger i form af underliggende netværksstrukturer, er en klynge-specifik ubegrænset kovarians anvendes i stedet for diagonal kovarians. Udviklingen af algoritmer til at estimere sparsomme grafer ved at anvende en straf inverse kovarians matricen [26], [27] gør den idé, at tage gen afhængighed hensyn muligt. Vi stiller en adaptiv sanktion midler og omfanget matricer inverse at opnå netværksbaseret biomarkør identifikation og genopbygning netværk. Modellen er monteret via en EM algoritme ved at udnytte den grafiske lasso. Et nyt kriterium gen udvælgelse indføres for at finde følgende informative gener: gener, der har klynge-specifikke midler, de gener, som ikke udtrykkes differentielt men interagerer med nogle diskriminative gener til dannelse af en kollektiv biologisk funktion, og de gener, som har klasse- specifikke underliggende netværksstrukturer. Ved at anvende den nye model til simulerede datasæt og en offentligt tilgængelig kræft datasæt, viser vi, at algoritmen er robust over for outliers på klyngedannelse, gen udvælgelse og genopbygning netværk processer samtidigt, og giver konkurrencedygtige resultater med state-of-the-art algoritmer på afsløre nye cancer undertyper. Mange identificerede biomarkører er blevet verificeret i biokemisk eller biomedicinsk forskning. Den Gene Ontology (GO) analyse viser, at generne i samme undernetværk udvalgt af den nye foreslåede metode har signifikant biologisk og funktionel sammenhæng.
Metoder
Dette afsnit introducerer straffet modelbaseret Students t clustering med ubegrænset kovarians (PMT-UC) til at vælge et par antal gener, der kan bruges til at klassificere prøverne i naturligt forekommende grupper, og at opdage sammenhængen mellem generne.
i rammeaftalen om PMT -UC
Lad os antage, at der er selvstændige dimensionale prøver, hvor repræsenterer det gen ekspression af gener. Generne er blevet standardiseret til at have en gennemsnitlig 0 og varians 1 over observationer.
Hver prøve formodes at komme fra en blanding fordeling med komponenter, hvoraf sandsynlighedstæthedsfunktion den er (1), hvor omfatter alle parametre i modellen, er den ikke-negativ blandingsforhold for komponent med, og er de ukendte parametre svarende til.
Hver komponent er angivet som multivariat Students t fordeling med parametrene, hvor er den placering parameter, er skalaen matrix og er frihedsgraderne. Det har sandsynlighedstætheden (2) hvor er gammafunktionen, og betegner den Mahalanobis kvadreret afstanden mellem og. Middelværdien og covariansmatricen af hver Students t fordeling er, og hhv. Generelt kan parametersættet estimeres ved at maksimere log-sandsynligheden funktion.
Da antallet af gener er ofte meget mere end antallet af prøver, den maksimale likelihood estimation af er sandsynligvis ental. Den inverse skala matrix benævnes med elementerne. I de sidste par år, en række forfattere indføre mange tilgange til opnåelse af en positiv-konkret kovarians ved at øge sparsomme [26], [27]. Strukturen af et netværk er sædvanligvis konstrueret baseret på korrelation eller delvis korrelation [28]. I dette papir, kan den partielle korrelation afledes af inverse skala matrix. Den delvise korrelation anvendes i stedet for korrelation til at præsentere forholdet mellem to gener på grund af sin evne til at udskille indflydelsen af andre gener. Derfor kan afspejle forholdet mellem generne for klynge og kan betragtes som de net eller veje for gener. Udsagnet om, at de fleste gener (gen produkter) kun interagere med et par gener (gen produkter) angiver sparsomme med hensyn til biologisk fortolkning [15]. Vi stiller en adaptiv straf på off-diagonal elementer af at beskæftige sig med den sparsomme [29].
Desuden er den sparsomme middelværdien overvejet, som ofte anvendes til gen-selektion. Den gennemsnitlige-baserede diskriminerende gen er defineret til at have klynge-specifikke midler, uanset om det har en fælles eller klynge-specifikke afvigelser [20]. Specifikt det har mindst én ikke-nul siden prøverne er blevet standardiseret til at have middelværdien 0 for hvert gen. Derfor har vi pålægger en adaptiv sanktion hver at skrumpe det til nul [29].
Så er baseret på straffet log-sandsynlighed funktion, der består af log-sandsynlighed funktion og straf sigt er målet funktion PMT- UC skal maksimeres, er som følger: (3) hvor, og omfatter ikke-negative legaliseringsoperationer parametre og for s og s hhv. Legalisering parametre styrer sparsomme modellen. Jo større værdier og, jo flere gener være noninformative og uafhængige. Den adaptive straf er et vægtet version af straffen med en vægt eller for hver komponent. Den opnår de tre ønskelige egenskaber samtidigt, der kan producere sparsomme løsninger, sikre sammenhæng i model udvælgelse, og resultere i uvildige skøn for store koefficienter [30].
Inferens Algoritme
Denne undersøgelse bruger forventning maksimering (EM) algoritme [31] til optimering den objektive funktion for bestemt fast og. Som i [20], [24], antages hver prøve for at have en tilsvarende ubemærket indikator vektor, angivelse af blandingen komponent, der hører til. Hvis kommer fra komponent derefter, ellers. Givet, følger en Students t fordeling med funktion sandsynligheden tæthed. Ifølge den omstændighed, at Students t fordeling kan skrives som en multivariat Gauss-fordeling med kovariansmatrixen skaleret med den reciprokke værdi af en Gamma stokastisk variabel, er den yderligere manglende data indført, hvor hvert element af følgende gammafordelingen [32]. Så straffet komplet-datalog-sandsynligheden for det komplette data (4), hvor der kan udtrykkes som produktet af funktionerne sandsynlighedsfordelinger af Gauss og Gamma distributioner (se tekst S1 for detaljer).
EM algoritme anvender iterativt en forventning (E) trin til at beregne den forventede værdi af i forhold til det nuværende estimationen af parametrene på th iteration, og en maksimering (M) trin for at finde de opdaterede parametre ved at maksimere, indtil der opnås en bremselængde kriterium.
E trin. Værdien af afhænger af følgende tre forventninger (se tekst S2 for detaljer).
Siden følger Multinomialfordelingen og kommer fra blandingen fordeling med sandsynlighedsfordeling, værdien af er givet ved (5)
kan betragtes som den bageste sandsynligheden for tilhører th klynge. Se, at Gamma fordeling er konjugeret til sig selv (self-konjugat) i forhold til en Gauss Likelihoodfunktionen, vi har (6) og
(7) hvor er Digamma funktion [32].
M trin. For det første er opdateringen af givet af equationwith begrænsningen som
(8) For det andet, at værdien af på th iteration er en løsning af ligningen (9) hvor. I dette papir, da opløsning af (9) er i ikke-lukkede form er Re funktionen “nlminb” til at finde den numeriske løsning for [24].
For det tredje er det målet at maksimere ( 10) for at få opdateringen til. I trin er de adaptive vægte defineret til at være
(11) Parameteren indført for at skabe stabilitet og for at sikre, at en nul-værdsat komponent kan flygte fra nul i den næste iteration [33]. Hvornår er for lille, nul-værdsat komponent har stadig så stor vægt, at det vil forblive nul i næste iteration. Hvornår er for stor, det gør forskellen mellem s eller s ikke signifikante og giver mulighed for mange ikke-nul-værdsat komponenter, hvilket resulterer i en kompleks og unøjagtig model. Det er blevet tildelt flere værdier under eksperimentet procedure. Det vises, at er passende. De første skøn og er valgt som resultaterne anslået af straffen.
Ved at betragte differentiabiliteten af med hensyn til to sager, og ajourføring skøn er som følger (se tekst S3 for detaljer) [20] : if (12) og derefter; ellers
(13) Efter slippe de vilkår relateret til i, har vi (14), hvor
Denne optimering problem kan løses ved hjælp af den grafiske lasso, som de tilsvarende R-pakke “glasso” er tilgængelig på CRAN [27]. Den grafiske lasso er designet til at overveje problemet med estimering sparsomme grafer med en lasso straf påført den inverse kovarians matricen [27]. Det første foreslås til maksimering af den gaussiske log-sandsynligheden af dataene i forhold til kovariansmatricen. Den nye foreslåede metode tager højde i stedet for prøven kovariansmatricen, hvor indeholder efterfølgende information af prøven, og kan reducere effekten af outliers på denne optimering problem.
Model Selection
der er tre parametre, der skal estimeres før PMT-UC-algoritme, herunder antallet af klynger, de straffeforanstaltninger parametre og. I dette papir, er følgende omtrentlige vægt af beviser (AWE) kriterium baseret på en tilnærmelse til klassificeringen log-sandsynlighed bruges til model valg: (15), hvor er det faktiske antal af parametre i modellen med og [34], [ ,,,0],35]. Den pålægger en højere straf på mere kompleks model end BIC og er i stand til at identificere det korrekte antal klynger, selv når komponent tætheder er misspecified [36], [37]. Et gitter søgning påføres finde den optimale, som har den mindste AWE.
Undertype Opdage via Clustering
Efter estimeringen af parametrene i PMT-UC, klynger kan så defineres som prøver efter den lignende fordeling, som er bestemt af værdien af den bageste sandsynlighed. Givet en prøve, PMT-UC forudsiger kræft undertype af genekspressionsprofilen af det, der giver den største bageste sandsynlighed, der er.
belyser den Underliggende Netværk Strukturer
Vi kan så belyse klynge-specifikke underliggende netværk strukturer, der bygger på skalaen matrixinverse. En klynge-specifikt netværk kan repræsenteres som ikke-orienteret graf, med de gener som toppunkterne og kanter som deres relationer baseret på. Kanter forbinde disse gener, hvis partielle korrelationer afledt fra er større end. Derefter et undernetværk er defineret som et sæt indeholdende gener og kanter, der inducerer en enkelt tilsluttet komponent i dette netværk. Disse klynge-specifikke undernet angiver de forskellige relationer mellem gener med forskellige kræft undertyper og betragtes som de underliggende netværksstrukturer.
Netværk-baserede Biomarkør Identifikation
På grund af, at generne i en celle sjældent handle alene, men danne et netværk af interaktioner [14], er de biomarkører identificeret som undernetværk interagere gener i stedet for individuelle gener i dette papir. Konkret har vi først udvælge undernettene ovenfor definerede. For det andet i betragtning af, at den støjende genet og informativ gen er ukorrelerede med hinanden [20], [38], undernettene, der har mindst ét middel-baserede diskriminerende gen bliver valgt som underordnede biomarkører. Dette gen udvælgelseskriterium kan identificere gener, som ikke udtrykkes differentielt men interagerer med nogle diskriminative gener til dannelse af en kollektiv biologisk funktion. Endelig de resterende undernet, som den interne struktur (forholdet mellem generne) er forskellige blandt betragtes også som biomarkører at belyse klynge-specifikke underliggende netværksstrukturer.
Den endelige algoritme for PMT-UC
Figur 1 opsummerer den detaljerede algoritme til at opdage kræft undertyper, underliggende netværksstrukturer og netværksbaserede biomarkører via PMT-UC. For ethvert givet, er resultatet af K-midler, der anvendes som initialiseringen for EM-algoritmen. For at undgå den lokale optimum af K-midler, køre vi hele algoritme fem gange med tilfældige K-midler initialisering, og vælg det resultat, der giver den højeste værdi af objektive funktion (3).
Resultater og diskussion
Simuleringer
Et datasæt med redundante gener simuleres at evaluere klyngedannelse, gen udvælgelse og netværk genopbygning af metoden. Datasættet har prøver og informative gener med input dimension. antages at være højere end stikprøvestørrelse på hver klynge, således at prøven kovariansen af hver klynge er ikke reversibel. De første informative gener kommer fra en dimensional multivariat Students t fordeling for th klynge. De resterende støjende gener, der er uafhængige af de informative gener er uafhængigt og identisk fordelte fra univariat Students t fordeling for alle klynger. De frihedsgrader vil påvirke støjniveauet af datasættet. Jo lavere frihedsgrader de federe haler datasættet vil have.
For det første datasæt med to klynger simuleret, der har prøver for hver klynge. Tre sager behandles i de næste eksperimenter for at undersøge virkningerne af outliers om udførelsen af metoden [24]. Når fordelingen af den simulerede datasæt er omtrentlig til gaussisk fordeling. For hver af de tre tilfælde er følgende fire opsætninger overvejes:
opsætning 1 har klynge-specifikke midler med og, og fælles diagonal skala matrix med, hvor er en dimensional identitet matrix
opsætning 2 har klynge-specifikke midler med og, og almindelige ikke-diagonal skala matrix med. er en sparsom symmetri matrix, der har de diagonale elementer og de ikke-diagonale elementer med undtagelse af,.
opsætning 3 har klynge-specifikke midler med og, og bruger to generelle skala matricer sparsomme genereret af lignende procedure som beskrevet i [9], [26]. En diagonal matrix med samme positive diagonale firmaer genereres først, derefter et givet antal nonzeros er tilfældigt indsat i de ikke-diagonale placeringer af bestemt afsnit af matrixen symmetrisk. Antallet af ikke-nul ikke-diagonale indgange er indstillet til. Et multiplum af identiteten er tilsætning til matrix for at sikre et positivt bestemthed. Endelig er hvert element divideret med den tilsvarende diagonal element til at generere skala matrixinverse. I denne opsætning, og.
opsætning 4 har klynge-specifikke midler med og og lignende skala matricer ikke-diagonale som opsætning 3 med og.
under den simulerede mønster anført ovenfor sætter vi, og svarende til den, i [20]. For hver opsætning, er simuleringen gentages 50 gange og udstyret med, og.
PMT-UC sammenlignes med straffet modelbaserede Gauss klyngedannelse med ubegrænset kovarians (PMG-UC) og straffet modelbaseret Students t clustering med diagonal kovarians (PMT-DC) med hensyn til de følgende evaluering criterions. Rand (RI), den justerede Rand Index (ARI) og frekvenserne for de valgte numre (N) af klynger (K) anvendes til at vurdere evnen af fremgangsmåden til klyngedannelse [20]. For at kvantificere metodens evne til genopbygning netværk, er den strukturelle Hammingafstand (SHD) mellem sande og udledte net beregnes, som er antallet af kant forskelle til at omdanne et netværk til et andet netværk [9]. Jo mindre SHD angiver tættere tilnærmelse til den sande netværk. De følgende to indekser anvendes til evaluering af genet udvælgelse ydeevne, antallet af informative variabler forkert valgt til at være noninformative (falsk negative, Fn) og antal noninformative variabler valgt rigtigt (sande negative, TN) [20].
virkning af parameteren.
virkningen af parameteren som er designet til stabiliteten af algoritmen på udførelsen af PMT-UC diskuteres i forhold til de fem, der blev indført ovenfor (RI, ari , SHD, FN og TN). Især, løber vi PMT-UC på en fast datasæt under opsætningen 4 med som skal dataene højere støjniveau, et færre gener med klynge-specifikke midler og nogle gener med klynge-specifikke netværksstrukturer, med forskellige værdier af ( ). Tabel 1 viser gennemsnit og standardafvigelser for fem foranstaltninger i 50 simuleringer med hensyn til forskellige værdier af på denne opsætning. Når ikke er for stor, algoritmen ydeevne tendens til at være temmelig robuste over for valget af. Da resultaterne med show vis forbedring i de andre situationer, er sat til 0,1 i de følgende eksperimenter.
Effekt af initialiseringen.
Konvergensen PMT-UC er undersøgt af overvejer de tilsvarende resultater med hensyn til forskellige initieringer bruger K-midler. Denne undersøgelse afhænger også af opsætningen 4 med. En simuleret datasæt er fast, og hele proceduren anvendes ti gange, hvoraf hver gang bruger fem K-betyder startværdier. De standardafvigelser af de valgte parametre og eksperiment resultaterne af disse ti eksperimenter kan betragtes som evaluerings- indeks for harmoniseringen af PMT-UC. For at reducere variabiliteten, er fem datasæt genereret, og gennemsnit og standardafvigelser af resultaterne for hvert datasæt er listen i tabel 2. Det er vist, at klyngedannelse og gen udvælgelsesresultaterne de ikke har væsentlig ændring med forskellige initieringer. Men den komplette PMT-UC-algoritmen har en vis varians med hensyn til parameteren og resultater SHD der svarer til netværk genopbygning.
Clustering resultater.
eksperiment klyngedannelse resultater de fire opsætninger med er vist i tabel 3. Da datasættene kommer fra en omtrentlig fordeling af Gauss-fordeling, både PMT-UC og PMG-UC altid korrekt kan identificere to klynger. For opsætninger 1, 2, 3, arbejder PMT-UC lidt bedre end PMG-UC identificere klyngedannelse strukturer, som sammenfattet af RI eller Ari i tabel 3. Til opsætning 4, med tilstedeværelsen af mere støj variabler baseret på den gennemsnitlige, RI og Ari af PMG-UC falde drastisk til 0,734 og 0,47. For opsætning 1 med den sande model med en diagonal kovarians matrix, både PMT-UC og PMT-DC har lignende klyngedannelse forestillinger. Jo stærkere de sammenhænge blandt variabler, jo mere sandsynligt for PMT-DC for at få flere klynger ved en fejltagelse og har dårlig klyngedannelse ydeevne. Især for PMT-DC med uafhængighed antagelse, datasættet i set-up 4 kun har fem informative gener, hvilket resulterer i høj clustering fejlprocent.
For at undersøge effekten af de afvigende, vi anvende de mindre grader og. Tabel 3 giver også resultaterne for de fire opsætninger med disse to sager. Som forventet PMG-UC udfører dårligt med mindre grader, og det er mere følsomme over for ekstreme observationer. For opsætning 1 har de klyngedannelse resultaterne af PMT-DC ikke ændre sig væsentligt med den faldende af grader for sin robusthed og uafhængighed antagelse. Men det ofte ikke kan finde den sande clustering strukturer i de andre tre opsætninger. Sammenfattende resultaterne for opsætninger 1-4 da vise, at PMT-UC har bedre clustering ydeevne end PMG-UC og PMT-DC for datasæt med uafhængige eller korrelerede informative gener, og er robust til outliers.
genopbygning Network.
Figur 2 viser boxplots af klynge-specifikke SHD mellem estimerede og sande netværk over 50 simuleringer for de ovennævnte fire opsætninger af de tre tilfælde, hvor der er sat til 2. Derudover vi plotte gennemsnitlige sparsity mønster, som er den relative frekvens matrix for PMG-UC og PMT-UC. Siden PMT-DC antager en diagonal kovarians, er det ikke plottet her. Den relative frekvens matrix består af den relative hyppighed af ikke-nul anslået af hvert element af den inverse skala matrix over 50 gentagelser. Figur 3 viser klynge-specifikke resultater af de første informative gener (se tekst S4 for resultaterne af de samlede gener). Vi gør følgende bemærkninger er baseret på resultaterne i figur 2 og 3. På alle de tilfælde, PMT-UC giver mindste SHD forhold til de to andre tilgange. Når hvormed Students t fordeling ligner Gaussisk fordeling, både PMT-UC og PMG-UC er i stand til at inddrive den sparsomme inverse kovarians struktur for opsætning 1. Det er vist, at selv om begge PMT-UC og PMG-UC har ikke-diagonal antagelse, kan de få den diagonale kovarians som sandheden ved en tilstrækkelig stor straf på off-diagonal elementer i inverse kovariansmatrixer. For opsætning 2, kan PMT-UC præcist at identificere placeringen af nonzeros næsten hver simulation. I mellemtiden, med den høje værdi af de ikke-diagonale nonzeros af kovarians, PMG-UC kan også gendanne den inverse kovarians mønster tider. Men når de partielle korrelationer af generne er ikke høje i set-up 3, med straffen, PMG-UC har ikke godt netværk genopbygning ydeevne forskellig fra den af PMT-UC. For opsætningen 4, med den stigende af støj i forhold til middelværdien, resultatet af PMG-UC er uklar. Når eller med hvilke dataene højere støjniveau, PMG-UC er i stand til at genvinde netværksstruktur. Dog kan PMT-UC stadig opdager forholdet mellem gener under netværket.
På hver kasse, den centrale mærke medianen, kanterne af kassen er 25. og 75. percentiler, de knurhår strækker sig til mest ekstreme datapunkter ikke som outliers, og outliers plottes individuelt. Resultater vist for PMT-UC, PMG-UC og PMT-DC i de fire opsætninger af tre tilfælde. Shd1 og SHD2 er resultaterne for den første og anden klynger henholdsvis
TRUE:. 1 og TRUE: 2 er de dele af det oprindelige, og som svarer til de første informative gener for den første og anden klynger , henholdsvis. PMT-UC: 1 og PMT-UC: 2 er skønnet over de dele af inverse skala matricer hjælp PMT-UC. PMG-UC: 1 og PMG-UC: 2 er skønnet over de dele af inverse kovariansmatrixer hjælp PMG-UC
Gene valg
De to gen valg evaluering.. indekser FN og TN er ligeledes opsummeret i tabel 3. for de fire set-ups, PMG-UC tendens til pluk ud flere gener, der er informativ end PMT-UC og PMT-DC. I opstillinger 1 og 3, de informative gener har cluster-specifikke midler og kan vælges ved alle de tre metoder, når datasættet har lavt støjniveau. For opsætninger 2 og 3, er der to gener, som ikke udtrykkes differentielt men interagerer med nogle diskriminative gener og fem gener, som er også ikke differentielt udtrykte men har forskellige underliggende netværksstrukturer hhv. Tabel 3 viser, at kun PMT-UC blandt de tre metoder kan opdage disse gener.
Den datasæt med flere tynde-tailed klynger.
For en ekstra datasæt med flere tynde-tailed klynger er
Leave a Reply
Du skal være logget ind for at skrive en kommentar.