Abstrakt
Kræft progression ofte drevet af en ophobning af genetiske ændringer, men også ledsaget af øget genomisk ustabilitet. Disse processer føre til en kompliceret landskab af kopi nummer ændringer (CNA’er) inden for de enkelte tumorer og store mangfoldighed på tværs af tumor prøver. Høj opløsning vifte-baserede komparativ genomisk hybridisering (aCGH) bliver brugt til at profilere CNAs af stadigt større tumor samlinger og bedre beregningsmæssige metoder til behandling af disse datasæt og identificere er brug potentielle driver CNA’er. Typiske undersøgelser af aCGH datasæt tage en rørledning tilgang, der starter med segmentering af profiler, opkald af gevinster og tab, og endelig fastlæggelse af hyppige CNAs tværs prøver. En ulempe ved rørledninger er, at valg på hvert trin kan give forskellige resultater, og bias formeres fremad. Vi præsenterer en matematisk robust ny metode, der udnytter sonde niveau korrelationer i aCGH data til at opdage delmængder af prøver, der viser fælles CNAs. Vores algoritme er relateret til seneste arbejde på maksimal-margin klyngedannelse. Det kræver ikke forudgående segmentering af data og giver også gruppering af tilbagevendende CNAs i klynger. Vi har testet vores tilgang på en stor kohorte af glioblastom aCGH prøver fra The Cancer Genome Atlas og genvundet næsten alle CNAs rapporteret i den første undersøgelse. Vi fandt også yderligere betydelige CNAs savnet af den oprindelige analyse, men understøttes af tidligere undersøgelser, og vi identificeret signifikante korrelationer mellem CNAs
Citation:. Rapaport F, Leslie K (2010) Fastlæggelse Hyppige Mønstre for Copy Number Ændringer i Cancer . PLoS ONE 5 (8): e12028. doi: 10,1371 /journal.pone.0012028
Redaktør: Jean Peccoud, Virginia Tech, USA
Modtaget: April 27, 2010; Accepteret: 2 juli 2010; Udgivet: 12. august 2010
Copyright: © 2010 Rapaport, Leslie. Dette er en åben adgang artiklen distribueres under betingelserne i Creative Commons Attribution License, som tillader ubegrænset brug, distribution og reproduktion i ethvert medie, forudsat den oprindelige forfatter og kilde krediteres
Finansiering:. Dette arbejde blev støttet af National Science Foundation tilskud IIS-0705580 og National Institutes of Health giver en-U24-CA143840. De finansieringskilder havde ingen rolle i studie design, indsamling og analyse af data, beslutning om at offentliggøre, eller forberedelse af manuskriptet
Konkurrerende interesser:.. Forfatterne har erklæret, at der ikke findes konkurrerende interesser
Introduktion
kræft er et komplekst sæt af proliferative sygdomme, hvis progression i de fleste tilfælde, er drevet delvist af en ophobning af genetiske ændringer, herunder kopi nummer afvigelser (CNA’er) af store eller små genomiske regioner [1], [ ,,,0],2], [3], der for eksempel kan føre til amplifikation af onkogener eller tab af tumorsuppressorgener. Dog er kræft progression ofte også præget af stigende genomisk ustabilitet, potentielt generere mange “passager” CNAs, der ikke giver klonal vækst fordel. Disse processer giver anledning til et kompliceret landskab af genomiske forandringer inden for de enkelte tumor og store mangfoldighed af disse CNA’erne tværs tumor prøver, hvilket gør det vanskeligt at identificere føreren mutationer i forbindelse med kræft progression.
I de seneste år, matrix-baserede komparativ genomisk hybridisering (aCGH) [4], [5] og enkelt-nukleotid polymorfisme (SNP) arrays [6], er blevet anvendt til at analysere CNA’er af tumorprøver ved en genomisk skala og ved progressivt højere opløsninger. Desuden har mange store tumor profilering undersøgelser genereret kopi nummer datasæt for store kohorter af tumorer [7], [8]. Disse store og komplekse “kræft genom” datasæt nuværende vanskelige statistiske udfordringer [9]. Individuelle CNA’er kan være så lille som nogle få tilstødende prober eller så stor som en hele kromosomer og kan være vanskelig at opdage ovenfor probe-niveau støj; Desuden er det uklart, hvordan at få mening ud af diverse CNAs fra hundredvis af tumorer
Typisk er to slags analyser er foretaget på eksemplar nummer datasæt:.
gruppering af prøver ved deres CNA’er, at bestemme mulige tumor undertyper er karakteriseret ved en fælles mønster af amplificeringer og sletninger,
bestemme betydelige genetiske afvigelser, enten gevinster eller tab, der hyppigt forekommer i datasættet, da disse kan repræsentere driver mutationer er vigtige for tumorprogression
Næsten altid, er disse problemer løses med en rørledning tilgang, hvor aCGH profiler af kromosomer for de enkelte prøver først behandles af en segmentering algoritme.; enkelte segmenter (genomiske regioner) er “kaldet” som gevinster eller tab, der er baseret på deres amplitude, ved hjælp af et udvalg af statistisk procedure og betydning tærskel; og endelig de kaldte segmenter anvendes som input til en klyngedannelse algoritme [1], [10], [11] eller score-baserede metode til bestemmelse af væsentlige fælles afvigelser [12], [13], [14]. Ulempen ved rørledningen tilgange, er imidlertid, at algoritmiske valg og tuning parametre ved hvert trin kan producere meget forskellige resultater, og fejl eller bias formeres fremad.
For det første trin, er der talrige segmentering algoritmer [15 ], [16], [17], [18], der giver markant forskellige segment grænser [19], hvilket fører til forskellige opkald af gevinster og tab. Det sidste trin at analysere CNAs tværs prøver afhænger kritisk valg tidligere. Som et eksempel, den udbredte transportcenter fremgangsmåde til bestemmelse hyppige aberrationer [12] anvendt som dets teststørrelse, ved hvert locus, antallet af prøver, hvor en gevinst (eller tab) er til stede multipliceret med den gennemsnitlige amplitude af gevinsten ( tab). Men både tæller og den gennemsnitlige amplitude afhænger af tidligere valg i støbeskeen.
I denne undersøgelse foreslår vi en ny og matematisk robust metode til at finde signifikante mønstre af CNAs i et stort kopi antal datasæt direkte fra de sonde-niveau data. Ved at undgå en rørledning tilgang, som involverer en segmentering skridt, at vores algoritme udnytter sonde niveau korrelationer i aCGH data opdage delmængder af prøver, der viser fælles CNAs. Ved at anvende fremgangsmåden i en hierarkisk måde at iterativt opdele datasættet, opdager vi både stor- og små begivenheder og kan detektere statistisk signifikante CNAs forekommer på 5% af prøverne. På denne måde algoritmen både tager højde for klyngedannelse problemet og den hyppige aberration problem samtidig. Algoritmisk er vores tilgang relateret til seneste arbejde på maksimal-margin klyngedannelse [20], [21], [22], [23], som udvider support vektormaskine-lignende optimering tilgange til problemet med opsyn klyngedannelse. Det vil sige, hver partition af datasættet opnås ved at lære en lineær klassifikator af proben-niveau aCGH profiler, der tildeler prøver til en gruppe eller den anden. Vi har også bygge videre på ideer udviklet til overvåget klassifikation af aCGH prøver [24], [25], [26], [27], navnlig brugen af brik-wise konstant og lasso [17], [26], [28 ] legaliseringsoperationer vilkår i optimering problem, som tilskynder klassificeringen til at træffe beslutninger ved hjælp af kun et lille antal af sonder i informative sammenhængende regioner.
Vi har testet vores tilgang på en stor kohorte af glioblastom aCGH prøver nylig genereret af The Cancer Genome Atlas Project (TCGA) [7]. Vi fandt, at de store CNAs detekteres af vores algoritme er stort set i overensstemmelse med den oprindelige TCGA studie, at næsten alle CNAs tidligere rapporteret var også i vores resultater. Vi fandt imidlertid yderligere væsentlige CNAs savnet af den TCGA analyse, men understøttes af tidligere undersøgelser og /eller udtryk analyser. Desuden den hierarkiske opdeling tilgang opsummerer de indstillede relationer og afhængigheder mellem forskellige CNAs, som kan være nyttige til at generere hypoteser om rækkefølgen af CNA’erne i tumor progression.
Resultater
Algoritme oversigt
Vores algoritme iterativt partitioner et datasæt af tumor aCGH profiler for en given kromosom at opdage delmængder af tumorer med lignende CNAs. I stedet for at bruge standard forbehandlingstrin teknikker som segmentering algoritmer, vi direkte bruge sonde-niveau data og indarbejde forudgående viden om karakteren af disse data, nemlig: (1) successive sonder er korreleret, dvs. sandsynligvis repræsenterer de samme kopi numre og (2) et kromosom typisk (men ikke altid) huser få CNA’er. Ved hvert partitionering trin, lærer vi en lineær separator, der tildeler aCGH profiler til en af to klasser, repræsenteret geometrisk ved de to halvrum (dvs. og) på hver side af hyperplan defineret af den normale vektor og skævhed sigt (figur 1) . Her, kromosom profiler og vægten vektor er reelle værdsat vektorer med dimension svarende til antallet af prober til kromosom, og bestemmes ved at løse et optimeringsproblem (se fremgangsmåder), hvor det er begrænset til at være stykvis konstant (successive prober tendens til har de samme vægte) og sparse (få prober have ikke-nul vægte). Vores tilgang bygger på en nyligt foreslået maksimal margin clustering algoritme [21], [22], som bringer ideer fra store margin overvåget læring teknikker som support vektormaskine klassificering og støtte vektor regression til den ukontrollerede clustering problemet; valg af begrænsninger var motiveret af seneste arbejde på smeltet lasso regression [28] (se Methods).
Algoritmen finder en lineær funktion, der er i stand til at opdele aCGH prøver i to grupper. Ved at løse et optimeringsproblem, algoritmen bestemmer vektoren, hvilket geometrisk repræsenterer den normale vektor af en hyperplan (vist med rødt) separering prøverne, sammen med forspændingen sigt, og tildelingen af prøver til grupper. I det viste legetøj eksempel hyperplan adskiller de prøver, der udgør en sletning på q arm (over hyperplan) fra dem, der ikke (under hyperplan).
Da hver lineære separator resultater i et binært partition af prøver, anvender vi vores procedure iterativt at adskille hver gruppe af prøver i to nye grupper på en sådan måde, at den nye lineære separator er vinkelret på den tidligere bestemte dem. Derfor vil hvert trin finde en ny retning af variation i aCGH data (svarende til principal komponent analyse [29]), og de overordnede procedure resulterer i en hierarkisk opdeling af datasættet (se Methods).
Stor-margin opdeling afslører hierarki af kopi nummer skifter
Vi indsamlede vores datasæt fra Cancer Genome Atlas (TCGA) data portal [7]. Den indeholder 345 glioblastom tumor prøver med kopi nummerændringer profileret på Agilent 244K arrays (228K prober). Datasættet er tidligere blevet analyseret for at bestemme de store forstærkning og sletning begivenheder ved hjælp af RAE [13] og transportcenter [12] algoritmer [7].
Vi brugte Level 2 data, der allerede er produceret af den tidligere analyse [7 ]. Disse data er allerede blevet normaliseret ved anvendelse af en lowess algoritme på loggen forholdet data, og prober markeret som lav kvalitet (mættet, uensartet eller svag) er udelukket. Kvaliteten af de arrays blev også målt ved andelen af udstødte sonder og konsistensen af værdier, der er forbundet med hinanden sonder, og lav kvalitet arrays blev fjernet fra datasættet.
Vi løb vores algoritme separat på hver kromosom, med et tyndt koefficient og en stykvis-constantness koefficient (se metoder). Empirisk fandt vi følgende afhængighed af valget af disse koefficienter: hvis koefficienterne blev valgt til at være for lille, vil det resultere i en triviel klyngedannelse, med alle prøver overdraget til samme gruppe; Hvis parametrene var for eftergivende, ville den opnåede clustering være den samme som standard -means (). Men mellem disse to yderpunkter, klyngedannelse resultaterne var ikke alt for følsom til parameter valg. Vi forventer, at passende række parametre til at afhænge af arrayet platform samt statistiske egenskaber array profiler i en given datasæt. Vi foreslår derfor at udføre et gitter søgning på en delmængde af prøverne og vælge de mindst mulige parametre, der giver en ikke-triviel klyngedannelse på hver kromosom.
For at vurdere betydningen af vores resultater, vi brugte en tilfældig model, hvor vi blandes proberne ifølge vores datasæt og sammenlignes afstanden mellem median prøver af vores to grupper til fordelingen af 1000 afstande på median prøver af to tilfældige prøvegrupper adskilt med samme klassifikator. Vi kontrolleret, at randomiserede afstand fordeling følger en normalfordeling, og vi beregnet den -værdien for afstanden mellem median prøveemner svarende til halen af denne normalfordeling.
For hvert kromosom vi konstrueret en “clustering træ “ved iterativt at opdele hver gruppe i to, hvis det respekteres tre kriterier. Det første kriterium var, at det skal indeholde mere end fem prøver (1,5% af datasættet), da det ville være vanskeligt at opnå en statistisk signifikant partition af meget små delmængder. Det andet kriterium var, at opdele denne gruppe ikke ville gøre dybden af vores træ større end 3. Den maksimale dybde blev valgt heuristisk: efter tre iterationer, vi empirisk fundet, at grupperne var for lille eller adskillelsen var ikke signifikant længere. Det sidste kriterium var, at partitionen genererer denne gruppe skal opfylde en betydning grænse på. Mens denne -værdi kan synes overdrevent eftergivende, er det vigtigt at forstå, at vores estimator (centroid afstand) ikke er direkte optimeret af algoritmen; derfor, de empiriske -værdier genererede er ret konservativ.
Figur 2 giver et eksempel på en “klyngedannelse træ” produceret af vores algoritme til kromosom 19. Den første iteration adskiller de prøver i to klynger, et med 17 prøver der præsenterer en sletning af et område af q arm og en af 326 prøver, med. Det geometriske tyngdepunkt af hver klynge er vist i grønt (figur 2, kolonnen længst til venstre); desuden en segmentering af hver klynge geometriske tyngdepunkt ved hjælp af et standard værktøj (cirkulære binær segmentering [30]) er vist at hjælpe visualisering af kopi antal forskelle mellem de to grupper. Som for denne adskillelse, og hver klynge er større end 5 prøver, vi delt hver af disse delmængder i to nye grupper. Den opdeling af gruppen af 17 prøver er ikke forbundet med en signifikant nok median separation (), og derfor ikke deles igen. På den anden side, delingen af gruppen af 326 prøver giver en gruppe af 250 prøver uden nogen tilsyneladende væsentlig CNA og en gruppe af 76 prøver, hvis tyngdepunkt viser en forstærkning af hele kromosom. Denne opdeling har stærke betydning (), og derfor begge disse grupper er opdelt igen. Delingen af gruppen af 250 prøver ikke opnå signifikans (), og ingen af de resulterende klynger nogen signifikant CNAs. Gruppen af 76 prøver er opdelt i to nye grupper af 37 og 39 prøver (). Hver af disse grupper viser en forstærkning af hele kromosomet, men gruppen med 39 prøver synes at have en lavere amplifikation af q arm end af p arm, mens den anden ikke gør. Som vi begrænser os til træer af dybde 3, vi ikke opdele en af disse grupper yderligere.
Ved hver iteration af algoritmen, er hver tidligere identificeret gruppe af prøver opdelt i to nye klynger brugte en maximum- margin clustering teknik, der udnytter sammenhænge i aCGH profiler (se metoder). Den partitionering processen stopper, når (i) en gruppe har færre end 5 prøver; (Ii) skillevæggen generering gruppen ikke opnår en statistisk signifikans tærskel på; eller (iii) træet er allerede ved maksimal dybde på 3. I billedet ovenfor, er hver gruppe repræsenteret ved sin tyngdepunkt, dvs. dens median profil, i grøn. Til visualisering formål, segmentering af det geometriske tyngdepunkt, produceret af cirkulære binære segmentering [30], er vist med rødt.
Analyse af glioblastom aCGH data genindvinder kendt CNAs uden segmentere prøver
vi anvendte den iterative procedure til hvert kromosom uafhængigt, som beskrevet i det foregående afsnit. At kalde karakteristiske CNAs af hver klynge, vi anvendte cirkulære binære segmentering [30] med standardparametre på dens tyngdepunkt, det vil sige den mediane profil af klyngen, og knyttet karakteristiske CNA (r) af dette tyngdepunkt til klyngen. Man skal forstå, at aberrationer af centroid profil ikke kan være fælles for hver eneste af klyngen prøver, men at den giver et godt skøn over disse begivenheder. Vi advarer også, at størrelsen af skillevæggen giver en god idé om penetrans men er ikke helt ækvivalente.
Den første iteration af vores algoritme fundet en amplifikation af hele kromosom 1, af hele kromosom 7 og af hele kromosom 20. det identificerede også fjernelsen af hele 9P arm, samt en stor del af 19q, hele kromosom 10, hele kromosom 13, hele kromosom 14 og hele kromosom 22. den anden iteration af algoritme fundet tabet af 6Q arm, sletning af hele kromosom 15, af hele kromosom 16 og en forstærkning af hele kromosom 19. det viste også, at nogle prøver, der udgør en forstærkning af kromosom 7 indeholder også et samlingspunkt og meget stærk forstærkning begivenhed på 7p arm. Den tredje iteration af algoritmen identificeret fokale amplifikationsprodukter begivenheder på kromosom 3 og på kromosom 4. Den viste også et tab af hele kromosomer 9 og 21. Disse resultater er sammenfattet i tabel 1, sammen med størrelsen af skillevæggen, hvor hvert CNA blev identificeret i form af antallet af prøver og procentdelen af det fulde datasæt.
En analyse af det samme datasæt ved hjælp af både RAE [13] og transportcenter [12] algoritmer er allerede blevet offentliggjort [7 ]. Begge metoder enige om væsentlige store forstærkning begivenheder for hele kromosomer 7, 19 og 20 og fokal forstærkning begivenheder på kromosom 1 og 12; betydelige store sletning begivenheder på kromosomal arme 6Q, 9p, 15q, på hele kromosomer 10, 13, 14 og 22; og fokale sletning begivenheder på kromosom 1. Derudover RAE fundet betydelige fokale forstærkning begivenheder på kromosom 14, samt væsentlige fokale sletning begivenheder på kromosom 11. Derimod transportcenter fundet forskellige yderligere fokale forstærkning begivenheder på kromosomerne 3 og 4. Figur 3 indeholder et resumé af vores resultater samt en sammenligning med forstærkning og sletning arrangementer fundet af begge disse analyser.
de vandrette spor viser CNA’er identificeret ved de første tre gentagelser af vores metode, sammenlignet med dem, der findes ved transportcenter og RAE. Den midterste spor skildrer kromosomerne, med endnu kromosom tal kommenteret. Gevinster er angivet i rødt og tab i blåt.
Som vist i figur 3, de fleste af de begivenheder, der findes i både RAE og transportcenter analyser findes ved de to første gentagelser af vores metode, herunder alle store -skala begivenhed identificeret ved disse metoder. Undtagelser omfatter en lille forstærkning begivenhed på kromosom 12, begivenhederne på kromosom 1 (hvor vores metode er uenig med konstateringen af RAE og transportcenter) og en forstærkning begivenhed på kromosom 4, som findes på vores tredje iteration.
iterativ partitionering afslører roman CNAs støttet af uafhængige glioblastom undersøgelser
Ud over at komme næsten hele CNA’er identificeret ved metoder som RAE og transportcenter, vores iterative partitionering algoritme fundet en række væsentlige begivenheder, der ikke blev opdaget af tidligere analyser af dette datasæt . Disse hændelser omfatter en forstærkning af hele kromosom 1, en deletion begivenhed på hele kromosomer 9, 15, 16 og 21, samt en deletion af 19q arm.
Nogle af disse hændelser blev dokumenteret i studier af uafhængige kopital datasæt, såsom sletning på 19q arm [31], [32] og af kromosom 16 [33]. Udeladelsen af kromosom 21 er tidligere blevet forbundet med glioblastom [34], og det er blevet foreslået, at den lave forekomst af glioblastom i Downs syndrom patienter er forbundet med kromosom 21 trisomi, der kendetegner denne genetiske tilstand [35]. Her finder vi kromosomet deletion forbundet med en meget lille klynge (6 prøver), og den lavfrekvente forklarer formentlig, hvorfor denne afvigelse blev brændt af tidligere analyser. Sletningen af kromosom 15 faktisk omfatter sletning på 15q arm findes i de tidligere analyser. Formen af det geometriske tyngdepunkt for denne partition viser, at amplituden af sletningen er mindre på resten af q arm og på p arm, og det er muligt at fuld kromosom deletion ikke blev fundet af Rae eller transportcenter grund af den mindre amplitude .
for at identificere gener, der er godt korreleret med den CNA’er, vi udførte en betydning analyse af microarray (SAM) ved hjælp af SAMR pakken. For hver klynge, vi mærkede hver prøve ifølge etiketten (i eller uden for klyngen af interesse) og så på antallet af gener i regionen af CNA, der var signifikant forskelligt underexpressed i tilfælde af en deletion, eller væsentligt overudtrykt i tilfælde af en amplifikation. Beregninger blev udført ved anvendelse af t-statistik, 100 permutationer og Tusher metoden [36].
Vore resultater, som er opsummeret i tabel 1, viser, at et stort antal gener i de fleste tilfælde havde ekspressionsniveauer, som er betydeligt korrelerede med tildelingen af prøver til klyngen huser CNA. Det skal bemærkes, at forholdet mellem udtryk og antal kopier er kompleks, og at fraværet af signifikante korrelationer ikke udelukker tilstedeværelsen af CNA, især i tilfælde, hvor den lave optælling af gener eller prøver gør denne sammenhæng statistisk vanskeligt at bevise.
romanen CNAs opdaget af vores analyse er korreleret med flere vigtige gener. For eksempel er sletning af kromosom 16, de 19q13.2-19q13.43 regioner, og kromosom 21 signifikant korreleret med underekspression af kandidat kræft-suppressor gener, henholdsvis CBFB [37], [38] eller CDH11 [39] , TFPT [40] og DSCR1 [35], der giver yderligere beviser til støtte for disse begivenheder.
Flere sæt af hyppige kromosomafvigelser viser høj korrelation
En fordel ved vores metode i forhold til resultattavle tilgange såsom RAE og transportcenter er, at det giver en opgave af prøver til grupper – eller mere præcist, identificerer CNAs ved samtidig at finde de grupper af prøver, der huser dem – hvilket gør det lettere at identificere, hvilke prøver påvirkes af hvilke hyppige CNAs . Vi tilknyttet hver prøve til et sæt af hyppig CNAs baseret på dens klynge opgaver i kromosomet-baserede iterativ partitionering procedure. Vi fandt, at co-forekomster af hyppige CNAs i en prøve var almindelige; ja, et flertal af prøver (249 ud af 345), indeholdt 2 eller flere af de hyppige CNA’erne anført i tabel 1.
Vi realitetsbehandlet co-forekomster af par af hyppige CNAs, og vi fandt, at 31 par kan anses for at være korreleret (dvs. med et skæringspunkt for prøve opgaven bedre end forventet af baggrunden frekvenser) med ved Fishers eksakte test (se supplerende figur S1).
en simpel analyse af disse væsentlige par viste, at disse korreleret CNAs kan faktisk ses som tre grupper af co-hændelser:
forstærkningen af kromosom 7 med tilhørende omdrejningspunkt forstærkning begivenhed, sletning på 9p, sletning af kromosomer 10, 13 og 14 samt de amplifikationer på kromosomerne 19 og 20 er alle højt korreleret.
sletning af 6Q er godt korreleret med kontaktpunktet forstærkning begivenhed på kromosom 7 samt med sletningen på 9p.
sletningen på kromosom 22 er godt korreleret med forstærkning af kromosom 7 (men ikke med den ledsagende fokale begivenhed), sletning af kromosom 10 og sletning af kromosom 14.
diskussion
Inddrivelse af CNAs savnet af oversigtsstatistikker
Nogle af de nye glioblastom CNAs som vi fandt er gode eksempler på, hvordan vores metode forbedrer resumé statistik tilgange, såsom RAE og transportcenter. For eksempel har udeladelsen af kromosom 15 kun blevet spottet på q arm af RAE og transportcenter. Når vi undersøgte profilen af det geometriske tyngdepunkt af en klynge identificeret ved vores metode, så vi en lavere amplitude sletning på p armen så godt. På grund af denne lave amplitude, vil hver probe på eget ikke have en signifikant gennemsnitlig sletning tværs af datasæt og ville dermed blive savnet af en summarisk statistik. Men fordi alle de prober til kromosom er berørt, sletningen bør betragtes som en væsentlig CNA og let identificeres ved tilgang.
Som et andet eksempel, sletning af regionen 19q2-19q13.3 har ikke er blevet fundet af andre metoder, der anvendes til TCGA datasæt, selv om det er blevet bekræftet som en deletion begivenhed ved tidligere undersøgelser. Her problem synes at være, at den samme region er også til stede som en forstærkning begivenhed på et større antal prøver, der forvirrer påvisningen af denne deletion af en summarisk teststørrelse. Endelig er udeladelsen af hele kromosom 21 savnet formodentlig ved andre metoder, fordi det er gaver på kun et lille antal af prøver (6 prøver eller 2%). Men da denne begivenhed er en sletning af hele kromosom og støttede derfor mange sonder, intuitivt det burde være langt mere statistisk signifikant, at en mindre, men tilsvarende sjælden begivenhed. Faktisk er betydningen af denne CNA bekræftet af tidligere undersøgelser forbinder trisomi 21 i Downs syndrom til lavere forekomst af glioblastom samt ved korrelationen med under-ekspressionen af en kandidat tumor-supressor gen til stede i denne region.
Inddrivelse af fokale begivenheder
Figur 3 viser, at selv om den første iteration af vores algoritme synes at fokusere på store afvigelser, følgende iterationer kan finde fokale begivenheder som dem på kromosomerne 3 og 4, og at vores algoritme er derfor i stand til at finde fokale begivenheder samt store. Den eneste omdrejningspunkt begivenhed, hvis tilstedeværelse er enige om både RAE og transportcenter og at vores metode er ikke i stand til at finde den ene på kromosom 12. Ser man på de rå data viser os, at denne begivenhed deles af omkring 40 prøver, men påvirker kun 2 prober, hvilket gør det vanskeligt signal at finde, når man ser en flere prober. Men ved at begrænse vores analyse til en lille interval centreret om begivenheden (300kbp eller 40 sonder), var vi i stand til at identificere den fælles begivenhed ved hjælp af vores maksimale-margin clustering algoritme (se supplerende figur S2), hvilket tyder på, at vores metode måske kunne være anvendes i forbindelse med en glidende vindue for at forbedre påvisningen af meget små begivenheder.
Analyse af prøver med høj støj og genomisk instabilitet
De glioblastom kopital profiler, som vi analyserede her har relativt få CNA begivenheder og giver derfor en gunstig prøvesag for beregningsmæssige analyse. Kopiantal datasæt for andre kræftformer har vist langt mere problematisk. For eksempel en nylig kopiantal undersøgelse af lunge adenocarcinom [8] samlet en meget stor (400 prøver), men udfordrende datasæt, hvor signal-støj varierede betydeligt i prøver – potentielt skyldes stromal kontaminering – og en anselig del af prøver vises en lang række arrangementer. Forfatterne kurateret prøverne i tre tiers baseret på signal kvalitet og begrænset analyse til den bedste række. Trods det store gennemsnitlige antal hændelser pr prøver, undersøgelsen kun identificeret nogle få regioner ændret i et betydeligt antal prøver, med de mest almindelige CNA (opformering af kromosom 14q13.3) kun til stede i 12% af den bedste tredjedel (top tier ) af deres prøver. Vi anvendte vores metode til denne lungeadenocarcinom datasæt for at se, hvordan det ville udføre i en høj støj indstilling. Da den oprindelige tildeling af prøver til metodetrin ikke var let tilgængelig, gjorde vi en første passage analyse af hele datasættet – uden at forsøge at reducere til de reneste prøver – anvendelse af de samme parametre, som vi anvendte på TCGA datasæt. Interessant nok første iteration af algoritmen partitioneret hvert kromosom i to klynger indeholdende nøjagtigt de samme prøver (med), med en gruppe bestående af prøver med en stærk, men meget støjende signal og det andet indeholder prøver med et svagt signal. Dette resultat tyder på, at vores metode kan være i stand til automatisk at skelne signal kvalitet.
Den oprindelige valg af parametre ikke finde nogen væsentlige afvigelser på en -værdi cutoff på 0,05, muligvis på grund af de forskellige udvalg platform samt de forskellige statistiske egenskaber af kopi nummer profiler (se supplerende figur S3 og supplerende tabel S1). Men ved hjælp af vores algoritme med et andet sæt af parametre (og) på kromosom 14 tilladt os at finde amplifikation af 14q13.3, omend kun i 6 prøver (2% af det samlede antal af prøver) og med en svag -værdi () . Her, kan tilstedeværelsen af en stor gruppe af meget støjende prøver i datasættet er ansvarlig for at nedbryde-værdien. Mens vi ikke var i stand til direkte at sammenligne med den oprindelige analyse på det øverste niveau prøverne, denne hurtig analyse på det fulde datasæt er ret opmuntrende, idet vi var i stand til at hente de vigtigste resultat uden en
ad hoc
datasikring af prøver.
Mulige algoritmiske udvidelser
ovenstående analyse understreger også virkningen af valget af de to constraint parametre, og (se Metoder), der bestemmer graden af tyndt og piecewise- constantness henholdsvis af vores lineære klassificører. Vi valgte parametrene for glioblastom undersøgelse gennem heuristik og nyttiggøres mest kendte begivenheder samt flere roman og plausibel CNA’er. fuld udforskning af denne parameter plads, kunne dog give yderligere resultater; for eksempel, at prædisponere algoritmen til at finde fokale begivenheder, kan man forsøge at gøre sparsity begrænsning strengere. Forskellige strategier kan anvendes til at optimere valget af parametre, herunder anvendelse af en krydsvalidering loop. For at gennemføre denne strategi, ville man være nødt til at vælge en passende metode til vurdering af kvaliteten af de klynger: standard estimatorer er tæt knyttet til de objektive funktioner optimeret ved traditionelle klyngedannelse algoritmer (f.eks -means), som ikke tager hensyn til de egenskaber af kopi nummer profiler (dvs. rumlige sammenhænge, sparsomme sletning /amplifikation begivenheder). Imidlertid ville en sådan krydsvalidering loop også medføre længerevarende beregningsmæssige gange. Disse omkostninger kan reduceres betydeligt, hvis vi var i stand til at beregne den samlede regulering stien til den fusionerede lasso i en enkelt, som andre var i stand til at gøre med den oprindelige lasso [41] og SVM [42] optimeringsproblemer.
<
Leave a Reply
Du skal være logget ind for at skrive en kommentar.