Abstrakt
Forståelse det molekylære grundlag for kræft kræver karakterisering af dets genetiske defekter. DNA microarray teknologier kan give detaljerede rådata om kromosomafvigelser i tumorprøver. Der er behov for Computational analyse (1) at udlede rå array-data faktiske forstærkning eller sletning arrangementer for kromosomale fragmenter og (2) at skelne kausale kromosomale ændringer fra funktionelt neutrale dem. Vi præsenterer en omfattende beregningsmæssige tilgang, RAE, designet til at håndfast kortlægge kromosomale ændringer i tumorprøver og vurdere deres funktionelle betydning i kræft. For at demonstrere metoden, vi eksperimentelt profil kopi nummer ændringer i en klinisk aggressiv undertype af bløddelssarkom, pleomorf liposarkom og beregningsmæssigt udlede et portræt af kandidat onkogene ændringer og deres målgener. Mange berørte gener er kendt for at være involveret i sarcomagenesis; andre er hidtil ukendte, herunder mediatorer af adipocytdifferentiering, og kan omfatte værdifulde terapeutiske mål. Tilsammen præsenterer vi en statistisk robust metode gælder for høj opløsning genomiske data for at vurdere omfanget og funktion af kopi-nummer ændringer i kræft
Henvisning:. Taylor BS, Barretina J, Socci ND, Decarolis P, Ladanyi M, Meyerson M, et al. (2008) Funktionel Copy-nummer Ændringer i kræft. PLoS ONE 3 (9): e3179. doi: 10,1371 /journal.pone.0003179
Redaktør: Greg Gibson, The University of Queensland, Australien
Modtaget: August 7, 2008; Accepteret: August 19, 2008; Udgivet: 11 September, 2008
Copyright: © 2008 Taylor et al. Dette er en åben adgang artiklen distribueres under betingelserne i Creative Commons Attribution License, som tillader ubegrænset brug, distribution og reproduktion i ethvert medie, forudsat den oprindelige forfatter og kilde krediteres
Finansiering:. Dette arbejde blev delvist understøttet af: Den bløddelssarkom Program Project (P01 CA047179, SS, NDS og CS), The sarkom Genome Project, og af The Kristen Ann Carr Fund. De finansieringskilder havde ingen rolle i studie design, indsamling og analyse af data, beslutning om at offentliggøre, eller forberedelse af manuskriptet
Konkurrerende interesser:.. Forfatterne har erklæret, at der ikke findes konkurrerende interesser
Introduktion
Menneskelig kræft skyldes delvist af irreversible strukturelle mutationer. Disse kan producere ændringer i DNA kopiantal på forskellige steder i [1] genom. Afvigelser af denne type påvirker funktionen af gener og derved frembringe en transformeret fænotype. Omfattende karakterisering af disse aberrationer er et nødvendigt skridt i at forstå sygdommen ætiologi og fremme udviklingen af målrettede behandlinger [2], [3], [4], [5], [6], [7]. Teknikker baseret på microarray teknologi kan samtidig måle tusindvis til millioner af loci i genomet for DNA kopital ændringer. De omfatter matrix komparativ genomisk hybridisering (array CGH) og enkeltstrenget (SNP) arrays (gennemgået i [8]). Disse stadig mere følsomme teknologier er blevet brugt til at karakterisere ikke kun afvigelser i kræft, men også til at beskrive kopi-nummer variation i den menneskelige befolkning [9], og grundlaget for genetiske sygdomme (revideret i [10]).
i betragtning af dets kapacitet til at identificere hidtil ukendte onkogener og tumorsuppressorgener i cancer, har to strategier været anvendt til at analysere kopiantal array-data fra tumorer. Den traditionelle tilgang segmenter støjende sonde-niveau data i de enkelte tumorer (opdeler genomet i regioner med samme antal kopier) [11], [12], registrerer afvigelser med en global tærskel, og heuristisk definerer grænserne af regioner af hyppige forandringer [13] , [14]. Nyere algoritmiske strategier anvender statistiske modeller til analyse af flere prøver [15], [16], [17]. For nylig Beroukhim et al. foreslået en interessant omfattende ramme for vurdering af kopi-nummer ændring i tumor kohorter [18]. Sideløbende med disse beregningsmæssige udvikling, bestræbelser i gang for at analysere store tumor samlinger i en række forskellige kræftformer, såsom pilotfasen af The Cancer Genome Atlas [19] [The Cancer Genome Atlas (TCGA) Research Network 2008 forelagde]. Disse vil blive indsamlet ved hjælp af forskellige kilder og kriterier, som sandsynligvis resulterer i intra-tumor heterogenitet og mellem-tumor variabilitet. Derfor vigtige uløste problemer tilbage. Hvordan skal ændringer i de enkelte tumorer påvises og kombineres, når en samling af prøver varierer betydeligt i deres støjkarakteristika? Hvordan skal genomet deles og vurderes til mere naturligt afspejle, hvordan opstår ændringer? Hvad er kendetegnene for en realistisk baggrund model, der gør det muligt at identificere statistisk signifikant tilbagevendende og derfor mere sandsynligt funktionelle ændringer?
I denne artikel beskriver vi en beregningsmæssige ramme, der adresserer hver facet af dette problem. Vi (i) udvikle særskilte scoring modeller for forskellige ombygning typer, med parametre, der er tilpasset de særlige kendetegn ved de enkelte tumorer, (ii) bruge segmentering breakpoints til at opdele genomet til analyse, der understreger den fysiske karakter af kopi-nummer ændring, (iii) at bygge en tilfældig afvigelse model, der tilnærmer den biologiske proces, hvor ændringer opstår, og bruge det til (iv) at vurdere den statistiske signifikans af observerede ændringer. Dette identificerer genomiske regioner af interesse (ROI) ændret hyppigere, end det kunne forventes ved en tilfældighed, og derfor mere tilbøjelige til at drive tumorigenese (figur 1). Vi anvender vores metode til en stor lager af solide tumorer til at teste dens ydeevne. Vi anvender også RAE en hidtil ukendt høj opløsning kopital datasæt genereres i vore laboratorier til et sæt af pleomorfe liposarkom prøver at illustrere sin kapacitet til at føre til hidtil ukendte opdagelser
Input er et sæt af patienterne.; tumor-DNA, (u) matchede ikke-tumor-DNA, og et ubeslægtet henvisning normal kohorte. Tumor og ikke-tumorprøver kvantificeres, normaliseret, og med forbehold kvalitetskontrol. Ved vurderingen fase, individuelle prøver segmenteret og en multi-komponent model parameteriseret for hver; dette frembringer en detektor for enkelt-kopi gain, amplifikation, hemizygote tab, og homozygote deletion. På tværs af alle tumorer, er en samlet breakpoint profil (UBP) afledt af ensemblet af segmentering breakpoints, og hver region er scoret for gevinst og tab. En baggrund model af tilfældige afvigelser er konstrueret med supplerende spaltning og permutation af genomiske regioner, og p-værdier er tildelt og korrigeret for multipel testning hypotese. I output fase RAE bestemmer genomiske grænser for områder af interesse (ROI), styringer til kimcellelinje og befolkning kopi-nummer variation og rapporter statistisk signifikante ændringer.
Resultater
Ydre kilder til variation
i den første fase af RAE, vi fat på spørgsmålet om pålidelig detektering kopi-nummer ændring i individuelle tumorer. Hver tumor, herunder dem fra patienter med den samme type kræft, varierer i deres støj egenskaber. Vi fokuserer her på eksperimentel støj og problemet med inhomogenitet af tumor-DNA. En yderligere kilde til biologisk støj er strukturel variation, som vi tager fat senere. Med hensyn til den førstnævnte, fandt vi mindst fire forskellige årsager, der kan skjule kopi-nummer ændringer i en tumor, og det motiverer vores afgang fra globale tærskler til påvisning af ændringer. De omfatter (i) lav kvalitet matchede ikke-tumor DNA-prøver, (ii) stromal blanding, (iii) tumor heterogenitet, og (iv) usammenhængende tumor profil, og vi diskuterer hver for sig.
Variation i kvaliteten af matchede normale prøver.
Mange grupper, herunder vores egen, har observeret en betydelig ikke-diploid antal kopier i nogle normale prøver (Figur S1). Årsager kan omfatte kilden væv (i tilfælde af
normal
væv støder op til tumor), forskellige håndterings- protokoller mellem tumor og normale prøver, tidligere kemoterapi på DNA fra normale blodceller, cirkulerende tumorceller, og anden kontaminering af normalt DNA. I en
parret
analyse vil denne ikke-neutral signal dæmpe eller på anden måde ændre tumor signal. For at forhindre dette, vi erstatter en reference normal datasæt med kendt diploide fænotype og analysere tumorer i en uparret format (Methods). Denne reference er genereret af tilfældigt at udvælge en delmængde af ubeslægtede individer af HapMap indsamling, og producerer en konsekvent diploid signal for tumor kvantificering og normalisering (Methods S1, tabel S1, og figur S2). Vi reducerer yderligere støj i denne nye intensitet forholdet ved at segmentere individuelle tumorer [11], [12]. Denne proces korrelerer omkringliggende markører for fælles kopi nummer, tildele det aritmetiske gennemsnit af sonde-niveau signal tværs markørerne i hvert segment (Methods). Mens vi undgå brug af matchet normal DNA ved dette trin, bruger vi en høj kvalitet delmængde for germlinie begivenhed filtrering efter statistisk vurdering (Methods).
Stromal blanding.
Den anden kilde støj er tumor urenhed, et veldokumenteret problem [20], [21]. Individuelle tumorer har forskellige niveauer af forurening ikke-tumor celle. Dette reducerer forholdet mellem signal-støj inden for og mellem tumorer. Det kompromitterer også præcis genotypning til samtidig tab af heterozygositet (LOH) analyser. Dette bringer påvisning af to vigtige klasser af ændring: copy-neutral og sletning-associeret LOH. Forurening af tumor-DNA fra ikke-neoplastisk celle-DNA udøver sin virkning på globalt plan, lige undertrykke signal overhovedet loci i en tumor. Vores løsning er todelt. Først tager vi en individuel-tumor tilgang til at fastsætte grænseværdier i log
2-signalet til at opdage afvigelser, derved udtrække oplysninger fra tumorer, der ellers giver utilstrækkelig signal til at detektere ikke-diploid kopi nummer ændres i forhold til renere tumorprøver. For det andet, vi standardisere størrelsen af ændring i alle tumorer at lette mellem tumor-sammenlignelighed, en vigtig egenskab, når man sammenligner tumorer af varierende stromale blanding.
Tumor heterogenitet.
Den tredje kilde til støj er måske den mest confounding. Vi ser beviser på en mellemliggende kopital i flere forskellige tumortyper. For eksempel, når værdien af en monosomi (eller ChrX i en mandlig patient) etablerer med tillid kontinuerlig log
2 værdi svarende til diskret heltal kopi tab, dette signal er ofte en arm længde tab, der falder halvvejs mellem diploide og loggen
2 værdien af enkelt-kopi tab. Dette kan være allelspecifik kopital eksklusivt til enten den maternale eller fædrene kromosom, eller mere sandsynligt indikerer muligheden for, at der findes flere forskellige, men beslægtede subkloner inden for en enkelt klonal tumor. Når single-copy tab af et kromosom findes i kun én af to forskellige tumorcellepopulationer, er der en foldning af ændring, hvilket reducerer størrelsen af den begivenhed, når målt fra den blandede population (Figur S3). Derfor, flere formodede tumorcellepopulationer differentielt påvirker signal i en
lokal
vis på distinkte regioner i samme tumor. Derfor valgte vi en individuel-tumor alternativ til en global tærskel for ændring, idet førstnævnte mere følsomme over for påvisning af denne slags kryptiske signal.
manglende sammenhæng kopi-nummer profil.
Endelig unøjagtighed i kopi-nummer segmentering er den sidste ydre kilde til variation kompromittere begivenhed opdagelse i individuelle tumorer. En stor mængde information kodes af originale data om tætte arrays probe niveau såsom Affymetrix 250 K SNP-array. Segmentering er designet til at reducere disse oplysninger indhold til et minimalt sæt af diskrete gevinster, tab og neutral kopi nummer. Den største reduktion i oplysninger i prøver producerer nogle segmenter, og mindst i prøver af høj segment count (Figur S4). Det betyder dog ikke har en sammenhængende forhold til sonde-niveau støj (Eq. 1, Methods). Derfor fordi funktionerne i sonde-niveau støj er forskellige fra dem af segmentering, bruger vi kun de sidstnævnte overhovedet efterfølgende faser af analysen.
Multi-komponent scoring model til kopi-nummer ændring
for at tilpasse sig denne mangfoldighed af variation blandt individuelle tumorer, udviklede vi en justerbar multi-komponent model til at opdage afvigelser, kernen funktionen første af RAE. Vi begynder ved at adskille segmenterede kopi-nummer i fire
Components |, hver koder status en ændring type single-copy gevinst (A
0), amplifikation (A
1), hemizygote tab (D
0), og homozygote deletion (D
1). Dette adskiller både analysen af den samlede gevinst fra tab, men også specifikke og intuitive klasser af hver. Dette er nødvendigt, fordi hver ændring præsenterer forskellige analytiske udfordringer, ikke kun i dynamikområde, men også i deres støjegenskaber, som ofte overses. Også ved at dividere den samlede signal ind i disse fire forskellige klasser, er det muligt at modellen kan udtrække mere information og producere større nøjagtighed i individuelle event opkald.
Gain.
I analysen af et sæt af tumorer, er der to attributter, der beskriver kopital gain, frekvens og amplitude. Ved single-prøven niveau, svarer dette til en “detektor” og en “integrator”, den tidligere identificerer eksistensen af en begivenhed, og sidstnævnte tildele den en størrelsesorden proportional med dens oprindelige amplitude. Vi ræsonnerede, at der koder for påvisning af en begivenhed adskilt fra dets amplitude vil have flere fordele: (i) en detektor opererer på randen af signal og støj og skal være robust over for indførelsen af vildtype-signal, (ii) fordi amplitude er grænseløs og varierer som en funktion af stromal forurening, bør det være standardiseret for at lette mellem-tumor sammenlignelighed, og (iii) i vores statistiske model, der tester, om en ændring overstiger en tilfældig aberration sats, der er primært baseret på gentagelse på tværs prøver, vi ønsker at øge vores magt til påvisning af sjældne, men meget høj amplitude begivenheder. Så er disse separat kodet som single-kopi gevinst (A
0) og forstærkning (A
1).
Tab.
Vi nærmer analyse af genomisk tab lidt forskelligt, dog med en lignende begrebsramme. Der er flere udfordringer unikke for allel tab, der retfærdiggør en modificeret tilgang, og hver af disse har en vigtig biologisk naturlig følge. Først sletning begrænset i sit sortiment; kun to kopier af et locus kan gå tabt. Dette er anderledes end amplifikation. Mangler virkelige størrelse, DNA er enten “til stede” eller “fraværende”, og derfor en identisk scoring ordning ville være uhensigtsmæssigt. Denne fuldstændige fravær af signal (eller størrelse) svarer til homozygote deletion. Den anden analytiske komplikation er negativ skævhed i fordelingen af segmentering omkring diploide top (figur S5). Hidtil er dette en funktion unik for genomisk tab og komplicerer påvisningen af hemizygote tab, når overgangen fra vildtype-signal forekommer uden særlige træk. Alligevel præcist detektere enkelt kopi tab er vigtig. Den biologiske parallel er en klassisk tumorsuppressor model, en hvor somatisk mutation eller methylering i en allel er koblet til tab af den anden. Disse tab er ofte brede og kan målrette multiple loci, hvilket reducerer funktion mere end et gen. Men det falder på randen af sporbarhed på en sådan larmende system. For at overvinde disse kompleksiteter, vi også adskille sletning i to komponenter. I modsætning til den model for gevinst, begge komponenter er “detektorer”, en for hemizygote tab (D
0), og den anden for homozygot deletion (D
1) (parametrering diskuteret i Methods S1).
Soft diskrimination.
Mens der er mange muligheder for at opdage disse ombygning typer, et centralt element i vores tilgang er brugen af
bløde
diskrimination. Giver en robust (og binær) værdi for eksistensen af en begivenhed i et støjende system er vanskelig. Dette forværres til enkelt-kopi begivenheder på randen af signal og støj. Derfor fandt vi, at selv efter segmentering, et datasæt for hele log
2 tærskelværdi til detektering ændring er effektivt i sådan en støjende ordning (data ikke vist). Alternativt er der betydelig præcedens for at bruge bløde diskriminatorer i støjende systemer, og vi tilpasser dette princip til at opdage copy-nummer ændring. For eksempel overveje ændring af et locus i to tumorer, der begge har lignende amplituder. Førstnævnte overstiger en
hårdt
tærskelen med en lille størrelse; sidstnævnte ikke gør, men igen ved kun en lille størrelsesorden. Det er usandsynligt, at dette nominelt lignende locus resulterer i ændret biologi i det tidligere, men sidstnævnte effektivt straffet (figur 2A). Så for at opnå bløde diskrimination af hver ændring type, bruger vi en sigmoid funktion med parametre for placering (
E
) og hældning (
β
) (figur 2B, Methods). Denne funktion kortlægger løbende log
2 nøgletal, teoretisk spænder ± ∞, til en konstant værdi mellem 0 og ± 1 (afhængigt af fortegnet på
β
). Ved at variere størrelsen af
β
, vi kan gøre funktionen opføre sig mere eller mindre som en skarp grænse. Desuden, fordi de parametre (
E
,
β
) bestemmes ud fra individuelle tumordata og tilpasset hver enkelt ændring type, kan vi variere funktionens følsomhed, imødekommende de meget forskellige mønstre af støj tidligere drøftet (figur 2C, Methods S1). Denne alsidige parametrisering er også en mekanisme, som vi kan udtrække information fra selv de mest udfordrende tumor profiler. Denne fleksibilitet delvist eliminerer behovet for subjektive kvalitetskontrol i fjernelsen af fundamentalt uinformative prøver. For individuelle tumorer med en kompleks og /eller usammenhængende mønster af signalet (fig S5), parametrisering producerer konservative værdier af
E
β
for hver ændring type, undertrykke en stor del af den samlede signal by design. Dette er især vigtigt for analysen af ualmindelige tumortyper hvor kildematerialet er i høj kurs, og afskaffelse af prøver en tydelig ulempe. Endelig, når bløde diskriminatorer for single-kopi vinde og for mono- og biallele tab kombineres på tværs af alle tumorer, de er en proxy for en gentagelse af hver ændring type. Denne sammenlægning på tværs tumorer er emnet for næste afsnit
(a) I en støjende system er en blød diskriminator (rød) sammenstillet til en hård tærskel (sort).; som begge tildeler point enten kontinuerlige eller binære værdier henholdsvis (parenteser) for trygt kopi-neutral eller forstærket loci (sort) og for udfordrende sager i margenen af signal (grøn). Dette indikerer fordelen af blødt diskrimination. (B) funktionel form af den bløde diskriminatoren; en sigmoid funktion med parametre for placering (
E
) og hældning (
β
). (C) Individuel-tumor tilgang til detektering gevinst og tab; flerkomponent model parametriseret for to tumorer (rød og blå), hvilket indikerer, at tumorspecifikke funktioner giver forskellige diskriminatorer for single-copy gevinst og tab (fast stof), amplifikation (stiplet), og homozygote deletion (stiplet). Parametrering udvælger værdier for
E
β
således at deres størrelsesorden (usignerede) bevæger sig i den retning, (legende).
aggregere ændringer
En samlet breakpoint profil (UBP).
Vi var interesserede i at identificere den mest realistiske enhed af genomet, som ændringer sandsynligvis opstå, og som bør vurderes vores multi-komponent model statistisk. Som med godartede varianter, patogene ændringer er segmentær, ændre ~kilobase til hel-kromosom-store strækninger af DNA. Hvorfor analysere data ved at evaluere en meget tæt sæt af markører ( 238,000), når måske kun 50~20,000 virkelig uafhængige observationer? Fordi læsioner ændre fragmenter af DNA, vi følte RAE skal operere på disse. Derfor tog vi fordel af de breakpoints produceret af individuel-tumor segmentering. Dette korrelerer eksplicit tilstødende sonder på et segment med lignende kopi-nummer og tilnærmer strukturelle ændringer i genomet. Vi forener de unikke breakpoint positioner observeret i alle tumorer, og disse skaber en ny opdeling af genomet (figur 3A, Methods). Disse nyligt definerede regioner er kræft-typespecifikke og den endelige analyseenhed. Derved undgår både en kunstig længde skala og de statistiske kompromiser nødvendige, når de opererer på individuelle markører, såsom indvirkningen på multiple-hypotesetest, når målingerne er delvist afhængig (Metoder S1).
(a) Tætheden af menneskelige rekombination hotspots (top; median afstand mellem hotspots er ~55 kb) spænder segmentering (rød) af sonde-niveau data (mørk blå) i en -5 mb region 13q14.13-3 i fire pleomorfe liposarkomer. De unikke tumorassocierede breakpoints (sorte pile) definerer UBP (regioner r
1-6; bund), den mindste af hvilke (r
3) strækker sig over fire gener, herunder tumor suppressor
RB1
(transkriptionsretningen er angivet). (B) på kromosom 1p, tætheden fordeling af forudsagte rekombination hotspots (rød) på en bredde svarende til medianen afstand mellem alle p-arm hotspots (56 kb), og fordelingen af deres randomisering (blå). Prøveudtagningsproceduren respekterer form af den oprindelige fordeling og derfor sekvenstræk, der ligger bag det. (C) Størrelse fordeling af regioner afledt af segmentering og efterfølgende defineret af det forenede breakpoint profil (UBP, grå), og disse hotspot-spaltede regioner i samme permuterede under null model generation (som indikeret, blå)
kombinere tegn på ændring fra forskellige tumorer.
for at rapportere en oversigt over ændringer i disse regioner for en samling af tumorer, vi kombineret de fundne ændringer på tværs af alle patienter. Den måde, hvorpå vi gør det muligt for os at vurdere betydningen af en begivenhed gennem sammenligning med en null fordeling af rent tilfældige afvigelser. Hver komponent er først opsummeres som gennemsnittet på tværs af prøver i hver region af UBP. Vi beregner derefter en oversigt score (ligning. 3) for både samlet gevinst og tab (A ‘og D’ henholdsvis), der kombinerer dokumentation for de enkelte ombygning typer (metoder). Den vigtigste fordel ved denne fremgangsmåde er fleksibilitet. En null model (emnet for næste afsnit) kan oprettes til at vurdere: enhver kombination af de oprindelige fire komponenter, summariske score for samlet gevinst og tab (standard), eller ved at vægte en ændring typen i forhold til en anden. Som et sidste sammenlægning skridt, vi analytisk udlede usikkerhed i dette resumé score for hver region i UBP. Dette er et vigtigt element i vores tilgang. Ved at udbrede den fejl at segmentering fra alle tumorer spænder et givet locus, producerer vi en repræsentation af usikkerheden i vores måling af ændringer på hvert locus (Metoder S1). Denne usikkerhed er en iboende element i enhver scoring model, men er i øjeblikket ikke i brug i eksisterende metoder.
En baggrund model.
Vi udvikler en baggrund model til vurdering af betydningen af tumor-specifikke ændringer , den tredje kernen i RAE. Kendetegnene for en realistisk baggrund aberration model i humane kræftformer er komplekse og et uløst forskningsområde. I en første tilnærmelse, vi antager en tumor profil er kombinationen af både fører og passager ændringer. Endvidere regioner udvalgt af tumor span gener, hvis forstyrrede funktion ændrer den normale cellulære fænotype. Vi antager disse er indlejret midt uspecifik aneuploidi, måske et produkt af stigende genomisk ustabilitet. Dette løser stokastisk erhvervet forandringer under neoplastisk progression, men som er fundamentalt neutral til tumor biologi. Dette tyder på en proces, der spænder over den vilkårlige til decideret ikke-tilfældige, samt en sammenhæng mellem normal genetisk omsætning og erhvervelse af kopi-nummer forandring. Dette indebærer tumorassocierede breakpoints identificeret ved segmentering er kun en lille brøkdel af den samlede breakpoints i genomet. Så vi hypotese, at en baggrund model bør omfatte komponenter i denne godartede genetiske baggrund. I forbindelse med kopi-nummer afvigelser, valgte vi forudsagde menneskelige rekombination hotspots.
Hotspots, en lokal stigning i antallet af menneskelig rekombination, er en funktion af allel og ikke-allele ((N) AHR) homologe rekombination. Nahr, til gengæld er en mekanisme, ved hvilken
de novo
strukturelle varianter er fastsat i genomet. En undergruppe af disse varianter producerer kopier-nummer forandring, lidt som er sygdomsfremkaldende. Faktisk tidligere undersøgelser forbinder høje Nahr med segmenter gentagelser. Disse sekvenser er derfor modtagelige for at bryde og omlejring (revideret i [22], [23], [24]). Desuden er kopital variation tæt koblet til segmental overlapninger i det humane genom [9], [25]. Derfor bruger vi en tilfældig proces, der involverer rekombination hotspots som proxy for denne mekanisme. Disse hotspots er estimeret ud fra mønstre af koblingsuligevægt (LD) mellem bevarede individer, hvilket afspejler rekombination forekommer hele deres forfædres slægt [26]. Vi supplerer tumor breakpoints i overensstemmelse med både denne højere ordens struktur af det menneskelige genom og mønstre af genetisk diversitet.
Vi randomiseret de genomiske positioner forudsagte rekombination hotspots (
n
= 32.996 , HapMap fase II [27]) med en afvisning-sampling procedure, der simulerer de præferentielle funktioner ligger til grund for distribution af humant rekombination (figur 3B). Disse randomiserede positioner anvendes som spaltningssteder for de største tumor segmenter før permutation (Methods). Supplerende opdeling af genomet i tillæg til den, som tumor segmentering før også permutation har en operationel fordel. Det øger permutation plads i en tumor, når segmentering frembringer en lav segment optælling af hvilke en fraktion er kopi-ændrede, og balancen er store i genomisk størrelse men fundamentalt diploid. Uden yderligere opdeling, kan den ændrede segmentet ionbyttet i et endeligt antal positioner, begrænse modellen. Briste de største kopi-neutrale segmenter, dog giver en langt større optælling af positioner, hvori området af interesse kan permuteret.
have undersøgt flere permutation modeller, valgte vi en null fordeling afledt genom-dækkende permutation (Methods S1). Kort beskrevet (i) segmenter i hver tumor er yderligere opdelt (spaltes) ved positionerne af randomiserede rekombinations hotspots, hvorefter (ii) UBP er afledt igen på denne modificerede ensemble af breakpoints (figur 3C), (iii) værdierne af flerkomponent model i hver region af denne UBP (A
0, A
1, D
0, D
1) permuteres sammen til en anden position af UBP i hver prøve og re -Kombineret tværs tumorer (se metoder). Dette er typisk gentages 10.000 gange producerer en null fordeling af . 10
8 scorede regioner
Vurdering betydning og identificere områder af interesse
For at tildele statistisk signifikans, separat for gevinst og tab bruger vi denne null fordeling af permuteret data til at beregne p-værdier baseret på, hvor ofte tilfældigt permuteret score overstiger prøven score (ligning. 3). Vi derefter korrigere for multiple hypotesetest med falsk opdagelse sats procedure Benjamini-Hochberg [28]. Denne korrektion er gjort i løbet af alle test, der svarer til områder af UBP. Afhængigt af segmentering profil af prøver i en sygdom type, resulterer dette i en reduktion på mellem en og tre størrelsesordener i effektive tests sammenlignet med individuelle markører. Den resulterende q-værdi definerer den del af tolereret falske positiver over en given score opstår ved tilfældig chance i vores baggrund model. Regionerne er filtreres derefter baseret på q-værdien med en typisk cutoff på 0,01 (FDR≤1%).
Regioner af interesse (ROI).
Vi næste udforske den endelige kerne element i RAE, bestemme grænserne for regioner i væsentlig forstærkning og sletning. Hvis en ændring bidrager til onkogenese, antager vi, at region af genomet er valgt for sin virkning på gen-indhold. Denne begivenhed kan ændre et enkelt gen eller flere uafhængige begivenheder kan målrette en koordineret program af gener. Disse læsioner kan også co-udvikler med tilfældige ændringer, der har lidt biologisk effekt. Ikke-tilfældige ændringer er statistisk signifikant i forhold til vores null model, og derfor er kandidat områder af interesse. Ikke desto mindre er regioner af interesse ikke strengt defineret, men er intuitive og motiveret primært af to spørgsmål. Først den biologiske forsker er interesseret hovedsagelig i håndterbare og fortolkelige begivenheder, måske involverer et enkelt gen. For det andet ser vi visuelt i data regioner focality hvor toppe af ændringer findes, men er forbandede af støjende data, herunder tilstødende eller nærliggende toppe. At fange begge disse, vi gennemfører en to-trins tilgang til at bestemme ROI’er. Den første fase identificerer områder af væsentlig ændring (q≤0.01). Disse vil være (i) isolerede regioner af UBP (enkeltfødte), hvor omdrejningspunktet ændringen påvirker et enkelt locus, eller (ii) flere fysisk tilstødende områder, der flettes og tildelt de største genomiske grænser begivenheden. Det andet trin er designet til at afhøre disse brede gevinster og tab for toppe af finere målestok og mere væsentlig ændring. Disse er mere tilbøjelige til at indeholde onkogener og tumorsuppressorgener, opfylde de første intuitive kriterier ROI’er, men kompliceres mest af den anden. Følgelig er der to typer af unøjagtighed, der påvirker bestemmelsen af regioner af fokal ændring. Rumlig unøjagtighed er relateret til det eksperimentelle system hvor
sande
position ændring er ikke målt på grund af markør udvælgelse, matrix sammensætning, og endelig opløsning. Måling unøjagtigheder refererer til fejlen formeret fra individuelle begivenheder i hver prøve og afspejler både støj iboende i eksperimentet og variabiliteten produceret af stikprøvestørrelsen. Førstnævnte er fast og vil forbedre stigninger vifte tæthed. Sidstnævnte er noget, vi indarbejde eksplicit ind i anden fase af vores algoritme, men der mangler fra tidligere tilgange [13], [14], [18], [29]. For en given bred region, der omfatter loci overstiger en tærskel, vi registrerer toppe i resuméet score (L
2, ligning. 3). Hvis der registreres en top, er det slået sammen med tilstødende loci i denne bredere område af betydning, hvis deres L
2 falder inden toppen er intervallet for fejl (figur 4, se Methods). I denne grafiske repræsentation fra data,
RB1
tumorsuppressor, omtalt mere detaljeret nedenfor, detekteres i et toppunkt på tilsvarende fusionerede regioner, der raffinerer grænserne for et ROI fra disse spænder ~ 3 MB sekvens og 20
Leave a Reply
Du skal være logget ind for at skrive en kommentar.