Abstrakt
Næste generation sekventering har nu aktiveret en omkostningseffektiv opregning af den fulde mutations supplement af en tumor genom-især enkelt nukleotid varianter (SNVs). De fleste nuværende beregningsmæssige og statistiske modeller til analyse næste generation sequencing data, dog ikke højde for kræft-specifikke biologiske egenskaber, herunder somatisk segmentær kopital ændringer (CNA’er) -som kræver særlig behandling af data. Her præsenterer vi Conan-SNV (Copy Number Kommenterede SNV): en roman algoritme til at antage af enkelt nukleotid varianter (SNVs), der overlapper kopi nummer ændringer. Metoden er baseret på modellering af forestillingen om, at genomiske regioner i segmenter dobbeltarbejde og forstærkning fremkalde en udvidet genotype rum, hvor en delmængde af genotyper vil udvise stærkt skæve allele fordelinger i SNVs (og derfor gøre dem ikke kan påvises ved metoder, der antager diploidi). Vi indfører begrebet modellering allele tællinger fra sekventering data ved hjælp af et panel af Binomial blanding modeller, hvor antallet af blandinger for et givet locus i genomet er informeret af en diskret kopiantal tilstand givet som input. Vi anvendte Conan-SNV til en tidligere offentliggjort hele genomet haglgevær datasæt opnået fra en luftrør brystkræft og vise, at det er i stand til at opdage 21 eksperimentelt genvalideres somatiske ikke-synonyme mutationer i et luftrør brystkræft genom, der ikke blev påvist under anvendelse kopital ufølsom SNV afsløring algoritmer. Vigtigere, ROC-analyse viser, at den øgede sensitivitet of Conan-SNV ikke resulterer i uforholdsmæssigt stort tab af specificitet. Dette blev også støttet af en analyse af en nyligt offentliggjort lymfom genom med en relativt hvilende karyotype, hvor Conan-SNV viste lignende resultater til andre personer, der ringer, undtagen i områder af kopi nummer gevinst hvor øget følsomhed blev tillagt. Vores resultater viser, at i genomisk ustabile tumorer, vil kopi nummer annotation for SNV detektion være kritisk til fuldt ud at karakterisere mutations landskab af kræft genomer
Henvisning:. Crisan A, Goya R, Ha G, Ding J, Prentice LM , Oloumi A, et al. (2012) Mutation Discovery i regioner Segmentoplysninger Cancer Genome Amplifikationer med Conan-SNV: En blanding Model for Next Generation Sequencing af tumorer. PLoS ONE 7 (8): e41551. doi: 10,1371 /journal.pone.0041551
Redaktør: Chad Creighton, Baylor College of Medicine, USA
Modtaget: Indtil 30. juni, 2011; Accepteret: 27. juni, 2012; Udgivet: 16 august, 2012 |
Copyright: © Crisan et al. Dette er en åben adgang artiklen distribueres under betingelserne i Creative Commons Attribution License, som tillader ubegrænset brug, distribution og reproduktion i ethvert medie, forudsat den oprindelige forfatter og kilde krediteres
Finansiering:. Dette arbejde blev finansieret af den canadiske Breast Cancer Foundation (stipendium til SPS), og den canadiske Institutes of Health Research University of British Columbia /Simon Fraser University Bioinformatik træningsprogram (stipendium til AC). De finansieringskilder havde ingen rolle i studie design, indsamling og analyse af data, beslutning om at offentliggøre, eller forberedelse af manuskriptet
Konkurrerende interesser:.. Forfatterne har erklæret, at der ikke findes konkurrerende interesser
Introduktion
Nylige fremskridt i massivt parallelle genom korte læse sekventering metoder (såkaldt næste generation sekventering (NGS)) har placeret målet om fuldstændig afgrænsning af kræft genom landskaber ned til enkelt nukleotid opløsning inden praktisk rækkevidde. er behov for nye metoder til analyse af korte læse sekvensdata dog, især dem, der er i stand til at klare de komplekse genomiske landskaber af tumorer. Kræft genomer gennemgår forskellige former for somatisk aberration, herunder enkelt nukleotid-mutationer, translokationer, gen fusioner, sletninger, inversioner og segmentær genom kopi nummer ændringer (CNA’er). Flere typer af somatiske aberration er blevet rapporteret at forekomme sammen: for eksempel Kadota et al. [1] observerede tilbagevendende mutationer i
PIK3CA
i brystkræft med allelspecifikke amplifikationer af mutant allel i samme tumorer og foreslog, at
PIK3CA
punktmutationer med samtidig CNA forstærkning resulterede i synergistiske onkogene virkninger . Tilsvarende Laframboise et al. [2] viste allelspecifik forstærkning af
EGFR
mutant alleler i en lungekræft cellelinje; eksempler på forstærkning co forekommende med somatiske mutationer i
MYC
[3],
HRAS
[4], og
MET
[5] er også observeret. Samtidig forekomst af enkelt nukleotid varianter i regioner af segmentær kopi nummer forstærkning skaber særlige problemer, fordi ukendte blandinger af allel mængderne kan resultere fra processen med segmental forstærkning og /eller efterfølgende udvælgelse, i nogle tilfælde confounding fortolkning. Dette skyldes, at blandinger af alleler i en hvilken som helst stilling kan være skæv, hvilket resulterer i en afvigelse fra den teoretiske frekvens (0,5) i heterozygote varianter forventes i diploide genomer. Figur 1 viser et eksempel fra kromosom 19 i et luftrør brystcarcinom genom rapporteret i Shah et al. [6] og illustrerer en skævhed i allelfrekvens væk fra heterozygositet grund af en allel-specifik kopital amplifikation på 19q. Både B-allel frekvens analyse i analysen array-data og allele-forhold i de NGS data understøtter en mono-allelisk amplifikation på 19q i dette genom. Vi rapporterer i dette papir, at denne begivenhed huser 7 co-eksisterende somatiske mutationer (se resultater) i gener (kommenteret på karyogram), der ikke kan påvises ved analysemetoder, der antager diploidi. Præcise og følsomme variant kalder metoder kan derfor kræve konceptuelle inddragelse af co-eksisterende segmentær kopi nummer varianter (somatisk eller kimcellelinje) i fortolkningen af målte allel frekvenser fra NGS data. High density genotypebestemmelse arrays har tilladt for kvantificering af allel-specifikke CNAs ved at indarbejde kopi nummer med allel genotype. Algoritmer såsom QuantiSNP [7], Vanilla Ice [8], Birdsuite [9], PennCNV [10] og PICNIC [11] model allelspecifik CNAs ved at udvide genotypen state plads fra de konventionelle tre diploide genotyper: aa (homozygote for større allel), ab (heterozygot) og bb (homozygot for mindre allel). For amplificerede regioner de numeriske mulige genotyper naturligt ekspandere, for eksempel kunne en triploid kromosom eller segmentær gain have følgende genotyper:. På trods af de erfaringer, der opnås gennem disse metoder, er alle i sidste instans begrænset af opløsningen og omfanget af array design. Vigtigst, opdagelsen af hidtil ukendte somatiske punktmutationer er generelt ikke muligt med array-platforme. Næste generation sekventering overvinder disse begrænsninger siden hele genomet haglgevær sekventering (WGSS) kan afhøre hele genomet og afslører somatiske mutationer i loci ikke er omfattet af arrays. Endvidere frekvensen af alleler i en given prøve er en digital tælling øvelse hvis dynamikområde er ikke begrænset ved hybridisering og fluorescens intensitet mætnings- og følsomhed begrænsninger.
En somatisk højt niveau amplifikation af 19q arm bekræftes NGS samt Affymetrix SNP6.0 data. Nye somatiske varianter, der var ikke kan påvises ved samtools variant kaldende eller SNVMix er fremhævet på karyogram. A) og B) angiver rå log kopital og B-allel intensitet, henholdsvis for normalt DNA (fra den samme patient) på Affymetrix SNP 6.0 array. Blå farve indikerer diploide (neutral) kopi nummer tilstand; den lysere farve rød jo højere niveau af amplifikation. De tre distinkte bånd i (B) indikerer tilstedeværelsen af allelerne huser en af de tre diploide genotyper: AA, AB og BB. C) og D) viser metastatisk tumor kopital og B-allel intensitet henholdsvis. Den høje forstærkning på 19q arm er ledsaget af B allel intensiteter, der viser et fravær af AB heterozygote (midten) band, var til stede i det normale. E) viser allele tællinger fra næste generation sekventering for de positioner, der er repræsenteret i array som en andel af dybde; den allelisk beregnes som summen af totale antal læsninger indeholdende en variant i hver position divideret med det samlede dybde i den position. F) viser den rå kopi fra NGS data kommenteret med forstærkning oplysninger og angiver de samme steder af forstærkning afsløret af ortogonal matrix platform.
Flere kræft genomer er nu blevet dybt sekventeret med NGS og analyseret for CNA’er og SNVs uafhængigt bruger bioinformatiske metoder efterfulgt af målrettet validering for at bekræfte somatiske ændringer. Disse undersøgelser har afsløret nye somatiske punktmutationer i akut myeloid leukæmi [12], [13], brystkræft [6], [14], ovariecancer [15], melanom [16], lymfom [17] og lungekræft [18 ]. Arbejde af Pleasance et al. [16], Chiang et al. [19] og vores eget arbejde [6] tyder på, at CNAs kan udledes sekvensdata, har dog ingen af disse undersøgelser anvendte algoritmer, der udtrykkeligt integrerer CNAs at informere slutning af SNVs. Her demonstrerer vi, hvordan inkorporeringen af CNA oplysninger i SNV opdagelse i kræft genom sekvens data udbytter yderligere nye somatiske mutationer, der var målbart med konventionelle SNV forudsigelse algoritmer designet til normale diploide genomer.
Undersøgelser såsom Ding et al. [14] og vores egen [6] har anvendt ultra dyb målrettet amplikon sekventering til at estimere frekvensen af mutationer i populationen af tumorceller for at detektere sub-dominerende eller sjældne klonale cellepopulationer. Her viser vi, at ikke-diploide allel nøgletal også kan opstå fra regioner kopi nummer associerede forstyrrelser af allel overflod. Vi konkluderer, at gennemgangen af kopital resulterer i øget følsomhed for at detektere både kimlinje og somatiske varianter i ikke-diploide regioner af kræft genomer.
Resultater
Conan-SNV model
for at løse problemet med allele tilstande i områder af kopi nummer aberration, vi udviklet en ny model, Conan-SNV, designet til at indeholde viden om kopi nummer tilstand ved enkelte positioner. Afbildet skematisk i figur 2A, og som en generative probabilistisk grafisk model i figur 2B, modellen anvender en hierarkisk Bayes [20] betinget uafhængighed ramme for parameterestimering og inferens. Conan-SNV vedrører SNVMix1 model beskrevet i Goya et al. [21], men med vigtige forskelle; nemlig at SNVMix1 ikke koder kopital ændringer almindeligvis findes i cancerpatienter genomer (såsom 19q amplifikation er vist i figur 1). For at overvinde denne begrænsning, Conan-SNV indgange et sæt af allele tæller og en diskret kopi nummer tilstand for hver position i data. Et eksempel på input og output er vist i figur 2C. Målet er at forudsige, hvilke, ud af en fast antal genotyper (informeret af kopi nummer tilstand), ville være mest sandsynligt, at have givet anledning til de observerede allele tæller ved en given position. De allele tællinger er repræsenteret som antal læser i hver position, der svarer til reference, hvor
T
er det samlede antal positioner i input. Vi lader repræsenterer det samlede antal læser justeret til position
jeg
(eller dybden) i input. Vi introducerer som kopien nummer tilstand ved position
jeg
, og vi antager er kendt under kørslen. Teoretisk set kunne den fulde rum allel stater udledes med viden om absolutte antal kopier, men metoder til bestemmelse af absolutte antal kopier fra aCGH data forbliver problematisk og i praksis er det usandsynligt, at alle stater kunne løses selv med de nuværende prøveudtagning dybder NGS (se diskussion). Derfor til en første tilnærmelse, har vi defineret kopital tilstand, hvor TAB svarer til en deletion, neut er kopiantal neutral, GAIN tilnærmer til lavt niveau overlapning, AMP tilnærmer til lav mellemliggende forstærkning og HLAMP er en høj-niveau kopital amplifikation. Her bruger vi HMM-baserede metode beskrevet af [6]. De centrale intuition i Conan-SNV model er, at informerer staten rum af mulige genotyper ved position
jeg
som følger: (1) Loss segmenter analyseres med en neutral tilstand-rum, fordi de præsenterer udfordringer, der kræver overvejelser der er adskilt fra amplifikationer og faktisk kan endda kræve en gratis normal genom. Regnskab for kopi nummer gevinster er især vigtigt, når sådanne ændringer er allelspecifik, og når allel, der forstærkes er henvisningen allel. For eksempel overveje det tilfælde, hvor dette vil medføre en genotype tilstand rum. Vores model er derfor i teorien stand til at detektere varianter med allele fordelinger skæv væk fra heterozygositet (dvs.
aaaab
eller
abbbb
). Vi lader repræsenterer parameteren for binomialfordelingen, der koder den forventede andel af læser matcher referencesekvensen, for et givet kopital tilstand og genotype tilstand. Vi kan derfor udtrykke sandsynligheden for at observere antallet af henvisningen læser givet dybden, kopien nummer tilstand, genotypen og modelparametre som følger: (2) og derved antager, at der fordeles i henhold til staten-specifikke Binomialfordeling indekseret af genotype
og
kopi nummer. Vi koder også en kopi-nummer specifik før løbet genotyper, forudsat at genotyperne for kopi nummer state c fordeles efter en multinomial fordeling med parameter for alle, hvor er det samlede antal stillinger med kopi nummer tilstand. Vi bruger Bayes ‘regel til at beregne den bageste sandsynlighed for, at genotype
k
gav anledning til de observerede data med den udtrykkelige kodning af kopi nummer tilstand: (3) hvor er antallet af mulige genotyper for kopi nummer tilstand
c
(se ligning (1)). Givet, kan vi så vælge at beregne: hvor repræsenterer enhver variant genotype tilstand (dvs. enhver stat, der ikke er
aa
,
aaa
,
aaaa
mv som omstændighederne) til at repræsentere en enkelt sandsynlighed for, at en position koder en SNV.
a) Conan-SNV genotype state-space ekspansion vist skematisk. Som højere forstærkning er stødt på, er en større genotype state-plads, der kræves for at imødekomme de forskellige begivenheder, der kan opstå på grund af amplificeringer (eksempler i figur S1). B) Conan-SNV generative probabilistisk grafisk model. Cirkler repræsenterer stokastiske variable, og afrundede firkanter repræsenterer faste konstanter. Shaded noder angiver observerede data, såsom allele tæller, mens hvide knuder angiver mængder, der er udledt under træning selvom forventning maksimering. (. Defineret af HMM beskriver i Shah et al [6]) repræsenterer CNA tilstande af et segment, der spænder over position
i
; repræsenterer genotypen, som varierer afhængigt af CNA tilstand; er antallet af læser og er antallet af henvisningen læser; er forud eksisterende over genotyper og strækker sig til at rumme CNA hedder; og er genotypen-specifikke binomial parameter for genotype k i CNA tilstand Ci. C) Eksempel of Conan-SNV input og output. Conan-SNV tager allele tæller og så godt er data CNA segment som input, mens SNVMix kræver kun allele tæller. De samme positioner og tællinger tilvejebringes til begge algoritmer, med forskellige resultater. I nogle tilfælde vil Conan-SNV kalde en variant med en
aaaab
eller
AAAB
genotype, som ellers ville blive savnet af SNVMix; imidlertid også, Conan-SNV vil også genotype et positioner med
abbbb
snarere end
bb
(som SNVMix [21] ville), som giver mulighed for bedre fortolkning af begivenhederne.
Hyperpriors og hyperparametrene.
Vi antager fordeles efter et konjugat Dirichlet fordeling med parametre. Dette er en brugerdefineret parameter. I vores undersøgelse sætter vi for at favorisere ikke-variant stater da de fleste positioner i genomet vil være homozygote for referencesekvensen (dvs. vildtype). Vi antager fordeles efter et konjugat Beta fordeling med parametre. Vi indstilles ved hjælp af biologiske intuition at homozygote Referencepositionerne vil være næsten “ren”, med faldende andel i retning af homozygote variant positioner. Alle indstillinger hyperparameter er angivet i tabel S1.
Model montering og parameter estimering.
I betragtning af de frie modelparametre, vi kan viste, hvordan man bruger ligninger (3) og (4) at udlede for alle
jeg
i input-data. Som vi viste i [21], er det fordelagtigt at passe modellen til dataene ved brug forventning maksimering (EM) til at lære. For Conan-SNV, behandle vi data i hver kopi nummer tilstand separat og køre EM for hvert sæt af data uafhængigt (se metoder). Vi beskriver det kort her. Lad repræsentere det komplette sæt af positioner i inputdata annoteret med kopi nummer tilstand
c
. Iteration over kopi nummer stater, E-trin består af computing ved hjælp af ligning (3) for hver position, og de aktuelle skøn over. De M-trins re-estimater med standard konjugat opdatering: (5) (6) Algoritmen fortsætter, indtil de fuldstændige data log posterior ikke længere stiger eller et maksimalt antal iterationer er nået
Conan-SNV ydeevne. på simulerede data.
Vi simulerede cirka 1000 stillinger for hver kopi nummer stat at træne modellen og derefter evalueres præstation i 100 simulerede test sæt, som også fremhævede 1000 stillinger pr kopi nummer tilstand. Positioner blev simuleret i overensstemmelse med en binomial fordeling, hvor blev afledt af hyperparametrene beskrevet i tabel S1, med dybde simuleret fra en Poisson-fordeling. Fordelingen af genotyper i hver af de simulerede kopital stater blev tilfældigt udtaget prøver ifølge (også beregnet fra hyperparametrene). De gennemsnitlige AUC og 95% konfidensintervaller, sammen med følsomheden på tre forskellige falske positive sats værdier (0.01,0.05 og 0,1) blev beregnet for hver CNA-stat og er vist i tabel S2. Conan-SNV og SNVMix havde næsten identiske resultater i de forskellige kopi nummer stater, men Conan-SNV havde forbedret følsomhed i den højeste KN stat. For CN tilstand 5, ved falsk positive rate værdier på 0,01, 0,05 og 0,1, Conan havde en gennemsnitlig følsomhed på 0,77, 0,84 og 0,88 mens SNVMix havde følsomhed på 0,72, 0,78 og 0,82. Disse resultater var ikke statistisk signifikante, men de etablerer marginal forbedring of Conan-SNV i SNVMix uden tab af specificitet.
Eksperimentel validering af Conan-SNV model
For at bestemme sensitivitet og specificitet of Conan-SNV på virkelige tumordata, vi anvendt modellen til det metastatiske luftrør karcinom tidligere offentliggjort i [6] og senere genindført sekventeret alle de nye forudsigelser, som modellen til at fastslå dens nøjagtighed. Genomet blev segmenteret i adskilte CNA segmenter ved anvendelse af en skjult Markov-model som beskrevet i [6] og udviste en variabel CNA landskab. Som tidligere rapporteret, var 30,2% af genomet forudsiges som tab /neutral, 44,5% var gevinst, 19,1% amplifikation og 4,2% høj-niveau-amplifikation (se tabel S3). Kopien nummer profil var i overensstemmelse med data fra det stammer fra Affymetrix Snp6 genotype array (figur 1) bekræfter, at forudsagte regioner af kopital variationer ikke blev induceret af Illumina sekventering platform. Figur 1 viser kromosom 19 og fremhæver et eksempel på en somatisk højt niveau forstærkning på 19q arm, der også viser en skævhed i allel frekvens, væk fra heterozygositet, på grund af en allel-specifik kopital amplifikation. Både B-allel frekvens analyse i analysen array-data og allele-forhold i de NGS data understøtter en mono-allelisk amplifikation på 19q i dette genom. En re-analyse af genomet med Conan-SNV lavet i alt 61.643 SNV opkald i exoniske områder af genomet (NCBI bygge 36,1, Ensembl V51 anmærkninger); sammenlignet med 58,518 forudsigelser fra SNVMix [21] og 51.085 med samtools mpileup variant opkalds [22]. Figur 3 viser overlap mellem Conan-SNV, samtools og SNVMix forudsigelser. I alt 49,966 forudsigelser var fælles for alle tre metoder tyder rimelig samlet aftale. Men 2.857 forudsigelser var Conan-specifikke. I modsætning hertil kun 781 stillinger var specifikke for samtools og 64 var specifikke for SNVMix. Figur 3A viser overlapninger mellem Conan-SNV, samtools og SNVMix. Neutrale regioner husede 191 Conan-specifikke forudsigelser mens Gain, Forstærkning og High Level Amplifikationer husede 977, 589 og 1100 Conan-specifikke forudsigelser hhv. Interessant, Conan-SNV kaldte flere SNVs i neutrale stater sammenlignet med SNVMix trods deler en fælles ramme. Vi foreslår, at eksplicit hensyntagen til CNA’erne i uddannelse procedurer giver mulighed for bedre estimering af parametre, som ellers ville blive påvirket af allel skævhed i forstærkede områder (se metoder). SNVs i regioner af AMP i HLAMP kaldes af SNVMix og ikke af Conan-SNV havde lave dybder. Disse lave dybde sekvenser i regioner i AMP og HLAMP kan afspejle grænser opløsningen af kopien nummer algoritme. På sådan lav dybde binomial sandsynligheder, for det større antal allel-specifikke kopi nummer genotyper, overlapper derved stilles mere vægt på før kalde den endelige genotype (som forudindtaget mod homozygot henvisning genotype).
Adskillelse af CNA tilstand viser en berigelse af Conan-SNV specifikke forudsigelser i GAIN, AMP og HLAMP segmenter af genomet.
Figur 3A viser, at der var en betydelig berigelse of Conan-specifikke SNVs i CNA forstærkning stater. Fra den komplette liste af 2.857 Conan-specifikke forudsigelser, vi filtreret eventuelle holdninger der var til stede i dbSNP V130 og efterfølgende identificeret et sæt af 140 protein kodning, ikke-synonym substitution SNVs kandidater til validering af målrettet, ultra deep amplicon sekventering (vist skematisk i figur 4) i metastatiske og primær (fra ni år tidligere) tumor genom-DNA samt den normale buffy coat genom DNA fra den samme patient. I alt 52 SNVs kunne ikke løses på grund af PCR-amplikon fejl under validering, forlader 88 resterende til yderligere analyse. Tabel 1 viser 21/125 (23,9%) roman, kodning, ikke-synonyme somatiske mutationer, der blev godkendt af dyb amplikon sekventering. Af alle disse somatiske varianter, deres forudsagte genotyper var meget skæv i retning af referenceværdien allel og havde en mest sandsynlig genotype af aab, AAAB eller aaaab (tabel 1). Disse amplikoner genereret gennemsnit læser repræsenterer mutant allel i metastatisk genom (med en gennemsnitlig dybde på dækning af 96.669), mens den normale genom for amplikonnerne havde en gennemsnitlig mutant allel frekvens og en gennemsnitlig dybde på dækning af 71.963. Bemærk, at kun én somatisk mutation, K187M i ZNF607, et zinkfingerprotein putativt involveret i transskriptionel regulering, også blev bekræftet i den primære tumor. Dette understøtter konklusionen fra [6], at kun få mutationer til stede i metastatisk tumor var til stede i den primære ved diagnose, og dermed var kandidat førere af tumorigenese. Desuden har vi identificeret 42 (47,7%) germline varianter, hvor SNV var til stede i både den normale og metastatiske DNA. Endelig 20 (22,7%) positioner undladt at validere som SNVs og blev betragtet falsk positive forudsigelser. Fem positioner (5,68%) var ikke fyldestgørende, fordi forskellen i dybden af dækningen mellem de normale og metastatiske tumor valideringsdata var for stor til at drage konklusioner. En fuld oversigt over alle 140 stillinger findes i tabel S4. Den potentielle funktionelle konsekvenser af hver af de 21 somatiske mutationer blev vurderet ved hjælp MutationAssessor (https://mutationassessor.org), og er præsenteret i den supplerende materiale.
Sub-heterozygot allel overflod kan skyldes sub-dominerende populationer af celler eller ulige allel forstærkning i områder af kopi nummer aberration. For eksempel ville præferentiel kopital amplificering af en vildtype-allel resulterer i mindre end heterozygote forhold af en somatisk mutant allel. Især den gennemsnitlige overflod af de nye somatiske SNVs fra validering eksperimenter ovenfor, var med fire mutationer (påvirker gener
NCF2
,
IPO9
,
ZNF480
og
ZSCAN22
) udviser en andel på mindre end 10%. Uden hensyntagen til antal kopier status, sandsynligheden for en ikke-henvisning hændelsen ville blive ned-vægtet, hvilket fører til tab af følsomhed. Endvidere kunne germlinie allele nøgletal hjælpe bekræfte, om kopi nummer segment involveret overvejende mono-allel. Vi undersøgte de allele nøgletal for alle informative stillinger i CNA segmenter analyseres. Vi fandt sytten af de 42 valideret kønscellelinie varianter også udstillet betydelig allel skew, som fremhævet i tabel 2 (se metoder). Især germline varianter i positionerne CHR19: 40.691.038, CHR19: 42.074.256, CHR19: 50.869.860 og CHR19: 59.415.177 inden det høje niveau amplikon på CHR19 havde allele fordelinger i tumoren, der blev skæv væsentligt væk fra deres normale distribution (Chi Sq test,). Disse kimlinie SNPs er proksimalt for somatiske mutationer K187M i
ZNF607
, E24 * i
PRR19
, Q311 * i
ALDH16A1
, E16Q i
ZNF480
, V328M i
LILRA2
, og G348E i
ZSCAN22
. Den mest påholdende forklaring på disse resultater er, at somatiske mutationer var en senere hændelse, men det ikke vides, om de forekommer på en af de amplificerede kromosomer eller den resterende uforstærkede søster kromosom. En anden valideringsprocedure ville være forpligtet til at gøre denne slutning. Dette understøttes af yderligere 424 SNVs inden for de 19q højt amplicon (CHR19: 24.301.089-63.793.263 se tabel S5), der blev forudsagt at være enten aaaab eller abbbb af Conan-SNV, men blev ikke sendt til revalidering. Den berigelse af skæve
germlinie
alleler i områder af væsentlig kopi nummer ændring gør mulig forklaring på allel skævvridning af somatiske varianter i de samme områder som følge af tumor-normal blanding yderst usandsynligt. Endelig OncoSNP https://groups.google.co.uk/group/quantisnp/web/downloads-oncosnp algoritmen forudsagde en ubalanceret forstærkning spænder CHR19: 32.439.833-63.789.666 (figur S1) i de tilsvarende Affymetrix SNP 6.0 data. Dette segment blev forudsagt af OncoSNP at indeholde 638 varianter, og 591 varianter, støtte indgåelsen af en allel-specifik forstærkning i 19q. Interessant, allele hyppigheden af K187M i
ZNF607
, den eneste somatiske variant findes i den primære tumor (16,67%) blev konsekvent i metastatisk tumor (15,25%), hvilket tyder på, at de andre 19q mutationer forekom senere i tumor evolution.
Conan-SNV henter mere sande positive uden at kompromittere den samlede nøjagtighed.
Vi vurderede ydeevne ved at evaluere området under receiver operatør karakteristisk kurven (AUC) for Conan-SNV og SNVMix. De holdninger, der anvendes som jorden sandheden blev opnået fra en Affymetrix SNP 6,0 positioner genotypede hjælp CRLMM [23] og derudover med OncoSNP (se metoder). Selvom høj tillid CRLMM opkald havde tjent som tilstrækkeligt benchmark for SNVMix i [21], er det vigtigt at bemærke, at CRLMM påtager diploidi og dens opkald vil derfor blive beriget for heterozygote positioner, der nærmer forventede allele distributioner til diploide genomer. OncoSNP omvendt, udvider sin state-plads til genotyper induceret af CNA begivenheder og kan derfor fange allel-specifikke amplifikationer. Som tidligere bemærket, OncoSNP opkald var overensstemmende med NGS data og støttede, at idéen om, at kromosom 1 og 19 har allel-specifikke amplifikationer (tabel S6 og figur S1).
ROC resultater for OncoSNP tyder på, at Conan-SNV og SNVMix udføre ens, undtagen i regioner med høj-niveau amplifikationer (se figur 5). AUC for SNVs i regioner i GAIN var 0,998 for SNVMix og 0,999 for Conan-SNV. Til amplifikation og højt niveau forstærkning, AUC var (0,998, 0,999) og (0,991, 0,998) henholdsvis. Undersøgelse af fordelingen af opkald (tabel S7) vi bestemmer, at Conan-SNV kalder mere sande positiver generelt sammenlignet med SNVMi1, som også blev observeret i sættet simulation data, men er også underlagt kalde flere falske positiver. Nærheden af AUC målinger tyder på, at de falske positiver indført ved Conan-SNV ikke opvejer de ekstra sande positive hentet. ROC for HLAMP er meget forskellig fra de andre, på grund af SNPs nærede i allel-specifikke CNA regioner af kromosom 1 og 19, som ikke kunne påvises ved SNVMix.
CRLMM resultater er et benchmark for varianter, der er nemme at påvise ved SNVMix. Areal under ROC kurve beregninger viste, at Conan-SNV udfører på samme måde som SNVMix for disse positioner (figur S2). AUC for SNVs i regioner i GAIN var 0,979 for SNVMix og 0,975 for Conan-SNV. Til amplifikation og højt niveau forstærkning, AUC var (0,991, 0,990) og (0,911, 0,928) henholdsvis. Dette tyder på, at den øgede følsomhed opnås ved Conan-SNV ikke kompromitterer sin samlede nøjagtighed i forhold til SNVMix, som også blev demonstreret ved hjælp OncoSNP at vurdere resultaterne.
Conan-SNV ydeevne på en hvilende tumor.
Den genomiske landskab af en tumor varierer på tværs af forskellige typer kræft. Conan-SNV gælder for tumorer med rolige genom arkitekturer såvel som dem med mere forstyrret karyotyper; at demonstrere dette, vi evalueret Conan-SNV præstation i en lymfom tumor oprindeligt udgivet i Morin et al [24], hvor 71,9% af genomet blev forudsagt som tab /neutral, 22,1% var gevinst, 4,30% forstærkning og 1,67% på højt niveau forstærkning (se metoder). Vi brugte Conan-SNV, SNVMix samt samtools at profilere mutations landskab af lymfom tumor genom; hver metode fundet 62,162, 61.352 og 47,164 varianter (figur 3B). Til denne tumor, en omtrentlig 30 × dækning WGSS datasæt af den matchede normalt DNA var tilgængelig og tillader derved konstatering af somatiske mutationer direkte fra selve dataene. I alt 782 varianter var enestående til Conan-SNV, ellers var der stor enighed mellem alle tre metoder (Figur S4). Vi bruges mutationSeq software til at bestemme tilstedeværelsen af somatiske varianter (se fremgangsmåder). Dette gav 392, 365 og 228 somatiske mutationer for Conan-SNV, SNVMix og samtools (tabel S8). Af de 228 somatiske forudsigelser fra samtools blev 221 også fundet af Conan-SNV; og alle 365 somatiske forudsigelser fra SNVMix blev fundet af Conan-SNV (figur S4). Tilstedeværelsen af unikke somatiske varianter til Conan var næsten udelukkende i områder af kopi nummer GAIN (19/22).
Leave a Reply
Du skal være logget ind for at skrive en kommentar.