Abstrakte
Den seneste FDA godkendelse af MiSeqDx platformen giver en unik mulighed for at udvikle målrettede næste generation sekventering (NGS) paneler til human sygdom, herunder kræft. Vi har udviklet en skalerbar, målrettet panel-baseret assay betegnet UNCseq, der indebærer en NGS panel af over 200 cancerassocierede gener og en standardiseret downstream bioinformatik rørledning til påvisning af enkelt nukleotid-variationer (SNV) samt små insertioner og deletioner (Indel ). Derudover har vi udviklet en ny algoritme,
NGScopy
, designet til prøver med sparsom sekventering dækning til opdage store kopi nummer variationer (CNV), svarende til human SNP Array 6.0 samt lille skala intragenisk CNV . Samlet set vi anvendt denne analyse til 100 snap-frosne lungekræft prøver mangler samme patient kimlinie DNA (07-0120 væv kohorte) og valideret vores resultater mod Sanger sekventering, SNP Array, og vores nyligt offentliggjorte integreret DNA-seq /RNA-seq assay, UNCqeR, hvor RNA-seq af samme patient tumor prøver bekræftede SNV opdaget af DNA-seq, hvis RNA-seq dækning dybde var tilstrækkelig. Desuden har vi anvendt den UNCseq assay på en uafhængig lungekræft tumorvæv kollektion med tilgængelige samme ambulant kimlinie DNA (11-1115 væv kohorte) og bekræftede mutationer ved hjælp af analyser udført i et CLIA-certificeret laboratorium. Vi konkluderer, at UNCseq kan identificere SNV, Indel, og CNV i tumor prøver mangler kimlinie DNA i en omkostningseffektiv måde
Henvisning:. Zhao X, Wang A, Walter V, Patel NM, Eberhard DA, Hayward MC et al. (2015) Kombineret Målrettet DNA-sekventering i ikke-småcellet lungekræft (NSCLC) Brug UNCseq og NGScopy, og RNA sekventering Brug UNCqeR til påvisning af genetiske afvigelser i NSCLC. PLoS ONE 10 (6): e0129280. doi: 10,1371 /journal.pone.0129280
Academic Redaktør: Raffaele A. Calogero, University of Torino, Italien
Modtaget: Januar 13, 2015; Accepteret: 6 maj 2015; Udgivet 15. juni, 2015
Copyright: © 2015 Zhao et al. Dette er en åben adgang artiklen distribueres under betingelserne i Creative Commons Attribution License, som tillader ubegrænset brug, distribution og reproduktion i ethvert medie, forudsat den oprindelige forfatter og kilde krediteres
Data Tilgængelighed: Alle relevante data er inden for papir og dens Støtte Information filer
Finansiering:.. Støttet af NCI Cancer Clinical Investigator Team Leadership Award (SJM) og University Cancer Research Fund
Konkurrerende interesser: Margaret L. Gulley er rådgiver for Illumina, Inc. Dette ændrer ikke forfatternes overholdelse PLoS ONE politikker om datadeling og materialer.
Introduktion
Anvendelse af næste generation sequencing (NGS) til store -skala analyse af DNA-sekvens ændringer i humant væv, som kan være relateret til ætiopatogenese af sygdom, er ikke kun nyttig i grundlæggende naturvidenskabelige studier, men er nu en etableret laboratorium teknik, der anvendes i klinisk medicin, især til pleje af patienter med fjernt metastatisk cancer (revideret i [1]). Implementering af NGS som en standard klinisk laboratorium test er det næste logiske skridt efter FDA-godkendelse af flere første generation sekventering-baserede følgesvend diagnostiske tests i det seneste årti, der forfine anvendelsen af målrettede genvarianter til styring distinkte kræft undertyper. I overensstemmelse med FDA-godkendelse af MiSeqDx platform i november 2013 målrettet panel sekventering (TPS) er det næste skridt i retning af gennemførelsen overkommelige, lille skala, NGS-baserede laboratoriediagnoser [2].
FDA godkendelse af en generisk platform for NGS har tilskyndet enkelte laboratorier for at løse de iboende udfordringer forbundet med udviklingen af sådanne tests. Disse udfordringer omfatter skattespørgsmål, spørgsmål i metodologi og optimal bioinformatiske rørledninger, der tilbyder et fornuftigt kompromis mellem teknisk raffinement og tid effektivitet. Da de forskellige laboratorier behandle sådanne sager forskelligt, formidling af information om metoder og ydeevne af en bestemt NGS-baserede laboratorium analysen er et grundlag for diskussion og vurdering af styrker og svagheder ved det videnskabelige samfund.
I tråd med dette , et stigende antal rapporter om NGS-baserede laboratoriemetoder til at analysere kliniske tumor prøver af forskellige laboratorier til klinisk beslutning blev for nylig offentliggjort [1, 3-8]. På University of North Carolina i Chapel Hill (UNC-CH), udviklede vi en skalerbar NGS assay (UNCseq), der involverer TPS af DNA opnået fra tumor og matchet ikke-maligne prøver for et gen panel (ClinSeq) på over 200 kræft- tilknyttede gener, der blev udvalgt og opdaterede kvartalsvis af UNC udvalg for meddelelsen af Genetic forskningsresultater (CCGR). Desuden UNCseq udviklet en standardiseret nedstrøms bioinformatik rørledning, som i øjeblikket bruges til at bestille bekræftende tests for at rapportere klinisk “handlingsrettede ‘genetiske begivenheder til den behandlende læge under en Institutional Review Board (IRB) -godkendt undersøgelse (figur 1). I denne rapport, vi teste vores evne til at udføre Illumina HiSeq 2000 sekventering på DNA ekstraheret fra tumor prøver fra patienter med lungekræft, især den ikke-småcellet lungekræft (NSCLC) undertype. Desuden har vi opsummere vores erfaring i købet prøve, patolog-undersøgt tumor diagnose, dna-ekstraktion, NGS, og analytisk validering af genetiske resultater. Endelig giver vi vores erfaringer med anvendelsen af dette NGS-baserede assay i rapportering somatiske mutationer fra “den virkelige verden” prøver-både snap-frosset (SF) og formalin-fikseret og paraffin-indstøbt (FFPE) -til diagnostiske formål med validering af resulterer i en CLIA-certificeret laboratorium. Vi bekræftede, at TPS i en brønd kommenteret lungekræft kohorte er ikke kun en mere følsom metode end Sanger sekventering i SNV detektion, men også mere specifikt at identificere genetiske afvigelser i kendte cancerrelaterede gener med vigtige prognostiske og behandling implikationer. Ved at udføre dybe sekventering af cDNA fremstillet ud fra RNA (RNA-seq) i en undergruppe af disse prøver, vi også bekræftet flere SNV påvises ved sekventering af DNA (DNA-seq), afhængigt af dækningen dybde ved RNA-seq og mutanten allel frekvens (MAF) ved DNA-seq. Betragtning af, at matchet normal DNA kan ikke altid være til rådighed, giver vi systematisk sammenligning af SNV kalder algoritmer ved hjælp matchede kimcellelinje versus poolet normal DNA, og versus simpel tumor genotypning i en delmængde af disse prøver. Endelig præsenterer vi en ny algoritme,
NGScopy
(https://www.bioconductor.org/packages/release/bioc/html/NGScopy.html), for at opdage genom-dækkende CNV hjælp TPS data. Vi konkluderer, at vores NGS-baserede laboratorium analysen er følsom, men præcis, omkostningseffektiv, robust, og standardiseret, og letter downstream bioinformatik analyse for at vurdere SNV, Indel, og CNV i en tid-effektiv og klinisk effektfuld måde.
(a) UNCseq projektet er et initiativ, der involverer klinikere og patienter interesserede til at deltage i en ikke-terapeutisk klinisk forsøg udført gennem Lineberger Comprehensive Cancer center (IRB-godkendt protokol 11-1115), samt et tværfagligt team der involverer klinisk og forskning fakultet (medicinske onkologer, patologer, bioinformatikere, og molekylærbiologer) som genererer, kritisk vurdere og diskutere NGS data i relation til patienternes kliniske historie og se tidligere identificerede genetiske afvigelser at bestemme, hvilke er potentielt klinisk handlingsrettede og målrettet til nedstrøms validering ved hjælp validerede metoder i et CLIA-certificeret laboratorium. (B) Efter samtykke til 11-1115, tumorvæv og perifert blod er indsamlet fra kræftpatienter. Hematoxylin og eosin (H S1 Table]. Et sæt af genomiske region mål, der dækker alle exoner for hvert gen blev udviklet baseret på University of California i Santa Cruz (UCSC) Kendt Gene database [10, 11]. Regioner i de målrettede exoner til fange, blev udvidet til at omfatte 250 basepar (bp) af flankerende sekvenser i intron regioner omfattende dækning målrettede gener. Disse genomiske steder dannede grundlag for udformningen af 120 nukleotider (nt) biotinylerede capture oligoer for Agilent SureSelect fange ved hjælp af Agilent eArray webportal (https://earray.chem.agilent.com/suredesign/). Hvert sæt målrettede 3379 (ClinSeq v4), 3323 (ClinSeq v5) eller 5997 (ClinSeq v7) regioner spænder 2.231.841 bp til i alt 228 gener (ClinSeq v4), 3.451.622 bp til i alt 184 gener (ClinSeq V5) og 2.820.216 bp til i alt 248 gener (ClinSeq V7) (S1 Table). Capture af stregkodede-og-puljede eller unpooled biblioteker blev behandlet af Agilent SureSelect protokollen.
Før indgivelse for NGS blev DNA-biblioteker udsat for en tre-trins kvalitetskontrol protokol. DNA-koncentrationen blev målt under anvendelse af en qubit 2,0 fluorometer (Life Technologies, Grand Island, NY), blev DNA kvalitet vurderet ved anvendelse Agilents 2100 Bioanalyzer høj følsomhed DNA assay, og DNA størrelse blev bestemt ved Experion automatiseret elektroforese systemet (BioRad, Hercules, CA) . En normaliseret molaritet for hvert bibliotek blev derefter beregnet baseret på DNA størrelse og koncentration. Biblioteker blev samlet til at omfatte 2-8 prøver pr sekventering vognbane. Hver pulje blev fortyndet i 5:05, som pr Illumina CBOT Cluster Generation trin. Klynger blev derpå dannet ved anvendelse TruSeq SR Cluster Kit v.2 og blev fyldt i HiSeq 2000 sequencer (Illumina Inc., San Diego, CA). Sekventering ved syntese [12] blev udført ved hjælp af standard single-indekseret biblioteker på enten single-læse (07-0120) eller parret-end (11-1115) flow celler med 100 cykler (ClinSeq 1 x 100-bp eller 2 x 100- bp) og et indeks read ( »stregkode«) bestående af 7 cyklusser af sekventering under anvendelse af Illumina TruSeq SBS v.3 kemi. S2 Tabel opsummerer de vigtigste forskelle i prøve behandling og sekventering mellem 07-0120 og 11-1115 tumor væv kohorter.
DNA NGS dataanalyse Pipeline
Forbehandling, Pre-filtrering, Justering og filtrering .
dataanalyse pipeline er vist i figur 1. Ingen streng bias blev overvejet i nogen af de præ-behandlingstrin. Råsekvens aflæsninger blev analyseret under anvendelse af casava v.1.8 pakke (Illumina) til generering barcoded læser og blev rapporteret som FASTQ filer [13]. Hvis det er relevant, læser blev derefter udsat for kvalitet-filtrering og adapter-stripping bruge FASTX-Toolkit (https://hannonlab.cshl.edu/fastx_toolkit/index.html). Den Phred kvalitet score på basen ringer (CallQ) for hver nukleotid i en read var derefter undersøgt for at bestemme, om at trimme den læste i enderne, når et antal kontinuerlige nukleotider gennemsnit pr-basen CallQ ≤ 20, eller ≤ 99% nøjagtighed. Den rå sekvens læser i FASTQ filer blev derefter tilpasset til Genome reference Consortium menneskelige genom, bygge 37 (GRCh37, https://www.ncbi.nlm.nih.gov/assembly/GCF_000001405.13/), ved hjælp af enten Burrows- Wheeler Aligner [14] (BWA 0.6.2) til 07-0120 kohorten eller BWA-MEM (version 0.7.4) til 11-1115 kohorte. Læser blev derefter sorteret og indekseret ved hjælp SAMtools (0.1.19-44428cd) [15]. Lokale udretning og base kvalitet score rekalibrering blev udført ved hjælp af enten Genome Analysis Toolkit (GATK 2.6) og GATK ressource bundle (2,5) [16] i 07-0120 kohorte eller ABRA (0,46) [17] i 11-1115 kohorte. Standard parameterindstillinger blev brugt med værktøjer ovenfor. Kortlagt læser blev yderligere filtreret ved kortlægning kvalitet før nedstrøms analyse. Filtrering blev udført ved at pålægge et minimum Phred kvalitet score på read kortlægning (MapQ). Læser med lav kortlægning kvalitet (MapQ 5, dvs. 70% nøjagtighed) blev fjernet. Median og omtrentlig 95% konfidensinterval (ca.. 95% CI) blev beregnet for on target læser for hver tumor kohorte og for hver ClinSeq billedtekst version. Medianen af pr-prøven median RPKM (læser pr region kilobase per million målrettet læser kortlagt) [18] blev brugt til at beskrive den gennemsnitlige læser pr region.
Kvalitetskontrol.
Dybde, bredde dækning, og on-target rate blev beregnet i overensstemmelse med definitionerne skitseret i S1 Text.
Variant Calling.
på grund af den retrospektive prøvetagning af 07-0120 tumorvæv kohorte, DNA fra samme patient normale væv (f.eks perifert blod) var ikke tilgængelig til at udtrække germlinie DNA. For kontrol-DNA, vi i stedet sekventeret og samlet DNA, der blev udvundet fra 8 normale væv (6 lever og 2 livmoderen fra i alt 4 patienter) under lignende forhold og behandlingsprotokoller anvendes på dem, for DNA-seq af tumor prøver. Genetiske varianter blev kaldt af deepSNV [19]. SNV opkald fra vores assay blev yderligere raffineret ved hjælp af den forudgående viden fra en højt kurateret liste over 41 gener med 279 SNV og 91 InDel positioner, der er blevet brugt af OncoMap systemet (version 4, en ekspert kurateret kilde, som vi kalder ‘konservative’ liste ) [20] og COSMIC database (version 66) med anmærkning i kun lungekræft. Vi kalder det COSMIC listen ‘mindre-konservative “, som det består af 18,722 gener med 250.741 SNV og 4,949 InDel positioner; 265 ud af de 18,722 gener, der ikke har nogen genomisk koordinere information af varianterne blev udelukket [9]. Notatet alle gener og SNV /InDel holdninger OncoMap systemet er alle kommenteret i “mindre-konservative ‘liste, og derfor sidstnævnte også kaldet OncoMap plus COSMIC system.
For variant kald på 07-0120 tumor kohorte, vi definerede betydelig SNV ved at filtrere enkelte mutation opkald ved hjælp af “deepSNV ‘pakke med Bonferroni-justeret
s
-værdi ≤ 0,001, MAF ≥ 0,005, mutant allel læse count ( MAC) i tumor ≥ 5, og logaritmisk transformerede (log
2) odds ratio (OR) [21] af MAC enkelte tumorprøve versus puljen af normale prøver ≥ 4. med andre ord, odds for at kalde en SNV i hvert enkelt tumor prøve var ≥ 16 (dvs. 2
4) gange højere sammenlignet med den poolede normal. Vi valgte dette MAF tærskel, fordi det var mindst to gange højere end den tidligere rapporterede sekventering fejl på ca. 0,001-0,002 [22]. Med hensyn til MAC tærskel, vi vilkårligt indstille den til 5, hvilket er mere strikse end MAC 2, som tidligere blev rapporteret [23]. Filtreret SNVs blev kommenteret af ANOVAR (2014/07/14). For at forbedre tilliden til at kalde uovertruffen tumorer blev SNV yderligere raffineret ved hjælp af ‘konservative’ liste [24] samt den “mindre-konservative” liste.
Baseret på gen-wise sammenlægning af den betydelige SNV identificeret ovenfor blev hvert enkelt gen derefter testet under nulhypotesen at mutationen sats på tværs af genet er i overensstemmelse med baggrunden mutationsrate, for at opnå en
s
-værdi anvendelse af en konventionel binomialsandsynlighed model [25] for at justere mutationsrater for gen-længde. Endelig blev SMG rapporteret ved brug af betydelig grad af muterede gener for alle testede gener med falsk opdagelse sats (FDR) ≤ 0,05. Indel blev kaldt af VarScan (2.3.6) med standardindstillingen.
Variant kald af de 11-1115 tumor vævsprøver blev udført af den opdaterede version af den UNCseq pipeline (august 2014). Mere specifikt brugte vi Strelka somatiske variant der ringer (2013) med standardindstillinger [26] til at opdage både SNV og Indel med kvalitet snesevis af mindst 30 for begge, ANOVAR (version 2014/07/14) at anmærke fundne varianter og SAMtools /BCFtools (version 0.1.19-44428cd) for normal-fri variant opkald. At etablere en “nutidig pooled” normal DNA for denne tumorvæv kohorte, vi først genereret en “leave-one-out” samlet DNA bestående af alle sekventeret læser fra den tilgængelige kimlinie DNA 11-1115 kohorte, eksklusive matchede kimlinie DNA for den pågældende prøve. Med andre ord, for en given i’te tumorprøve, den poolede normal bestod af 23 normale prøver fra patient 1, 2, …, i-1, i + 1, …, n (n = 24). Som et andet trin, vi subsampled den samlede læser fra den poolede normal DNA for at reducere beregningstiden, og genererede en sammenlignelig størrelse af moderne bibliotek for optimal statistisk analyse. S2 Tabel opsummerer vigtige forskelle i bioinformatik analyse mellem 07-0120 og 11-1115 tumor væv kohorter.
Detection af Copy Number Variationer.
Vi beregnede kromosom-niveau kopi nummer variationer (CNV ) i 07-0120 tumorvæv kohorte hjælp read dybde. På grund af den iboende heterogene, afbrudt dækning af genomet af TPS, vi ansat en »begrænsning pålagt,” fleksibel vinduesystemet algoritme til at sikre en afbalanceret antal læser pr vindue på tværs af hele genomet i R /BioConductor pakke
NGScopy
(1.0.0). For at muliggøre påvisning af kopital i både målrettede og off-målrettede områder af genomet, som normalt har høj og lav dækning dybde henholdsvis off-target læser ( ‘baggrund viser’) blev anvendt som supplement til on target. To kriterier defineret således en fleksibel vindue. For det første at sikre selv varians samt passende antal læser pr vindue, læse dybde pr vindue i pooled normal kontrolprøve var ikke mindre end 20x per prøve. For det andet blev den minimale vinduesstørrelse holdes inden for et interval bestemt af dækning karakteristika, som i genomiske regioner med høj-læse densitet, anvendelsen af små vinduesstørrelser fører til en “savtak, ‘undersmoothened signal. Til denne undersøgelse er den mindste vinduesstørrelse anvendte 20 Kbp. Bibliotek størrelse-normaliseret læser pr vindue for både poolede normal kontrol og hver tumor prøve blev talt til at beregne tumor /normal log
2 kopiantals ratio (CNR) som den relative antal kopier. At tage højde for kopiantal neutralitet, normaliseret vi vores data pr tumor prøve ved centrering medianen af de relative kopiantal til nul over hele genomet. Direkte visualisering blev anvendt til at vurdere de strukturelle variationer over genomet. Endelig segmentering blev udført af en heterogen skjult Markov model, kaldet BioHMM [27], som blev tilpasset til NGS data.
For at beregne gen-niveau CNV i 07-0120 tumorvæv kohorte, vi brugte dybden af gen exon-specifik sekventeret læser med 1 bp opløsning. Vi vurderede den relative kopiantal, på samme måde som ovenfor, ved at beregne log
2-forhold af læse dybde pr-base af tumoren versus den poolede normal kontrol.
Validering af DNA NGS data ved RNA Sequencing .
Agilent strand-specifikt RNA med capture blev udført til forberedelse. RNA-sekventering (RNA-seq) hel-transkriptom analyse af en delmængde af tumorprøver fra 07-0120 tumorvæv kohorte blev udført på Illumina GAII som tidligere beskrevet [28, 29]. Den fulde 76-bp, single-enden aflæses blev først justeret til den humane henvisning genom (hg19) ved MapSplice [30]. SNV kaldt af DNA-seq blev efterfølgende valideret ved analyse af RNA-seq data ved hjælp af to uafhængige mutation kalder algoritmer: den SAMtools (mpileup kommando) /BCFtools [15] og vores nyligt offentliggjorte RNAseq-specifik mutation kalder metoden, UNCeqR [31].
DNA Non-NGS Analyser.
for 07-0120 tumorvæv kohorte, har vi tidligere udført Sanger sekventering ved hjælp af en DNA-analysator (ABI 3730xl, Applied Biosystems, Foster City, CA) for mutation afsløring af udvalgte exons af
KRAS
gen samt udvalgte exons af generne
BRAF
,
CDKN2A
,
EGFR
,
STK11
, og
TP53
. Derudover blev prøver fra 07 til 0120 kohorten underkastet analyse ved anvendelse af Genome-Wide Humant SNP Array 6.0 microarray (Affymetrix, Santa Clara, CA) til påvisning af CNV i en delmængde af vores lungekræft prøver [32]. SNP-array analyse for CNV blev udført ved hjælp af open source R pakke aroma.affymetrix udgave 2.5.0 (https://cran.r-project.org/web/packages/aroma.affymetrix) og DNACopy udgave 1.30.0 (http: //www.bioconductor.org/packages/release/bioc/html/DNAcopy.html) til databehandling og CNV analyse henholdsvis.
konfidensinterval for en Median.
Konfidensinterval ( CI) i gennemsnitligt blev beregnet som beskrevet tidligere [33].
Resultater
Clinicopathologic Karakteristik af de 07-0120 og 11-1115 patientprøver
tumorvæv fra 100 og 24 patienter med primær lungecancer blev inkluderet i analysen for 07-0120 og 11-1115 tumor væv kohorter, hhv. Clinicopathologic karakteristika for hver kohorte er vist i tabel 1. Målrettet panel indfangning ved hjælp ClinSeq version 4 og 5 blev udført i 64 og 36 af de 07-0120 SF prøver henholdsvis og ClinSeq version 7 blev påført alle 24 tumorprøver fra 11 -1115 tumorvæv kohorte. Poolet normal DNA var til rådighed til analyse af 07-0120 tumor kohorte, mens matchede kimlinie DNA var til rådighed for 11-1115 tumor kohorte. S1 Tabel viser listen over gener, hvis exons blev sekventeret som en del af ClinSeq versioner 4, 5 og 7.
Bioinformatik Analyse af 07-0120 Patient Prøver
Vi opnåede en alt 2100991292 læser fra alle 64 prøver, som blev sekventeret ved anvendelse af ClinSeq version 4, og 591.549.582 læser fra alle 36 prøver, som blev sekventeret ved anvendelse af ClinSeq udgave 5. alle prøver har bestået kvalitetskontrol under anvendelse af FASTX-Toolkit. 93,96 ± 0,85% af disse læsninger blev entydigt kortlagt til referencen genomet med MapQ ≥ 5, dvs. 1985916272 (94,5%) og 551.493.714 (93,2%) for ClinSeq 4 og 5, hhv. Det mediane antal entydigt kortlagt (mapQ ≥ 5) læser per prøve var 18.171.425 (ca.. 95CI 16,442,697-27,015,601) og 14.350.546 (ca.. 95CI, 13,786,985-15,363,758) for prøver sekventeret i ClinSeq version 4 og 5, henholdsvis. Vi var i stand til at hente 71,6% (median;. Ca. 95CI, 70,9% -72,5%) og 30,6% (median;. Ca. 95CI, 29,9-31,4%) baser på-mål med vores målrettede panel capture strategi for ClinSeq version 4 og 5, henholdsvis. Skiftet fra ClinSeq version 4 til 5 blev forbundet med flere ændringer, herunder ad hoc design af primere ved efterforskerne, i modsætning til sælgeren (Agilent), samt nye genomiske regioner af interesse, hvis fangsteffektivitet og evne til let at sekvens var tvivlsom. Medianen af pr-prøve median RPKM var 452 (cirka. 95CI, 448-458) og 446 (ca.. 95CI, 440-454) for prøver sekventeret ved hjælp af ClinSeq version 4 og 5, hhv. SNV /Indel analyse var begrænset til de delte DNA regioner ClinSeq versioner 4 og 5, 1,190,667 baser per prøve, eller 168 gener, til sammenligning blandt prøver. For kopi nummer analyse blev hele genomet overvejes, enten on target eller ej.
En fælles strategi for at overvinde den iboende høje fejlprocent på NGS instrumenter og sikre den passende dækning af begge alleler for hver variant websted eller eksistensen af flere kloner er at ideelt sekvens individuelle genomer til 20-30x dækning dybde [34]. Sådan dækning dybde er tilstrækkelig til en normalt væv, en genetisk homogen cancervæv, såsom cancercellelinier eller tumorvæv med minimal stromale “kontaminering”, men ikke for tumorvæv med varierende grad af cellulær og /eller molekylær heterogenitet (dvs. subkloner af varierende genotype) (Fig 1). En nylig undersøgelse viste, at en 30x dækning dybde var tilstrækkelige til en omtrentlig 90% følsomhed over for ringe mutationer ved allel fraktioner af ≥ 0,2 [35]. For sidstnævnte tilfælde er mindst 50x dækning dybde almindeligt anvendt til at kalde enkelt nukleotid eller andre genetiske varianter.
At etablere den optimale balance mellem omkostninger og dækning dybde for vores TPS strategi, vi sekventeret 2 (n = 24 prøver), 4 (n = 4), eller 8 prøver (n = 72) pr flowcelle lane. Som vist i figur 2, blev et mål samlede dækning dybde på 50x nået, når op til 8 prøver pr lane blev fyldt. De gennemsnitlige procentdele af baser on target med ikke mindre end 50x dækning dybde i 2, 4 og 8 prøver pr bane er 98%, 95%, 93%, henholdsvis; og 97%, 92%, 86%, henholdsvis for ikke mindre end 100x dybde. Vi konkluderer, at 8 prøver pr bane tilstrækkelig omkostnings- og tid-effektiv dækning (50x) under vores TPS strategi.
Vist for hver tumor eksemplar er den procentdel af målrettede baser dækket på given dækning dybde (1x, 20x , 50x, 100x) og sekventeret under forskellige lane indstillinger i HiSeq 2000 instrument (2, 4 og 8 DNA-biblioteker pr bane, Lib /Ln).
Sammenligning i SNV Opkald Mellem NGS og Sanger sekventering i 07-0120 Patient prøver
for at vurdere, om NGS er mindst lige så følsom som Sanger sekventering i SNV kalder for kendte mutation hotspots, vi sammenlignet resultater for detektering af
KRAS
hot-spot SNV mellem de to sekventering platforme. Vi valgte
KRAS
for denne undersøgelse, fordi de bærer indiskutabel hotspot somatisk SNV for lungekræft i codon 12 og 13, som tidligere er blevet godt identificeret [36, 37]. Som vist i figur 3, panel A og B, ved hjælp af vores NGS pipeline, vi har registreret alle 8 hotspot SNV identificeret ved Sanger sekventering. Desuden blev otte ekstra hotspot SNV ikke identificeret af Sanger sekventering også kaldt af vores NGS pipeline. Som vist i figur 3, panel C, hverken lav NGS dækning eller lav tumor renhed var forskellig mellem 8 aftalt og de 8 afvigende tilfælde ved NGS og Sanger sekventering (
s
-værdi 0,1, tosidet Wilcoxon test). I forhold til Sanger sekventering, NGS var i stand til at opdage de
KRAS
mutant alleler med væsentligt lavere MAF (
s
-værdi = 0,0006, tosidet Wilcoxon test, Fig 3, panel C). Interessant nok MAF af 4 afvigende tilfælde (ID: 30, 65, 72, 60) ligger under, men tæt på 0,20, hvilket betyder, at Sander sekventering er mindre følsom til at påvise SNV med MAF ≤ 0,20, i overensstemmelse med tidligere rapporter [38]. MAF af de andre 4 afvigende tilfælde (ID: 97,56,38,70) er tæt på 0,05 eller derunder, hvilket indikerer NGS var i stand til at indfange SNV med meget lav MAF
(A) Sequencing kromatogrammer (. Finch TV trace seeren v1.4.0) opnået fra to eksempler tumor væv viser konkordans (prøve 24) eller uoverensstemmelse (prøve 38) i
KRAS
SNV kald. (B) SNV anløber hot-spot loci i
KRAS
codon 12 og 13 for alle 16 tumorer ved hjælp en af de to sekventering strategier. Opkald ved Sanger og NGS er farvet i orange og blå, hhv. Opkald fra begge platforme er farvet i halve appelsin og halv blå. NGS dækning dybde, renhed og MAF er også vist. (C) Boxplots af MAF, tumor renhed, og dækning dybde mellem disharmoniske og overensstemmende SNV opkald er vist (
s
-værdi = 0,0006, tosidet Wilcoxon test).
for at vurdere følsomheden af vores NGS SNV kalder algoritme, vi fokuseret på den første kodning exon af
KRAS (RefGene ID
:
NM_033360)
. Dette 111-bp DNA-region (
chr12
:
25
,
398
,
208-25
,
398
,
318
) indeholder de 6-bp positioner svarende til de hotspot steder i codon 12 og 13 (
chr12
:
25
,
398
,
280-25
,
398
,
285
). Af de resterende 105 bp, er der 52-bp positioner med varianter kommenteret af OncoMap plus COSMIC system eller dbSNP, og 53-bp positioner uden varianter kommenteret af enten OncoMap plus COSMIC system eller dbSNP [39]. PCR, polymerasekædereaktion;
Leave a Reply
Du skal være logget ind for at skrive en kommentar.