PLoS ONE: Høj nøjagtighed Mutation Detection i Leukæmi på et udvalgt panel af kræft gener

Abstrakte

Med fremkomsten af ​​hel-genom og hel-exome sekventering, er af høj kvalitet kataloger over gentagne muterede cancer gener bliver tilgængelige for mange kræftformer. Øget adgang til sekventering teknologi, herunder bench-top sequencere, giver mulighed for at re-sekvens et begrænset sæt af cancer gener på tværs af en patient kohorte med begrænset behandlingstid. Her har vi igen sekventeret et sæt kræft gener i T-celle akut lymfoblastær leukæmi (T-ALL) bruger NimbleGen sekvens capture kombineret med Roche /454-teknologi. Først undersøgte vi, hvordan en maksimal følsomhed og specificitet mutation afsløring kan opnås gennem en benchmark undersøgelse. Vi testede ni kombinationer af forskellige kortlægning og variant-kald metoder, varieret varianten kalder parametre, og sammenlignet de forudsagte mutationer med en stor uafhængig validering sæt opnået ved kapillær re-sekventering. Vi fandt, at kombinationen af ​​to kortlægning algoritmer, nemlig

BWA-SW

SSAHA2

, kombineret med varianten kalde algoritmen

Atlas-SNP2

giver den højeste følsomhed (95 %) og den højeste specificitet (93%). Dernæst vi anvendt denne analyse rørledning til at identificere mutationer i et sæt af 58 cancer-gener, i et panel af 18 T-ALL cellelinier og 15 T-ALL patientprøver. Vi bekræftede mutationer i kendte T-ALL chauffører, herunder PHF6, NF1, FBXW7, NOTCH1, KRAS, nationale tilsynsmyndigheder, PIK3CA, og PTEN. Interessant, vi også fundet mutationer i flere cancer-gener, der ikke havde været forbundet med T-ALL før, herunder JAK3. Endelig har vi re-sekventeret et lille sæt af 39 kandidatgener og identificeret tilbagevendende mutationer i TET1, SPRY3 og SPRY4. Afslutningsvis vi etableret en optimeret analyse rørledning til Roche /454 data, der kan anvendes til præcist afsløre genmutationer i kræft, som førte til identifikationen af ​​flere nye kandidat T-ALL driver mutationer

Henvisning:. Kalender Atak Z, De Keersmaecker K, Gianfelici V, Geerdens E, Vandepoel R, Pauwels D, et al. (2012) High Accuracy Mutation Detection i Leukæmi på et udvalgt panel af kræft gener. PLoS ONE 7 (6): e38463. doi: 10,1371 /journal.pone.0038463

Redaktør: Jörg D. Hoheisel, Deutsches Krebsforschungszentrum, Tyskland

Modtaget: December 28, 2011; Accepteret: 5 maj 2012; Udgivet: 4 juni 2012

Copyright: © 2012 Kalender Atak et al. Dette er en åben adgang artiklen distribueres under betingelserne i Creative Commons Attribution License, som tillader ubegrænset brug, distribution og reproduktion i ethvert medie, forudsat den oprindelige forfatter og kilde krediteres

Finansiering:. Dette arbejde blev støttet af den belgiske føderale regering (Kræftplan – Translationel Research), KU Leuven (give GOA /11/010 til J. Cools og PV, give PF /10/016 SymBioSys til J. Cools og SA), Fonden Against Kræft (tilskud 2010-154 til SA), den FWO-Vlaanderen (G.0287.07, J. Cools), og det Europæiske Forskningsråd (ERC-start tilskud til J. Cools). KDK er en postdoc forsker finansieret af FWO-Vlaanderen, PV er en Senior Clinical Investigator understøttes af FWO-Vlaanderen, DP og MP er finansieret af Agentschap voor Innovatie dør Wetenschap en Technologie. De finansieringskilder havde ingen rolle i studie design, indsamling og analyse af data, beslutning om at offentliggøre, eller forberedelse af manuskriptet

Konkurrerende interesser:. Tilknytningen af ​​WDG og HQ til Deutsche Sammlung von Mikroorganismen und Zellkulturen GmbH ændrer ikke forfatternes tilslutning til alle de PLoS ONE politikker på datadeling og materialer.

Introduktion

Næste generation sequencing (NGS) teknologier har væsentligt forbedret vores sekventering kapacitet i de seneste fem år. De er nu almindeligt anvendt til forskningsformål og er begyndt at finde vej til kliniske anvendelser. Selvom hele genomet og hele exome sekventering tilgange succesfuldt implementeres til kortlægning de genomiske landskaber i mange humane sygdomme, er de ikke rutinemæssige strategier til påvisning af molekylære afvigelser på grund af høje omkostninger og lange omsætning gange (køre og analyse gange). Målrettet re-sekventering, på den anden side, er tiltalende i et klinisk miljø, på grund af de lavere sekventering omkostninger, kortere sekventering tid og enklere dataanalyse. Da opdagelsen af ​​nye cancer gener ved hel-exome sekventering gradvist vil mætte og konvergerer til et sæt af almindeligt muterede gener i en bestemt cancer, kan identifikationen af ​​disse mutationer give vigtig diagnostisk og prognostisk information.

på trods af kravet om flere dage for bibliotek forberedelse og target berigelse for alle disse platforme, Roche /454 teknologi giver fordelene ved korte køre tider og dataanalyse tid. Hertil kommer, at mere begrænset data output er også gavnligt for ekspeditionstid fordi færre patientprøver skal indsamles til at fylde en hel sekventering køre. Baseret på disse fordele ved 454-platformen til sekventering relativt små gen-sæt, investerede vi i at optimere bioinformatik pipelines for læse kortlægning og variant kald 454 læser, med det formål for at anvende denne både for forskning samt til kliniske formål. Vi fokuserede på T-celle akut lymfoblastisk leukæmi (T-ALL), en aggressiv hæmatopoietisk cancer forårsaget af malign transformation udviklingslande T-celler [1]. Et sæt af 97 gener blev udvalgt til målrettet sekventering. Sættet bestod af 58 cancer gener [2] og 39 kandidatgener herunder tyrosinkinase og phosphotase kodning gener, kromatin modifikatorer, og flere gener, der tilhører de familier kendte kræft driver gener såsom TET1-TET3 eller PIK3CB-PIK3CD-PIK3CG.

For nøjagtig variant påvisning, vi undersøgte flere eksisterende analyse rørledninger og sammenlignet deres præstationer. Selv følgesvend software gsMapper er almindeligt anvendt i analysen af ​​454 data [3], [4], [5], diverse alternative kortlægning og variant ringer algoritmer er blevet udviklet, såsom BWA-SW [6] og SSAHA2 [7] , BLAT [8] til kortlægning, og SAMTools [9], VarScan [10], og Atlas-SNP2 [11] for variant kald. Li et al [6] revideret de lange læste aligners, og Shen et al [11] revideret variant opkaldere imidlertid så vidt vi ved, ingen sammenligning er udført på kombinationen af ​​kortlægning og variante ringer algoritmer i forbindelse med mutation opdagelse .

Her har vi analyseret og sammenlignet ni forskellige kombinationer af en kortlægning og variant kalder algoritmer og især undersøgt, i hvilket omfang lave dækning positioner kan indgå i variationen kalder processen for at øge følsomheden af ​​mutation afsløring. Dernæst gælder vi den optimerede rørledning til at identificere mutationer i et sæt af 58 cancer-gener og 39 kandidatgener, på tværs 18 T-ALL cellelinier og 15 T-ALL patientprøver, og identificere tilbagevendende mutationer i både kendte og hidtil ukendte drivere.

Resultater

Sammenligning af mapping og Variation Calling Metoder til Roche /454 data

Roche følgesvend software

gsMapper

bruges oftest til analyse af Roche /454 data. Denne software først justerer læser til referencen genom og derefter viser alle positioner, der er forskellige fra henvisningen genom (variant kald). Selvom

gsMapper

klaret sig godt i flere undersøgelser [3], [4], [5], ønskede vi at vurdere sine resultater på vores datasæt og undersøge, om vi kunne opnå bedre præcision og nøjagtighed ved hjælp af alternative aligners og variant opkaldere. Vi testede otte forskellige kombinationer af en lang læse aligner (BWA-SW, SSAHA2, BLAT) og en variant, der ringer (SAMTools, VarScan, Atlas-SNP2) og sammenlignet deres resultater med

gsMapper

.

hver rørledning blev påført på læser opnået fra syv T-ALL cellelinier og ydeevnen af ​​hver rørledning blev evalueret ved Sanger re-sekventering af 210 kandidat varianter, blev tilfældigt udtaget fra alle forudsagte 8020 varianter (indeholdende både SNP’er og mutationer) fra alle rørledninger. Som et mål for effektiviteten af ​​hver rørledning, vi beregnet Matthews korrelationskoefficienten (MCC), der er et mål for forudsigelse nøjagtighed, der beregnes på grundlag af antallet af held forudsagt sande positive og sande negativer fundet af Sanger sekventering (se Materialer og Metoder). Ved brug af standardindstillinger parameter (tabel S1), udførelsen af ​​de forskellige rørledninger var sammenlignelig med en gennemsnitlig MCC på 0,62, med noget alternativ rørledning klarer sig bedre end gsMapper (MCC på 0,82) (tabel S1).

i NGS undersøgelser, læser tilstedeværelsen af ​​to eksemplarer (forårsaget af en PCR-amplifikation trin under biblioteket forberedelse) er en potentiel kilde til falsk positive enkelt nukleotid variant (SNV) forudsigelse [12]. Derfor har vi tilføjet en ekstra skridt for at fjerne dublerede læser bruger Picard, hvilket resulterer i en stigning i MCC 2-24%, afhængig af rørledningen, med en gennemsnitlig MCC på 0,73 (tabel S1). Dette viste, at to eksemplarer fjernelse er et vigtigt skridt for at opnå korrekte variant opkald.

Dernæst vi yderligere optimeret ydeevne hver rørledning ved at variere minimalt krævede antal læser (dybde af dækning, DoC) og den minimale påkrævede variant læser (variant allel frekvens, VAF). Ændringer i dok tærskler primært påvirket følsomheden, mens tærskler varierende VAF påvirket forudsigelser i form af specificitet (figur 1 A, tabel S2). Alle rørledningerne nåede deres bedste præstation med en DoC grænse på 3, og med et minimum VAF grænse på 0,20 (hvis relevant) (tabel S1-S2). I et sidste forsøg på at minimere falsk positive forudsigelser, vi kombineret de to bedste kortlægning algoritmer i en rørledning, hvilket yderligere øgede følsomhed over for 95% og specificiteten til 93%. Årsagen til denne stigning i nøjagtighed er, at visse forudsagte varianter der er forårsaget af fejlagtig kortlægning (figur S1) nu filtreres ud. Selv om denne sidste rørledning (SSAHA2 + BWA-SW + Atlas-SNP2) præsterer bedre end

gsMapper

(91,2% sensitivitet og 90,8% specificitet), er forskellen ikke stor og

gsMapper

kan betragtes som en gyldig (og ofte let at bruge) alternativ (figur 1.B).

(a) forskellige rørledninger vise forskellige følsomhed og specificitet. Varierende DoC og VAF tærskelværdier i varianten kaldende proces har en ekstra effekt på de forudsigelser i form af sensitivitet og specificitet, hhv. Hver rørledning er repræsenteret med et andet symbol og udførelsen af ​​hver rørledning (i form af sensitivitet og specificitet) er afbildet under varierende DoC og VAF tærskler. Bemærk, at X-aksen repræsenterer falske positiver (1-specificitet). I denne ROC plot, jo tættere det punkt til det øverste venstre punkt på grafen, jo bedre følsomhed og specificitet. Forskellige farver af symboler angiver ydeevnen af ​​rørledningen under skiftende tærskler VAF, og de to skraverede felter angiver ydeevnen under skiftende DoC tærskler. Plottet viser, at (i) aftagende tærskel DoC øger følsomheden af ​​alle rørledninger som angivet med den blå stiplede linje; (Ii) at øge VAF tærsklen øger specificitet med et mindre fald i følsomhed som angivet (i eksemplet med BLAT + VarScan rørledning) med den røde stiplede linje; (Iii) BWA-SW + SSAHA2 + Atlas-SNP2 rørledning har den bedste ydelse blandt alle rørledninger under DoC = 3 VAF = 0,20 tærskler, som angivet med den gule pil. Roche pipeline er angivet med en sort diamant form, da der ikke parameterændringer blev udført på det, og SSAHA2 + SAMTools og BWA-SW + SAMTools pipelines blev farvet grå, da der ikke VAF tærskelværdier ændringer blev udført på dem. (B) The Matthews korrelationskoefficienten for hver rørledning er vist for den mest optimale ydelse af denne rørledning (tabel S1). Det er interessant at bemærke, at den optimale ydeevne af alle rørledninger, undtagen Roche gsMapper, blev observeret for en DoC grænse på 3.

Udbredt Mutationer i Cancer Gener Across 18 T-ALL cellelinier og 15 T-ALL Patient prøver

Vi anvendte den optimerede rørledning fastlagt ovenfor, som består af SSAHA2 + BWA-SW kombination for læse kortlægning, og Atlas-SNP2 variation ringer, til at identificere mutationer i et panel af 58 “kræft gener “på tværs 18 T-ALL cellelinjer og 15 primære T-ALL patientprøver. Dette sæt af gener består af 13 T-ALL drivere (Figur 2.A.I) og 45 andre gener involveret i en række forskellige cancere (fig 2.A.II). Alle disse gener er til stede i Census [2] database af cancer-gener bortset fra de nyligt opdagede cancer gener ATOH1 og PHF6 [13], [14]. Da PHF6 mutationer er involveret i T-ALL vi tilføjet PHF6 til vores liste af T-ALL chauffører.

Kodning mutationer i kendte cancer gener (A) og kandidatgener (B) er angivet med forskellige farvekoder. Panel A er desuden opdelt i (I) gener, der vides at være bilister i T-ALL, og (II) generne, der har tilbagevendende somatiske mutationer i forskellige humane cancere. Cellelinierne er placeret til venstre i tabellen, og patienten prøver er placeret til højre. Gener er rangeret efter hyppigheden af ​​protein ændre mutationer i patientprøver.

Sequence læser blev kortlagt til hele henvisning genom og de læser, at kortet til de udvalgte gener blev bevaret. Dette resulterede i 36% af læser dette kort til målsekvenser i gennemsnit, med en gennemsnitlig dækning af 24.2X og 16.3X for cellelinjer og patientprøver, hhv. Analyse af sekvensdata viste, at exoner med en meget lav dækning havde en signifikant højere GC-indhold sammenlignet med exoner med større dækning (p-værdi 2.2E-16), en konstatering konsistent med en tidligere offentliggjort undersøgelse [15] (figur S2 ). Af de 1565 exoner målrettet i denne undersøgelse, 18 exoner havde ingen dækning i cellelinjerne eller i de patientprøver (svarende til 8710 bps); og 15 exons havde ingen dækning i patientprøver kun (svarende til 5197 bps). I gennemsnit 94% og 86% af de målrettede exons nåede en gennemsnitlig dækning lig med eller over 3 for cellelinjer og patienten prøver henholdsvis.

Variation kaldelse resulteret i 836 forskellige enkelt nukleotid varianter (SNVs) i kendte cancer-gener på tværs af de 33 prøver. Cellelinjer havde signifikant flere SNVs i kræft gener end patientprøver (p-værdi 0,001); i gennemsnit blev fundet 153 SNVs per celle linje og 117 per patient prøve. 56% af de forudsagte SNVs blev rapporteret i dbSNP (https://www.ncbi.nlm.nih.gov/projects/SNP/) eller i genomerne projektet 1000 (https://www.1000genomes.org/) og var udelukket fra yderligere analyse, mens de resterende 368 SNVs (tabel S3) påvirkede 55 af de 58 sekventerede cancer gener, primært i exons (58,4%) og i uoversatte regioner (23,9%). Endvidere var der 8 SNVs påvirker splejsningssteder. Af de exoniske SNVs, 14 resultat i gevinsten af ​​et stop codon (kaldet “stop vinde” SNVs), 140 er ikke-synonyme og de resterende 61 er synonyme kodning variationer.

For at validere mutationerne fundet i celle linjer, vi sammenlignet vores resultater med mutationer bestemt af Cancer Cell Linje projektet [16], som indeholder elleve af vores 18 cellelinjer. Af de 35 onkogene punktmutationer fundet i Cancer Cell line projekt (bestemt ved kapillær sekventering) i de gener, der er inkluderet i vores panel, 31 blev inddrevet af automatiserede re-sekventering på Roche /454 ved hjælp af SSAHA2 + BWA-SW + Atlas -SNP2 analyse rørledning, svarende til en recovery rate på 88,5% (tabel S4). Bemærk, at gsMapper genvundet 30 mutationer ud af 35, hvilket resulterer i en recovery rate på 85,7%. De mutationer, der blev nået Roche /454 sekventering er enten på grund af lav dækning i de positioner (i to af de fire ubesvarede mutationer, både i NOTCH1), eller til lav variant kvalitet (en TP53 mutation), eller til sekventeringsfejl (en NOTCH1 mutation er dækket af 10 læser, hvoraf ingen indeholder varianten allel rapporteret af Cancer Cell linje projekt). Med hensyn til specificitet, begge rørledninger klaret sig godt, for eksempel på FBXW7 genet for som vi finder et protein ændre punkt mutation i nøjagtig de samme fem cellelinier som kræftcellen linje projekt (ud af de elleve fælles cellelinjer). Konklusionen er, at automatiske re-sekventering ved hjælp Roche /454, med enten gsMapper rørledning eller SSAHA2 + BWA-SW + Atlas-SNP2 rørledning, er i meget høj grad i overensstemmelse med mutationer fundet af kapillær sekventering.

Tretten af ​​de 58 cancer gener er blevet specifikt knyttet til T-ALL, og vi identificeret protein ændring mutationer i mindst et af disse gener i alle cellelinjer og i 10 patientprøver (Figur 2.AI). Af de øvrige 45 cancer gener, blev 36 gener muteret (figur 2.A.II), hvoraf 25 blev muteret i mindst to prøver (cellelinje eller patient). Generne med de fleste mutationer i T-ALL cellelinjer er NOTCH1 (ikke-synonym mutation i 9/18 cellelinjer), TP53 (10/18), FBXW7 (7/18), og de nationale tilsynsmyndigheder (5/18). Disse har også mutationer i patientprøver, undtagen TP53, hvilket tyder på, at det kan være lettere at opnå cellelinjer fra prøver med TP53 mutation eller at TP53 mutationer er erhvervet under cellekultur [17].

Identifikation af tilbagevendende JAK3 mutationer i T-ALL

Vi næste bestemmes, hvis mutationer i kræft gener kunne identificeres der ikke tidligere er knyttet til T-ALL. Vi fandt flere sådanne mutationer i T-ALL cellelinier (figur 2.A.II), men deres fravær i patientprøver spørgsmålstegn deres relevans for patogenesen af ​​T-ALL.

Vi identificerede flere mutationer i JAK2 og JAK3 i begge cellelinier og patientprøver. Alle JAK kinaser, bortset Tyk2 (se nedenfor), er kendte onkogener i leukæmi og aktiverende mutationer og omplantning påvirker JAK1, blev JAK2 og JAK3 beskrevet i multiple, hovedsagelig myeloid, hæmatologiske maligniteter [18]. Indtil for nylig, JAK1 var den eneste JAK familiemedlem i hvilken punktmutationer er blevet beskrevet i T-ALL [19]. Men i en nylig artikel JAK3 gain-of-funktion mutationer blev beskrevet i T-ALL af Elliott et al. [20]. I vores undersøgelse har vi identificeret 3 ikke-synonyme kodende mutationer i 2 patienter for JAK2 (patient TLE37 havde to mutationer) og 4 ikke-synonyme kodende mutationer i 1 patient og 2 cellelinjer (SupT1 cellelinie havde to mutationer) for JAK3. (Tabel S3). Sanger sekventering bekræftede en JAK2 og alle JAK3 variationer (tabel S5, Figur 3.A-B). Supplerende Sanger sekventering af alle exons i JAK2 og JAK3 gener i 31 yderligere T-ALL-patienter identificeret en ekstra JAK2 variant og 2 ekstra JAK3 varianter (tabel S5, Figur 3.A-B). Så i alt identificerede vi JAK2 mutationer i 2 af 46 (4%) T-alle prøver og i 0 af 18 T-ALL cellelinier og JAK3 mutationer i 2 af 46 (4%) T-ALL prøver og i 2 af 18 T-ALL cellelinjer (tabel S5, figur 3.AB). For JAK2 begge mutationer var også til stede i en tilsvarende remission prøve, hvorimod alle JAK3 patient mutationer somatisk blev erhvervet. Interessant nok viste patient TLE44 2 somatiske mutationer i JAK3, nemlig A572T og M511I, der blev påvist på samme allel (data ikke vist). Desuden er fundet M511I mutationen før i AML og overekspression af denne mutant forvandlet IL3 afhængige 32D celler og induceret T-ALL i mus [21]. Henviser A572T mutationen ikke blev beskrevet før, blev JAK3 aminosyre A572 fundet muteret til en V (A572V-mutation) i T-celle-leukæmi, T-celle lymfom og AML, og dette A572V mutant transformeret cytokin afhængige hæmatopoietiske celler og induceret leukæmi i mus [21], [22], [23], [24].

(A) Sanger sekventering kromatogrammer, der svarer til bekræftede JAK2 /JAK3 varianter. (B) Domæne struktur JAK2 og JAK3 proteiner med angivelse af romanen opdaget varianter. Ikke-somatiske varianter er angivet med en stjerne. (C) Sanger sekvenser viser eksempler på Tyk2 varianter opdage i T-ALL cellelinjer eller leukæmi patientprøver. (D) Skematisk fremstilling af Tyk2 proteinstruktur med angivelse af alle hidtil ukendte Tyk2 varianter detekteret i denne undersøgelse. Ikke-somatiske varianter er angivet med en stjerne.

Identifikation af nye onkogener og tumorsuppressorgener i T-ALL

Søgning efter nye T-ALL driver gener kan udføres af hele -exome sekventering eller andre genom-dækkende tilgange. Ikke desto mindre kunne Roche /454 platform kombineret med sekvens capture være nyttig i en kandidat-gen tilgang. I vores målrettede re-sekventering tilgang, blev 39 gener inkluderet, der var ikke kausalt forbundet med kræft, men blev udvalgt som kandidat onkogener eller tumorsuppressorgener, på grund af deres funktion (f.eks, tyrosinkinaser og tyrosinphosphataser) eller fordi familiemedlemmer havde været impliceret i cancer (f.eks Tyk2 for JAK familien, TET1 fordi TET2 er en kendt cancer gen). Figur 2.B angiver exoniske og splejse websted mutationer observeret i disse gener, og generne blev rangordnet efter en gentagelse af protein ændring varianter tværs patientprøver.

Interessant, 4 af de 15 sekventerede patientprøver indeholde en variation i TET1.

TET

genfamilien (

TET1

,

TET2

,

TET3

) af epigenetiske regulatorer er vigtigt for hæmatologi feltet på grund af observation af

TET2

mutationer i 10-25% patienter med forskellige myeloide hæmatologiske sygdomme [25], [26], [27]. For bedre at vurdere mutationen hyppigheden af ​​

TET1

i T-ALL, vi udførte supplerende Sanger sekventering af

TET1

i alle cellelinjer og patientprøver og et panel af 22 yderligere T-ALL sager . Samlet set resulterede i identifikationen af ​​

TET1

varianter i 5/37 (13,5%) af analyserede patienter og i 1/18 T-ALL cellelinier (Karpas-45) (tabel S6 og figur 4). Den somatiske status detekteret

TET1

varianter blev bekræftet i 1 tilfælde (H1297Y) når en remission prøve var til rådighed. Vi undersøgte også varianterne i

TET2

og

TET3

samlet op af 454 og udført yderligere Sanger sekventering for disse gener.

blev opdaget TET2

varianter i 2 cellelinier (Jurkat og KARPAS45) og en

TET3

variant blev påvist i CCRF-CEM cellelinie, ingen T-ALL patientprøver (0/46) nærede erhvervede TET2 eller TET3 mutationer (tabel S6).

(A) Sanger sekventering kromatogrammer repræsenterer confimed TET1 varianter. (B) Skematisk fremstilling af TET1 proteinstruktur med angivelse af alle hidtil ukendte TET1 varianter detekteret i denne undersøgelse. Varianter påvist i cellelinjer er afbildet over TET1 protein, varianter detekteret i leukæmi patientprøver ligger under TET1 proteinet. Ikke-somatiske varianter er angivet med en stjerne.

Mutationer i tyrosin phosphatase gener, der fungerer som negative regulatorer af tyrosin-signalering, blev identificeret i mange T-ALL cellelinjer og også i flere T-ALL patienter. Yderligere mutationer i Spry gener, negative regulatorer af RAS /MAPK-vejen, blev også påvist. Vi identificerede en homozygot variation i

SPRY3

i en T-ALL patientprøve, og 3 mutationer i

SPRY4 Hotel (2 mutationer i cellelinjer og en somatisk erhvervet mutation i et T-ALL patientprøve ). Sanger sekventering bekræftede tilstedeværelsen af ​​disse mutationer, men afslørede ikke yderligere mutationer af SPRY3 /SPRY4 i 22 yderligere T-ALL tilfælde, hvilket bringer SPRY4 mutationshyppighed til 1/37 T-ALL patienter og 2/18 T-ALL cellelinjer (tabel S7, figur 5).

(A) Sanger sekventering kromatogrammer viser bekræftet SPRY4 varianter. (B) Domæne struktur SPRY4 protein med angivelse af romanen opdaget varianter.

Endelig har vi identificeret også flere mutationer i tyrosinkinaser (IGF1R, Tyk2, TNK1, og MST1R) og tilhørende signalering proteiner ( IRS2, SOCS3), men de fleste af disse mutationer blev fundet i cellelinjer, mens de primære patientprøver viste en meget lavere frekvens af disse mutationer. Den hyppigst muterede gen i alle cellelinjer og patientprøver var insulinreceptoren substrat 2 (IRS2) genet, der viser ikke-synonyme kodende mutationer i 6-cellelinjer og i én patientprøve. Også hyppigt muteret var Tyk2, med mutationer observeret i 6 cellelinier; one-stop-gain variant og 5 ikke-synonyme kodning varianter. Selvom ingen af ​​de 15 patientprøver bar en mutation i Tyk2, kunne det være til stede i lav hyppighed hos patienter. For at teste dette, vi udførte supplerende sekventering af Tyk2 i 93 T-ALL, 54 AML og 53 B-ALL patientprøver. Trods den høje frekvens af Tyk2 variationer i T-ALL cellelinier blev Tyk2 varianter detekteret kun i 2 af 93 T-ALL og 1 af 54 AML tilfælde (tabel S5, fig 3.CD).

Evidens for ophobningen af ​​specifikke mutationer Under in vitro kultur af T-ALL cellelinier

mutationsfrekvensen af ​​Tyk2 i T-ALL cellelinjer sammenlignet med primære T-ALL prøver var væsentligt forskelligt, med en høj mutationsrate af Tyk2 i cellelinier, men kun en lav mutationshastighed i delprøver. For at bestemme om dette kunne skyldes akkumuleringen af ​​Tyk2 mutationer under dyrkning af cellerne, vi sekventeret Tyk2 i forskellige kloner af den samme T-ALL cellelinje (tabel 1). For CCRF-CEM cellelinje, vi opnåede 5 forskellige subkloner, der blev indsamlet gennem årene. Interessant, mens R1027H varianten var til stede i alle analyserede prøver, den A35V varianten var kun til stede i vores linje og i en yderligere CCRF-CEM-klon. I Karpas-45 cellelinie, den Q830 * variationen var til stede i 3 forskellige kloner. I modsætning hertil kun vores JURKAT linje indeholdt C192Y mutationen, mens dette ikke var til stede i 2 andre kloner rådighed på DSMZ (www.dsmz.de) (tabel 1). Disse data antyder, at i det mindste nogle Tyk2 mutationer blev opnået under forlænget dyrkning af cellerne, og er således usandsynligt at repræsentere et onkogent begivenhed vigtig for udviklingen af ​​leukæmi

in vivo

. Desuden kunne analyse af transformerende egenskaber af disse mutanter i Ba /F3-celler ikke identificere væsentlige forskelle mellem vildtype Tyk2 og varianter af Tyk2 påvist i cellelinier eller patientprøver og vi kunne ikke vise nogen autophosphorylering af Tyk2 i T-ALL celle linjer, der indeholder Tyk2 varianter (data ikke vist).

Disse data bekræfter vigtige forskelle mellem cellelinjer og primære patientprøver, hvilket kan afspejle akkumuleringen af ​​mutationer i løbet af

in vitro

cellekultur.

diskussion

Vi viste, at den målrettede sekventering tilgang med en optimeret analyse indstilling kan bruges til at identificere onkogene mutationer. Denne fremgangsmåde kunne være af særlig interesse til påvisning af punktmutationer i et sæt vigtige onkogener og tumor suppressorer eller andre sygdomsrelaterede gener for diagnose, prognose forudsigelse eller terapi valg. Sådanne oplysninger kan genereres i en forholdsvis kort tidsramme og med en hidtil uset detalje. En af de store fordele i forhold til klassisk Sanger-sekventering er den højere gennemløb af denne fremgangsmåde muliggør, at alle exoner af et gen sæt af denne størrelse let kan sekventeres. Som sådan, er fuld oplysninger og kan påvises sjældne varianter eller endda tidligere uopdagede mutationer i et bestemt gen. Faktisk af de 160 exoniske og splejse websted varianter (eksklusive 61 synonyme variationer) påvist i de cellelinjer og patientprøver på tværs af vores panel af cancer gener, kun 40 findes i COSMIC database [16], hvoraf 24 er forbundet specifikt med T-ALL. Men for nogle gener eksisterer mutation hotspots (fx KRAS G12, G13, Q61 mutationer), hvis funktion fleste cancer gener kan påvirkes af mutationer ved forskellige positioner. Derfor for de fleste cancer gener behov, hele den kodende sekvens, der skal re-sekventeret, og til dette Roche /454 teknologi er særligt velegnet

For at detektere mutationer ved hjælp af næste generations sekventering -. Enten at erstatte eller supplere molekylær diagnose – standardiserede bioinformatik analyse rørledninger med meget stor nøjagtighed er påkrævet. En sådan rørledning består af en kortlægning algoritme til at tilpasse rækkefølgen læser på referenceplanet genomet, en variation ringer algoritme til at identificere forskelle mellem prøven og referencen, og en variation filtrering algoritme.

Vi sammenlignede flere kombinationer af kortlægning og variation kalder algoritmer, og fandt, at kombinere to kortlæggere, nemlig SSAHA-2 og BWA-SW, efterfulgt af Atlas-SNP2 giver de mest nøjagtige afsløring variation resultater. Tilføjelse to kortlægning algoritmer filtrerer falsk positive variant forudsigelser grund erronous kortlægning, og fejlen model af Atlas-SNP2 muliggør fjernelse af læser, der har flere bedste kampe i referenceperioden genomet. Vi fandt også, at yderligere data filtre på dybden af ​​dækning og om variant allel frekvens yderligere øget både følsomhed og specificitet for påvisning variation.

Vi stødte flere tekniske begrænsninger i dataanalyse. Først måtte vi fjerne dublerede læser indført ved PCR-amplifikation trin under forberedelsen, da vi bemærket disse var forårsager falsk positive SNV predicitons. For det andet kunne vi kun forudsige SNVs, mens indels (små insertioner og deletioner) måtte blive ignoreret siden vores arbejde (data ikke vist) og tidligere undersøgelser tyder på, at 454 læser er ikke egnede til Indel detektion grund af den store mængde af falske positive resultater [4]. I et diagnostisk indstilling, hvor 100% specificitet forfølges, er det afgørende at identificere gener eller regioner i gener, der er tilbøjelige til erhvervelse af indels og designe alternative analyser til at undersøge dem. Ligeledes genomiske omlejringer er vigtige årsager til T-ALL men kræver komplementære detektionsteknologier.

Vi mener, at ved hjælp af en lang læse sekventering teknologi, såsom Roche /454 eller den nyere Pacific Bioscience, giver særlige fordele med hensyn til både følsomhed og specificitet for påvisning variation. Først længe læse justering giver en bedre skelnen mellem højt lignende gener i genomet. For eksempel er en af ​​de gener, vi re-sekventerede var NOTCH1, et gen med flere homologer (dvs. NOTCH2, NOTCH2Nl, NOTCH3 og NOTCH4). observerede vi imidlertid ingen læser kortlægning til nogen af ​​disse homologer, selvom vi kortlagt læser til hele genomet. Dette indikerer, at både sekvensen opsamling og kortlægning var specifikke. På den anden side, vi stødte også et eksempel, hvor sekvensen indfangning ikke var specifikt. Nemlig PMS2-genet er en af ​​de målrettede gener i vores undersøgelse, men vi observeret læser mapping til PMS2 pseudogen, PMS2CL, som indeholder de første seks exoner af PMS2-genet. Takket være brugen af ​​lange læser, dette medfører ingen problemer for detektion variation fordi for hvert gen den respektive læser kortlagt

unikt

til den korrekte gen, enten PMS2 eller PMS2CL. Bemærk, at capture-teknologi giver ekstra stikord til at opnå højere specificitet, fordi ikke kun de exons er dækket i capture, men også de flankerende intron regioner.

Be the first to comment

Leave a Reply