Abstrakt
Vi analyserede hel-exome sekventering data fra 97 japanske lungeadenokarcinom patienter og identificeret flere formodede kræftrelaterede gener og veje. Især bemærkede vi, at kræft-relateret mutation mønstre var signifikant forskellige mellem forskellige etniske grupper. Som tidligere rapporteret, mutationer i EGFR-genet var karakteristisk for japansk, mens de i KRAS-genet var hyppigere i kaukasiere. Endvidere løbet af denne analyse fandt vi, der kan detekteres cancerspecifikke somatiske mutationer uden sekventering normale væv modstykker. 64% af kimcellelinje-varianter kunne udelukkes anvendelse af i alt 217 eksterne japanske exome datasæt. Vi viser også, at en lignende fremgangsmåde kan anvendes til andre tre etniske grupper, selv om evnen til skelnen afhænger af etniske gruppe. Vi viser, at ATM-genet og PAPPA2 genet kunne identificeres som kræftprognose beslægtede gener. Ved at omgå sekventering af normale væv modparter, denne tilgang giver et nyttigt middel til ikke blot at reducere den tid og omkostninger ved sekventering, men også analysere arkiv prøver, hvor der normalt væv modparter ikke er tilgængelige.
Henvisning: Suzuki A, Mimaki S, Yamane Y, Kawase A, Matsushima K, Suzuki M, et al. (2013) Identifikation og karakterisering af kræft mutationer i japansk lungeadenokarcinom uden Sekventering af normalt væv modparter. PLoS ONE 8 (9): e73484. doi: 10,1371 /journal.pone.0073484
Redaktør: H. Sunny Sun, Institut for Molekylær Medicin, Taiwan
Modtaget: Marts 22, 2013; Accepteret: 19 Jul 2013; Udgivet 12. september, 2013 |
Copyright: © 2013 Suzuki et al. Dette er en åben adgang artiklen distribueres under betingelserne i Creative Commons Attribution License, som tillader ubegrænset brug, distribution og reproduktion i ethvert medie, forudsat den oprindelige forfatter og kilde krediteres
Finansiering:. Dette arbejde blev støttet af JSP’er KAKENHI Grant nummer 24300345. Dette arbejde blev også støttet af MEXT KAKENHI Grant Number 221S0002. De finansieringskilder havde ingen rolle i studie design, indsamling og analyse af data, beslutning om at offentliggøre, eller forberedelse af manuskriptet
Konkurrerende interesser:.. Forfatterne har erklæret, at der ikke findes konkurrerende interesser
Introduktion
fremkomsten af næste generations sekventering teknologi har lettet betydeligt påvisning og karakterisering af genetiske variationer i det humane genom. Mest bemærkelsesværdigt, har denne type undersøgelse kørt 1000 genomer Project [1,2], som har til formål at give en samlet kort over menneskelige genetiske varianter på tværs af forskellige etniske baggrunde. Men fordi hel-genom-sekventering er stadig kostbar og sekventering af hele exon regioner under anvendelse hybridisering capture metoder (exome sekventering) [3-5] er almindeligt anvendt til at screene for gener der er relateret til arvelige sygdomme. Ved sekventering exomes fra raske og syge individer og sammenligne dem, har gener, der er ansvarlige for mange sygdomme blevet identificeret [6], herunder Miller syndrom [7,8] og familiær hyperkalemic hypertension [9]. Sammen med de fremskridt, der er gjort i exome sekventering, er mængden af kimcellelinje enkelt (SNP) data, der er registreret i dbSNP hastigt voksende til forskellige befolkningsgrupper [10].
Exome sekventering giver en kraftfuld værktøj til kræft studier så godt. Faktisk har en række papirer offentliggjort som beskriver identifikation og karakterisering af enkelte nukleotid varianter (SNVs), der somatisk opstår i kræft og mistænkes for at være ansvarlige for carcinogenese og sygdom udvikling [11]. Den internationale Cancer Genome Consortium (ICGC) har været at indsamle exome data for somatiske SNVs der er til stede i mere end 50 typer af kræft som en del af en international fælles indsats [12-14]. The Cancer Genome Atlas (TCGA) har udviklet et stort genomisk datasæt, herunder exomes for high-grade ovariecarcinom, som er blevet anvendt til at påvise signifikant muterede gener, herunder TP53, BRCA1 og BRCA2 [15]. De har også identificeret en række genomiske aberrationer og deregulerede veje, der kan fungere som terapeutiske mål.
I de fleste igangværende kræft exome studier, har normale væv modparter blevet sekventeret parallelt med kræftvæv [15-19]. Dette antages at være nødvendig, fordi germline varianter skal udelukkes fra den fulde sæt af SNVs at opdage de somatiske SNVs der er unikke for kræft. Men sekventering af normale væv modparter øger omkostningerne og tidspunkt for analysen. Også i visse tilfælde er det vanskeligt at opnå normale væv modstykker. Desuden er det fortsat uklart, hvor præcist kimlinie SNVs kan udelukkes ved hjælp af normale væv exomes. At konservativt udelukke germline SNVs, kan deres sekvens dybder og nøjagtigheder skal være større end dem, der er fremstillet af kræft exomes.
I denne undersøgelse genererede vi og analyseret 97 kræft exomes fra japanske lungeadenokarcinom patienter. Vi viser også, at somatiske SNVs kan beriges til et niveau, der er tilstrækkeligt til yderligere statistiske analyser selv i fravær af forløbet med normalt væv modstykker. For at adskille kimcellelinje fra de somatiske SNVs, vi først sammenlignede variationsmønstre mellem en kræft exome med de 96 andre patienters normale væv exomes. Vi forsøgte også at gennemføre en lignende gensidig sammenligning udelukkende udnytte kræft exomes, uden hensyntagen til exomes af normalt væv modstykker. Det er sandt, at hvis vi helt udeladt normalt væv sekventering, ville vi forsøgsvis tilsidesættelse af somatiske mutationer, der opstår på nøjagtigt samme genomiske position i flere cancertyper. Imidlertid har de seneste papirer belyst, at sådanne delte SNVs er meget sjældne [15,20-22]. Desuden har mange af disse rekursivt mutationer er blevet registreret i kræft somatiske mutation databaser, såsom Sanger COSMIC [23,24], og disse tilbagevendende SNVs kan inddrives ved opfølgende undersøgelser delvist ved hjælp af data fra de normale væv. For at forstå den unikke karakter af hver kræft, er en statistisk analyse af de forskellige SNVs formodes at være afgørende i tillæg til analysen af de fælles SNVs.
I denne undersøgelse viser vi, at det er muligt at identificere første kandidater til cancer-relaterede gener og veje, selv uden sekventering af et normalt væv modstykke. Vi viser, at denne fremgangsmåde er ikke blot nyttig til at reducere omkostningerne ved sekventering, men også for at forbedre nøjagtigheden af dataene. Det skal også nyttig til at analysere gamle arkiv prøver, hvor der normalt væv modstykker ikke altid tilgængelige. Her beskriver vi en praktisk og omkostningseffektiv metode til at fremskynde kræft exome sekventering. Salg
Resultater og Diskussion
Karakterisering af SNVs ved hjælp af 97 exome datasæt
For det første, vi genereret og analyseret hel-exome sekvenser fra 97 japanske lungeadenokarcinom patienter. Exome data blev indsamlet fra både kræft og normal-væv modstykker, adskilt af laser capture mikrodissektion. Vi renset den exon DNA (exomes) og genererede 76-basen parret ende læser ved hjælp af Illumina GAIIx platformen. Ca. 30 mio kortlagt sekvenser blev opnået fra hver prøve, der giver 74 × dækning af målregionerne; 93% af de målområder havde 5 × dækning (Figur S1 i File S1). Burrows-Wheeler aligner (BWA) [25] og Genome Analysis Toolkit (GATK) [26,27], blev anvendt til at identificere SNVs (figur S2 i File S1). Kun SNVs der blev detekteret i cancer væv og viste ingen tegn på variation i normale væv blev udvalgt til yderligere analyse.
Den opnåede datasæt blev brugt til at karakterisere de cancer-specifikke mutation mønstre (Tabel S3 i File S1). Vi beregnede berigelsen af SNVs inden for særlige gener, protein domæner, funktionelle kategorier, og stier. Vi søgte efter gener med somatiske SNVs betydeligt beriget med japansk lunge adenocarcinom. Som vist i Tabel S4 i File S1 blev flere gener identificeret som signifikant muteret. Især vi søgt efter domæner, der er beriget med SNVs og havnen kendte kræftrelaterede mutationer i COSMIC database. I alt blev 11 gener identificeret (P 0,02, tabel 1). For eksempel blev Dbl homologi (DH) domæne af PREX1 gen [28] beriget med SNVs (
P
= 0,00071). Men i PREX2 genet [29], blev pleckstrin homologi (PH) domæne beriget med SNVs (
P
= 0,011) (Figur 1A og B). Både PREX1 og PREX2 generne aktivere udveksling af BNP til GTP for Rho familie af GTPaser og DH /PH-domæner er uundværlige for nukleotid udveksling af GTPaser og dens regulering [30-32]. Derudover analyserede vi de ekspressionsmønstre for disse gener ved anvendelse af en cancer genekspression database, GeneLogic (fig S3 i File S1). Ekspressionsniveauer af PREX1 og PREX2 blev ikke forøget i lunge adenocarcinom, men blev forøget i mange forskellige cancere, som delvist angivet i tidligere undersøgelser [33]. De SNVs i PREX1 og PREX2 gener, som blev koncentreret på sine pivotale signalsystemer domæner, kan øge aktiviteterne i disse gener, og dermed funktionelt efterligner den øgede udtryk for dette gen i nogle forskellige typer af kræft. De kræft-relateret gen kandidater identificeret fra dette datasæt er anført i tabel 1.
Antal SNVs
Gene
Domain
Domain
Gene
P-value
*
EGFR
†IPR001245:Serine-threonine/tyrosine-protein kinase34374.4e-21KRAS
† IPR001806: Ras GTPase678.0e-6TNNIPR003961: Fibronectin, type III455.2e-5TP53
† IPR008967: p53-lignende transkriptionsfaktor, DNA-binding20239.5e-5PREX1IPR000219: Dbl homologi (DH ) domain450.00071DNAH7IPR004273: dynein tung chain570.0025FSTL5IPR011044: quinoprotein amin dehydrogenase, beta-kæde-like770.0043NRXN3IPR008985: Concanavalin A-lignende lektin /glucanase570.0063PREX2IPR001849: pleckstrin homology370.011FER1L6IPR008973: C2 calcium /lipid-bindende domæne, CaLB360.013COL22AIPR008985: Concanavalin A-lignende lektin /glucanase360.015Table 1. Liste over de identificerede mulige kræftrelaterede gener
*
P
0.02
† Rapporteret i Cancer Gene Census [11]. Bemærk, at generne oven listen tidligere er rapporteret at være associeret med denne cancer type, mens de fleste af dem er hidtil ukendte mulige cancerrelaterede gener. CSV Hent CSV
SNVs i PREX1 (A) og PREX2 (B) gener er repræsenteret i kasserne. De proteindomæner hvor berigelser af SNVs var statistisk signifikante er repræsenteret i orangefarvede kasser (se også Materialer og metode). DH-domæne: Dbl homologi (DH) område; PH: pleckstrin homologi domæne; D: DEP domæne; P:. PDZ /DHR /GLGF
Ligeledes pathway berigelse analyser ved hjælp af Kegg databasen [34] også påvist adskillige formodede kræft-relaterede veje. De identificerede veje er anført i tabel 2. Interessant nok blev den endometriecancer pathway [35] påvist i denne berigelse analyse (
P
= 3.1e-15, figur 2A). Denne vej omfatter større cancer-relaterede veje, for eksempel, MAPK signalvejen og PI3K /AKT pathway. Til denne vej, vi sammenlignet mutation mønstre mellem vores japanske data og de af den tidligere undersøgelse af lunge adenocarcinom i kaukasere [21]. Vi fandt, at SNVs i EGFR-genet var fire gange hyppigere i den japanske befolkning end blandt hvide befolkning (figur 2B, venstre panel). EGFR-mutationer blev hyppigt forekommende i ikke-ryger, kvindelige og asiatiske patienter af lunge adenocarcinom [36], som er et molekylært mål for anti-cancer medicin,
gefitinib
[20,37,38]. Omvendt KRAS-mutationer, som også er velkendte kræftrelaterede mutationer [39], var mere end fire gange hyppig blandt kaukasere (figur 2B, centerpanelet). Men ikke alle mutationsmønstre forskellige mellem populationer. For eksempel, TP53 nærede mutationer i begge datasæt med samme frekvens (figur 2B, højre panel).
Kegg ID
Pathway definition
Antal kræft med SNVs
P-værdi
*
hsa05213Endometrial cancer723.1e-15hsa04320Dorso-ventrale akse formation484.4e-15hsa05219Bladder cancer624.9e-14hsa05223Non-småcellet cancer667.1e-12hsa05214Glioma706.5e-11hsa05218Melanoma701.3e-9hsa05212Pancreatic cancer686.9e-9hsa05215Prostate cancer714.3e-7hsa05216Thyroid cancer361.1e -6hsa04520Adherens junction593.7e-6hsa05210Colorectal cancer531.8e-5hsa04012ErbB signalering pathway642.6e-5hsa05120Epithelial celle signalering i
Helicobacter pylori
infection534.8e-5hsa04540Gap junction600.00024hsa04912GnRH signalering pathway610.0011hsa05217Basal celle carcinoma410.0020hsa05222Small celle lunge cancer520.0069hsa05220Chronic myeloid leukemia460.010hsa05160Hepatitis C670.012hsa05014Amyotrophic lateral sklerose (ALS) 360.014hsa04977Vitamin fordøjelse og absorption200.015hsa05416Viral myocarditis400.028hsa04512ECM-receptor interaction470.034hsa02010ABC transporters290.035hsa04510Focal adhesion780.037hsa05412Arrhythmogenic højre ventrikel kardiomyopati (ARVC) 400.039Table 2. Liste over de identificerede mulige kræft- relaterede veje
*
P
0.05 CSV download CSV
(A) mutation til mønstre i endometriecancer vej, der blev påvist i berigelse analyse er vist. Størrelsen af cirklen repræsenterer befolkningen i de kræftformer, der huser de SNVs i det tilsvarende gen (procentdel er også vist i marginen). SNVs i denne undersøgelse og den eksterne datasæt i den hvide befolkning er vist i røde og blå cirkler, henholdsvis. n.a .: mutationsfrekvenser var ikke tilgængelig. (B) Sammenligning af mutation forholdet mellem EGFR, KRAS og TP53 gener blandt begge datasæt. De p-værdier blev beregnet ved to-stikprøve-test for ligestilling af proportioner.
Tvetydigheden i SNV identifikation af normale væv modstykker
I den førnævnte analyse, vi diskrimineret kimlinie varianter ved hjælp af normale væv modstykker. En række SNVs oprindeligt identificeret som somatisk viste sig også at være til stede i normale væv, således var falske positive opkald under valideringer ved visuel inspektion af de kortlagte sekvenser og Sanger sekventering. For at undersøge årsagen til dette problem, vi inspiceret fejlene i tilfældigt udvalgte 26 kræft og deres normale væv. I gennemsnit i hver cancer, blev femogtyve procent af somatiske SNV kandidater sig at være falsk positive (figur 3). I disse tilfælde sekvensen dækningen og kvaliteten af den normale modpart ikke var tilstrækkelige. Faktisk blev sekvenserne understøtter hver SNV og disse kvaliteter signifikant afveg mellem cancer og normale væv. Selvom vi øget det samlede antal læser i de normale væv, det var vanskeligt i praksis at dække alle de genomiske positioner (figur S4 i File S1). En oversigt over kimlinie SNV valideringer er vist i tabel S5 i File S1.
Somatisk SNV kandidater blev identificeret ved hjælp af 26 kræft exomes og hver normal modstykke. Korrekt somatiske SNVs og falske positiver blev vist i pink og blå bjælker hhv. De 26 kræftformer anvendt til analysen blev sorteret af det stigende samlede antal SNVs (x-aksen).
Men vi bemærket, at nogle var korrekt identificeret som germline SNVs i eksterne referencepunkter exomes. Femogtyve exomes tilladt os at udelukke otte falske positive opkald i hvert cancer. Dette rejste muligheden for, at SNVs fra de andre patienter kan anvendes som surrogater til at øge dybden og kvaliteten af sekventering.
Eksklusive germline SNVs ved at overveje gensidige overlapninger af andre personers exomes
for yderligere at teste denne mulighed undersøgte vi, om kræft exome analyser ville være muligt uden sekventering af det normale væv modstykke til hver kræft. Først, vi vurderet, i hvilket omfang de kimlinie SNVs kunne blive diskrimineret ved hjælp af eksterne exomes. Til dette formål, vi brugte de 97 parrede kræft-normal exome datasæt for validering datasæt. Vi fandt, at vi kunne detektere 54% af kimcellelinje SNVs ved hjælp af de 96 normale væv exomes fra den eksterne reference (figur 4A). Vi yderligere udvidet filtrering datasæt ved hjælp af de eksternt tilgængelige 73 japanske exome data og 48 interne japanske exome datasæt. Helt, kunne vi fjerne 64% af kimcellelinje SNVs, anvendelse af i alt 217 japanske exome datasæt fra andre individer, uden sekventering hver kræft normale modpart (figur 4A). Den ekstrapolation af grafen anførte også, at 1.350 og 2.000 prøver ville være nødvendigt at fjerne 90% og 95% af de kimlinie SNVs hhv. Vi forventer, at en sådan prøve størrelse vil være tilgængelig i nær fremtid overvejer nuværende hurtige ekspansion af exome analyse.
(A) Den effekt detektere germline SNVs overvejer gensidig overlapning mellem andre japanske individer. Følsomhed repræsenterer andelen af germline SNVs korrekt opdaget. De datasæt, der anvendes til at udelukke de kimlinie SNVs vises på x-aksen. Det indsatte repræsenterer ekstrapolering af grafen. Montering kurve af grafen er også vist. (B) diskriminerende beføjelser tre forskellige etniske grupper for kimlinie SNVs i 97 japanske kræftformer. Følsomheder til påvisning kimlinie SNVs vises med følgende farver; grøn: Kinesisk; lilla: yoruba; orange:. kaukasisk
Vi evalueres yderligere, hvis den samme filtrering kunne gøres ved udelukkende at bruge kræft exomes. Vi opnåede stort set de samme resultater (figur S5 i File S1). Indlysende advarsel ved denne fremgangsmåde er, at dette ville se bort omkring 3% af somatiske SNVs gentagne forekommende (fig S5 i File S1, blå). som førnævnte, Vi fandt imidlertid, at disse tilbagevendende SNVs var meget sjældne [15,19], og de fleste af dem stammede fra tvivlsomme somatiske SNVs, som blev overset i de normale væv. Vi mener også, at de fleste af disse tilbagevendende SNVs eventuelle kan analyseres separat ved sekventering et begrænset antal normale væv.
Filtrering ud germline SNVs ved at overveje gensidige overlapninger for forskellige etniske grupper og for sjældne SNPs
Vi undersøgte, om SNVs i andre etniske baggrunde kan anvendes som eksterne datasæt for filtreringen. Vi opnåede exome data fra individer af forskellige etniske baggrunde fra 1000 Genome Project. Vi brugte disse exome datasæt at udelukke kimlinie SNVs, der blev identificeret i de japanske kræftformer. Vi fandt, at evnen til skelnen var signifikant lavere sammenlignet med exomes fra japanske populationer. Derfor er disse datasæt var ikke egnet til dette formål (figur 4B). Vi har også gennemgået og fundet, at de exomes i hver etnisk gruppe var nyttigt at skelne de kimlinie SNVs i den tilsvarende gruppe (figur S6, S7 og tabel S6 i File S1).
Vi så, undersøges, hvorvidt mindre germlinie varianter kunne dækkes med denne tilgang i den japanske befolkning. Vi evaluerede følsomheden af filtreringsprocessen for SNVs i de 97 cancere (Figur S8 i File S1). Vi fandt, at der kunne påvises 88% af germlinie SNVs forekommer i mere end fem procent af de 97 exomes hjælp af de 73 eksterne japanske datasæt. For SNVs forekommer i 1% af de 97 kræftformer, kunne 19% udelukkes.
Brug af rå datasæt til at karakterisere kræftrelaterede SNVs og stier
tilsammen med 217 japanske exomes anvendes til filtrering, 36% af de kimlinie SNVs forblev ufiltreret. Ikke desto mindre, vi mente, at det kan være stadig muligt at bruge den rå SNV datasæt som en første tilnærmelse til at identificere og analysere cancer-relaterede gener og pathway kandidater. For at validere denne idé, sammenlignede vi resultaterne af berigelse analyser mellem det rå datasæt og de raffinerede somatiske SNV datasæt, der blev genereret fra de parrede kræft-normal exomes.
De fleste af de formodede cancerrelaterede gener og pathways der blev identificeret fra den raffinerede datasæt var også til stede i det rå datasæt (tabel S7 og S8 i File S1). Eksemplet med TNN genet, der blev rapporteret som en markør for tumor stroma [40-42], er vist i figur S9 i File S1. I dette tilfælde, selv med de germlinie SNVs, som var ufiltreret i det rå datasæt (angivet med sort i figur S9 i File S1), berigelse af somatiske SNVs på dette område var statistisk signifikant. I alt blev ni gener, der er identificeret som havende kræftrelaterede SNVs fra den raffinerede datasæt også påvist i det rå datasæt. På den anden side blev to gener fra den raffinerede datasæt ikke er repræsenteret i det rå datasæt. I vejen analysen identificerede vi 26 kræftrelaterede veje, der blev identificeret fra raffinerede datasæt. Desuden blev 19 pathways også repræsenteret i det rå datasæt samt den raffinerede datasæt. Overlappet mellem datasættene er sammenfattet i tabel 3. Det skal bemærkes, at statistisk berigelse analyser var muligt selv ved den nuværende dækning af filteret datasæt. Med den udvidede eksterne datasæt, ville det være mere praktisk at underkaste kandidater til resultaterne af Sanger sekventering valideringer samt fjerne de resterende germline SNVs.
Antal identificerede genes/pathways
Crude
*
Refined
†
Overlap
‡
Genes16119Pathways232619Table 3. Sammenligning af resultaterne i berigelsen analyser mellem rå og raffineret datasæt.
* Identificeret ved hjælp af den rå datasæt.
† Identificeret ved hjælp af den raffinerede datasæt.
‡ Signifikant i både rå og raffineret datasæt. CSV Hent CSV
Identifikation af prognose gener ved hjælp af rå datasæt
Som en af de vigtigste mål for de kræft exome undersøgelser, vi undersøgt, om der kan identificeres mutationer påvirker kræft prognoser ved hjælp af rå datasæt ( tabel S9 og figur S10 i File S1). I Kaplan-Meier analyse, syv patienter, der gennemførte SNVs i ATM-genet (figur 5A) viste statistisk signifikante dårlige prognoser (
P
= 9.6e-6, figur 5B). Tre SNVs i ATM-genet blev væsentligt beriget med den phosphatidylinositol 3- /4-kinase katalytiske domæne (
P
= 0,014). ATM registrerer DNA-skader og phosphorylerer TP53, som igen, påberåber forskellige cellulære reaktioner, såsom DNA-reparation, vækststandsning og apoptose, og kollektivt forebygger kræft progression (Figur S11 i File S1) [43,44].
(A) SNVs i ATM-genet. De SNVs, der blev identificeret i den indledende screening, og dem der er tilbage efter Sanger sekventering validering af det normale væv modstykke blev vist i sort og rød, hhv. TAN: telomer-længde vedligeholdelse og DNA-skader reparation; PI3_PI4 kinase: Phosphatidylinositol 3- /4-kinase, katalytisk. (B) Overlevelse analyse af patienter med og uden ATM SNVs. Datasættene før og efter Sanger sekventering validering er repræsenteret ved sorte og røde linjer, henholdsvis. Statistisk signifikans blev beregnet ved hjælp af en log-rank test (
P
0,05). Bemærk, at overlevelse forskelle for personer med SNVs i den ikke-Sanger-valideret datasæt var signifikante før Sanger validering. (C, D) Resultaterne af en lignende analyse som den beskrevet i A og B for PAPPA2 genet. I dette tilfælde er patienter med SNVs viste bedre prognoser. ConA lignende sub: Concanavalin A-lignende lectin /glucanase, undergruppe; N: Notch dimain; Peptidase M43:. Peptidase M43, graviditet-associeret plasma-A
Vi undersøgte også, om andre hyppigt muterede gener var forbundet med bedre eller dårligere prognose. Vi fandt, at patienter med PAPPA2 mutationer viste forlænget overlevelse gange (
P
= 0,026, figur 5C og D). PAPPA2 proteolyzes IGFBP5 [45,46], som er en inhibitorisk faktor for IGF’er [47]. Mutationer i PAPPA2 genet kan resultere i akkumulering af IGFBP5, og den resulterende fald i IGF-signalering kan forringe proliferation af cancerceller [48]. Igen skal det bemærkes, at for både ATM og PAPPA2 gener, den statistiske signifikans af den prognostiske forskel varet både før (sort linie) og efter (rød linje) de resterende germlinie mutationer blev fjernet, der blev valideret af Sanger-sekventering (fig 5B, D og tabel S10 i File S1).
Konklusioner
Vi har identificeret og karakteriseret de SNVs i lunge adenocarcinom i en japansk befolkning. Yderligere biologiske evalueringer af de fundne SNVs vil blive beskrevet andetsteds. Især bør information om transkriptom og epigenome være vigtigt for yderligere analyser af kræft genomer, som de ville kaste nye lys på kræft biologi (tabel S1) [49]. I denne undersøgelse præsenteres vi også en nyttig metode til analyse af kræft exomes, uden behov for at sekventere det normale væv modstykke. Vi mener, at den tilgang, ikke kun sænker barriererne i omkostninger, tid og data troskab i exome analyse, men også muliggør exome analyse af arkiv prøver, hvor der normalt væv modstykker ikke altid tilgængelige.
Materialer og metoder
Etik erklæring
Alle prøverne blev indsamlet ved at følge protokollen (og skriftligt informeret samtykke), som blev godkendt af Etisk Udvalg i National Cancer Center, Japan (Korrespondance til: Katsuya Tsuchihara; [email protected]).
Case udvælgelse og DNA forberedelse
Alle væv materialer blev opnået fra japanske lungeadenokarcinom patienter med passende informeret samtykke. Kirurgisk resektion primære lungeadenokarcinom prøver med langsgående dimensioner på over 3 cm blev udvalgt. Data for de 52 patienter, som havde tilbagefald og andre kliniske oplysninger om de 97 sager er vist i tabel S11 i File S1. Alle 97 cancer og normale væv blev ekstraheret fra methanol-fikserede prøver ved laser capture mikrodissektion. DNA oprensning blev udført ved anvendelse af en EZ1 Advanced XL Robotic arbejdsstation med EZ1 DNA Tissue Kits (Qiagen).
Whole-exome sekventering
Brug 1 ug isoleret DNA, vi fremstillet exome-sekventering biblioteker ved anvendelse af den SureSelect Target Enrichment System (Agilent Technologies) ifølge fabrikantens protokol. Den erobrede DNA blev sekventeret ved Illumina Genome Analyzer IIx platform (Illumina), hvilket giver 76-basen parret ende læser.
Somatic SNV afsløring
De metoder, der blev brugt til at detektere SNVs, herunder BWA, SAMtools [50] og GATK, er vist i figur S2 i File S1. Ved hjælp af data fra NCBI dbSNP bygge 132 og en japansk genom [51], store germlinie SNVs blev udelukket. Desuden blev sjældne germlinie SNVs kasseret ved hjælp 97 exomes fra normale væv modstykker, 73 japanske exomes leveres fra 1000 genomer Project (de fase 1 exome data, 20.110.521) og 48 in-house japanske exomes. Vi valideret også en del af SNV datasæt ved Sanger sekventering af kræft væv og deres normale væv modstykker (figur S12 i File S1).
Identifikation af højt muterede gener
Vi har registreret gener, der var signifikant beriget med SNVs ved at beregne det forventede antal af cancere med SNVs i genet. Længden af de samlede CDS regioner var repræsenteret i
N
(ca. 30,8 M baser). Når en patient næret alt
m
SNVs, sandsynligheden for, at patienten huser SNVs i genet
t Hotel (længde:
n
) blev beregnet som
P
:
P
m
,
t
,
n
=
1
−
(
1
−
m
N
)
n
The sum af
P
i 97 kræftformer var repræsenteret i det forventede antal kræfttilfælde med SNVs i genet
t
. De p-værdier for det observerede antal blev beregnet ved Poisson sandsynlighedsfunktionen hjælp R ppois.
Statistisk tilgang til berigelse analyser
For at undersøge berigelse af mutationer i funktionelle proteindomæner, vi kortlagt SNVs til domæner, der bruger InterProScan [52] og tildelt dem til Katalog over somatiske mutationer i Cancer (COSMIC). Vi analyserede berigelsen af SNVs i de samme områder som de mutationer, der blev leveret af COSMIC. De p-værdier for de observerede mutationer i disse domæner blev beregnet ved hjælp af deres hypergeometriske distributioner (R phyper). Kort fortalt, de områder, hvor de SNVs blev beriget statistisk signifikant end den forventede antal SNVs i den givne længde af domænet blev udvalgt. Til estimering det forventede antal blev det samlede antal af de SNVs tilhører genet divideret med genet længde. Til denne analyse, vi brugte gener huser fem eller flere SNVs i den kodende region og tre eller flere SNVs i domænet.
Vi tildelt SNVs til veje som beskrevet i Kyoto Encyclopedia of Gener og genomer (Kegg) og beregnet berigelser af SNVs i veje. Mutationsraten
M
repræsenterede forholdet mellem det gennemsnitlige antal muterede gener til det samlede antal gener (17,175), der blev brugt i vores undersøgelse. Den forventede værdi for antallet af kræfttilfælde med SNVs i sti
t
blev udpeget
λ
og beregnes ud fra mutation sats
M
og antallet af gener i vejen
n
som follows:
λ
t
,
n
=
{
1
−
(
1
−
M
)
n
}
×
97
The p-værdi for den observerede antal kræfttilfælde med SNVs i sti
t
blev beregnet ved Poisson sandsynlighedsfunktionen hjælp R ppois.
Skøn over diskriminerende strøm til udelukkelse af germline SNVs ved at overveje gensidige overlapninger
Vi vurderede den diskriminerende strøm til udelukkelse af kimcellelinje SNVs ved at betragte dem fra andre ikke-kræft exomes. Kønscellelinie SNVs fra 97 parrede tumor-normal exomes blev brugt som reference- datasæt. Op til 217 prøver (96 normale væv exomes fra andre og 121 yderligere japanske exomes) blev tilfældigt udvalgt, og deres følsomheder og særlige til påvisning kimcellelinjen SNVs blev opdaget ved at tage gennemsnittet af enten alle kombinationerne eller en delmængde af ca. 10.000 kombinationer . Vi vurderede også den diskriminerende magt med data fra 1000 genomer Project for fire etniske grupper (73 JPT, 90 CHS, 81 Yri og 64 CEU) ved hjælp af lignende forsøg. Whole-exome sekvenser (den fase 1 exome data, 20.110.521) blev opnået fra ftp site i 1000 genomer Project.
Kaplan-Meier kurver
Kaplan-Meier-metoden blev anvendt til at teste relationer de observerede mutationer til overlevelsestid, og beregninger blev udført ved hjælp af R-softwarepakken. Ændringer i overlevelsesrater, der var korreleret med SNVs blev undersøgt ved hjælp af log-rank test (R survdiff).
dataadgang
Fuld rå datasæt vil blive delt med forskere efter anmodning. Oplysningerne af somatiske mutationer på de respektive genomiske koordinater er givet i tabel S2.
Støtte Information
File S1.
Tal S1 til S12 og borde S3 til S11 er inkluderet.
doi: 10,1371 /journal.pone.0073484.s001
(PDF)
tabel S1.
Sammenligningen af vores datasæt med de andre forskellige undersøgelse. Vi forudsat sammenligningen af vores datasæt med generne er identificeret i den anden forskellige studie med transkriptom og epigenome data i lungekræft
doi:. 10,1371 /journal.pone.0073484.s002
(XLSX)
tabel S2 .
Listen af somatiske mutationer identificeret fra raffinerede datasæt.
Leave a Reply
Du skal være logget ind for at skrive en kommentar.