PLoS ONE: Candra: Kræft-specifik driver missense Mutation Annotation med Optimerede Features

abstrakt

Driver-mutationer er somatiske mutationer, der giver vækst fordel til tumorceller, mens passager mutationer er dem, der ikke er funktionelt knyttet til onkogenese. Skelne drivere fra passagerer er udfordrende, fordi chaufførerne opstår langt mindre hyppigt end passagerer, de har tendens til at have lav prævalens, deres funktioner er multifaktoriel og ikke intuitivt indlysende. Missense mutationer er fremragende kandidater som chauffører, som de forekommer oftere og er potentielt lettere at identificere end andre typer af mutationer. Selv om flere metoder er blevet udviklet til at forudsige den funktionelle konsekvenser af missense mutationer, har kun nogle få er specielt designet til at identificere føreren mutationer. Efterhånden som flere mutationer bliver opdaget, kan mere nøjagtige forudsigende modeller udvikles ved hjælp machine learning tilgange, der systematisk præger ensartethed og særlige ved missense mutationer under baggrund af specifikke typer kræft. Her præsenteres en kræft driver annotation (Candra) værktøj, der forudsiger missense driver mutationer baseret på et sæt af 95 strukturelle og evolutionære træk beregnet af over 10 funktionelle forudsigelse algoritmer, som Chasm, støvtætte, og MutationAssessor. Gennem funktionen optimering og overvåget træning, Candra udkonkurrerer eksisterende værktøjer i at analysere glioblastoma multiforme og ovariecancer datasæt i The Cancer Genome Atlas og kræftcellen Linje Encyclopedia projekt

Henvisning:. Mao Y, Chen H, Liang H , Meric-Bernstam F, Mills GB, Chen K (2013) Candra: Kræft-specifik driver missense Mutation Annotation med optimerede funktioner. PLoS ONE 8 (10): e77945. doi: 10,1371 /journal.pone.0077945

Redaktør: Tatjana Adamovic, Karolinska Institutet, Sverige

Modtaget: Juni 13, 2013; Accepteret: September 5, 2013; Udgivet: 30 oktober 2013

Copyright: © 2013 Mao et al. Dette er en åben adgang artiklen distribueres under betingelserne i Creative Commons Attribution License, som tillader ubegrænset brug, distribution og reproduktion i ethvert medie, forudsat den oprindelige forfatter og kilde krediteres

Finansiering:. Dette arbejde blev delvist understøttet af National Institutes of Health (https://www.nih.gov/) [tilskud nummer 1R01CA172652, CA168394, CA083639, CA143883, UL1TR000371 og 1U01CA180964]; MD Anderson Cancer Center Sheikh Khalifa Ben Zayed Al Nahyan Institut for Personlig Cancer Therapy (https://www.mdanderson.org/education-and-research/research-at-md-anderson/personalized-advanced-therapy/institute-for-personalized-cancer-therapy/index.html) og National Cancer Institute Cancer Center Support Grant (https://cancercenters.cancer.gov/) [P30 CA016672]. De finansieringskilder havde ingen rolle i studie design, indsamling og analyse af data, beslutning om at offentliggøre, eller forberedelse af manuskriptet

Konkurrerende interesser:.. Forfatterne har erklæret, at der ikke findes konkurrerende interesser

Introduktion

Kræft er en kompleks genetisk sygdom. Forekomsten og progression af kræft kan tilskrives akkumulerede mutationer i kræft genomet [1]. På forskellige stadier af onkogenese, en gruppe af centrale mutationer, kaldet drivere, i væsentlig grad ændre den normale cellulære system [2], [3] og giver vækst og overlevelse fordele til tumorceller [4]. På grund af den iboende ustabilitet genomiske stede i tumorer, forekommer, driver mutationer på baggrund af et stort antal mutationer, kaldet passagerer, som ikke er funktionelt relateret til onkogenese. Identifikationen af ​​chauffør mutationer er en kritisk mission kræft genomforskning. Enkelte bilister er blevet identificeret og er almindeligt anvendt som diagnostiske og /eller prognostiske biomarkører, eller som lægemiddelmål for kræftbehandling [5], [6]. Forskning der afhøre specifikke driver mutationer og deres kliniske implikationer bliver almindeligt gennemført for flere typer af kræft [7], [8], men en større indsats er krævet for systematisk genom-dækkende karakteristik af driver mutationer og deres funktionelle konsekvenser.

De fleste mutationer fundet i kræft er punktmutationer. Når der forekommer i kodende regioner af gener, kan de ændre protein-kodende sekvenser, påvirker proteinstruktur og ekspression, eller forstyrre protein-protein interaktioner [9]. Mutationer, der ændrer aminosyresekvenserne kaldes ikke-synonyme mutationer, blandt hvilke de fleste er missense mutationer af erstatningen aminosyrerester. I modsætning til frame-shift eller nonsens mutationer, som normalt fører til trunkerede proteiner, funktionen af ​​missense mutationer er mindre indlysende. Ikke desto mindre har en lang række missense mutationer blevet påvist som chauffører, såsom

BRAF

V600E mutation i melanom [10], og

KRAS

G12D og G12V mutationer i kolorektal cancer [11] .

sjældenhed og lav forekomst af førerens mutationer gør dem yderst vanskeligt at forudsige bruge traditionelle statistiske metoder, der kræver moderat stikprøvestørrelser [1], [12] – [14]. Meget af data tyndt kan henføres til en høj grad af genetisk heterogenitet underliggende klinisk definerede kræftformer. Endvidere kan funktionen af ​​en missense-mutation være afhængig af mange andre faktorer, som er variabel under forskellige betingelser, såsom genetisk prædisposition, tilstedeværelsen af ​​andre somatiske mutationer, cellelinie, og stadium af malignitet.

I de senere år er der blevet foreslået flere beregningsmetoder til vurdering af funktionelle virkninger af missense mutationer. Tilsammen har disse metoder beregnet mere end 90 relevante mængder eller funktioner, der beskriver egenskaberne af en mutation og dens tilknyttede websted fra aspekterne af (a) evolutionære konservering, (b) fysisk-kemiske egenskaber af proteinerne, (c) proteindomæner, og (d) sekvens sammenhæng. Forskellige metoder kan udnytte disse fire typer af funktioner enkeltvis eller i kombination. Især MutationAssessor [9] og finkæmme [15] anvender type (A) funktioner, SNPs3D bruger typer (a) og (b), CanPredict [16] bruger typer (a) og (c), MutationTaster [17] og SNAP [18] bruger typer (a), (b) og (c), og spalten [19] og PolyPhen 2 [20] bruger alle fire typer af funktioner.

de fleste af disse metoder blev designet til at løse en generel genetisk problem, dvs diskriminere skadelige mutationer fra ikke-skadelige dem. Men de fleste af algoritmerne ikke overveje den specifikke genetiske eller sygdom sammenhæng, hvori en mutation forekommer. Selv om de kan anvendes til at vurdere somatiske missense mutationer, resultaterne klart mangler specificitet [13], [14], [19]. Da føreren mutationer er defineret under en specifik sygdom sammenhæng vil en chauffør mutation forudsigelse metode ikke være nøjagtig uden at tage hensyn til sygdomsspecifikke faktorer såsom cancer type, sygdom fase, prævalens mutation, mutation spektrum, og andre kliniske karakteristika.

Blandt de offentliggjorte fremgangsmåder, Chasm er den eneste, der betragter eksplicit cancer-typespecifikke faktorer [19]. I Chasm, er 86 forskellige funktioner fra alle fire har typer bruges til at karakterisere hver missense mutation, og klassifikationsmodeller er uddannet i en kræft-typespecifikke mode ved hjælp af en tilfældig skov algoritme. De træningsdata for en cancer type omfatter et sæt af curated driver mutationer som positive eksempler og en næsten lige så stort antal af syntetiske passager mutationer (SPM’er) som negative eksempler.

Selvom Chasm repræsenterer et betydeligt fremskridt forudsige driver mutationer, findes et par protester. For det første er det ikke klart, om SPM’er er tilstrækkelige til at modellere det brede spektrum af passagerer mutationer, der forekommer. Endvidere har de seneste foreliggende oplysninger viste, at forekomsten af ​​personbiler mutationer påvirkes af definerbare faktorer, fx sekvens kontekst, replikation timing, og genekspression, som sandsynligvis ikke er tilstrækkeligt repræsenteret ved sæt af tilfældige SPM’er [21], [22]. For det andet har de seneste metoder genereret nye prædiktive funktioner [9], [23] – [26], som ikke blev anset for udviklingen af ​​kløften algoritme. For det tredje er det uklart, om den tilfældige skov algoritme er optimal grund af den relativt lille størrelse af sættet uddannelse og den høje dimensioner af datasættene skal analyseres. For det fjerde, den store mængde af mutation data akkumuleret fra seneste store kræft genomsekvensering projekter og lokalt baserede projekter, herunder klinisk sekventering er ikke blevet tilstrækkeligt integreret i Chasm at forbedre forudsigelseskraft.

På grund af disse overvejelser, vi havde til formål at vurdere, om mere nøjagtige driver mutation forudsigelser kan opnås ved systematisk at integrere den store mængde af nyligt tilgængelige data og eksisterende algoritmer. Vi startede ved at udføre en omfattende analyse af mutation data i COSMIC database [27], The Cancer Genome Atlas (TCGA), og kræftcellen Linje Encyclopedia (CCLE) projektet [28] og afledte sæt uddannelse og testdata for overvåget model uddannelse og evaluering. Vi foretaget en grundig analyse af de eksisterende redskaber til at sammenligne og vælge de mest effektive funktioner. Vores indsats har resulteret i en ny cancer driver annotation værktøj, Candra, der integrerer vores curated data og funktioner til at beregne en chauffør score for hver mulig missense mutation i en bestemt human cancer type. Vi viste, at Candra opnåede bedre sensitivitet og specificitet end andre værktøjer til at forudsige driver mutationer i glioblastoma multiforme (GBM) og ovariecancer (OVC). Candra og de tilknyttede datasæt for store typer kræft (f.eks bryst, tyk-, malignt melanom, og planocellulært hudkræft) er tilgængelige på https://bioinformatics.mdanderson.org/main/CanDrA.

Materialer og Metoder

datasikring

Den strenge sæt (S).

To missense mutation datasæt, GBM og OVC, blev kurateret fra dem rapporteret i COSMIC (V58), TCGA, og CCLE projektet. TCGA data indeholdt i alt 727 mutationer fra 142 GBM prøver og 11.005 mutationer fra 316 OVC prøver [13], [14]. Den kosmiske data indeholdt 640 mutationer fra 351 GBM primær tumor prøver og 237 fra 212 OVC primære tumor prøver. Vi definerede en chauffør mutation som en, der blev observeret i mindst to forskellige prøver, fra enten TCGA eller KOSMISKE. For at være stringent, vi udelukkede tilbagevendende mutationer, der faldt sammen med andre formodede funktionelle mutationer såsom indels, nonsense mutationer, nonstop mutationer, splejsning websted mutationer og oversættelse startstedet mutationer i samme gen af ​​den samme prøve. De overlapper med dbSNP steder blev også udelukket. Denne proces førte 67 driver mutationer for GBM og 61 for OVC, de fleste (92,5% og 80,3%, henholdsvis) var blevet betragtet som chauffører i tidligere undersøgelser [19].

Vi valgte passager mutationer fra hyper -mutated prøver, som har mangel på DNA-skader reparation og har meget højere fraktioner af personbiler mutationer end ikke-hyper-muterede prøver [14]. Tre GBM prøver blev identificeret fra TCGA, hver med over 55 missense-mutationer, og to OVC prøver blev identificeret, hver med over 130 mutationer. En kandidat blev udelukket, hvis det var placeret i en hvilken som helst cancer gen (som defineret af COSMIC kræft folketælling eller af Chasm undersøgelse), eller overlappede med dbSNP. Endelig blev 95 og 246 mutationer henholdsvis udvalgt til GBM og OVC. Vi kurateret også et andet sæt af personbiler mutationer fra CCLE projektet, som indeholder mutationer fra 27 GBM cellelinjer og 19 OVC cellelinjer. Efter anvendelse af de samme kriterier, blev 490 mutationer for GBM og 462 mutationer for OVC valgt

Sammenfattende blev fire strenge sæt dannet:. GBM.S1, GBM.S2, OVC.S1 og OVC.S2 (tabel 1 og borde S1-S4 i File S1). Disse sæt blev brugt som uafhængig test sæt til at måle Candra præstation mod dem af andre værktøjer.

Den udvidede sæt (E).

Mange mutationer forekommer gentagne i umiddelbar nærhed (hotspots) i forskellige typer af kræft. For eksempel

BRAF

V600-mutation forekommer i papillær skjoldbruskkirtlen karcinom, kolorektal cancer, melanom og ikke-småcellet lungekræft, som gør

BRAF

N580S, E585K, D593V, F594L, G595R , L596V, T598I, V599D, V599E, V599K, V599R, K600E, og A727V mutationer. De fleste af disse mutationer er grupperet i to hotspot regioner: glycin-rige P loop af N lap og aktiveringen segmentet og flankerende regioner [29]. Mange lignende hotspot mutationer observeres i

TP53, PIK3CA, KRAS,

blandt andre [30], [31]. Disse mutationer har lignende egenskaber og sandsynligvis har lignende funktioner i forskellige typer cancer. At repræsentere sådan fællestræk på tværs af cancertyper, konstrueret vi en kræft-typespecifikke men udvidet sæt af førere og passagerer ved hjælp af følgende empiriske regler.

For en given kræft type, vi kalder en missense mutation en driver mutation, hvis det forekommer i et gen muteret i denne kræft type og 1) det iagttages i mindst 3 primære tumorprøver (uanset cancer type), eller 2) sin hjemmeside skærer mindst 4 mutationer (herunder indels, dinukleotid eller trinukleotid mutationer), eller 3) det er centreret i en 25 bp region, der skærer mindst 5 mutationer i COSMIC database. Vi trækkes driver mutationer i sæt S fra dette sæt for at sikre deres gensidige uafhængighed. Denne proces førte 1529 og 1768 formodede drivere til GBM og OVC henholdsvis.

Passenger mutationer af en cancer type blev valgt som dem, der forekommer kun én gang i primær tumor prøver af denne kræftform type, ikke på nogen COSMIC kræft tællingen gen, og ikke falder sammen med andre mutationer inden for en 31-bp vindue i hele COSMIC database. Vi trækkes også passager mutationer i sæt S fra dette sæt. Denne proces førte 1259 og 8075 passagerer til GBM og OVC henholdsvis (tabel 1)

Ved at kombinere disse formodede førere og passagerer for hver kræft type, blev to udvidede datasæt dannet:. GBM.Ex og OVC.Ex . De blev brugt som vores uddannelse sæt til funktionen udvælgelse og overvåget træning

Beskrivende funktioner

For hver missense mutation, 95 funktioner (tabel S5 i File S1) blev erhvervet fra fire dataportaler:. Chasm s SNVBOX [19], Ensembl Variant Effect Predictor [32], Mutation Assessor [9] og ANNOVAR [33]. Blandt dem er UniProtKB anmærkninger, evolutionære bevarelse scoringer, protein fysisk-kemiske egenskaber, sekvens kontekst indekser og funktionelle indvirkning scoringer beregnes af algoritmer, som SIFT [15], PolyPhen-2 [20], CONDEL [25], Mutation Assessor [9], PhyloP [26], GERP ++ [24] og LRT [23].

Feature Valg og evaluering

En lille del omkring 6,0% af data ikke var tilgængelige fra disse data portaler. SNVBOX savnet omkring 13,3% af data i 29 funktioner, fordi der ikke er noget relateret UniProt protein domæneoplysninger for nogle mutation sites. ANNOVAR savnet omkring 15% af data i funktioner som Phylop, Gerp ++ og LRT scoringer af ukendte årsager. For at lette vores undersøgelse, vi substitueret de manglende funktioner med specifikationerne for de nærmeste mutationer i det samme gen under anvendelse af en k-nærmeste nabo algoritmen. Vores evaluering blev minimalt påvirket af denne operation, fordi vores udvalgte test sæt var næsten fri for manglende funktioner.

Vi evaluerede den prædiktive resultater for hver funktion på grundlag af Mann-Whitney U test og arealet under kurven (AUC ) af modtageren opererer karakteristik. Funktioner med ikke-signifikant

s

værdier efter Bonferroni korrektion og AUC under en fastsat grænse, blev udelukket fra yderligere analyse; som var et par funktioner, der kan indføre datasæt (befolkning) -specifikke bias (fx AACOSMIC). Vi derefter vurderet har kombinationer ved hjælp af en hybrid-funktion udvalg algoritme. Først blev alle mulige kombinationer med færre end 4 udvalgte funktioner optalt og vurderet på grundlag af de gennemsnitlige AUC fra 10-fold krydsvalidering (gentagne 5 gange) på uddannelsen datasæt. For det andet blev den bedste funktion kombination yderligere udvides ved hjælp af en hill-klatring søgestrategi [34], som iterativt omfattede de resterende funktioner i den aktuelle kombination. Funktionen sæt, der opnåede det maksimale AUC i cross-validering blev valgt som den optimale sæt.

Klassifikation Resultater og Scores

Vi bruger en vægtet support vektormaskine (SVM) [35] som vores klassificeringen for at tage fat på de ubalancerede antal chauffører og passagerer i træningssættet. Candra klassificerer en mutation i 3 kategorier: driver, no-call, og passager, baseret på scoringer beregnet af SVM (Figur S1 i File S1) [36]. Ifølge score distributioner, er en mutation klassificeret som en driver, hvis dens score er større end 90

percentil af de af de passager mutationer i træningssættet, som passager, hvis dens score er mindre end den 10

percentil af de af de driver mutationer, eller som en no-call andet. Desuden Candra beregner en tillid score for hver forudsigelse, defineret som den del af mutationer, der har mere ekstreme scorer i samme klasse i træningsdata (Figur S1 i File S1). For eksempel, hvis en mutation er klassificeret som chauffør og dens score er større end 95% af de chauffører i træningssættet, sin tillid score er lig med 0,05. Disse tillid scoringer er derfor

de facto

betydning

P

skønnede værdier fra den empiriske klasse-wise Vurdering distribution i uddannelsen datasættet.

Resultater

Feature Valg og Samlet klassifikation Resultater

for GBM, vi identificeret 28 funktioner, der hver for bestået AUC (

Be the first to comment

Leave a Reply