PLoS ONE: Prioritering Potentielt Druggable Mutationer med dGene: En annotation værktøj for Cancer Genome Sequencing data

Abstrakte

En større mål for kræft genomsekvensering er at identificere mutationer eller andre somatiske forandringer, der kan målrettes ved selektive og specifikke lægemidler. dGene er en anmærkning værktøj designet til hurtigt at identificere gener, der tilhører en af ti druggable klasser, der ofte målrettet i udvikling af kræft narkotika. Disse klasser blev grundigt befolket ved at kombinere og manuelt kuratere data fra flere specialiserede og generelle databaser. dGene blev brugt af The Cancer Genome Atlas planocellulært lungekræft projekt, og her vi vise sin nytte yderligere hjælp nyligt udgivne brystkræft genom sekventering data. dGene er designet til at kunne bruges af enhver kræftforsker uden behov for støtte fra en bioinformatik specialist. En fuldstændig beskrivelse af dGene og muligheder for dens gennemførelse findes her

Henvisning:. Kumar RD, Chang LW, Ellis MJ, Bose R (2013) Prioritering Potentielt Druggable Mutationer med dGene: En annotation værktøj for Cancer Genome Sequencing data. PLoS ONE 8 (6): e67980. doi: 10,1371 /journal.pone.0067980

Redaktør: Patrick Tan, Duke-National University of Singapore Graduate Medical School, Singapore

Modtaget: Februar 27, 2013; Accepteret: 24 maj 2013; Udgivet: 27 juni 2013

Copyright: © 2013 Kumar et al. Dette er en åben adgang artiklen distribueres under betingelserne i Creative Commons Attribution License, som tillader ubegrænset brug, distribution og reproduktion i ethvert medie, forudsat den oprindelige forfatter og kilde krediteres

Finansiering:. Økonomisk støtte for dette arbejde blev leveret af NIH tilskud R01CA095614 og U01HG00651701 (til MJE), og Edward Mallinckrodt, Jr. Foundation og ‘Ohana Breast Cancer Research Fund (til RB). De finansieringskilder havde ingen rolle i studie design, indsamling og analyse af data, beslutning om at offentliggøre, eller forberedelse af manuskriptet

Konkurrerende interesser:.. Forfatterne har erklæret, at der ikke findes konkurrerende interesser

Introduktion

Cancer genomsekvensering undersøgelser er nu analyserer 50 til 500 patienter per undersøgelse og dokumenterer tusindvis af somatiske mutationer [1], [2]. Nye værktøjer til anmærkning og analyse er nødvendige for at forudsige den funktionelle relevans af disse genetiske ændringer og vejlede efterfølgende undersøgelser. Her introducerer vi et værktøj baseret på druggable gener, som i kombination med andre annotation og filtrering trin, kan hurtigt prioriterer et stort sæt af mutationer i et mere fokuseret sæt, der kan testes i funktionelle studier.

Dette værktøj , som vi kalder dGene (samling af druggable gener), er baseret på begrebet druggable genom indført ved Hopkins og Groom i 2002 [3]. De identificerede protein klasser, der potentielt kan binde småmolekylelægemidler og foreslog, at sygdomsmodificerende gener tilhører en druggable klasse bør prioriteres for lægemiddeludvikling [3], [4]. Dette sæt af druggable gener var baseret på den iagttagelse, at FDA-godkendte lægemidler og forbindelser i udvikling ikke er rettet mod det humane genom ensartet, med nogle gen klasser, såsom G-protein-koblede receptorer (GPCR) og proteinkinaser, idet oftere ramt af små molekyler.

dGene bidrager til deres arbejde ved at udvide og opdatere sæt druggable klasser baseret på den nuværende indsats inden for lægemiddeludvikling, befolker klasser omfattende og opretholde kvaliteten gennem manuel datasikring. I denne artikel beskriver vi rationalet og konstruktion af dGene, vise sin anvendelighed i en nylig udgivet sæt af brystkræft hel-genom og hel-exome sekvensdata [2], og give instruktioner til brug af dGene.

Resultater

dGene er designet som en anmærkning og filtrering værktøj til prioritering mutationer for funktionel vurdering (fig. 1a). Det indledende trin i dets motiv er at vælge et sæt af genklasser som er både druggable og relevant for cancer biologi. Klasser blev udvalgt baseret på tidligere linjer i druggable genom [3], [4] og yderligere sondering af primært litteratur, med særlig vægt på kræft biologi. For eksempel, mens transportører og ionkanaler er bredt druggable, de er blevet udelukket fra dGene på grund af mangel på etablerede relevans i tumorigenese. Den aktuelle version af dGene er bygget op omkring ti gen klasser (tabel 1). Vi demonstrerer gyldigheden af denne tilgang ved at undersøge en gruppe af 299 lægemidler, som gennemgår kliniske forsøg for lungekræft [5]. Vi observerede, at over 60% af disse lægemidler målrettet proteiner, som er i de 10 klasser i dGene (fig. 1b).

A, Druggability tjener som en rationel skærm i en hypotetisk rørledning til reduktion en rå gen liste til en eksperimentelt brugbar nummer. B, lungekræft narkotika i støbeskeen klassificeret af target type, med nogle mål typer betragtes bredt druggable og indgår i dGene. C, NHRs krævede en simpel arbejdsgang. Russ

et al,

2005 og NucleaRDB [6] givet input. Et gen kortlagt til hverken genet eller synonymer liste NCBI. Seks gener blev identificeret i kun én kilde og blev manuelt kontrolleres i forhold UniProt og Gene Ontology (GO) [9], [10]. Ingen kunne bekræftes som NHRs, forlader den sidste klasse med 48 medlemmer. D, The uddybet workflow for proteaser er analog med de NHRs og andre klasser. Fordi UniProt tjente som input, involverede curation søge den primære litteratur ud over at forespørge GO.

Hver af de 10 dGene klasser blev grundigt befolket hjælp skræddersyede kilder, herunder specialiserede databaser og oversigtsartikler. For en given klasse, blev resultaterne fra flere kilder forenes gennem NCBI Gene List og indgange unikke for en enkelt kilde blev bekræftet mod databaser som UniProt eller den primære litteratur. Nukleare hormonreceptorer (NHR) illustrerer en enkel sag med godt kuraterede kilder [6] kræver lidt ekstra kontrol (fig. 1c). Til sammenligning, proteaser krævede en uddybet arbejdsgang involverer yderligere specialiserede kilder [7] og en større grad af manuel curation herunder primære litteratursøgning (Fig. 1d). Den endelige dGene liste omfatter 2257 gener fra de ti klasser (tabel 1 og tabel S1), og trækker fra en række specialiserede og generelle kilder [6] – [14]. dGene er helt modulære og udvides: kan nemt tilføjes fremtidige oplysninger eller gen-klasser af interesse

dGene filter er for nylig blevet brugt af The Cancer Genome Atlas (TCGA) planocellulært lungekræft projekt at analysere somatiske mutationer fundet. i 178 pladecellekræft tilfælde celle lungekræft; detaljer kan findes i, at publikationen [1]. For yderligere at illustrere nytten af dGene, valgte vi en nylig genomisk undersøgelse af 77 østrogenreceptorpositive brystkræft som en prøvesag [2]. Datasættet består af 46 brystkræft, der undergik hele genomet sekventering, plus 31 kræftformer, der undergik exome sekventering, betegnet “BRC” og “CSB” patient koder, hhv. dGene identificeret 368 enkelt nukleotid varianter (SNV) ud af 2622 i alt som forekommende i 255 druggable gener (Fig. 2a-b). Krav om tilbagefald i flere patienter reducerer gen sat endnu mere (fig. 2c). De 37 gener, som er både druggable og til stede i mindst 2 patienter er anført i figur 2d. Input filen og dGene output fil fra denne analyse er tilvejebragt (tabel S2 og S3).

A, forekom 368 SNVs i gener, der anses for at være druggable ud af 2622 events i alt. B, 2199 gener havde mindst én SNV, hvoraf 255 betragtes druggable. C, Screening for almindeligt ændrede gener reducerer målliste yderligere. D, 37 dGene indgange til stede i mindst 2 ud af 77 prøver, arrangeret af klasse og patienter påvirket.

dGene resultater giver nye oplysninger om denne kræft genom datasæt.

PIK3CA

er muteret i 37/77 prøver, men en ekstra patient (BRC44) havde en KPDL567 i-frame sletning i PIK3R1, en regulatorisk subunit, der binder PIK3CA. Denne deletion forekommer ved PIK3R1-PIK3CA bindende interface og kan ændre PI3-kinase signalering [15]. dGene foreslår betydningen af denne mutation gennem både dens forhold til PIK3CA og potentielle druggability. Yderligere mutationer blev tilsvarende fremhævet; for eksempel den

TEX14

(navne: testis-udtrykte protein 14 eller Sugen kinase 307) og

INSRR

(insulin receptor-relateret receptor) tyrosinkinaser to relativt nye lægemiddelkandidater. TEX14 er blevet impliceret i myelomatose og brystcancer [16], [17], og INSRR har været impliceret i ovarieepitelceller cancere og neuroblastomer [18], [19]. Begge er sandsynligvis druggable, men hverken forekom ved høj frekvens og blev ikke fremhævet i en global analyse af datasættet. For at demonstrere værdien af dGene resultater blev sammenligningen foretaget for at søge resultater fra en eksisterende stof databasen PharmGKB (The Farmakogenomforskning Vidensdatabase). dGene identificeret flere gener end PharmGKB fra denne brystkræft datasæt (figur S1, tabel S4), herunder identificere 4 tyrosinkinaser og 13 S /T kinaser, der blev gentagne gange muterede i disse brystkræft genomer (Fig. 2D).

Figur 2d illustrerer også to advarsler i at bruge dGene. Mutationer i

MAP3K1

findes i 9/77 patienter, og de fleste af disse hændelser er tab af funktion mutationer [2].

MAP3K1

‘s tilstedeværelse i dGene output analyse viser, at dGene giver ingen oplysninger om, hvorvidt en mutation er gevinst-of-funktion, tab af funktion, eller funktionelt tavs. Givet en liste af gen symboler, dGene fungerer kun som et filter. Tilstedeværelsen af

Titin

og to collagen gener (

COL28A1

COL6A3

) illustrerer, hvordan meget store gener, som ofte indeholder druggable komponenter og har tendens til at være hyppigt muteret, vil fortsat filtreres gennem dGene. Tilstedeværelsen af et gen i dGene output garanterer ikke en given mutation biologiske relevans.

dGene kan anvendes på enhver datasæt indeholdende en liste af gen symboler. For at illustrere dette har vi analyseret gen kopi nummer (CN) data fra de 46 østrogenreceptorpositive brystkræft, der undergik hele genomet sekventering (kodes “BRC”) [2]. De rå KN-data impliceret 19,528 gener gennem næsten 150.000 arrangementer, herunder både fokal og brede KN ændringer. Som en indledende screening, kun begivenheder under 20

th eller over 80

percentil blev anset (0,7 × og 1,5 × ændringer, henholdsvis), efterlader 54,301 begivenheder i 16.924 gener (Tabel S5). Filtrering mod dGene yderligere reduceret sættet til 5421 KN ændringer i 1752 druggable gener (Figur 3a-c og tabel S6). KN tab i PTEN familien afslørede en ny observation (figur 3d).

TPTE2 Hotel (navne: transmembrane phosphoinositid 3-phosphatase og tensin homolog 2 eller TPIP) er den mest almindeligt tabt PTEN familiemedlem, med KN tab observeret i 14/46 patienter, som er en frekvens 3,5 gange højere end

PTEN

KN tab (4/46). Litteraturen om TPTE2 er begrænset, og det viser at TPTE2 kan hæmme cellevækst og initiere apoptose, svarende til PTEN tumor suppressor [20], [21], [22]. Denne roman fund af TPTE2 KN tab blev identificeret, fordi dGene fremhæver foreningen blandt PTEN familiemedlemmer fra en stor kandidat CN ændring indstillet.

A, blev påvist 5421 CNVs i 1752 druggable gener på tværs af prøven. Den 20

th (0,7 ×) og 80

th (1,5 ×) percentiler tjente som cutoffs. B, Gevinster kun ( 1,5 ×). C, Tab kun ( 0,7 ×). D, Visning PTEN familie CNV værdier.

TPTE2

er den hyppigst ændret. Cutoffs er afslappet til 0,85 × og . 1,15 × til visning

Diskussion

Vi har udviklet en opdateret version af den druggable genom ved at identificere yderst druggable gen klasser, befolker klasserne bruger up-to-date og specifikke ressourcer, og manuelt bekræfter resultaterne. Vores samling af druggable gener, dGene, er skræddersyet til anvendelse mod mutation lister genereret af kræft genomsekvensering, selvom det kan anvendes til at analysere enhver humane gen listen. Vi har også vist, at der i kombination med yderligere kriterier filtrering, kan dGene hurtigt fremhæve mutationer i biologisk og klinisk plausible terapeutiske mål.

Begrænsninger af dGene er, at den er forudindtaget mod den “onkogen afhængighed” model af kræft og mod mål for velbeskrevne, småmolekyle narkotika. Mens dGene ikke for øjeblikket indeholder gener involveret i DNA-reparation, celleoverfladeproteiner, eller andre potentielle lægemiddelkandidater, er yderligere klasser let indkvarteret på grund dGene s modularitet. dGene også gør intet forsøg på at identificere mutationer som værende enten tab eller gevinst på funktion; dog kan dGene kombineres med funktionelle effekt scoringer (såsom Sigt eller Mutation Assessor) for at identificere mutationer, der er både sandsynligt druggable og sandsynligvis funktionel [23], [24]. dGene er tænkt som en opdagelse fase værktøj til at styre eksperimenter i retning af gener mod som kunne hurtigt blive udviklet småmolekyle-hæmmere.

Som med alle data-baserede ressourcer, opdatering dGene vil være af største betydning. dGene klasser tendens til at være godt undersøgt, hvilket illustreres af det faktum, at 2108 ud af 2257 poster kan findes i SwissProt, en manuelt revideret samling af protein anmærkninger [9]. Derfor forventer vi dGene bliver helt stabil, og er forpligtet til at yde årlige opdateringer. Desuden fordi dGene er let udvides, vi kan nemt integrere nye gen klasser som viden om kræft biologi fremskridt og yderligere gen klasser er målrettet.

dGene er designet til at blive brugt af kræftforskere og ikke kræve støtte fra en bioinformatik specialist. dGene øjeblikket vært som et web-baseret værktøj gennem Genome Institute ved Washington University (dgidb.genome.wustl.edu). Der kan brugerne filtrere gen lister mod dGene (via “Søg Kategorier” side, eller downloade den fulde dGene tabulatorsepareret tekstfil (via “Downloads” side), som kan importeres til forskellige statistiske pakker og anvendes eller tilpasset som behov. Yderligere funktionalitet af hjemmesiden omfatter udfyldelse dGene poster med specifikt lægemiddel information hvor det er muligt (M. Griffith og OL Griffith, manuskript under udarbejdelse). sammenfattende dGene giver en hurtig filter til at identificere druggable gener tværs ti klasser fra kræft genomiske studier, og er i øjeblikket tilgængelig til brug via et professionelt opbygget hjemmeside.

Metoder

Befolke Gene Klasser

Klasser blev befolket med menneskelige gener gennem en proces med inddragelse af specialiserede databaser og anmeldelser , standardisering til NCBI gen listen, og manuel kuratering af gener, der forekommer i en enkelt kilde. figur 1c og 1d skildre processen helt for nuklear hormonreceptorer (en simpel case) og proteaser (en kompleks case), mens tabel 1 skitserer sæt af specialiserede kilder, der anvendes for hver klasse. Anmeldelser og databaser blev identificeret ved litteratursøgning og kan ikke være udtømmende. Manuel datasikring af gener foreslået af kun én kilde sikret gener korrekt klassificeret. For klasser, hvor UniProt /Gene ontologi ikke krævedes som indgangskilder, blev en simpel kontrol mod UniProt /GO klassifikation udføres. I de tilfælde, hvor UniProt /GO blev leveret som input til klassen (som det var tilfældet for proteaser), blev inspektion af den refererede alignment litteratur og sekvens udført.

Under manuel datasikring, skævhed var mod inklusion. Gener blev efterladt i deres respektive registre, hvis de enten viste sekvenshomologi med en kendt medlem, eller hvis eksperimentelle beviser foreslog de havde den passende funktionalitet. Pseudogener og gener, der koder ikke-funktionelle produkter blev inkluderet, hvis de viste homologi til en inkluderet klasse medlem.

En hyppig udfordring i at konsolidere forskellige kilder var sammenblanding af uforenelige gen og protein identifikatorer. Kortlægning af NCBI menneskelige Gene List (url: ftp://ftp.ncbi.nih.gov/gene/DATA/GENE_INFO/Mammalia/Homo_sapiens.gene_info.gz, adgang den 3. juli, 2012) lettet sammenligninger mellem kilder. Den NCBI menneskelige gen listen er den totale samling af menneskelige gener anerkendt i NCBI database samt aktuelle kommentarer, og opdateres dagligt. Den NCBI gen liste giver et standardformat for alle dGene poster -15 kolonner, herunder NCBI geneID, officielt symbol, og afgørende, en liste over synonymer, der anvendes i litteraturen. Til hver post en 16

th kolonne, klasse, er blevet tilføjet. Kortlægning blev udført ved at konvertere protein navne til gen navne med David Gene ID Conversion Tool [25], og ved at søge i listen over synonymer, der er fastsat i NCBI-filen for vilkår, der ikke vises som en officiel symbol.

Anvendelse af dGene til 77 Breast Cancer prøver

De rå mutation anmærkninger analyseret i dette arbejde udnyttes up-to-date gen id-numre. Mutationer i gener, som også optræder i dGene blev filtreret til en separat tabel, og klassen sigt fra dGene blev vedlagt som en ny kolonne. Aggregering til patient og klasse tilladt til produktion af figur 2a. Aggregering til patient og genet blev der kræves til produktion af figur 2b-d. De rå KN-data blev analyseret på samme måde, med de resultater, portrætteret i Figur 3.

Software

Analysen blev udført i R 2.15.1 til Windows. Heatmaps blev produceret i R ved hjælp af basispakken, mens supplerende tal og tabeller blev produceret med Microsoft Excel og PowerPoint.

Støtte Information

Figur S1.

doi: 10,1371 /journal.pone.0067980.s001

(PDF)

tabel S1.

doi: 10,1371 /journal.pone.0067980.s002

(CSV)

tabel S2.

doi: 10,1371 /journal.pone.0067980.s003

(XLS)

tabel S3.

doi: 10,1371 /journal.pone.0067980.s004

(XLS)

Tabel S4.

doi: 10,1371 /journal.pone.0067980.s005

(XLS)

tabel S5.

doi: 10,1371 /journal.pone.0067980.s006

(XLS)

tabel S6.

doi: 10,1371 /journal.pone.0067980.s007

(XLS)

Tak

Forfatterne takker Obi Griffith, Malakias Griffith, Robert Pufahl, Li Ding, og Rob Mitra til nyttige diskussioner og kritisk læsning af dette manuskript. Forfatterne derudover takke Mal Griffith og Obi Griffith for at give adgang til dGene gennem dgidb.genome.wustl.edu.

Kronisk sygdom

PLoS ONE: Prioritering Potentielt Druggable Mutationer med dGene: En annotation værktøj for Cancer Genome Sequencing data

Be the first to comment

Leave a Reply Annuller svar