PLoS ONE: ProKinO: En ontologi for Integrativ Analyse af Protein kinaser i Cancer

Abstrakt

Baggrund

Proteinkinaser er en stor og forskelligartet familie af enzymer, der genomisk ændret på mange menneskelige kræftformer . Målrettede kræft genomsekvensering indsats har afsløret de mutationelle profiler af proteinkinasegenerne fra mange forskellige typer kræft. Mens mutationsstudier data om proteinkinaser øjeblikket katalogiseret i forskellige databaser, er nødvendige integration af mutation data med andre former for data om proteinkinaser såsom sekvens, struktur, funktion og pathway at identificere og karakterisere vigtige cancer forårsager mutationer. Integrativ analyse af protein kinase data, men er en udfordring på grund af den uensartede karakter af protein kinase datakilder og dataformater.

Resultater

Her beskriver vi ProKinO, et protein kinase-specifikke ontologi, som giver et kontrolleret ordforråd på vilkår, deres hierarki og relationer Unifying sekvens, struktur, funktion, mutation og sti på proteinkinaser. Den konceptuelle repræsentation af så forskellige former for oplysninger på ét sted ikke kun tillader hurtig opdagelse af væsentlige oplysninger om et specifikt protein kinase, men også gør det muligt for store integrativ analyse af protein kinase data på måder ikke muligt gennem andre kinase-specifikke ressourcer. Vi har udført adskillige integrative analyser af ProKinO om data, som et eksempel, fandt, at et stort antal somatiske mutationer (~288 særskilte mutationer) i forbindelse med

hæmatopoietisk neoplasme

cancertype kortet til kun 8 kinaser i humane kinome. Dette er i modsætning til

gliom

, hvor mutationerne er spredt over 82 forskellige kinaser. Vi tilbyder også eksempler på, hvordan ontologi-baserede data analyse kan anvendes til at generere testbare hypoteser om kræft mutationer.

Konklusion

Vi præsenterer en integreret ramme for storstilet integrativ analyse af protein kinase data . Navigation og analyse af ontologi data kan udføres ved hjælp af ontologi browser findes på:. https://vulcan.cs.uga.edu/prokino

Henvisning: Gosal G, Kochut KJ, Kannan N (2011) ProKinO : En ontologi for Integrativ Analyse af protein kinaser i Cancer. PLoS ONE 6 (12): e28782. doi: 10,1371 /journal.pone.0028782

Redaktør: Fazlul H. Sarkar, Wayne State University School of Medicine, USA

Modtaget: Juli 27, 2011; Accepteret: November 15, 2011; Udgivet: December 14, 2011

Copyright: © 2011 Gosal et al. Dette er en åben adgang artiklen distribueres under betingelserne i Creative Commons Attribution License, som tillader ubegrænset brug, distribution og reproduktion i ethvert medie, forudsat den oprindelige forfatter og kilde krediteres

Finansiering:. Finansiering af dette arbejde blev leveret af American Cancer Society (RSG-10-188-01-TBE) og Georgia Cancer Coalition (GCC). De finansieringskilder havde ingen rolle i studie design, indsamling og analyse af data, beslutning om at offentliggøre, eller forberedelse af manuskriptet

Konkurrerende interesser:.. Forfatterne har erklæret, at der ikke findes konkurrerende interesser

Introduktion

Kræft forårsages af en akkumulering af mutationer, ofte i en undergruppe af gener, som giver overlevelse og vækst fordel. Den proteinkinase-genfamilien, som styrer vigtige signalveje forbundet med cellevækst og overlevelse, er en af ​​de mest overrepræsenteret familier af onkogener [1]. Målrettet sekventering af 518 proteinkinase exoner kodet i det humane genom (samlet kaldet kinome) har afsløret hundredvis af mutationer i proteinet kinasedomænet [2]. Selv om disse mutationer er i øjeblikket katalogiseret i forskellige databaser [3], [4], [5], identifikation og eksperimentel karakterisering af centrale kræftfremkaldende mutationer er afgørende for udvikling af nye behandlingsmetoder for kræft.

Eksperimentel karakterisering af kræft mutationer, kræver dog, at man først formulere de rigtige hypoteser baseret på analyse af eksisterende data. Især analyse af mutation data i lyset af andre former for data om proteinkinaser såsom sekvens, struktur, funktion og vej er nødvendig for at udvikle og afprøve nye hypoteser om den funktionelle konsekvenser af kræft mutationer [6], [7], [8], [9]. Integrativ analyse af protein kinase data er imidlertid en udfordring på grund af den uensartede protein kinase datakilder og formater. For eksempel, en forsker er interesseret i den strukturelle placering af en kræft mutation, eller distribution af kinase mutationer i forskellige kræfttyper, har til at gå gennem tidskrævende og fejlbehæftet proces med at indsamle og parsing af data fra forskellige kilder, ofte i forskellige data formater. Selvom flere kinase-specifikke ressourcer såsom KinBase [10], KING [11], PKR [12] og KinMutBase [4] er blevet udviklet, disse ressourcer i høj grad fokusere på ét eller få typer, af protein kinase data (f.eks sekvens , struktur, eller mutation), bortset fra den udfordring dataintegration.

Ontologier [13] har vist sig som et effektivt værktøj til integrativ og kvantitativ analyse af biologiske data [14], [15], [16] , [17]. Ved at opfange domæneviden i form af begreber (klasser) og relationer, ontologier giver en konceptuel repræsentation af data på en måde, computere kan læse og mennesker kan forstå. For eksempel, for en automatiseret og informeret svar på forespørgslen “kinase mutationer associeret med cancer typer”, computeren skal forstå begreberne, “kinase mutationer” og “kræft typer”, og forholdet mellem de begreber, nemlig “

er forbundet med “

. Det er denne konceptuelle repræsentation af viden, der adskiller ontologier fra relationelle databaser, og muliggør effektiv integration og udvinding af diverse datasæt [18]. Faktisk har flere ontologier er udviklet til at indfange og mine det væld af oplysninger om gener (GO) [19], sekvens [20], veje (https://rgd.mcw.edu/tools/ontology/ont_search.cgi

)

, protein modifikation [21] og andre [20], [22]. Fokuseret ontologier på udvalgte proteinfamilier såsom proteinphosphatase familie og transportør familie er også blevet udviklet [23]. Men indtil nu, en fokuseret ontologi opfange viden på proteinet kinase familien er ikke blevet rapporteret,.

Her har vi rapportere Protein kinase ontologi (ProKinO). ProKinO giver et kontrolleret ordforråd af begreber og relationer forbinder sekvens, struktur, funktion, sti og mutation data om proteinkinaser. ProKinO er kodet ved hjælp af en ontologi authoring sprog anbefalet af World Wide Web Consortium (http Web ontologi Sprog (OWL) (https://www.w3.org/TR/owl-ref/),: //www.w3. org /). Integrationen af ​​diverse datasæt i et maskinlæsbart format giver ikke kun navigation af forskellige former for protein kinase data på ét sted, men også muliggør samlede forespørgsler på eksisterende data på måder ikke muligt gennem eksisterende kinase-specifikke ressourcer. For eksempel samlede forespørgsler som “tællinger af kinaser er forbundet med kræft typen” eller “tællinger af kræft mutationer beliggende i forskellige kinase subdomæner” kan let udføres ved hjælp ProKinO og ontologi query sprog SPARQL (http: //www.w3 .org /TR /RDF-sparql-query /). Vi beskriver betydningen af ​​sådanne forespørgsler i viden opdagelse og hypotese generation. Et samlet forespørgsel “tællinger af kinase mutationer i forskellige cancertyper”, for eksempel, viste, at de mutationer, der er forbundet med

hæmatopoietisk neoplasme Hotel (288 forskellige mutationer) primært rettet mod kun 8 kinaser i den menneskelige kinome, sammenlignet med

gliom

, hvor mutationerne er fordelt på 82 forskellige kinaser. Ligeledes kan forespørgsler som “mutationer målretning kinase funktionelle træk” anvendes til at generere nye hypoteser om den strukturelle og funktionelle virkninger af kræft mutationer. Vi beskriver også en browser, der muliggør hurtig navigation og undersøgelse af ProKinO data tilgængelige på:. https://vulcan.cs.uga.edu/prokino

Metoder

ProKinO Knowledge Organization

for at konceptualisere den rigdom af viden om protein kinase sekvens, struktur, funktion, veje og sygdomme, har vi indført flere vigtige begreber (klasser) og relationer (objekt egenskaber) i ProKinO. Disse klasser, organiseret i en hierarkisk måde, og forholdet blandt disse klasser, repræsentere og beskrive protein kinase viden på en måde analog til et domæne ekspert.

For eksempel ville en kinase ekspert beskriver en bestemt mutation beskrive mutation i forbindelse med det gen, hvor mutationen er fundet, kinasen kodet af genet, den gruppe eller familie kinasen tilhører, kinase sub-domæne mutationen ligger i, og de veje, hvor det muterede gen deltager . Den ProKinO skema er designet til at fange og integrere protein kinase viden ved hjælp af de vilkår og relationer svarende til dem, der typisk anvendes af en ekspert (figur 1). For eksempel er forholdet mellem “gen” og “mutation” klasser beskrives ved “

hasMutation”

ejendom (figur 1), mens “

locatedin”

ejendom indfanger forholdet mellem den “Mutation” og “subdomæne” klasser. Tilsvarende er sekvensen en kinase tilhører repræsenteres af “

hasSequence”

ejendom mellem “Gene” og “sekvens” klasser, og sub-domæner med tilknytning til en bestemt sekvens er begrebsliggøres af “

hasSubDomain “

forhold (figur 1). Den vej og reaktion information relateret til kinaser er konceptualiseret af “

participatesIn”

forhold mellem “Gene” og “Pathway”, og “

hasReaction”

mellem “Pathway” og “Reaktion”. At krydse reference- ProKinO data til eksterne databaser og kilder, klassen og “DbXref” “

hasDbXref”

forhold er blevet indført (se figur 1).

Figuren viser koncepter (klasser) organiseret i en klasse underklasse hierarki (vist som ovaler). Relationerne (objekt egenskaber) mellem klasser er vist som røde farvede linjer. De interne specifikke (data egenskaber) af klasser vist som brune farvede linjer. De tilfælde af klasser vises som rektangler. Den komplette ontologi skema kan tilgås fra ProKinO hjemmeside, og også som figur S1.

Rationalet bag repræsenterer protein kinase data på den ovenfor beskrevne måde er, at det giver baggrund for at fortolke mutation data . Dette kan illustreres ved hjælp af missense mutation

p.L858M

i

EGFR

(figur 1).

p.L858M

er en mutation i

EGFR

kinase have typen “missense”. Mutationen er impliceret i cancer

carcinoma

og placeret i sub domæne VII, som svarer til den N-terminale ende af Activation segment (betegnet som

Activation-Segment-NT

i figur 1) . Proteinet kodet af

EGFR

gen deltager i en pathway

signalering med EGFR

, som omfatter

EGFR dimerisering

som et af sine reaktioner. Andre klasser og underklasser er ligeledes forbundet med mutationen

p.L858M

via forbindelser som nævnt i figur 1, der giver et integreret overblik over alle data, som ville være nødvendige for at give strukturel og funktionel kontekst for

s. L858M

mutation.

Ud over de store klasser og objekt egenskaber beskrevet ovenfor, flere ekstra sub-klasser og objekt egenskaber er blevet defineret i ProKinO til fuldt ud at fange og repræsenterer den tilgængelige viden på protein kinase sekvens, struktur, funktion og sygdomme. For eksempel underklasser af klassen “Mutation” – “ComplexMutation”, “DeletionMutation”, “InsertionMutation”, “SubstitutionMutation” og “OtherMutation” – indsamling af oplysninger om de typer af mutationer identificeret i kinaser. Ligeledes de tre underklasser under klasse “FunctionalFeature” – “ModifiedResidue”, “TopologicalDomain”, “SignalPeptide” – indsamling af oplysninger om de specifikke funktionelle egenskaber. Denne hierarkiske organisering af klasser i ProKinO er vist i figur 1.

Udover de objektegenskaber, har nøgledata egenskaber blevet indført for at beskrive den interne organisation af de begreber og for at lette data mining og udvinding. For eksempel dataegenskab, “

hasOtherName”

, gemmer andre navne, som et gen kan være kendt i litteraturen (synonymer). For eksempel,

EGFR

er også nævnt som

EGFRvIII

,

ErbB1

,

erbB

, eller

Mena

i litteraturen. Ved at inkludere de “

hasOtherName”

data ejendom, alle de relevante oplysninger til

EGFR

kan opnås, uanset hvilket gen navn bruges som en forespørgsel.

Med et stort sæt af klasser og egenskaber relateret til kinaser i designet skema (se Figur S1 for den fulde skema), ProKinO, udgør en udtrykkelig konceptualisering og organisering af viden om menneskets proteinkinaser. ProKinO indeholder i øjeblikket 351 klasser, 25 objektegenskaber og 27 data egenskaber (tabel S1, S2 og S3 for hele listen) opfange informationer på protein kinase sekvens, struktur, funktion, sti og sygdom.

ProKinO Befolkning

ProKinO er blevet befolket med data fra datakilder, der er godt kurateret og vedligeholdes. Den erhvervede data er blevet lagret som forekomster i skemaet beskrevet ovenfor (Figur 1).

køb og opbevaring af data

Sequence.

Data om protein kinase sekvens og klassificering har indhentet fra KinBase [10], lageret for kinase sekvens og klassificering. De 538 kinase gener øjeblikket identificeret i det humane genom er blevet klassificeret i store grupper og familier baseret på sekvens lighed i kinase domæne. Siden KinBase klassifikationen er almindeligt accepteret af kinase samfund har vi vedtaget den samme klassificering ordningen i ProKinO. Den automatiske proces med dataopsamling og befolkning fra KinBase omfatter udvinding, integration og befolkning af oplysninger fra 538 humane proteinkinaser og deres klassificering i forskellige grupper, familier og underfamilier. Oplysninger om gen-navne, synonymer og kromosomal position også fås fra KinBase. Den erhvervede viden er befolket som instanser af klassen “ProteinKinaseDomain”, som yderligere kategoriseret i grupper, familier og undergrupper som underklasser. Endvidere har de sekvensdata af protein kinase gener i FASTA format blevet udvundet og befolket som instanser af klassen “Sequence”.

Funktion.

Oplysninger om funktionelle domæner og funktionelle træk forbundet med kinase domæner er blevet indhentet fra UniProt [24], en kurateret ressource for protein funktionel information. Oplysninger om de regulatoriske domæner med tilknytning til kinase-domæner, krystalstrukturer løst for hver kinase, isoformer identificeret for kinaser, modificeret rest, signal peptid, topologisk domæne, cellulære placering og vævsspecificitet også fås fra UniProt. Funktionelle domæner relateret til proteinkinaser er befolket som instanser af klassen “FunctionalDomain”, og cross reference til Pfam [25], et protein familie database via klasse “DBxRef”. Tilsvarende er oplysninger om krystalstrukturer befolket som instanser af klassen “struktur” med krydshenvisninger til Protein Data Bank (FBF) [26]. Funktionelt træk oplysninger lagres som instanser i klassen “FunctionalFeature”, med undergrupper baseret på den type af funktionen som “ModifiedResidue”, “TopologicalDomain” og “SignalPeptide”.

Sygdom.

Selvom proteinkinaser har været forbundet med flere humane sygdomme, den aktuelle version af ProKinO fokuserer primært på kræft. Information vedrørende kræft mutationer opnås fra COSMIC [3], som er en af ​​de ældste og kurateret ressourcer til lagring af information om somatiske erhvervet mutationer forbundet med humane cancere. Ud over mutationer, er også blevet opnået og lagret som instanser i klassen “Mutation” andre oplysninger såsom primære steder, primær histologi, prøver, beskrivelse og andre relevante funktioner. Klassen “Mutation” er specialiseret yderligere i underklasser baseret på den type af mutation, nemlig komplekse, sletning, indsættelse, substitution og andre. Henvisninger til PubMed, MEDLINE og COSMIC databaser findes i klassen “DbXref”.

Pathway.

Pathway data fås fra Reactome, en manuelt kurateret og peer-reviewed vej ressource [27] . Veje og reaktion gemmes som instanser i klassen “BiochemicalEvent”. For overskuelighedens skyld har vi vedtaget de samme betingelser /begreber, der anvendes i Reactome at repræsentere sti oplysninger. “BiochemicalEvent” er et begreb, der anvendes i både Reactome og ProKinO at repræsentere biologiske processer, der konverterer input enheder til output enheder. “Pathway” og “Reaktion” er underklasser under “BiochemicalEvent” (figur 1). For eksempel,

Signalering ved EGFR

er en instans i klassen “Pathway”, som er relateret til klasse “Reaktion” af “

hasReaction”

ejendom (figur 1). Klassen “Reaktion” har flere reaktioner for en given vej.

EGFR dimerisering

er en af ​​reaktionerne i den

Signalering af EGFR

vejen (figur 1). Denne reaktion “

forbruger”

en kompleks opkaldt

EGF: EGFR [plasmamembranen]

, og “

producerer”

en kompleks,

EGF: EGFR dimer [plasma membran]

. Begge komplekser gemmes som medlemmer af klassen “kompleks”.

kinase Sub-domæner.

For at give strukturel kontekst for kræft mutationer, har vi indarbejdet subdomæne oplysninger i ProKinO. Sub-domæner svarer til de centrale konserverede motiver /strukturelle elementer, der definerer kinase katalytiske domæne [28]. Den sub-domæne notation er almindeligt anvendt til at beskrive den strukturelle organisering af motiver og regulatoriske segmenter, der udgør det katalytiske domæne. I øjeblikket sub-domæne information om menneskelige kinaser er ikke tilgængelig fra enhver offentlig ressource. Proteinet kinase ressource (PKR) giver sub-domæne information om nogle (18 kinaser), men ikke på alle kinaser. For at fange den sub-domæne oplysninger i ProKinO, har vi brugt et motiv model, som indfanger de vigtigste motiver svarende til hver af XII sub-domæner i kinasedomænet [6], [29]. Motivet model blev kørt mod alle UniProt og COSMIC sekvenser for at identificere start og slut placering af sub-domæner i sekvenser. Start- og slutpositionen for sub-domæner er blevet opbevaret i ProKinO som instanser i klassen “Subdomæne”. Fordi sub-domæne grænser er vanskelige at afgrænse for divergerende proteinkinaser, såsom atypiske kinaser, er sub-domæne klasse ikke udfyldes for alle proteinkinaser.

Automatisering af køb og opdateringer data

Vi har skabt et specialiseret software system til automatisk at udfylde ProKinO fra de ovenfor beskrevne kilder. Softwaren er skrevet ved hjælp af programmeringssproget Java. Softwaren udfører alle de nødvendige funktioner til ontologi skabelse og automatisk befolkning, herunder datafangst, parsing og behandling, samt oprettelsen af ​​instanser og forbindelser mellem dem ved hjælp af relationer, der er defineret i ProKinO skema. Den befolkede ontologi er kodet og output i OWL, en ontologi authoring og deling sprog anbefalet af World Wide Web Consortium. Vores software bruger også Jena, en udbredt Java-baserede Application Programming Interface (API) (https://jena.sourceforge.net/) for parsing, skabe og forespørge Resource Description Framework (RDF) (http: //www.w3 .org /RDF /

)

og OWL ontologier.

De ontologier, og dermed eventuelle softwareapplikationer og ressourcer udnytte dem, er forpligtet til at udvikle sig med tiden. ProKinO integrerer viden fra forskellige kilder uden at ændre nogen af ​​de oprindelige data. Derfor eventuelle ændringer i de anvendte datakilder i ProKinO skabelse kræver de tilsvarende ændringer i ontologi at sikre, at det er up-to-date og konsekvent. Kilderne til viden, der anvendes i ProKinO er udsat for hyppige ændringer og opdateres regelmæssigt. For eksempel er UniProt opdateres hver tredje uge og kosmisk ca. hver anden måned. For den viden integreret i ontologi at være aktuelle og i overensstemmelse med de eksisterende data til rådighed i moderselskabet kilder, vil ProKinO blive opdateret af vores automatiske befolkning proces på en regelmæssig basis, så godt. Versionen oplysninger om alle anvendte datakilder til at udfylde ProKinO vil indgå, så godt. For at sikre, at behovene i brugergruppen er opfyldt, vil eventuelle nødvendige skema ændringer og udvidelser blive indført i nye ProKinO versioner på passende tidspunkter. Alle versioner af ProKinO vil blive arkiveret sammen med oplysninger om forskellene mellem versionerne. Den ontologi livscyklus spores af en versionering-system [30], og alle tidligere versioner af ProKinO vil være let tilgængelige.

Resultater og Diskussion

ProKinO Evaluering

Fordi ontologi udviklingsprocessen er dyrt og tidskrævende, er det nødvendigt nøje vurdering af ontologi indhold for at bestemme dets egnethed i at betjene det formål af sin udvikling. ProKinO er blevet evalueret for dets nøjagtighed og brugbarhed. Vi har anvendt to fremgangsmåder til at evaluere nøjagtigheden af ​​ProKinO indhold: (i) en manuel tilgang, hvor et sæt af forekomster og relationer blandt dem udvælges tilfældigt og krydstjekkes med indhold fra oprindelige kilder, og (ii) en forespørgsel-baserede tilgang, hvor ontologi data forespørges efter oplysninger, der nemt kan krydse valideret med data fra originale kilder.

manuel Approach.

i den manuelle metode, test sæt blev valgt til at evaluere en bred dækning af ontologi indhold. Nøjagtigheden af ​​dataene blev kontrolleret af cross validering med de oprindelige datakilder. Integrationen af ​​data i ProKinO blev også kontrolleret ved at evaluere de indførte objekt og data ejendomme til nøjagtighed. For eksempel,

EGFR

kinase forhold til veje repræsenteret som en ejendom “

partcipatesIn”

blev kontrolleret for nøjagtighed ved kryds validere indholdet i ProKinO med de oprindelige data i Reactome. Vores kontrol har ikke fundet nogen fejl i ProKinO. Detaljerne af evalueringen er vist i tabel S4.

Query-baserede metode.

Ud over den manuelle fremgangsmåde, blev en forespørgsel tilgang bruges til at verificere indholdet af ontologi. Den SPARQL query sprog blev brugt til at udføre forespørgsler. For eksempel forespørgslen “optælling af krystalstrukturer for alle proteinkinaser” resulterede i 200 hits for

Cdk2

(figur 2). Dette resultat blev cross-valideret ved at kontrollere

Cdk2

“FBF” post i UniProt. Tilsvarende forespørgslen “optælling af isoformer for alle proteinkinaser” resulterede i 20 hits for

FGFR2

og 19 for

FGFR1 Hotel (figur 3). Dette blev cross-valideret ved at kontrollere for

FGFR1

og

FGFR2

isoform poster i UniProt. Ligeledes “tællinger af kinaser er forbundet med veje” resulterede i 11 veje til

SRC

og 10 for

PKACA

(

PRKACA

i Reactome). Dette resultat blev også krydsvalideret med den oprindelige kilde, dvs. Reactome (figur 4). Tilsvarende “tællinger af kinaser impliceret i forskellige cancertyper” resulterede i de mest antallet af hits for

BRAF

(30 cancertyper) (figur 5), som var cross-valideret fra COSMIC database.

Top ti kinaser i den prioriterede rækkefølge, tæller vises. Y-aksen viser antallet af strukturer løst for hver af ti overrepræsenteret kinaser. Strukturer løses med inhibitorer blev inkluderet i den samlede optælling. X-aksen angiver kinase navne. Aurora-kinase er mærket som aura. Den SPARQL forespørgsel bruges til at generere dette tal kan ses og excuted fra ProKinO browser ved at vælge “Query 1” under “Eksempel forespørgsler” fanen i hovedsiden.

Top 10 kinaser vises i faldende rækkefølge af deres værdier. Y-aksen viser antallet af validerede isoformer for hver af kinass. Den SPARQL forespørgsel bruges til at generere dette tal kan ses og excuted fra ProKinO browser ved at vælge “Query 2” under “Eksempel forespørgsler” fanen i hovedsiden.

Top 10 kinaser med de mest antal veje vises i faldende rækkefølge. Den SPARQL forespørgsel til at generere dette tal kan direkte ses og excuted fra ProKinO browser ved at vælge “Query 3” under “Eksempel forespørgsler” fanen i hovedsiden.

Top ti kinaser er i faldende kendelse af deres værdier. Den SPARQL forespørgsel til at generere dette tal kan direkte ses og excuted fra ProKinO browser ved at vælge “Query 4” under fanen “Eksempel forespørgsler” i hovedsiden.

ProKinO Application

kompendium af viden repræsenteret i ProKinO kan bruges til en lang række applikationer, såsom data mining, tekst minedrift og genom annotation. Især repræsentation af forskellige protein kinase data i maskinlæsbar form, gør det muligt for komplekse samlede forespørgsler på ontologi data på måder ikke muligt gennem eksisterende kinase-specifikke ressourcer. Nedenfor beskriver vi nogle af disse forespørgsler til at illustrere, hvordan ProKinO data kan bruges til at opdage ny viden og hypotese generation. De forespørgsler, som er blevet formuleret i SPARQL, også give en første vurdering af ProKinO nytte.

Query 1.

SPARQL forespørgsler “tællinger af substitution missense mutationer i cancertyper”, og ” tællinger af proteinkinaser med missense mutationer “blev udført på ProKinO at analysere fordelingen af ​​kinase-mutationer i forskellige cancertyper. Analyse af resultaterne af denne forespørgsel afslørede, at fordelingen af ​​kinase mutationer er markant forskellig for forskellige cancertyper (figur 6). Især

karcinom

(1168 mutationer),

gliom Hotel (180),

malignt melanom Hotel (201),

hæmatopoietisk neoplasme Hotel (288), og

lymfoid neoplasme Hotel (164) er meget overrepræsenteret i kinase mutationer i forhold til andre typer kræft (figur 6). Desuden 288 og 164 mutationer forbundet med

hæmatopoietisk neoplasme

lymfoide neoplasme

kort til kun 8 og 12 kinaser, henholdsvis. Dette er i modsætning til

gliom

, hvor mutationerne er spredt over 82 forskellige kinaser. Mens dette fund kunne være resultatet af forspændingen i sekventering af kræft kinomes fra udvalgte typer cancer, er det også muligt, at kun nogle få signalveje (forbundet med de 8 kinaser) ændres i

hæmatopoietisk neoplasme

, sammenlignet med

gliom

. Sådanne observationer har konsekvenser i at målrette den muterede kinome for behandlinger, og i at skabe nye hypoteser for eksperimentelle undersøgelser.

Som nævnt i teksten,

haematopoietic_neoplasm

har 288 mutationer i 8 kinaser, mens

gliom

har 180 mutationer fordelt på 82 kinaser. Den SPARQL forespørgsel til at generere dette tal kan direkte ses og excuted fra ProKinO browseren ved at vælge “Query 5a” og “Query 5b” under “Eksempel forespørgsler” fanen i hovedsiden.

Query 2.

på baggrund af observation fra Query 1, kan udføres yderligere SPARQL forespørgsler for at få yderligere oplysninger om de 8 kinaser er forbundet med

hæmatopoietisk neoplasme

. For eksempel, forespørgslen anmoder for “tællinger af proteinkinaser har missense mutationer i

hæmatopoietisk neoplasme

” angiver, at

ABL1

,

KIT

,

FLT3

og

JAK2

hyppigere muteret sammenlignet med andre kinaser (figur 7). Denne observation er i overensstemmelse med resultaterne rapporteret i litteraturen [31], [32], yderligere cross-validering indholdet af ontologi.

Top 10 hits i faldende rækkefølge af tællingerne vises. Den SPARQL forespørgsel til at generere dette tal kan ses og excuted fra ProKinO browser ved at vælge “Query 6” under fanen “Eksempel forespørgsler” i hovedsiden.

Query 3.

Query 2 (ovenfor) kan yderligere raffineres for at opnå testbare hypoteser om kræft mutationer. For eksempel, forespørgsler anmoder funktionelle egenskaber og sub-domæne placering til

ABL1

associerede mutationer i

hæmatopoietisk neoplasme

afslørede, at

Y253F

er beliggende i den funktionelt vigtige

Glycine rige loop

(Sub-domænet I, tabel S5), og har ændret rester ejendom “

Phosphotyrosin

“. Med disse oplysninger, kan man formulere en testbare hypotese, at “

Y253F

mutation bidrager til unormal

ABL1

funktioner ved at ændre fosforylering status glycin rige loop”.

I Ud over de forespørgsler ovenfor beskrevne, har vi formuleret adskillige yderligere forespørgsler på ProKinO. De opnåede fra disse forespørgsler resultater leveres som supplerende tal (se figur S2, S3, S4, S5, S6, S7, S8, S9). Den SPARQL forespørgsler selv er tilvejebragt i figur S10.

Fremtidige Kørselsvejledning

ProKinO er en ontologi vilkår og relationer indfange viden om protein kinase familien. Repræsentation af proteinkinase viden i form af ontologi muliggør effektiv minedrift og systemer-niveau analyse af protein kinase data, som påvist gennem flere SPARQL forespørgsler. For at aktivere navigation og integrativ analyse af ontologi data, har en ontologi browser blevet udviklet. Browseren kan tilgås fra https://vulcan.cs.uga.edu/prokino.

Mens den aktuelle version af ProKinO i høj grad fokuserer på menneskelige proteinkinasegenerne, oplysninger om andre modelorganismer kan indarbejdes i ProKinO ved tilføjelse af nye klasser og data egenskaber i ontologi skema. Ligeledes kan det væld af oplysninger, der genereres på protein kinase substrater gennem high-throughput phospho-proteomiske data indarbejdes at integrere kræft data med proteomics data. Desuden forventer vi ProKinO at være nyttige i at yde konsekvent annotation af mutationer identificeret i kræft genom sekventering studier.

Brug specifikke forespørgsler, vi har vist, hvordan data i ontologi kan bruges til at generere nye hypoteser om den strukturelle og funktionelle virkninger af mutationer. Især den iagttagelse, at næsten 288 mutationer kort til kun otte kinaser i

hæmatopoietisk neoplasme

er ny og giver nye hypoteser for opfølgende undersøgelser. Ligeledes forudsigelsen at

Y253F

mutation ændrer phosphorylering status glycinrigt loop i ABL-tyrosinkinase kan testes eksperimentelt.

Be the first to comment

Leave a Reply