PLoS ONE: Identifikation leverkræft og dens forbindelser med Sygdomme, narkotika og Gener: En litteratur-Based Approach

Abstrakt

I biomedicin, videnskabelig litteratur er en værdifuld kilde til viden opdagelse. Mining viden fra tekstmæssige data er blevet et stadig vigtig opgave som den mængde af videnskabelig litteratur vokser uhørt. I dette papir, foreslår vi en ramme for behandlingen af ​​en bestemt sygdom baseret på eksisterende oplysninger fra den videnskabelige litteratur. Sygdomsrelaterede enheder, der omfatter sygdomme, medicin og gener er systematisk ekstraheret og analyseret ved hjælp af en tre-niveau netværksbaseret tilgang. Et papir-enhed netværk og en enhed, samtidig forekomst netværk (makroniveau) udforskes og bruges til at konstruere seks enhed specifikke netværk (meso-niveau). Vigtige sygdomme, medicin og gener samt fremtrædende enhed relationer (mikro-niveau) er identificeret fra disse netværk. Resultater opnået fra litteraturen-baserede litteratur minedrift kan tjene til at hjælpe kliniske anvendelser

Henvisning:. Zhu Y, Song M, Yan E (2016) Identifikation leverkræft og dens forbindelser med Sygdomme, narkotika og Gener: A Litteratur tilgang. PLoS ONE 11 (5): e0156091. doi: 10,1371 /journal.pone.0156091

Redaktør: Ying Xu, University of Georgia, USA

Modtaget: August 24, 2015; Accepteret: 9 maj 2016; Udgivet: 19 maj, 2016

Copyright: © 2016 Zhu et al. Dette er en åben adgang artiklen distribueres under betingelserne i Creative Commons Attribution License, som tillader ubegrænset brug, distribution og reproduktion i ethvert medie, forudsat den oprindelige forfatter og kilde krediteres

Data Tilgængelighed:. Alle relevante data er inden for papir og dens Støtte Information filer: S1 Fil. Enhed tabel for gener, lægemidler og sygdomme. S2 Filer. Papir enhed forening tabel

Finansiering:. Dette projekt blev muliggjort delvist af Institut for Museum og Bibliotek Service (Grant Award nummer: RE-07-15-0060-15), til projektet med titlen “Building en enhed-baserede rammer forskning for at forbedre digitale tjenester på viden opdagelse og levering “. Derudover blev projektet støttet dels af Bio-Synergy Research Project (NRF-2013M3A9C4078138) i Ministeriet for Videnskab, IKT og fremtidig planlægning gennem National Research Foundation

Konkurrerende interesser:. Forfatterne har erklæret, at der ikke findes konkurrerende interesser.

Introduktion

Videnskabelig litteratur er den primære kilde til forskere til at kommunikere med andre, samt offentligheden. Lærde offentliggøre papirer og nuværende forskningsresultater i konferencer for at formidle ideer og formidle viden til samfundet. Som onlineadgang til videnskabelig litteratur er forbedret, væksten i videnskabelig litteratur er uhørt højt. En lineær vækst af publikationer er blevet rapporteret for områder som bioinformatik [1]. En bekymring som følge af sådanne proliferationer er den laggede forbrug af videnskabelig litteratur. For at afhjælpe denne spænding, har forskere forsøgt at anvende en bred vifte af tekst mining teknikker, såsom udtrækning af oplysninger [2], emne modellering [3], og dokumentere sammendrag [4], til systematisk at destillere viden fra store videnskabelige litteratur corpora.

i biomedicin, videnskabelig litteratur, primært fra PubMed [5] -en gratis portal til publikationer og citation i Medline, har været ansat i forhold til tekst mining teknikker til at hjælpe biomedicinsk forskning. Fokus er typisk ekstrakt relationer mellem biomedicinske enheder såsom protein og sygdom [6], gen relationer [7], gen-drug forbindelser [8, 9, 10], gen-sygdom forbindelser [11, 12] og protein Protein interaktioner [13, 14]. Al-Mubaid Singh [6] anvendes en tekst mining tilgang Medline abstracts at opdage protein-sygdom forening og bekræftede, at litteratur tilgang er i stand til at opdage sammenhænge mellem proteiner og sygdomme. På samme måde, Stephens og kolleger [7] foreslået en metode til at påvise gen relationer fra Medline abstracts og fremhævede styrken af ​​litteratur-baserede metoder, der er evnen til at analysere store mængder data i en begrænset periode. Chang Altman [8] foreslået en metode til at udvinde gen-drug relationer fra litteratur og viste effektiviteten af ​​en samtidig forekomst metode til at udvinde gen-drug relationer i publicerede artikler (på nøjagtighedsniveauet 78%). Tilsvarende Chun og kolleger [11] foreslog et system, der brugte en samtidig forekomst-baseret maskine learning algoritme til automatisk at udtrække forholdet mellem gener og relationer fra Medline, og understregede betydningen af ​​gen og sygdom ordbøger. Temkin Gilder [13] foreslået en metode, der bruges kontekst-fri grammatik til at udtrække protein interaktioner fra ustrukturerede tekster. De rapporterede, at den foreslåede metode indspillet en præcision på 70% til udvinding interaktioner mellem proteiner, gener og små molekyler (PGSM). Foruden relation identifikation, har undersøgelser også fokuseret på udvinder enheder såsom gener [15] og kemiske entiteter [16]. Stapley Benoit [15] udvundet gener fra litteraturen ved hjælp gen samtidig forekomst oplysninger kurateret i genomiske databaser for at forbedre biomedicinsk informationssøgning. Grego Couto [16] anvendes en semantisk lighed validering-baserede metode til at forbedre identifikationen af ​​kemiske enheder. De viste, at metoden kan anvendes som en supplerende metode til at hjælpe andre identifikationsmærker enhed metoder uden overflødige enhed filtreringer. Detaljerede undersøgelser af biomedicinsk tekst mining stilles til rådighed i Cohen Hersh [17], Zweigenbaum et al., [18] og Simpson og Demner-Fushman [19]. Ekstraherede enheder og enhed relationer kan analyseres yderligere ved anvendelse af teknikker såsom netværk centrale [20], statistisk analyse [21], og citation analyse [22].

Det fremgår af disse undersøgelser, forståelse af forskellige relationer mellem biomedicinsk enheder er en hjørnesten, fordi disse enheder er bedre forstået af sondering i deres interaktion med andre. Der er en spirende tendens til at anvende bibliometriske teknikker til at studere biomedicinske enheder, opfundet af udtrykket “Entitymetrics” [23]. I Entitymetrics, enhed-drevne bibliometri tackler problemerne med videnoverførsel og opdagelse på tre forskellige niveauer: mikro-, meso- og makroniveau. Mens mange førnævnte undersøgelser hovedsageligt undersøgt måder at opdage biomedicinske enheder og enhed relationer fra den videnskabelige litteratur, mangler der en integreret forskning, der bruger udvundet enheder og enhed relationer for at lette litteratur-baserede oplysninger opdagelse. Derfor er målet med denne undersøgelse er at udfylde hullet mellem de teknikker til enhed og enheds relation udvinding og anvendelse af disse teknikker til at få indsigt i den videnskabelige litteratur.

Konkret følgende to forskningsspørgsmål vil blive undersøgt : 1) i biomedicin, givet en krop af videnskabelig litteratur, hvad biomedicinske enheder har en større indvirkning på andre, og thusly bør yderligere undersøgt? 2) Hvilke par enheder har potentiale til at have meningsfulde relationer for information opdagelse, enhed og enhed relation anbefaling, og andre hentning og kliniske applikationer? I denne forstand, vores undersøgelse servere som en bro, der forbinder tidligere undersøgelser på biomedicinsk tekst mining med praktiske anvendelser til at hjælpe mere målrettet forskning gennem enheder og deres forbindelser af højeste vigtighed. For at nå dette mål, foreslår vi en ramme for at identificere vigtige sygdomme, medicin og gener for en given sygdom. Rammen omfatter en enhed ekstraktion metode og en tre-niveau netværksbaseret tilgang til analyse af en litteratur-baseret datasæt.

Kræft er en primær årsag til dødsfald på verdensplan, blandt hvilke, leverkræft er den anden førende årsag til kræftdødsfald [24]. Så mange som 564 tusind mennesker er diagnosticeret med leverkræft hvert år, og tendensen har tendens til at fortsætte i flere årtier i flere udviklede lande som USA [25]. Det er kendt, at de fleste leverkræft tilfælde startede fra andre dele af kroppen og flere typer af tumorer kan vokse i leveren, fordi leveren omfatter forskellige typer af celler [26]. Således i denne brede anvendelsesområde litteratur-baserede leverkræft undersøgelse identificerer vigtige enheder og relationer blandt enheder, der er yderst relevante for leverkræft ses som en fordel. I denne forbindelse, vi anvender de foreslåede metoder til en publikation datasæt for at forstå sygdommen ved hjælp af denne rig kilde til videnskabelig litteratur.

data og metoder

data

“leverkræft “blev valgt som frøet sigt at forespørge PubMed. Vi hentede 169,774 PubMed optegnelser og hentede dem i XML-format. Vi derefter parset de downloadede optegnelser til at udtrække titler og abstracts til enhed udvinding ved at gennemføre en SAX Parsing modul. Vores datasæt omfatter 16,568 enheder (S1-fil. Enheder) og 1,023,204 enhed-enhed og papir-enhed relationer (S2 Fil. Papir-enhedernes Relations). Tabel 1 viser procentdelen af ​​hver type enheder blandt alle 16,568 enheder. Processen med enhed ekstraktion fra de downloadede optegnelser vil blive diskuteret i afsnittet metoden.

Metoder overblik

Sygdom, narkotika, og gen enheder blev udvundet fra artikler opnået fra PubMed. Ekstraherede enheder anvendes til at konstruere et papir-enhed netværk samt en enhed samtidig forekomst netværk. Disse makroniveau netværk blev yderligere nedbrudt i tre typer af meso-niveau netværk (dvs., sygdom netværk, narkotika netværk og gen-netværk). Disse enhed specifikke netværk er ansat til at undersøge vigtige sygdomme, medicin og gener samt fremtrædende relationer inden for hver enhed gruppe. Figur 1 viser skematisk diagram for foreslå metoden.

Vi forklarer to vigtigste trin i den foreslåede metode, udtrækning af oplysninger og netværk analyse, i de følgende underafsnit.

Information Extraction.

Vi implementerede en enhed udvinding modul ved at udvide Stanford CoreNLP [27]. Stanford CoreNLP indeholder et sæt naturligt sprog forarbejdning (NLP) analyseværktøjer, som kan tage engelsk tekster og udfører en række forskellige NLP opgaver såsom sætning opdeling, del-Of-Speech (POS) tagging og afhængighed parsing. Den enhed udvinding modul gik gennem de følgende fire trin. Det første skridt er at opdele en rekord i sætninger. Vi brugte “ssplit” rør leveres i Stanford CoreNLP. Det andet skridt er at bygge tre ordbøger for sygdomme, gener og narkotika. Vi brugte CTD-databasen (https://www.ctdbase.org/) for at skabe de tre ordbøger. I alt stoffet ordbogen omfatter 151,729 lægemiddelnavne; sygdommen ordbogen omfatter 11.937 sygdomstilstande navne; og genet ordbogen omfatter 297,514 gen navne. Det tredje skridt er at indarbejde PubTator [28] for at styrke optaget ordbøger. Vi har udført en indledende prøve at udvinde bio-enheder kun med CTD-baserede ordbøger og fandt, at kvaliteten af ​​virksomhedens udvinding ikke var tilfredsstillende. Således besluttede vi at tilføje PubTator for yderligere at styrke ordbøgerne. PubTator, udviklet til at opfylde to datasikring opgaver-dokument triage og bio-konceptet annotation, indeholder bio-enhed anmærkninger i flere enheder såsom kemikalier, sygdomme, gener, mutationer, og arter. Ud af disse typer, vi kun er interesseret i sygdom, narkotika, og gen-typer. Pubtator indeholder 16,582,474 gener, 26,788,622 sygdomme og 24,915,999 lægemidler. Når vi fusionerede tre CTD ordbøger med tre PubTator ordbøger til narkotika, sygdom og gen, vi kontrolleres, om der er en fælles ordbog indgang deles i begge ordbøger. Hvis fundet, vi kun holdt én post. Denne dobbelte elimination trin resulterer i 25,053,123 narkotika navne for stoffet ordbogen, 26,791,436 sygdom navne for sygdommen ordbogen, og 16,761,566 gen navne for genet ordbogen. Det fjerde trin er at matche tokenized sætninger til de tre ordbøger. I dette trin vi ansat følgende tre sub-trin: tokenization, lemmatisering, og normalisering

Tokenization.. Vi brugte Stanford PTBTokenizer tokenization teknik [29]. PTBTokenizer er designet til at være en hurtig, regelbaseret Tokenizer at opfylde tokenization konventioner de Penn Treebank [29].

lemmatisering. Vi bruges lemmatisering teknik, der er tilgængelig i Stanford CoreNLP pakken. Det giver fuld morfologisk analyse til nøjagtig identifikation af lemma for hvert ord. Lemmatisering ligner ord stammer, men i stedet for at producere en stilk af ordet, erstatter suffikset for at få den normaliserede ord formularen.

Normalisering. Vi brugte strengen normalisering teknik til at reducere strengen variation af tilfælde følsomhed og specialtegn herunder +, *,,, og _. Strenge med store bogstaver ændres til dem med små bogstaver, og /eller de udpegede specialtegn fjernes fra alle input tekster og ordbog data. I tilfælde af den særlige karakter ‘-‘.., Erstattes af mellemrum, der giver mulighed for de generelle enhed navn mønstre

Network Analysis

Netværket Analysen omfatter seks trin (figur 2) : 1) opførelse af et papir-enhed netværk; 2) identifikation af top enheder; 3) opførelse af en enhed samtidig forekomst netværk; 4) identifikation af enheder meget co-opstod med top enheder; 5) anlæg af virksomhedens specifikke netværk (PageRank- og betweenness-baserede); og 6) udforskning af virksomhedens specifikke netværk. Disse trin er uddybet i de følgende afsnit.

Et papir-enhed netværk blev bygget ved hjælp af de udtrukne enheder. Det er et heterogent, uvægtet netværk, der indeholder fire typer knuder: papirer, sygdomme, medicin og gener. Netværket indfanger forbindelserne mellem papirer og enheder, således at der er en kant, hvis et papir omfatter en enhed (dvs. en sygdom, lægemiddel eller genet). Papiret-enhed netværk danner grundlag for at identificere vigtige enheder gennem topologiske undersøgelser. To netværksbaserede foranstaltninger, PageRank og betweenness centralitet, blev brugt til at identificere vigtige enheder fra dette netværk. PageRank er en algoritme, der bruges til at rangere websider efter virkningen af ​​inlinks [30]. Enheder klassificeret højt af PageRank er dem med den største virkning. Betweenness centrale er en indikator for måling af indvirkningen af ​​knudepunkter i form af evnen til at overføre information i et netværk [31]. , En node med høj betweenness centrale Således betyder det spiller en vigtig rolle i at overføre oplysninger til andre. I papiret-enhed netværk, enheder med høj betweenness centrale spiller en central rolle i hele netværket ved at tilslutte andre enheder. Disse to algoritmer er blevet anvendt på en række områder til at identificere vigtige artefakter og aktører. For eksempel, Zhu Yan [32] anvendes PageRank til at identificere vigtige delfelt indenfor datalogi at forstå dens viden diffusion mønstre; Jing Baluja [33] anvendes PageRank til at hente meget relevante billeder i et billede søgning. Ligeledes blev betweenness centrale anvendes til at identificere vigtige knudepunkter for at løse problemet med netværksstyring i kommunikationsnetværk [34]; Det blev også anvendt på en alliance netværk for at udforske nye teknologier [35].

En co-forekomst netværk blev derefter konstrueret ud fra papiret-enhed netværk. Samtidig forekomst netværk er en heterogen, vægtet netværk omfatter sygdomme, medicin og gener. Papir-enhed relationer blev anvendt til at beregne co-forekomst værdier. Det vil sige, hvis to eller flere enheder, der samtidig sket inden for et papir, at antallet af samtidig forekomst blev registreret og behandlet som vægten i den enhed, samtidig forekomst netværk. Co-forekomst netværk er blevet bredt studeret [36, 37], baseret på tanken om, at enheder har stærke interaktioner med hinanden tendens til at co-forekomme ofte. Således co-forekomst relationer er et vigtigt element i at undersøge mellem-enhed relationer.

I en enhed samtidig forekomst netværk, sygdomme, der meget co-opstod med top sygdomme identificeret fra papiret-enhed netværk blev derefter ekstraheret . Fordi vi har to sæt øverste sygdomme identificeret separat fra PageRank og betweenness centralitet, to sygdomsspecifikke datasæt blev indsamlet. Fire flere datasæt (dvs. om narkotika og gener) blev også konstrueret separat ved hjælp af samme metode. Således hver af de seks datasæt omfatter top enheder og enheder, der meget co-fundet sted med disse top enheder. De seks datasæt blev derefter brugt til at konstruere seks homogene netværk (dvs. to sygdomsområder netværk (PageRank-baserede og betweenness centrale-baserede), to lægemiddelkandidater netværk, og to gen-netværk) ved forbeholde samtidig forekomst værdi som link vægt. Disse seks netværk er de transformerede net fra foregående enhed samtidig forekomst netværk ved kun indeholdende en type enheder samt et lille sæt af vigtige enheder. Den enhed specifikke netværk er konstrueret til at få en fortættet og meningsfuld visning af frøet sygdom. I hver af de seks enheds netværk, vi også ekstraheret meget co-forekommet enheds par. Fordi hver enhed type er forbundet med to enhed specifikke netværk (PageRank-baserede og betweenness centrale-baserede), blev to sæt af par i en virksomhed typen identificeret.

Resultater

I dette afsnit, vi sekventielt rapporterer vigtige sygdomme, narkotika, og enheder, samt vigtige par af enheder inden for leverkræft forskning.

vigtige enheder

tabel 2 viser to sæt af top 10 sygdom, narkotika og gener: én baseret på PageRank og andre baseret på betweenness. Vi diskuterer disse vigtige enheder i de følgende tre underafsnit.

Sygdomme.

Som vist i tabel 2, tre sygdomme (dvs. tumor, kræft, og hepatoma) optrådte i begge lister . Hepatocellulært carcinom, HCC, og hepatoma betegner det samme begreb og så gøre skrumpelever og levercirrhose. Hepatocellulært carcinom er en almindelig form for leverkræft forårsaget af skrumpelever i de fleste tilfælde. Cirrose /levercirrose kan forårsages af hepatitis [38]. Sammenlign med PageRank, betweenness centrale omfatter mere specifikke vilkår (dvs. autosomal recessiv, arvelig sygdom, intrahepatisk og ekstrahepatisk cholangiocarcinoma, og CRLM og ekstra leversygdom), og vilkår, som måske ikke let forbundet med leverkræft såsom tyreotoksikose, mitokondriel dysfunktion, og HPV. Disse sygdomme ‘forbindelser til leverkræft kan være dem, der har potentialet til at blive yderligere forstået.

Drugs.

I modsætning til sygdomme, der kun ét lægemiddel (dvs. tyrosin) optrådte i begge lister. Tyrosin eller tyrosinkinaseinhibitoren (TKI) er et lægemiddel til behandling af leverkræft ved at hæmme Tyrosinkinaser, som er enzymer, der anvendes af cellerne til at transmittere voksende og delende signaler [39, 40]. Trastuzumab anvendes til behandling af brystkræft og maligne tumorer [41] og calciumfolinat anvendes til at reducere bivirkninger forårsaget af at bruge nogle anti-cancer medicin [42]. Betweenness centrale rangerer kemiske forbindelser særdeles såsom metallocorrole, [11C] CH3OTf, 3-methylcholanthren, CBD (Cannabidiol), og diethylnitrosamin. Vi giver s kort oversigt til nogle vigtige stoffer i dette afsnit

Cisplatin:.. Cisplatin anvendes til behandling af forskellige kræftformer, herunder leverkræft [43]

Glucose: Lever celler er kendt for at producere glukose som hjælper menneske opretholde sunde blod-sukker niveauer. Hvis disse celler blive til kræft, så de mister evnen og det gør tumorceller formere [44]

5-FU:.. 5-fluorouracil er et lægemiddel til behandling af kræft [45]

Glutathione: Glutathione, også kendt som gamma-glutamyl, er et stof i celler. Det er taget til at afgifte og forhindre hjertesygdomme, forskellige kræftformer osv [46].

Udover disse lægemidler, nogle grundlæggende elementer, såsom oxygen, aminosyre, tyrosin (en af ​​de 22 amino syrer) er også højt rangeret af PageRank. Disse elementer har evnen til at stimulere kroppens funktioner og reparation kroppens væv.

Gener.

I modsætning til sygdomme og medicin, to lister i tabel 2 ikke deler nogen fælles gen. Fordi gener er mere kornede enheder end sygdomme og medicin, kan de ikke udelukkende vedrører leverkræft. Læsere kan besøge GeneCards (https://www.genecards.org), et menneskeligt gen-database, for mere information om disse gener.

Netværk Karakteristik af Entity Networks

Top enheder vist i tabel 2 blev anvendt til identitet andre enheder, der meget co-fundet sted med disse enheder i enhed co-forekomst netværk. Derefter disse enheder helt danne to sygdomsområder netværk (PageRank-baserede og betweenness centrale-baserede), to lægemiddelkandidater netværk, og to gen-netværk, hvorfra vi identificerede top par af sygdomme, medicin og gener. Tabel 3 viser statistikkerne for hvert netværk.

Som vist i tabel 3, PageRank-baserede netværk har højere gennemsnitlige grader samt gennemsnitlige vægtede grader. Dette indikerer, at enheder i PageRank-baserede netværk interagerer mere aktivt med hinanden. For gennemsnitlige vejlængde, hvert netværk har en lignende gennemsnitlig vejlængde (dvs. ca. 3). Alle netværk er sparsomme med grafen tæthed lavere end 0,1. Modularitet anvendes til at måle sandsynligheden for, at et net kan opdeles i grupper [47]. Sygdom netværk har lavere modularitet end narkotika og gen-netværk. Dette skyldes sygdomme generelt interagere med mange andre sygdomme. Mens betweenness centrale-baserede netværk har flere fællesskaber end PageRank-baserede netværk, PageRank-baseret sygdom netværket har kun to samfund, hvilket er meget lavere end det mindste antal fællesskaber af andre netværk. Betweenness centrale-baserede gen netværk indspillet en gennemsnitlig clustering koefficient på nul. Dette antyder, at der ikke er nogen trekant i dette netværk, som gener vist i tabel 2 (betweenness centrale-baserede) har temmelig forskellige karakteristika.

Frontfremspringet Par af sygdomme, narkotika, og Gener

Tabel 4 viser meget co-opstod par af sygdomme, medicin og gener. Disse par blev inddelt i tre grupper baseret på antallet af samtidig forekomst. Vi diskuterer disse vigtige enhed par i de følgende tre underafsnit.

Sygdomme.

PageRank-baserede og betweenness centrale-baserede sygdom netværk er visualiseret i figur 3. Knude etiketter er proportional med vægtet grad og bredden af ​​links er proportional med antallet af samtidig forekomst mellem to sygdomme.

PageRank-baserede (a) og Betweenness centralitet-baserede (b) sygdom netværk.

Den vigtigste enhed i figur 3 (A) er tumor. Tumor meget co-opstod med hepatocellulært carcinom, HCC, cancer og hepatoma. Alvorlige sygdomme hos figur 3 (A) er generelt de samme sygdomme, som er stærkt sorteret efter PageRank i tabel 2.

Sygdomme i figur 3 (B) har tendens til at co-forekomme sjældent med hinanden, hvilket er i modsætning med PageRank-baseret sygdom netværk. En mulig forklaring er, at top sygdomme med høj betweenness centralitet ikke blev undersøgt meget i papirer; derfor, de ikke co-forekomme ofte med andre sygdomme.

Seks par sygdomme (dvs. tumor-hepatocellulært carcinom, tumor-HCC, tumor-levermetastaser, cancer-HCC, tumor-metastase, og hepatoma -hepatitis B) optrådte i begge lister. Forbindelser på disse sygdomme er selvforklarende, sandsynligvis med undtagelse af “hepatoma-brystkræft”. Nylige opdagelser har fundet, at brystcancer, ligner cancere, såsom coloncancer, blærecancer, og nyrekræft, er en af ​​de kræftformer, der kan sprede sig til lever [48].

Drugs.

figur 4 viser to typer af narkotika netværk konstrueret fra papiret-enhed netværk og den enhed samtidig forekomst netværk.

PageRank-baserede (a) og Betweenness centralitet-baserede (b) narkotika-netværk.

Ti mest synlige enheder vist i fig 4 (A) er nøjagtig de samme som top 10 enheder klassificeret efter PageRank i tabel 2, mens niveauet for synlighed er anderledes.

To vigtige stoffer i fig 4 (B), er tyrosin og diethylnitrosamin. Tyrosin, som nævnt i det foregående afsnit, anvendes til behandling af leverkræft ved at hæmme Tyrosinkinaser [36]. Diethylnitrosamin, rangeret det andet, co-forekommet 392 gange med andre lægemidler. Status for diethylnitrosamin er mere tydelig i stoffet specifikt netværk (rangeret det andet) end i den papirbaserede enhed netværk (rangeret 10.). Dette fund har støttet behovet for at opbygge en sådan enhed specifikke netværk-ved at gøre det, vi er i stand til at få mere detaljeret forståelse af interaktivitet enheder, der kan blive overset i det globale netværk.

Top 15 narkotika par er vist i tabel 4. To par (dvs. tyrosin-serin og tyrosin-imatinib) er vist i både PageRank- og betweenness centrale-baserede lister. Både tyrosin og serin tilhører samme gruppe- proteingenic aminosyrer, som er byggesten af ​​proteiner [49]. Imatinib er en slags tyrpsine-kinaseinhibitor anvendes til behandling af cancere. På listen over betweenness centrale, er der ingen par forekom mere end 100 gange.

Forbindelser vist i tabel 4 blev undersøgt ved at referere online-ressourcer, herunder WebMD (https://www.webmd.com) og narkotika. com (https://www.drugs.com). Disse hjemmesider giver detaljerede oplysninger om narkotika samt interaktionsundersøgelser checker tjenester. Forbindelser, der blev nævnt af de to online-ressourcer var fed-faced i tabel 4. Kun to relationer (dvs. bilirubin-aspartat og tyrosin-serin) blev ikke bekræftet i PageRank-baseret liste mens i betweenness centrale-baserede liste, to relationer (dvs. y-glutamyl-glutamyl- og tyrosin-imatinib) blev bekræftet. Således litteratur tilgang er en værdifuld måde at hjælpe kliniske forsøg.

Gener.

Figur 5 illustrerer to gen specifikke netværk konstrueret fra en samling af top gener og gener, der meget co-indtruffet med disse gener.

PageRank-baserede (a) og Betweenness centralitet-baserede (b) gen-netværk.

Betweenness centralitet-baserede gen netværk omfatter 47 væsentlige gener, som har færre gener end PageRank-baserede en, der har 67 gener. Et træk ved figur 5 (B) er, at de fleste gener co-forekom mindre end fem gange med andre gener. Dette antyder, at de ikke var almindeligt undersøgt i tidligere litteratur og samspillet mellem disse gener og leverkræft kan være nødvendigt at blive undersøgt yderligere.

Tabel 4 viser top 15 genpar identificeret fra PageRank- og betweenness centrale-baserede gen netværk. Alle par i listen over betweenness centrale skete mindre end 50 gange. Undersøgelse interaktioner mellem sygdomme og gener kan være vanskeligere end at se på forholdet mellem sygdomme og sygdomme /medicin, fordi gener er mere kornede enheder og kan aktivt eller latent vedrører en masse sygdomme eller narkotika. I den forstand kan interaktioner vist i denne undersøgelse bruges til at indlede en meningsfuld forskning.

For at undersøge gen relationer i tabel 4, vi refereres online ressourcer, herunder BioGRID (https://www.thebiogrid.org), Biograph (https://www.biograph.be), CTD (https://www.ctdbase.org), og GeneCards (https://www.genecards.org). BioGRID bekræftede tre forbindelser (dvs. p53-Bd-2, p53-Bax, og histon-HDAC), Biograph bekræftede en relation (dvs. p53-p21), og CTD bekræftede en relation (dvs. insulin-glucagon). Forbindelser, der blev bekræftet af disse online ressourcer var fed-faced i tabel 4. I modsætning til sygdomme og medicin, blev en række af gen relationer i tabel 4 ikke bekræftet af kliniske forsøg. Dette er sandsynligvis på grund af den store mængde af gener og deres forbindelser, der kan vedrøre leverkræft.

Diskussion og konklusioner

I denne undersøgelse, vi foreslog en litteratur tilgang til identificering sygdomsmodificerende relaterede enheder, der omfatter sygdomme, medicin og gener for leverkræft. En serie af netværksbaserede tilgange blev anvendt til at identificere vigtige enheder blandt de udtrukne enheder. Top sygdomme, medicin og gener blev identificeret ved to forskellige foranstaltninger og thusly to grupper af enheder blev opnået. En gruppe, der blev dannet på grundlag af enheder, der har de højeste PageRank scores, omfatter enheder, der vundet popularitet og blev i vid udstrækning undersøgt i litteraturen. Enheder, der indgår i denne gruppe er vigtige for at forstå sygdomme. Den anden gruppe, der dannes på grundlag af enheder, der har den højeste betweenness centrale, omfatter enheder, der spillede afgørende roller i hele netværket til at forbinde andre enheder. Enheder i denne gruppe muligvis besidder topologiske betydning i at studere given sygdom. Seks enhed specifikke netværk blev konstrueret ved at kombinere den enhed samtidig forekomst netværket og de identificerede top enheder at opdage fremtrædende enhed relationer. En del af de fundne enhed relationer blev bekræftet ved kliniske forsøg

De vigtigste resultater blev opnået:. 1) PageRank og betweenness centrale er komplementære i at identificere vigtige enheder. Som PageRank identificerer populære enheder, mens betweenness centrale identificerer indflydelsesrige enheder, det kombinatoriske brug af de to er en fornuftig og effektiv måde til at udvælge og undersøge vigtige enheder; 2) den integrerende brug af globale og regionale netværk effektivt identificerer globale enheder samt enheder, der er vigtige, men ikke mærkbar i den globale topologi. Regionale netværk gør det muligt at identificere vigtige par enheder fra en stor mængde links i globale netværk; 3) sygdomme, narkotika og gener til stede forskellige karakteristika i identificere vigtige enheder og par af enheder, der relaterer til leverkræft. Identificerede sygdomme og par af sygdomme har den højeste kendskab, mens fortolkningen af ​​identificerede stoffer og gener stiller flere udfordringer, som vist på tværs af validering af resultaterne med eksterne ressourcer. Dette indebærer en øget grad af demandingness i bio-enhed forskning som de undersøgte enheder bliver mere kornet. Således lignende forskning i et mere detaljeret niveau er lovende og kritisk i at fremme litteratur-baseret biomedicinsk forskning; og 4) nogle relationer identificeret af den foreslåede metode har en høj sammenhæng med kliniske forsøg (dvs. narkotika relations), mens nogle gør ikke (dvs. gen relationer). Ubekræftede relationer betyder ikke ubetydelige forbindelser; snarere, de skiller sig ud blandt mange andre, fordi de tilkendegiver potentielt vigtige relationer, der kan valideres i fremtidig forskning. Forskere og praktikere kan tage resultaterne af litteratur tilgang som en initierende punkt i deres forskning. Den foreslåede metode kan tjene til at hjælpe kliniske forsøg at identificere vigtige enhed relationer.

Denne undersøgelse har nogle begrænsninger. Links blandt enheder var baseret på co-forekomst relationer. Co-forekomst kan ikke direkte påvise faktiske samspil mellem enheder.

Be the first to comment

Leave a Reply