PLoS ONE: Potentielle terapeutiske mål for Oral Cancer: ADM, TP53, EGFR, LYN, CTLA4, SKIL, CTGF, CD70

Abstrakt

I Indien har kræft oral konsekvent placeret blandt top tre årsager til kræft- dødsfald, og det har vist sig som en top årsag til kræft dødsfald blandt mænd. Mangel på effektive terapeutiske muligheder er en af ​​de største udfordringer i klinisk håndtering af orale kræftpatienter. Vi forhørt stor pulje af prøver fra oral cancer genekspressionsstudier at identificere potentielle terapeutiske mål, der er involveret i flere kræft kendetegnende begivenheder. Terapeutiske strategier rettet mod sådanne mål kan forventes til effektivt at kontrollere kræftceller. Datasæt fra forskellige genekspressionsstudier blev integreret ved at fjerne batch-effekter og blev brugt til downstream analyser, herunder differential ekspressionsanalyse. Afhængighed netværksanalyse blev gjort for at identificere gener, som undergår markeret topologiske ændringer i orale cancer prøver sammenlignet med kontrolprøver. Causal ræsonnement analyse blev udført for at identificere væsentlige hypoteser, der kan forklare genekspressionsprofiler observeret i orale cancer prøver. Tekst-mining fremgangsmåde blev anvendt til at detektere cancer kendetegnende forbundet med gener betydeligt udtrykt i oral cancer. I alt blev der detekteret 2365 gener, der skal differentielt udtrykte gener, som omfatter nogle af de meget forskelligt udtrykte gener såsom matrixmetalloproteinaser (MMP-1/3/10/13), chemokin (CXC-motivet) ligander (IL8, CXCL-10 /-11), PTHLH, SERPINE1, NELL2, S100A7A, MAL, CRNN, TGM3, CLCA4, keratiner (KRT-3/4/13/76/78), SERPINB11 og serin peptidaseinhibitorer (Spink-5/7). XIST, TCEAL2, nationale tilsynsmyndigheder og FGFR2 er nogle af de vigtige gener opdaget af afhængighed og kausale netværksanalyse. Litteratur minedrift analyse kommenteret 1014 gener, hvoraf 841 gener var statistisk signifikant kommenterede. Integrationen af ​​produktion af forskellige analyser, resulterede i listen over potentielle terapeutiske mål for kræft i mundhulen, som omfattede mål som ADM, TP53, EGFR, LYN, CTLA4, SKIL, CTGF og CD70

Henvisning:. Bundela S, Sharma A, Bisen PS (2014) Potentielle terapeutiske mål for Oral Cancer: ADM, TP53, EGFR, LYN, CTLA4, SKIL, CTGF, CD70. PLoS ONE 9 (7): e102610. doi: 10,1371 /journal.pone.0102610

Redaktør: Enrique Hernandez-Lemus, National Institute of Genomic Medicine, Mexico

Modtaget: 12. december, 2013; Accepteret: 20 Juni 2014; Udgivet: den 16. juli, 2014

Copyright: © 2014 Bundela et al. Dette er en åben adgang artiklen distribueres under betingelserne i Creative Commons Attribution License, som tillader ubegrænset brug, distribution og reproduktion i ethvert medie, forudsat den oprindelige forfatter og kilde krediteres

Finansiering:. Finansiel bistand blev tildelt af Rådet for videnskabelig og industriel forskning (CSIR), New Delhi under emeritus Scientist ordning til professor PS Bisen. De finansieringskilder havde ingen rolle i studie design, indsamling og analyse af data, beslutning om at offentliggøre, eller forberedelse af manuskriptet

Konkurrerende interesser:.. Forfatterne har erklæret, at der ikke findes konkurrerende interesser

Introduktion

Omkring 7,6 mio kræftdødsfald blev anslået i 2008 på verdensplan, hvoraf 0,64 millioner mennesker døde af kræft i Indien [1]. Oral cancer har vist sig som en af ​​de øverste tre årsager til kræft dødsfald i sydasiatiske lande som Indien, Bangladesh og Sri Lanka [1]. Ifølge de seneste kræft statistik rapporteret fra Indien, oral cancer er den øverste mest årsag til kræftrelaterede dødsfald blandt mænd, og det bidrager med omkring 23% af dødsfald forårsaget af alle typer kræft hos mænd [2]. Indien er blevet et epicenter af orale kræftrelaterede dødelighed, og ifølge et groft skøn over halvdelen af ​​den verdensomspændende orale kræft dødelighed er fra Indien [1] – [3]. Oral cancer er i øjeblikket styres gennem kirurgi, stråling og kemoterapi. Cetuximab er den eneste godkendte målrettet terapi tilgængelig til oral cancer, som er rettet mod epidermal vækstfaktorreceptor (EGFR) er involveret i cellevækst. Målrettede behandlinger har vist deres anvendelighed i forvaltningen forskellige kræftformer, mest på grund af dens evne til at reducere toksicitet af flere folder, når man sammenligner med kemoterapeutiske stoffer. Købet af resistens over for målrettede behandlinger mod kræft på grund af en fremkomsten af ​​forskellige genetiske og /eller ikke-genetiske mekanismer, alvorligt har undermineret deres kliniske anvendelse [4] – [6]. Udfordringen med fremkomsten af ​​resistens i kræftceller kan løses ved – (a) rettet mod flere mål ved kombinationsbehandling (b) at designe et lægemiddel mod molekylær mål (er), der er involveret i forskellige veje kritisk forbundet med overlevelse, vækst og proliferation af cancerceller, eller ved kombination af (a) og (b).

den aktuelle undersøgelse, forsøger at identificere potentielle terapeutiske mål for oral cancer, der er forbundet med flere cancer stempler, som kan lette rationel opdagelse på effektive terapier for oral cancer. Vi har brugt microarray datasæt til rådighed fra NCBI-GEO-database, for at studere transkriptionelle profiler specifikt ændret i kræft i mundhulen. Vi har integreret datasæt fra to studier med tilsvarende eksperimentel design (dvs. kræft i mundhulen vs. kontrol) at udlede meningsfulde resultater fra underliggende datasæt med forbedret statistisk styrke. Den direkte integration af datasæt fra forskellige undersøgelser er udfordrende på grund af eksistensen af ​​utallige kilder til ikke-biologiske variationer, der ofte omtales som ‘batch-virkninger «. En sådan sonde-niveau integration af datasæt fra to forskellige undersøgelser er mulig ved at fjerne batch-effekter ved cross-platform normalisering [7]. Forskellige analytiske metoder er blevet integreret for at muliggøre logisk udvælgelse af de mest lovende terapeutiske mål til oral cancer (fig. 1). Vi har anvendt gen afhængighed netværksanalyse at forstå topologiske egenskaber under kræft og kontrol tilstand, kan generne med afmærkede topologiske forskelle betragtes som terapeutiske målgener [8]. Kausal ræsonnement analyse blev anvendt til identifikation af potentielle gener, der kan forklare differentiel genekspression ændringer i oral cancer. Udviklingen af ​​kræft er en flertrins proces aktiveret af forekomsten af ​​de vigtigste kendetegnende begivenheder som opretholde proliferativ signalering, unddrage vækst undertrykkere, modstå apoptotisk celledød, der gør det muligt replikativ udødelighed, overtalelse angiogenese, aktivering invasion, metastase og inflammation [9]. Roman litteratur mining fremgangsmåde er blevet anvendt til at associere disse cancer kendetegnende for gener af vores interesse. I den foreliggende undersøgelse, mangfoldigheden af ​​kræft kendetegn forbundet med et gen, sammen med imponerende topologiske profil i dependency- og /eller kausal-netværk, kvalificerer et gen for at være en potentiel lægemiddel mål for kræft i mundhulen.

Storstilet integration af datasæt fra oral cancer genekspression studier havde været forsøgt i fortiden med en målsætning om at mine transkriptionelle signaturer forbundet med neoplastisk transformation [10] eller overlevelse [11]. For nylig er det blevet anvendt til at identificere hyppige somatiske drivere til oral carcinogenese [12]. Opgaven med at identificere potentielle terapeutiske mål ved integrativ analyse, er blevet forsøgt for første gang i den aktuelle undersøgelse. Med en stigning i dødsfald forårsaget af kræft i mundhulen, især i indiske subkontinent region, der er et presserende behov for at fremskynde vores bestræbelser på at finde nye behandlinger for kræft i mundhulen. Den aktuelle undersøgelse, udgør en logisk ramme for at finde potentielle terapeutiske mål, der er forbundet med flere kræft stempler, og målretning forventes derfor dem til at være en perfekt svar på udfordringer forbundet med erhvervet lægemiddel-resistens over for målrettede behandlinger.

Materialer og metoder

Datakilde

de genekspression data af orale kræftpatienter og normale personer (kontrolprøver), rapporteret i to forskellige undersøgelser [13], [14] blev brugt i den aktuelle arbejde (tabel 1).

direkte data Integration

genekspression data genereret af forskellige eksperimenter kan ikke kombineres direkte til nedstrøms analyse, selv efter behandling med tilsvarende normaliseringsmetode, på grund af de iboende ikke-biologiske eksperimentelle variationer eller “batch-effekter”. Den direkte integration af data er mulig efter forarbejdning datasæt med passende normalisering metode efterfulgt af chip annotation og efterbehandling operationer kræves til fjernelse af batch-effekter ved hjælp af batch korrektion metoder.

Normalisering.

de rå data eller CEL filer, der bruges i genekspression profilering undersøgelse af Peng et al. [14] blev hentet fra NCBI genekspression data repository (NCBI-GEO), og niveau resuméer sonden blev opnået ved Robust Multichip Analysis (RMA) algoritme [15] implementeret i Affymetrix Expression Console-softwaren (version 1.3). RMA-algoritmen passer en robust lineær model ved sonden niveau for at minimere virkningen af ​​probe-specifik affinitet forskelle. Den normaliserede datasæt, deponeret i NCBI-GEO af Ambatipudi et al. [13], blev hentet og brugt i den aktuelle undersøgelse. Detaljerne i normalisering procedurer, der anvendes til dette datasæt kan findes i beslægtede publikation [13].

Chip Annotation.

Netaffyx annotationsfil HuEx-1_0-st-v2.na33.1. hg19.transcript.csv blev hentet fra https://www.affymetrix.com/, og bruges som en primær kilde til anmærkning for HuEx-1_0-st-array datasæt. Tilpasset parser blev skrevet i perl til at udtrække mest relevante kolonner som Probeset ID, repræsentant Public ID, Entrez GeneID fra disse annotationsfiler. Den annotation fil til Agilent-014.850 Whole Human Genome Microarray 4x44K G4112F (Probe Version) blev hentet fra den tilsvarende platform fil (GPL6480) tilgængelig fra NCBI-GEO. Tilpasset parser blev skrevet i perl til at udtrække Entrez GeneID og Gene Symbol kortlagt mod tilsvarende probe id’er

Chippen anmærkning blev yderligere styrket med hjælp fra gene2accession fil downloades fra NCBI ftp stedet (ftp:. //Ftp. ncbi.nlm.nih.gov/gene/DATA). Den gene2accession fil hjalp os med at finde forsvundne Entrez GeneIDs for sonderne baseret på andre tilgængelige oplysninger som RNA /genomisk nukleotid tiltrædelse id som er et fælles felt mellem annotation fil og gene2accession. Vi kunne anmærke 30,932 sonder i Agilent-014.850 Whole Human Genome Microarray 4x44K G4112F (Probe Name-version) og 38,349 sonder i HuEx-1_0-st (afskrift udgave) med den tilsvarende Entrez GeneIDs. Sonder uden anmærkning blev ikke anset for downstream analytiske processer.

Beskæftiger sig med mange-til-mange-relation mellem Sonder og Gener.

Der er ikke altid 00:59 korrespondance mellem microarray sonder og tilhørende gener , hvilket skaber tvetydighed mens analysere resultater af nedstrøms statistiske og /eller funktionel analyse. To typer af konkrete sager opstår på grund af de mange-til-mange relationer mellem prober og gener, nemlig. (A) en sonde er kortlagt til mere end én GeneID (f.eks Probe1- BIRC5, BIRC3), på grund af en ikke-specifik karakter af sonden, og (b) mere end en sonde kan kortlægge til samme GeneID, der ofte omtales som “søskende” prober (f.eks Probe1- BIRC5, Probe2- BIRC5)., hvilket normalt sker på grund af clustering karakter af sekundære databaser (UniGene, RefSeq) eller på grund af duplikere plettede sonder

kun Overvejer sonder med en-til-en-forhold ville være den enkleste analytiske tilgang; Men, ville det betyde tab af data. Ramasamy et al. [16] anbefalede at udskifte sonder kortlagt til flere gener med ny rekord for hver GeneID. Vi har skrevet brugerdefinerede perl script til “ekspanderende” sonderne med flere gener til at beskæftige sig med ikke-specifikke prober, som Maps til mere end ét gen. Det skaber ny rekord for hver GeneID.

De oplysninger fordelt på søskende sonder blev konsolideret med hjælp af en robust statistik, Tukey s biweight [17]. Medianen relateret Tukeys biweight er en robust statistik, som er kendt for at have fremragende opførsel i nærvær eller fravær af afvigende værdier, på grund af disse egenskaber blev det implementeret i MAS5.0 algoritme, der anvendes til probe niveau sammendrag [18]. Brugerdefinerede scripts blev skrevet i perl og R til at beskæftige sig med søskende sonder, og R-metoden «tbrm ()” fås med dplR pakken blev anvendt til at beregne Tukeys biweight robust middelværdi. Grupper af søskende sonder blev identificeret, og disse optegnelser blev erstattet af enkelt repræsentant rekord i hvilket udtryk værdier fordelt på søskende sonder blev erstattet af Tukeys biweight robust middelværdi; denne proces blev gentaget for hver søskende sonde gruppe.

Efter at løse mange-til-mange-relation mellem prober og gener, 19,593 og 23.407 sonder /gener blev bibeholdt i Agilent-014.850 Whole Genome og HuEx-1_0-st arrays , henholdsvis. Begge datasæt blev yderligere slået sammen baseret på fælles felt, dvs. Entrez GeneID. Den fusionerede datasæt bestod af 18,927 sonder /gener, 84 kræft prøver og 27 kontrolprøver. Denne fusionerede datasæt blev anvendt til den efterfølgende batch korrektion proces.

Batch Correction.

Vi brugte to analysemetoder, dvs. Combat [19] og XPN [20] for at beskæftige sig med ikke-biologiske variationer eller batch-effekter. Disse metoder blev rapporteret til at klare sig bedre end andre cross-platform normalisering teknikker [21], [22].

R implementering af kamp (www.bu.edu/jlab/wp-assets/ComBat/) blev anvendt til fjerne batch-effekter fra de to datasæt. Tilsvarende normaliserede datasæt blev behandlet af XPN metode, implementeret i CONOR pakke [22] tilgængelig med CRAN pakke repository (cran.r-project.org/web/packages/). Den normaliserede og batch korrigerede data vil give sonde /gen-niveau integration af data fra to studier, således lette en generation af de robuste hypoteser på data med forbedret statistisk styrke.

Vurdering af kvaliteten af ​​Batch Correction.

batch korrigerede datasæt blev vurderet for egenskaber som distribution af prøvetyper og forandring i eksperimentel magt. Dette blev gjort for at vælge blandt Combat og XPN, som en batch korrektion metode, der passer bedst til vores datasæt. R gennemførelse af Principal Component Analysis – PCA (dvs. prcomp () metode) blev anvendt til vurdering af fordelingen af ​​kræft og kontrolprøver mellem to datasæt anvendes i den nuværende undersøgelse [13], [14]. R statistisk pakke ssize () blev anvendt til estimering af eksperimentel effekt [23].

Differential ekspressionsanalyse

Den normaliserede og batch korrigeret datasæt blev anvendt til yderligere analyse. Den differentielle udtryk analyse blev udført ved hjælp LIMMA pakke (version 3.14.4) med mindste kvadraters regression og empirisk Bayes modereret t-statistik [24], [25]. Designet matrix blev konstrueret til at repræsentere layoutet af cancer og kontrolprøver ved data-matrix. Forskellen i ekspressionsniveauerne af prøver i to betingelser blev undersøgt ved at indstille kontrast ‘kræft-kontrol «. P-værdier blev justeret for multipel sammenligning ved hjælp af Benjamini Hochberg falsk opdagelse korrektion eller “FDR ‘[26]. Gener med den justerede p-værdi mindre end eller lig med 0,05, og fold ændring tærskel på 1,5 blev anset som differentielt udtrykt i den aktuelle undersøgelse.

Network Analysis

R statistiske pakke ‘ GeneNet «(version 1.2.7) [27] blev anvendt til at udlede store gen forening netværk blandt differentielt udtrykte gener opnået i vores undersøgelse. Foreningen netværk udledt af GeneNet er grafiske Gaussiske modeller (GGMs), som repræsenterer multivariate afhængigheder i bio-molekylære netværk ved delvis korrelation. Denne metode producerer en graf, hvori hvert knudepunkt repræsenterer et gen, og kanterne repræsenterer direkte afhængigheder mellem forbundne knudepunkter /gener. Denne metode beregner også statistisk signifikans værdi (p-værdi) sammen med FDR korrigeret /justerede q-værdi for kanterne i GGM netværk, som giver en mekanisme til at udtrække kun signifikante kanter i netværket. Afhængighed netværk blev genereret for hver betingelse uafhængigt af hinanden. Tærsklen af ​​q-værdi under eller lig med 0,05, blev anvendt til at filtrere ikke-signifikante kanter i det endelige netværk. Tilpasset perl scripts blev skrevet til at udtrække tilslutningsmuligheder eller graden statistik for netværk for kræft og kontrolprøver.

Causal Reasoning

Causal ræsonnement forsøger at forklare de formodede biologiske årsager til de observerede genekspression ændringer baseret på rettet årsagssammenhænge. Årsagssammenhænge kan repræsenteres som “kausale grafer”, som består af knuder (gen /biologisk proces) og rettet kanter skildrer forholdet mellem forbinder noder. Biologisk regulering kan også være repræsenteret i sådanne kausale grafer i form af underskrevne kanter, med skilt, der angiver, om en ændring i den kausale variable påvirker den anden variabel positivt eller negativt.

I den aktuelle undersøgelse, vi har anvendt kausal ræsonnement metode foreslået af Chindelevitch et al. [28], for at hente listen over statistisk signifikante opstrøms hypoteser, der forklarer observeret genekspression ændringer i vores undersøgelse datasæt. Denne metode identificerer formodede opstrøms hypotese baseret på et sæt af årsagssammenhænge repræsenteret som en kausal graf, og rangerer sådan hypotese ved at beregne deres samlede score baseret på karakteren af ​​forudsigelse (korrekt = 1, forkert = -1, tvetydige = 0) gjort ved hypotese i den kausale graf. Denne metode beregner også statistisk signifikans for hver score og output hypoteser, der er statistisk signifikant.

R-kode kausal ræsonnement metode [28] kræver tre indgange nemlig. (I) årsagsnet Enheder: en tabulatorsepareret fil består af oplysninger om enheder i kausal netværk, i vores undersøgelse, den bestod af listen over gener, som er en del af kausale netværk, (ii) differentielt udtrykt Genelist: en tabulatorsepareret fil, der består af to kolonner (dvs. gen navn og retning af regulering, hvilket er 1 eller -1 for op- eller nedregulering), (iii) årsagsnet relationer: en tabulatorsepareret fil består af udgør enheder (dvs. kilde genet til target-gen) og type forhold mellem enheder (type: “øge” eller “formindske” beskriver den kausale effekt af kilde på mål). De output filer fremstillet ved denne metode er: (i) HypothesisTable.xls (se tekst S4): en tabulatorsepareret fil, hver række af som er en hypotese (dvs. en enhed i den graf med en retning på + eller – og en antal nedstrøms skridt, der tages til at forudsige udskrifter) og kolonne består af score, navn og antal korrekte, forkerte, og ikke forklaret udskrifter samt p-værdier og Bonferroni korrigeret p-værdi [29], [30] som et konservativt skøn over betydning under korrektion multiple test (ii) xGMML filer: kausal sub-grafer af væsentlig hypotese opdaget af den metode genereres i xgmml format

Causal Graph Creation

Vi har.. brugte årsagssammenhæng indlejret i Kegg pathways [31] som en kilde til generering af det kausale grafen i den aktuelle undersøgelse. Kegg API blev gearede som en ramme for parsing enheder og relationer fra kgml fil af en sti. Kegg veje til human blev anset for at indsamle oplysninger, der kræves for at konstruere den kausale netværk. Den kgml fil indeholder enhed listen (gen /forbindelse etc.) og forholdet oplysninger (aktivering /hæmning /udtryk osv). Vi har overvejet “aktivering” og “hæmning” sammen med enheder involveret i et sådant forhold til konstruktion af kausale graf. Den endelige kausale graf genereret fra Kegg veje bestod af 11,586 årsagssammenhænge.

Anbring behandling af XGMML filer og generering af konsoliderede Causal Network.

De xgmml filer genereret af kausale ræsonnement analyse blev parset ved sædvane perl-script til at udtrække vigtige oplysninger om upstream hypotese og skabe en konsolideret kausal netværk. De hypoteser og de forudsagte relationer blev yderligere udsat for skærmen for at fjerne hypoteser der ikke understøttes af vores data, og også til at fjerne falsk forudsagte årsagssammenhænge, ​​som kan identificeres som “I (+/-)” i tekst S5. De korrekt forudsagte relationer kan identificeres som ‘C (+/-) «i Tekst S5. De hypoteser, som ikke blev differentielt udtrykte blev kontrolleret for dets ekspression niveau (dvs. op /ned-regulering) afbildet i kausal graf og derefter sammenlignet med dets tilsvarende ekspressionsniveau i vores datasæt. Enhver hypotese med modstridende retning udtryk profil (dvs. opreguleret i den kausale graf og nedreguleret i udtryk datasæt, eller omvendt), blev ikke anset for yderligere analyse. Således vil de korrekt forudsagte hypoteser omfatter kun de hypoteser, som kan bekræftes af integreret udtryk datasæt anvendes i den nuværende undersøgelse (dvs. hypotese afbildet som overudtrykt i kausal netværk, bør også vise overekspression i udtryk datasæt, eller omvendt ).

de korrekt forudsagte relationer og hypoteser blev anset samtidig skabe den konsoliderede kausale netværk. Connectivity oplysninger sammen med karakteren af ​​forholdet (stiger /falder) mellem hypotese og nedstrøms gener blev reddet i ‘Causal_Net.rel “(se tekst S6). Connectivity statistik blev også beregnet for alle kanter i den endelige kausal netværk og gemmes i ‘Causal_Net.degree “(se tekst S7).

Litteratur Mining

differentielt udtrykte gener blev anset for funktionel analyse baseret på oplysninger i publicerede artikler arkiveret i NCBI PubMed database. Den NCBI eUtils især ORSKNING og Efetch, blev anvendt sammen med Perl LWP modul, til minedrift NCBI PubMed database [32]. Omfanget af litteratursøgning med gen symbol på differentielt udtrykte gener blev udvidet ved hjælp af gen-synonym tabel, forespørgsler indeholder synonymer sammen med andre søgetermer blev derefter sendt til PubMed ved hjælp af ORSKNING nytte, efterfulgt af hentning af relevante poster ved Efetch nytte.

den metode bruger regler text mining defineret i algoritmen, at klassificere differentielt udtrykte gener efter markøren type (terapeutiske /diagnostiske /prognostiske) og relevante kræft kendetegnende (apoptose /celle-proliferation /angiogenese /metastase /inflammation) rapporteret for den pågældende gen i artikler publiceret i NCBI-PubMed. Algoritmen beregner statistiske signifikans af søgestatistik og konsoliderer litteratur minedrift resultater rapportfiler. Det algoritmiske strøm af litteratur mining metode, der anvendes i den aktuelle undersøgelse er afbildet i fig. 2.

Perl script blev skrevet til funktionel annotation af input gen-liste, baseret på teksten udvinding af relevante artikler hentes ved hjælp af NCBI eUtils. Litteraturen minedrift algoritme implementeret i aktuelle undersøgelse består af følgende hovedkomponenter:…

Oprettelse af gen-synonym bord

Query dannelse

Tekst-mining

betydning analyse af resultatet tekst-mining.

Gene synonym bord.

tabulatorsepareret “gene_info ‘filen blev hentet fra NCBI ftp websted og blev brugt til at skabe gen synonym tabel. Angivelserne for menneske blev udvundet fra gene_info fil med hjælp fra organismen kode for human (Taksonomi id: 9606), og disse poster blev brugt til at oprette en mellemliggende fil, som blev yderligere brugt til at skabe gen synonym bord. Søjlerne i den mellemliggende fil, som blev brugt til at generere alternative navne for generne er: (i) »gen synonymer”, (ii) “beskrivende navn«, og (iii) “andre navne”

. resulterende gen synonym tabel blev gemt som en tabulatorsepareret fil med to kolonner nemlig. gen symbol og synonymer. En post i genet synonym bordet var i følgende format:.

MMP1 CLG # fibroblastcollagenase # interstitiel collagenase # matrixmetalloprotease 1 # matrixmetalloproteinase 1.

Query dannelse

de søgeforespørgsler blev optimeret ved hjælp af relevante søgeord tags [33], for at hente relevante artikler fra PubMed. Denne optimering var nødvendigt, fordi PubMed ikke understøtter sætning søgninger. Mens du søger efter sætning bestående af flere ord, ville PubMed søgning returnere artikler med alle ord i sætningen spredt over forskellige steder i abstrakt. Denne standard opførsel af PubMed kan styres ved hjælp af Search tags. Søgningen tag “[Tiab]« (afsnit /abstrakt) blev anvendt efter gen vilkår og biologiske begreber som apoptose eller angiogenese, som blev brugt til at forespørge PubMed database. Endvidere blev søgningen tag “[MH]« (mesh Vilkår) anvendes til at begrænse forbindelse med søgning specifik for oral cancer ved hjælp af MeSH udtrykket “mund neoplasmer [MH]” og har brugt de query udtrykket “neoplasmer [MH]” til at søge artikler relateret til enhver kræft typen

De forespørgsler, der bruges af vores metode kan groft inddeles i to kategorier nemlig

globale forespørgsler:.. Disse forespørgsler blev brugt til at udtrække søge globale statistikker til beregning statistisk signifikans af litteratur minedrift resultater. De globale statistikker for Fisher Exact test omfatter det samlede antal artikler relateret med oral cancer /kræft, og antallet af artikler relateret til den funktionelle koncept (som apoptose, metastase, angiogenese etc.) samt kræft i mundhulen /kræft.

Eg (Celledød [Tiab] eller apoptose [Tiab] ELLER apoptotiske [Tiab] eller anti-apoptose [Tiab] eller anti-apoptotiske [Tiab]) og mund neoplasmer [MH]

Gene specifikke spørgsmål:. Gene symboler fra det differentielt udtrykte gen-liste blev oversat til tilsvarende synonymer med hjælp af gen synonym bord. Gene specifikke forespørgsler indeholder synonymer, nøgleord for koncepter og kræft-type (mund neoplasmer eller neoplasmer) blev sendt til PubMed ved hjælp ORSKNING nytte, efterfulgt af hentning af relevante optegnelser ved hjælp af Efetch nytte. Ingen begrænsning blev sat for antallet af artikler, hentet per forespørgsel, da vores mål var at tildele annotation baseret på konsensus blandt offentliggjorte artikler. Da oral cancer er fokus for denne undersøgelse, det første forsøg af vores metode var at forespørge blandt artikler relateret til oral cancer, og derefter overveje artikler relateret til eventuelle kræft-typer kun i tilstanden af ​​manglende hente alle oplysninger med specifikke kontekst til oral cancer. Dette blev gjort for at forbedre annotation på input gen-listen.

f.eks. ((MMP1 [Tiab] ELLER CLG [Tiab] ELLER fibroblastcollagenase [Tiab] ELLER interstitiel collagenase [Tiab] ELLER matrixmetalloprotease 1 [Tiab] ELLER matrixmetalloproteinase 1 [Tiab]) OG (((terapeutisk [Tiab] eller terapi [Tiab ] ELLER diagnostisk [Tiab] ELLER diagnose [Tiab] eller prognostisk [Tiab] ELLER prognose [Tiab] ELLER inflammatorisk [Tiab]) OG (målrette [Tiab] ELLER molekyle [Tiab] ELLER markør [Tiab])) OR (celle [Tiab ] OG (proliferation [Tiab] ELLER proliferativ [Tiab] ELLER død [Tiab] ELLER vækst [Tiab] ELLER immortalisering [Tiab] ELLER migration [Tiab])) OR (apoptose [Tiab] ELLER apoptotiske [Tiab] eller anti-apoptose [ ,,,0],Tiab] eller anti-apoptotiske [Tiab] ELLER angiogenese [Tiab] ELLER metastase [Tiab] eller metastatisk [Tiab] ELLER betændelse [Tiab] ELLER invasion [Tiab] OR (immun [Tiab] OG (modulation [Tiab] ELLER modstand [Tiab ] eller destruktion [Tiab]))))) og mund neoplasmer [MH].

Tekst Mining.

De relevante artikler blev hentet i PubMed ‘XML’ format, hvilket gør udtrækning af oplysninger mere præcise grund af tilstedeværelsen af ​​indhold indesluttes i XML-tag-par. Oversigtsartikler blev ikke anset for tekst mining, fordi det kan føre til ekstraktion af redundant information, som allerede er fanget af udvinding af de oprindelige videnskabelige artikler nævnt i disse oversigtsartikler. Den abstrakte sektion af artikler blev anset for tekst mining. I en artikel, kan gen-navnet anvendes som en forkortelse for et begreb ikke er relateret til genet og derved kan blive en kilde til falsk-positive [34], [35]. Vores metode forsøger at løse tvetydighed forårsaget af et akronym ved at søge efter udvidet form af akronymet i indholdet forud et akronym og derefter sammenligne det med synonymer for akronymet hentes fra gen synonym bord. Den abstrakte er udelukket fra analysen, hvis der ikke match er fundet i synonymet listen.

Den abstrakte del af enhver artikel er en essensen af ​​artiklen, som indeholder præcise oplysninger om baggrund, resultater og konklusioner af arbejdet nævnt i artiklerne. Mange variationer kan ses i strukturen af ​​abstrakte afsnit af forskningsartikler. Nogle artikler har separate underafsnit til baggrund, resultater, og konklusioner, mens andre genstande ville have alle disse oplysninger skrevet under abstrakte sektion uden sub-sektionering. Indholdet af ‘konklusioner «underafsnit artikler kan betragtes som den mest informative og mindre tvetydig for funktionelle annotation opgaver som vores. Den bruges til tekst mining i vores metode indhold blev ekstraheret fra “konklusioner” underafsnit artikler med veldefinerede underafsnit i abstrakte afsnit. For andre genstande uden sub-delt abstrakt, vores metode udtrækker disse oplysninger fra de sidste 25% del af det abstrakte sektion med en antagelse baseret på generel iagttagelse, at konklusioner uvægerligt blive vist i slutningen af ​​abstrakte og udgør omkring en fjerdedel af hele indholdet abstrakt sektion.

Perl regulære udtryk blev brugt til at påvise tilstedeværelsen af ​​søgeord relateret med markør-typer og /eller kræft kendetegnende i indhold, der er udvundet af abstrakte afsnit i artiklen. Nøgleordet indeholder udvundet indhold var opdelt i enheder af enkelt sætning. Den parsing sådan en enkelt sætning i forhold til parsing af hele afsnittet som en enkelt enhed er blevet rapporteret til at give højere effektivitet for tekst-mining baseret udtrækning af oplysninger [36]. Den perl modul “Lingua :: EN :: Sætning” blev brugt til sætning grænse afsløring, det opdeler input tekstmæssige indhold i sætninger til nedstrøms analyse. Sætninger, der indeholder både udvidet gen synonymer og søgeord relateret med markør-type og /eller kræft kendetegnende blev brugt til at tildele annotation til genet. Sag ufølsom regulære udtryk matching blev udført for at afsløre sætninger der indeholder søgeord af interesse og gen synonymer. De søgeord, der anvendes til funktionelle udfyldelse gener i den aktuelle undersøgelse kan groft inddeles i følgende to kategorier:

Marker relaterede søgeord:

Terapeutisk markør: et gen blev betragtet som den terapeutiske markør, hvis genet /synonym indeholder sætning har en eller flere genstande fra den relaterede søgeord-liste [terapeutisk eller terapi]

prognostisk markør:. et gen blev betragtet som den prognostiske markør, hvis genet /synonym indeholder sætninger har en eller flere elementer fra den tilhørende søgeords-liste [prognostisk eller prognose]

diagnostisk markør:. et gen blev betragtet som diagnostisk markør, hvis genet /synonym indeholder sætninger har en eller flere genstande fra den relaterede søgeord-liste [diagnostisk eller diagnose eller forprogrammeret [13].

Be the first to comment

Leave a Reply