PLoS ONE: dbCerEx: En Web-Based Database for analyse af livmoderhalskræft Transcriptomes

Abstrakt

Baggrund

livmoderhalskræft er rangeret den anden-mest farlige lidelser blandt kvinder over hele verden. I de seneste to årtier har microarray teknologi blevet anvendt til at studere gener involveret i malignitet fremskridt. Men i de fleste af de offentliggjorte microarray studier, kun få gener blev rapporteret forlader snarere en stor mængde data ubrugte. Desuden har RNA-Seq data bliver mere standard for transkriptom analyse og er almindeligt anvendt i kræft studier. Der er en stigende efterspørgsel efter et værktøj til at hjælpe de eksperimentelle forskere, der er ivrige efter at udforske livmoderhalskræft genterapi, men mangler computer ekspertise til at få adgang til og analysere de high throughput genekspression data.

Beskrivelse

Den dbCerEx databasen er designet til at hente og proces genekspression data fra livmoderhalskræft prøver. Det omfatter genomet brede udtryk profiler af livmoderhalskræft prøver, samt en web værktøj til at klynge gener med lignende ekspressionsmønstre. Denne funktion vil hjælpe forskerne gennemføre yderligere forskning for at afdække nye gen funktioner.

Konklusion

dbCerEx Databasen er frit tilgængelig for ikke-kommerciel brug på https://128.135.207.10/dbCerEx/, og vil blive opdateret og integreret med flere funktioner efter behov

Henvisning:. Zhou L, Zheng W, luo M, Feng J, Jin Z, Wang Y, et al. (2014) dbCerEx: En Web-Based Database for analyse af livmoderhalskræft Transcriptomes. PLoS ONE 9 (6): e99834. doi: 10,1371 /journal.pone.0099834

Redaktør: I. Kong Jordan, Georgia Institute of Technology, USA

Modtaget: November 12, 2013; Accepteret: 19 maj 2014; Udgivet: 11 juni 2014

Copyright: © 2014 Zhou et al. Dette er en åben adgang artiklen distribueres under betingelserne i Creative Commons Attribution License, som tillader ubegrænset brug, distribution og reproduktion i ethvert medie, forudsat den oprindelige forfatter og kilde krediteres

Finansiering:. Denne undersøgelse er støttet af National Natural Science grundlægger Kina (Program nr 31.202.013), Specialized forskningsfonden for ph.d.-programmet for videregående uddannelse i Kina (Program nr 20120146120007), grundlæggende forskningsmidler for de centralasiatiske universiteter (Program No.2011QC075). De finansieringskilder havde ingen rolle i studie design, indsamling og analyse af data, beslutning om at offentliggøre, eller forberedelse af manuskriptet

Konkurrerende interesser:. Det kommercielle selskab (Yichang Humanwell Pharmaceutical Co., Ltd.,), sammen med en hvilken som helst andet vedrørende beskæftigelse, rådgivning, patenter, produkter i udvikling eller markedsførte produkter etc., har erklæret, at der ikke konkurrerende interesser og Finansiel offentliggørelse. Dette ændrer ikke forfatternes overholdelse PLoS ONE politikker på datadeling og materialer.

Introduktion

livmoderhalskræft tegner sig for de næstmest gynækologiske cancer dødsfald sager i hele verden, og denne situation er værre i udviklingslandene på grund af manglen på passende organiserede screeningsprogrammer. Det menes, at Human Papilloma Virus (HPV) infektioner er de hyppigste årsager til invasiv livmoderhalskræft [1].

der dækker hele genom udtryk profilering har revolutioneret den måde, vi studerer sygdom og grundlæggende biologi. Siden 1997 er antallet af publicerede resultater baseret på en analyse af genekspression microarray data vokset fra 30 til over 5000 publikationer om året [2]. DNA microarray teknologier sigte på samtidige målinger af ekspressionen af ​​tusinder af gener i et enkelt eksperiment. I løbet af de sidste par år, har denne teknologi lettet bedre forståelse af de komplekse og heterogene molekylære karakteristika af kræft og bidraget til at forbedre behandlingen i kræft. For eksempel, at HOXC10 gen først blev identificeret hører til de 171 betydeligt op-regulerede gener i cervikale planocellulært karcinom (SCC) i forhold til normale livmoderhalsen prøver fra mikromatrice, som senere blev identificeret som en vigtig formidler af invasion i livmoderhalskræft [3]. Archival RNA-prøver af 25 patienter blev hybridiseret til Stanford microarray chips til at bygge en syv-gen pointsystem [4]. Denne genekspression mønster kunne bidrage til at identificere patienter med livmoderhalskræft, som kan behandles med strålebehandling alene. De specifikke udtryk profiler af kandidatgener blev udvalgt til at identificere historiske undertyper af livmoderhalskræft [5]. Desuden har mange kandidat biomarkører og terapeutiske targets blevet identificeret i andre kræftformer.

Men for de fleste af de offentliggjorte microarray studier, kun delmængder af gener er blevet rapporteret, at demonstrere forfatternes hypotese. De komplette microarray datasæt gemmes i en usystematisk måde, og nyttige kun til dem med beregningsmæssige ekspertise. Desuden har RNA-Seq data bliver mere standard for transkriptom analyse og er almindeligt anvendt i kræft studier. Mens de fleste af de eksperimentelle forskere, der også fortsat problemer med at udnytte disse kræft microarray databaser og RNA-Seq data til at løse biologiske spørgsmål. For eksempel, hvis en roman gen af ​​interesse har en korreleret (positiv eller negativ) udtryk mønster med en apoptose-relateret gen, betyder det, at de kan dele den samme reguleringsmekanisme, der kunne give den potentielle forslag forskning til nye gen.

Her præsenterer vi dbCerEx, en database over genekspression profiler genereret fra DNA microarray eksperimenter og RNA-Seq data. Databasen er forsynet med en integreret web-baseret hjælpeprogram, der har gjort oplysningerne let tilgængelige for livmoderhalskræft forskningsverdenen. Ifølge denne metode, kan de eksperimentelle forskere identificere nye livmoderhalskræft gener og udforske relationerne mellem dem.

Konstruktion og indhold

Microarray og RNA-Seq data

microarray udtryk data (GSE matrix filer) og platform annotation (GPL-filer) blev hentet fra Gene Expression Omnibus (GEO) database [6] via en R [7] /BioConductor [8] “GEOquery ‘pakke [9]. RNA-Seq data blev hentet fra The Cancer Genome Atlas (TCGA) Data Portal [10], som indeholder kliniske oplysninger, genomisk karakterisering af data og højt niveau sekvens analyse af tumor genomer. Dataene blev derefter logge (base 2) forarbejdes og median centreret. For at undgå beregningsmæssige fejl under beregning, den række, der indeholdt “NA” værdi ville udelades.

Forsøgene blev behandlet via forskellige platforme (tabel 1). For at gøre udtrykket data søgbare uanset platformene blev sonderne optegnes ny karakteristik officielle gen symboler. Men i stedet for gen symbol tilordningsinformationen, nogle GPL filer leveres kun NCBI GenBank [11] eller NCBI Refseq [12] tiltrædelsespartnerskaber Numbers kortlægning til prober. For at løse dette problem, blev den »gene2refseq« og »gene2accesion” filer hentet fra NCBI ftp server via ftp://ftp.ncbi.nlm.nih.gov/gene/DATA/. En Perl-script blev brugt til at kortlægge gen symboler til disse GenBank eller RefSeq tiltrædelsespartnerskaber Numbers, og i sidste ende til microarray sonder. De genekspression flade filer blev opbevaret til senere Adgang.

Foruddefinerede Gene Set

Et vigtigt element i denne database er, at det giver brugerne mulighed for at søge lignende gen kandidater med gener, de studerer baseret på ekspressionsmønstre. Under henvisning til denne metode, kan forskerne finde mekanismer blandt disse gener, som kan blive en lovende tilgang til at opdage hidtil ukendt gen-funktion. De gen-sæt foruddefinerede i databaserne blev hentet fra forskellige kilder og opdeles i to hovedkategorier: Gene ontologi (GO) [19], og Pathway. Som vist i tabel 2, GO sættet består af biologisk proces, Molecular funktioner og cellulære komponent. Mens Pathway sæt består af Kegg [20], BIOCARTA (www.biocarta.com) og REACTOME [21]. Menneskelige arter af genet sæt blev anvendt i dette arbejde.

Gene Expression Cluster Analysis

Den ukontrollerede hierarkiske clustering algoritme blev indført for at finde de tilsvarende gener baseret på ekspressionsmønstre. Dette forsøg blev behandlet med en kombination af distance målinger og forbindelser. I denne undersøgelse, afstanden fra gen x til gen y defineret som en-r

xy, hvor r

xy repræsenterer Pearson Korrelation af gen-x og y:

Database Implementering

dbCerEx database er en web-baseret hjælpeprogram kombinerer en MySQL (https://www.mysql.com/) database management system [MySQL 5.5.32 (Community Server) med InnoDB motor]. Front-end web-interface er forstærket af en java script ramme, Bootstrap 2.3.1 (https://getbootstrap.com/). PHP [udgave 5.3.10] (https://www.php.net/) applikationer modtager forespørgslen fra brugeren, er forbundet til database for at indsamle data, så ring eksterne Perl og R scripts til at behandle statistisk analysere og generere HTML sider, der viser resultater.

Utility og diskussion

dbCerEx databasen leveres af en web-baseret interface. Brugere kan starte søgningen ved at indtaste en interesseret gen i den øverste indtastningsfeltet, og klik derefter på ‘Søg’ knappen. Et gen liste vil blive vist i en ny side for alle de gener relateret til input-gen nøgleord. Brugerne kan vælge et gen fra listen ifølge beskrivelsen til at gøre udtryk analyse.

Ved at klikke et gen, en generel oversigt herunder det fulde navn, kaldenavne og eksterne links såsom HNGC, Entrez Gene, Ensembl. MIM og Genecard for dette gen vil blive vist. I samme side, er brugerne lov til at sætte parametrene udtryksformer analyse livmoderhalskræft. Brugere kan indtaste en interesseret gen sat i hånden eller fra genet sætliste såsom Kegg, BIOCARTA, REACTOME og Gene ontologi. Brugerne kan vælge datasæt fra færdigkompilerede livmoderhalskræft udtryk datasæt fra microarray og RNASeq, eller bare give et GEO tiltrædelse nummer. Ved at klikke på Query knappen Send, vil prøverne for den valgte datasæt blive opført. Brugerne kan vælge alle eller nogle interesserede prøver at gøre udtryk analyse.

En Heatmap viser den hierarkiske gruppering af gener og prøver vil blive vist (figur 1). Desuden vil en Heatmap der indbefatter de væsentligt positivt eller negativt korrelerede gener med den interesserede genet også tilbydes (figur 2). Pearson korrelation og p-værdi vil blive vist som en tabel på den højre side af Heatmap.

De gener, der har betydelig Pearson korrelation med den interesserede gen blev udvalgt til at plotte en Heatmap. De samplere er i kolonnen, og bestilt af ekspressionen af ​​den interesserede gen.

Konklusion

Vi præsenterer dbCerEx, en database med livmoderhalskræft genekspression profiler. Desuden giver det en roman værktøj til genekspression lighed søgning inden for visse interesserede gen sæt. Det menes, at dbCerEx er en kraftfuld platform for bioinformatik opdagelse, der bringer livmoderhalskræft microarray data og RNA-Seq data og analyse af livmoderhalskræft forskningsverdenen med rækkevidde.

Tilgængelighed og Krav

Den dbCerEx database hjemmeside er gratis som en web-applikation på:. https://128.135.207.10/dbCerEx/

Be the first to comment

Leave a Reply