PLoS ONE: MGEx-UDB: En pattedyr Uterus Database til Expression-Based Katalogisering af gener på tværs af forhold, herunder Endometriose og Cervical Cancer

Abstrakt

Baggrund

Gen-ekspression profilering af livmoderen væv har blevet udført i forskellige sammenhænge, ​​men en betydelig mængde af data forbliver underudnyttede, da det ikke er dækket af de eksisterende generelle ressourcer.

Metode /vigtigste resultater

Vi kurateret 2254 datasæt fra 325 livmoderen relateret masse skala genekspressionsstudier om menneskerettigheder, mus, rotte, ko og svin arter. Vi derefter beregningsmæssigt udledt en “pålidelighed score” for hvert gen udtryk status (transskriberet /dvale), for hver mulig kombination af betingelser og steder, baseret på omfanget af enighed eller uenighed på tværs datasæt. De data og afledte information er blevet kompileret ind i

M

ammalian

G

ene

Ex

sion

U

terus

d

ata

b

ase

(MGEx-UDB, http : //resource.ibab.ac.in/MGEx-Udb/). Databasen kan forespørges med gen navne /ID’er, sub-væv steder, samt forskellige tilstande såsom livmoderhalskræft, endometrie cykler og lidelser, og eksperimentelle behandlinger. Følgelig ville output en) transkriberet og sovende gener anført for forespørges tilstand /placering, eller b) ekspressionsprofil af genet af interesse i forskellige uterine betingelser. Resultaterne omfatter også pålideligheden score for ekspressionen status hvert gen. MGEx-UDB giver også oplysninger om Gene ontologi anmærkninger, protein-protein interaktioner, udskrifter, promotorer og udtryk status af andre sekvenseringsteknikker, og letter forskellige andre typer analyse af de enkelte gener eller co-udtrykte gen klynger.

konklusioner /betydning

kort sagt, MGEx-UDB muliggør nem katalogisering af co-udtrykte gener og letter bio-markør opdagelse af forskellige uterine forhold også

Henvisning:. Bajpai AK, Davuluri S, Chandrashekar DS, Ilakya S, Dinakaran M, Acharya KK (2012) MGEx-UDB: En pattedyr Uterus Database til Expression-Based Katalogisering af gener på tværs af forhold, herunder Endometriose og livmoderhalskræft. PLoS ONE 7 (5): e36776. doi: 10,1371 /journal.pone.0036776

Redaktør: Zhanjiang Liu, Auburn University, USA

Modtaget: 10. januar, 2012; Accepteret: April 5, 2012; Udgivet: 11 maj, 2012 |

Copyright: © 2012 Bajpai et al. Dette er en åben adgang artiklen distribueres under betingelserne i Creative Commons Attribution License, som tillader ubegrænset brug, distribution og reproduktion i ethvert medie, forudsat den oprindelige forfatter og kilde krediteres

Finansiering:. Dette arbejde blev støttet af Institut for Informationsteknologi [Grant nummer DIT /R et institutionelt tilskud under videncenter ordningen] Indiens regering. De finansieringskilder havde ingen rolle i studie design, indsamling og analyse af data, beslutning om at offentliggøre, eller forberedelse af manuskriptet

Konkurrerende interesser:. Forfatterne erklærer, at den tilsvarende forfatter (Kshitish K. Acharya) er tilknyttet både IBAB, en akademisk forskningsinstitut og Shodhaka Life Sciences Pvt. Ltd Sidstnævnte er et nyligt etableret kommercielt selskab, som i øjeblikket hovedsagelig beskæftiger sig med forskning og uddannelse. Det har også to produkter relateret til litteratursøgning og online test for biologi-relaterede job og kurser. I fremtiden vil selskabet at levere tjenesteydelser i databasen og software udvikling. Forfatterne bekræfter tilknytningen til virksomheden og inddragelse af den tilsvarende forfatter som direktør for virksomheden. De bekræfter også, at dette ikke ændrer deres tilslutning til alle PLoS ONE politikker på datadeling og materialer.

Introduktion

Uterus er et vigtigt pattedyr organ, der skal være godt undersøgt for sin rolle i normale funktioner såsom sæd migration, embryo implantation og føtal næring, samt flere lidelser [1], [2]. Livmoderhalskræft er en af ​​de førende årsager til kræftdødsfald hos kvinder på verdensplan [3]. Ligeledes har endometriecancer, endometriose og infertilitet på grund af defekte uterine funktioner også været store menneskelige sundhedsmæssige betænkeligheder. Meget er stadig ukendt om den normale fysiologi og patologiske oplysninger om livmoderen væv.

Forståelse af mønster og mekanismer for regulering af genekspression er centralt for de fleste aspekter af biologi, herunder de normale og unormale tilstande af pattedyrs livmoderen. Storstilet påvisning af genekspressionsmønstre er lettere på transkriptet niveau sammenlignet med proteinniveauet. Mikroarrays aktiveret genom bred udskrift profilering og de har været brugt i udstrakt grad til at udforske forskellige biologiske fænomener.

Variationer i ekspressionsniveauet og status for gener, på tværs resultaterne af microarray eksperimenter [4], har forårsaget begrænsninger i forsyningsselskaberne af sådanne genekspression data. Anbefalede standarder for microarray eksperimenter og rapportering [5] – [7], og forbedrede meta-analysemetoder [8] – [11] kunne fremme en bedre udnyttelse af de indberettede data. Mens forskerne i dag synes at foretrække sekventering metoder for udskrift profilering [12], [13], at værdien af ​​de allerede eksisterende microarray data kan ikke undervurderes. Microarray og andre high-throughput genekspression data er opgjort i flere brugbare databaser /depoter (for en liste, se https://www.startbioinfo.com/gene-expression). Men den manglende effektivitet i søgemuligheder specifikke for fysiologiske og eksperimentelle betingelser begrænser også udnyttelsen af ​​de tilgængelige databaser. Det er også blevet observeret, at en signifikant mængde af data der mangler i sådanne databaser [14], [15]. Kompilering fleste udtryk data på ét sted ville være en enorm udfordring på grund af to hovedårsager: a) at indsamle de data spredt i litteraturen er en møjsommelig opgave, men der synes at være noget alternativ; b) der ikke har været en bekvem måde at udlede brugbare informationer på tværs af forskellige platforme, undersøgelser og datatyper (rå /forarbejdet data eller kun de endelige opkald). Vores hold tidligere brugt omkring 3 år at møjsommeligt kompilere genekspression data for pattedyr testiklerne, og anvendes derefter romanen konsensus baseret pålidelighed vurdering metode til at udlede en binær udtryk status for hvert gen [15].

En lignende indsats er påkrævet for livmoderen væv. Betydelig mængde microarray data faktisk tilgængelig for pattedyrs uterus væv [16]. Der har været et par databaser er specifikke for en komponent af livmoder såsom endometrie væv, (endometrie data Base: https://www.endometrialdatabase.com og SCCPIR Endometrium Database Resource: https://endometrium.bcm.tmc.edu/edr ) eller til en tilstand, CCDB, livmoderhalskræft gen DataBase [17]. Men, har der ikke været en livmoder bestemt database. Med et ønske om at indsamle maksimale eksisterende uterin genekspression data og forskning hjælp på forskellige aspekter af pattedyr livmoderen, har vi skabt den Mammalian Gene Expression Uterus database (MGEx-UDB), og rapporterer det samme.

Resultater

database indhold

(A) data, der anses for scoring: i øjeblikket databasen dækker 325 studier med 2254 datasæt, der svarer til 1092 ‘Expression status under specifikke steder og betingelser “(ESLCs) til mennesker, mus , rotte, ko og gris. Omkring 83% af dataene i MGEx-UDB er fra undersøgelser af menneske- arter (figur 1). Databasen indeholder 970 forskellige ESLCs til human (23,735 gener), 91 for mus (24,428 gener), 15 for rotter (14,497 gener), 8 for ko (10.875 gener), og 8 for svin (1.720 gener). Databasen har maksimale antal undersøgelser for livmoderhalskræft (38% af alle undersøgelser). De næste mest rigelige undersøgelser svarer til endometriecancer og endometriose (ca. 13% undersøgelser for hver). Andre bidrager betingelser omfatter de normale, leiomyoma, leiomyosarkom, cervikal intraepithelial neoplasi (CIN), endometriehyperplasi, endometrie cykler, drægtighed, behandling med kemikalier /hormoner og knockout og transfektionsundersøgelser forbundet med specifikke gener (Figur 2). De fleste sygdomsrelaterede rapporter er fra humane væv og /eller cellelinjer. Mens undersøgelser i forbindelse med hormonbehandling, embryo implantation og normalt væv er almindelige i mus, undersøgelser af kemisk /hormonbehandling og endometriose er almindelige i rotter. I tilfælde af ko og gris, graviditet relaterede undersøgelser er almindelige.

Andre arter omfatter ko og gris. Blandt de indsamlede data fra GEO eller “PubMed GEO “, 85% af studierne var også til stede i ArrayExpress, selv om dette ikke er angivet i figuren.

(og undersøgelser) i MGEx-UDB svarende til forskellige fysiologiske og patologiske tilstande uterine. »Andre« repræsenterer post-fødsel, genetiske-ablation, kunstig befrugtning og embryo implantation. Undersøgelser overvejer væv, der anvendes som kontrol, men måske ikke er helt “normale” er blevet grupperet i

‘kan være normale’

kategori (eksempler: “normale væv ved siden af ​​tumor /cancer væv”, “køretøj-behandlet “).

af de 325 undersøgelser identificeret for dataindsamling, blev 295 publicerede forskningsartikler kurateret at indsamle oplysninger i forbindelse med hvert gen listen. I de resterende tilfælde blev de nødvendige oplysninger kurateret direkte fra repositories; der var ingen tilsvarende publikation til disse eksperimenter. Af alle undersøgelserne blev omkring 55% udelukkende stammer fra litteraturen. De resterende data kom fra Gene Expression Omnibus (GEO) [18], ArrayExpress [19] og andre repositories alene eller i kombination med litteraturen (figur 1). I databasen, 90% af undersøgelser svarer til mRNA niveau ekspression og 10% studier svarer til ekspression på proteomisk niveau. De fleste (91%) af mRNA-niveauet rapporter kom fra microarray teknologi, hvilket også bidrager til 72% af de samlede datasæt. Affymetrix (66%) er den største bidragyder blandt microarray platforme, efterfulgt af cDNA tilpassede arrays (21%) (figur 3). Mindre studier baseret på revers transkription Polymerase Chain Reaction (PCR), kvantitativ real time PCR, blottingteknikker mv bidrog også datasæt. Blandt de samlede datasæt, 52% har 500 gener i hver, 8% af dem har 50-500 og de resterende 40% indeholder 50 gener (figur 4). I de fleste tilfælde datasæt, der svarer til mindre studier var fra validering eksperimenter en masse skala genekspression undersøgelse.

“andre” omfatter datasæt primært bidraget med GE Healthcare og Illumina platforme.

(med gen count) indsamlet fra forskellige kilder. I tilfælde af “PubMed GEO “og” PubMed ArrayExpress “, mindre gen lister kom fra validering eksperimenter og blev indsamlet fra PubMed, mens rå /behandlede data altid blev indsamlet fra repositories (GEO /ArrayExpress)

B) Data er ikke i betragtning til scoring.: MGEx-UDB har også sekventering data. Sådanne data kunne ikke være ansat i at udføre den konsensus på grund af inkompatibilitet af disse datatyper med det nuværende beregningsmæssige pointsystem. Next Generation Sequencing (NGS) data blev inkluderet for HeLa-celler med differentiale udtryk kræver 2 behandlingsrum betingelser, fra 3 studier. Links er fastsat andre relevante NGS (rå) datasæt. Bulk af sekventering data imidlertid svarer til udtrykte Sequence (EST’er).

Et eksempel

( “fase IIA ikke-keratiniserende planocellulært cervikal karcinom”)

hierarki af de betingelser og sub -conditions, for hvilke der er indsamlet data, og drop-down mulighederne i forespørgslen og uploade sider MGEx-UDB. Aktuelt databasen tillader op til fire niveauer i hierarkiet til at forespørge.

Web interface

Query funktioner.

MGEx-UDB giver flere forespørgsler muligheder. At forespørge med et gen, kan brugeren indtaste identifikatorer for én af følgende typer: navne, symboler, synonymer Entrez gen-id’er, og gen søgeord /beskrivelser. Betingelse-baserede søgning kan gøres ved at vælge tilstanden af ​​interesse fra drop-down muligheder for fysiologiske eller eksperimentelle betingelser på forskellige niveauer af hierarkier for et udvalgt art. For eksempel kan der opnås gener transkriberes eller sovende til human livmoderhalskræft samt, pladecellecarcinom tilstand. Tilsvarende kan forespørgsler begrænses til en specifik region af vævet (sub-væv), og celle-type. Der er også en mulighed for at vælge en specifik population typen som kaukasisk, i tilfælde af mennesker, og stamme typer såsom C57BL6 eller Sprague-Dawley i tilfælde af mus og rotter, henholdsvis.

Output.

for gen-baserede søgning, databasen indeholder en liste over ens samt delvist matchende gener i forskellige arter. Hvert gen i denne side kan klikkes for grundlæggende oplysninger om genet, deres initiativtagere, udtryk status, produkter (udskrifter og proteiner), Gene ontologi (GO) anmærkninger, protein-protein interaktioner, krydshenvisning til andre ressourcer store bioinformatik, og relevante PubMed citater. Grundlæggende gen information består af sekvens, loci og resumé gen. Udskrift oplysninger omfatter udskrift ID, kodende sekvens og exon-intron detaljer. Promotorsekvenser detaljer dække transkriptionsstartstedet (TSS), potentiel promotorsekvens og dens kromosomale position. Protein information giver forskellige isoformer af proteinet (r), med tilsvarende sekvens, funktion, molekylvægt og aminosyre længde. Expression status (r) af genet er vist, sammen med en pålidelighed score, for flere væv regioner /sub-væv og celletyper under forskellige fysiologiske og eksperimentelle betingelser. Den oprindelige kilde til ekspressionen data vises i et separat panel. Ud over dette, databasen viser en vejledende udtryk status (er) baseret på sekventering data (EST NGS). Af forskellige uterine væv /forhold

Query med en tilstand (tilstand-baserede søgning) giver lister af gener transkriberes og dvale i forespørges tilstand. I hver af disse to lister, er den “pålidelighed score ‘vist for hvert gen. Faktisk er generne anbragt i rækkefølge efter faldende scores. GO anmærkninger vises også for de første 100 gener. Brugeren kan eksportere den komplette liste af gener sammen med deres pålidelighed scoringer. Henvisninger til kilden datasæt betragtning til scoring kan ses i denne udgang side. Klikker på et gen i resultatet side vil være i samme virkning som det gen specifik forespørgsel beskrevet i det foregående afsnit. Den “analysere” valgmulighed i output side giver brugeren mulighed for at udføre en hurtig analyse af væsentlige funktioner /processer i udvalgte gener. Brugeren kan hurtigt initiere GO analyse og multipel sekvensalignment (af gener, proteiner og promotorer), og let adgang til relevante veje og enkelt-nukleotid polymorfisme (SNP) optegnelser. Databasen også tillader co-ekspression, protein-interaktion og sti analyser, og tilbyder visualisering af netværk mellem den valgte klynge af gener ved hjælp GeneMANIA [20] funktionel analyse værktøj.

Databasen indeholder nem søgning af gener og betingelser. Desuden findes link til livmoderen data (NGS og kopiere nummer variationer), med et indeks på forhold, og andre ressourcer.

Diskussion

En betydelig del af den offentliggjorte microarray data ikke fundet i nogen af ​​de udbredte databaser eller repositories [14], [15]. Indsamling af sådanne oplysninger skal være manuel og ville være en tid tager proces. Vi har indledt væv klog samling af pattedyr genekspression data med det formål at bruge de eksisterende data til katalogisering af genekspression mønstre. En sammenlignende undersøgelse [15] af databaserne med betingelse specifikke forespørgsler angivet overlegenhed sådant væv klog biocuration af genekspression data. En lignende sammenligning af MGEx-UDB med andre repositories /databaser viste, at den tidligere giver lettere query-system og giver større antal relevante undersøgelser og gener (detaljer i statistik sektion af databasen).

Styrken af ​​’pålidelighed score «, for det binære udtryk status, er proportional med mængden af ​​datasæt og aftale på tværs af dem, for en tilsvarende betingelse. Der er nogle begrænsninger [15] i en sådan konsensus baseret scoring af de binære udtryk stater. Men denne binære konsensus metode tilbyder en betydelig fordel i forhold til de fleste andre meta-analysemetoder i at udlede en semikvantitativ konsensus. Det virker på tværs af platforme og teknologier, uanset tilgængeligheden af ​​rå /behandlede data, så længe der ikke er sket den sidste indkaldelse.

Den hierarkiske visning af gener transskriberet /dvale i særlige betingelser kan være et nyttigt repræsentation af transskription profiler. De højere score indikerer sammenhæng i udtryk status for de tilsvarende gener på tværs af biologiske prøver (anvendt i forskellige undersøgelser) og teknologier. Faktisk konsistensen synes at blive opretholdt i mange gener på trods af variationer i den teknologi såsom microarray platform, RNA-isolering og statistik, samt prøverne, hvilket også kunne variere i form af populationer /stammer og andre beslægtede aspekter såsom alder, sociale interaktioner og kost. De resulterende lister kan anvendes til at identificere gener, der har stærk association med nogen fysiologiske status /tilstand i pattedyr livmoder væv. For eksempel kan brugeren få en liste af gener, der transkriberes eller sovende i sygdomstilstanden af ​​interesse og sammenlign med de, der har den modsatte ekspressionsstatus i den normale tilstand. En EU-liste over gener på tværs af de to betingelser kan udledes og hierarkisk arrangeret baseret på scoringer. En sådan liste vil omfatte gener med varierende grader af tilknytning til sygdommen. Som et eksempel, generne

“transskriberet i livmoderhalskræft, men hvilende i normal cervix /livmoderen”

med høj pålidelighed scores kan være bedre kandidat biomarkører end generne normalt identificeret som differentielt udtrykt af en enkelt undersøgelse.

CDKN2A

, hvilket er en allerede velkendt markør for livmoderhalskræft [21], [22], er en sådan gen, har en score på 318 for

‘transskriberet status i livmoderhalskræft “

fra 79 studier fra PubMed, 6 fra GEO, 1 fra ArrayExpress og 2 fra caArray, og 88 for

‘hvilende status i normal livmoder’,

fra 32 studier fra PubMed og 1 fra GEO. Tværtimod nogle af de øverste gener fra den passive liste for livmoderhalskræft var også hvilende i normal livmoder, og derfor er de mindre tilbøjelige til at have en stærk sammenhæng med sygdommen. Således kan den opnåede tværs betingelser output anvendes til at differentiere gener, der har stærk association med en uterin tilstand fra dem med svage eller ingen sammenhæng. Denne fremgangsmåde kan bane en ny måde at notering potentielle diagnostiske, prognostiske og terapeutiske mål for livmoderen lidelser. Denne proces kan anvendes til at opnå raffinerede klynger af co-udtrykte gener.

genklynger opnået ved MGEx-UDB kan være nyttigt ikke blot at forstå de molekylære mekanismer og veje, der er forbundet, men også at belyse de mekanismer, transkriptionel regulering, identifikation sygdom-fase, gen prioritering og genfunktion forudsigelser. Vi har indledt nogle undersøgelser i promotoren analyse af nogle af de vigtige klynger af co-udtrykte gener. Den kompileret (efter en enorm screening indsats) referenceliste af genet lister svarer til hver tilstand og placering af interesse kan være særlig nyttig for brugere interesseret i at søge andre meta-analysemetoder til genekspression data.

Siden MGEx-UDB giver de fleste eller alle af de gener, der er forbundet med en bestemt tilstand, kan den tjene som et godt udgangspunkt for enhver form for funktionel analyse af forskellige uterine forhold. MGEx-UDB giver også mulighed for at sammenligne genekspression mønstre på tværs af subtile variationer i betingelser og behandlinger. For eksempel kan man sammenligne ekspression status fra ubehandlede normale væv rapporter med dem fra fingeret /vehikelbehandlede prøver (kan være normal); tumor-tilstødende væv (kan være normal) med tumor-mangler væv (normal); uterine lag /cykler; stadier af kræft osv -. tværs af studierne

De allerede eksisterende ressourcer, der svarer til specifikke uterine sub-væv /tilstande er fordelagtige på nogle måder i forhold til MGEx-UDB. Derfor har vi inkluderet links til sådanne ressourcer i vores database. CCDB [17], en database specifikt til livmoderhalskræft, giver ikke kun op /ned regulerede, denatureret, muterede og forstærkede gener, men giver også oplysninger om miRNA relateret til livmoderhalskræft. Endometrie data Base (https://www.endometrialdatabase.com) og SCCPIR Endometrium Database Resource (https://endometrium.bcm.tmc.edu/edr) kompilere flere rapporter om differentierede gen udtryk i endometrie betingelser. Men bortset fra at være begrænset til særlige betingelser, er deres gen dækning synes at være mindre end MGEx-UDB. De er også ikke designet til at give en konsensus udtryk status gennem metaanalyse, eller lette en sådan proces. På den anden side, væv specifikke databaser såsom tiger [23] og TiSGeD [24] giver livmoderen specifikke gener, men tillader ikke specifikke forespørgsler til sygdomme og /eller eksperimentelle betingelser.

Fremtidig udvikling

Den nuværende arbejde har taget os 3 år, primært på grund af de manuelle datasikring opgaver involveret. Data, der svarer til visse forhold og arter er endnu ikke inkluderet og scoringen for binære status har sine begrænsninger. Vi har til hensigt at opdatere databasen med data for flere pattedyrarter og uterus betingelser ved: a) at invitere kolleger forskere til at uploade data, og b) vores egen indsats efter yderligere finansiering. Vi har også planer om at forbedre pointsystemet på mange måder: a) forskellig vægt opgave baseret på antallet af prøver, hybridiseringer og validering eksperimenter; b) indarbejde konsensus om den differentielle ekspression status sammen med transskriberede /hvilende status; c) eventuelt i samarbejde med andre organisationer, etablere metoder til at indarbejde data fra andre high-throughput genekspression data, såsom NGS og EST, mens udlede konsensus.

Resume

Den nyudviklede MGEx-UDB til formål at sætte skub i flere typer af indsats af biologer, der arbejder på livmoderen væv. De vigtige ansøgninger /funktioner i denne database er følgende. A) Den omfatter en stor mængde manuelt kompilerede genekspression data svarende til livmoderen fra forskellige rapporter og databaser. B) Det giver et katalog over co-udtrykte gener i forskellige normale og unormale uterine forhold. C) Det giver en “pålidelighed score” for at angive omfanget af aftalen eller modsætninger udtrykket status på tværs af microarray og proteom undersøgelser vedrørende en specifik betingelse /celle-type, for hvert gen. D) Det bruger også sekventering data i forskellige uterine væv /forhold indikere udtryk status for hvert gen. E) Det kan forespørges med normal eller et af de patologiske tilstande i livmoderen, såvel som generne, af mus, rotter og human art. F) Ud over udtrykket status sammen med pålidelighed scorer for flere betingelser livmoderen, databasen giver nem adgang til andre vigtige basale detaljer såsom sekvenserne af de gener, proteiner og udskrifter, GO anmærkninger, protein-protein interaktioner og de relevante citater . G) Den tillader udførelse sekvens og funktionelle analyser af de afledte co-udtrykte sæt af klynger. H) Hvert gen er også krydsreferencer til andre bioinformatik ressourcer nyttige. I) Det giver en let adgang til samlet liste over referencer for gen lister svarer til forskellige uterine betingelser, som er nyttige til forskellige meta-analyse tilgange. Alle disse funktioner er sandsynligvis til at katalysere processen med udskrift katalogisering, og forskellige andre livmoder relaterede forskningsindsats.

Tallet repræsenterer dataindsamlingen (øverste del), arkitektur (centrale del) og drift (nederste del) af databasen.

Materialer og metoder

Dataindsamling

En søgestrategi blev omhyggeligt designet til at indsamle relevante artikler rapporteret i litteraturen, (detaljeret procedure kan findes på https://dx.doi.org/10.1038/npre.2011.2101.3). Kort fortalt dette involveret identificere kombinationer af forespørgselstermer /sætninger for hver søgeværktøj, opnå de citater bruger flere værktøjer og derefter kompilere hits til en ikke-redundant union listen ved hjælp af Citation-Compiler værktøj (https://www.shodhaka.com /compiler). Et eksempel på de komplette søgestrategi og forespørgsler sæt kan findes i FAQ sektion af databasen. Formålet var at indsamle citater relateret til masse skala genekspression i livmoderen væv. En indledende screening af artiklerne blev udført for at kontrollere relevansen, ved at læse abstracts. Artiklerne identificeret som relevant blev derefter søgt efter listen over gener rapporteret at blive udtrykt, opreguleret, nedreguleret, etc ved en grundig fuld tekstlæsning. Gene lister fra disse relevante artikler blev indsamlet fra manuskript, supplerende noter eller forfatternes hjemmeside. Større repositories som GEO [18] og ArrayExpress [19], og andre repositories såsom Oncomine [25], Stanford Microarray Database (SMD) [26], Center for Information Biologi genekspression database (CIBEX) [27], caArray (https://array.nci.nih.gov/caarray), GEMMA (https://www.chibi.ubc.ca/Gemma/) og Public Expression Profiling Resource (PEPR) [28] blev også søgt efter den store skala genekspression data vedrørende pattedyr livmoder væv. Forarbejdet data blev indsamlet, hvor tilgængelig, da den scoring metode kræver kun den endelige opkald om den nuværende /fraværende status af generne. Hvis der var nogen behandlede data, blev rådata downloades og behandles ved hjælp af egnede standardmetoder som anbefalet i BioConductor pakker (https://www.bioconductor.org).

Sammen med genet listen, associeret oplysninger såsom som udtryk status, art, væv og sub-væv eller cellelinie, celle-type, og de tilsvarende fysiologiske eller eksperimentelle betingelser blev indsamlet fra de publikationer eller repositories. Dette sæt af grundlæggende parametre er herefter benævnt »Expression tilstand under specifikke placering og tilstand« (ESLC). De “betingelser” omfatter normale fysiologiske tilstand, sygdomme, endometrie cyklusser, drægtighed, behandling med hormoner og /eller andre kemikalier, osv En kontrolleret ordforråd blev fastsat for hver tilstand, for at opretholde ensartethed og at udlede den konsensus på tværs lignende undersøgelser. Figur 5 illustrerer hierarkiet af en tilstand og multi-level underbetingelser. Andre oplysninger indsamlet om de gen-lister omfattede antallet af prøver, alder individer, antal RNA isolationer og hybridiseringer, og detaljerne i main samt validering eksperimenter (eksempel: platform, sonder og statistiske metoder). Disse gen-lister sammen med den kommenterede oplysninger (herefter benævnt datasæt) blev uploadet til databasen. Det mindste antal gener pr datasæt var 3, den maksimale var 21.609, og den gennemsnitlige var 8554. Hvert indlæg blev krydstjekket med mindst en anden forsker, og på en gennemsnitlig 0,7% fejl (f.eks gen chip navn, befolkning typen , tid behandlingsforløb) blev påvist og rektificeret.

A ‘pålidelighed score «stammer for hver ESLC af hvert gen, ved hjælp af procedurer, der er beskrevet tidligere [15], for at indikere omfanget af enighed eller uenighed på tværs datasæt, som svarer til samme eller lignende betingelser og steder for hver art. Højere score indikerer, at de tilsvarende gener konsekvent rapporteres at blive transskriberet eller hvilende. Gener med lav score for de samme /lignende vilkår ville indikere enten mindre antal tilsvarende undersøgelser eller tilstedeværelsen af ​​modstridende rapporter for et specifikt udtryk for status under overvejelse.

Sekventeringsdata relateret til uterine væv /forhold blev også udarbejdet. Mens rapporter om RNA-sekventering blev indsamlet fra litteraturen, blev EST data direkte taget fra UniGene [29].

Database skabelse

Perl baseret CGI-script blev brugt til at skabe en grænseflade til indtastning af gen lister og tilhørende oplysninger. Et in-house-database blev anvendt til at konvertere gen identifikatorer fra datasættene i Entrez gen identifikatorer. Disse Entrez gen identifikatorer blev kø-up for at downloade andet gen relaterede oplysninger. LWP modul (https://search.cpan.org/~gaas/libwww-perl-5.836/lib/LWP.pm) blev anvendt til at forbinde til NCBI og de krævede oplysninger blev hentet ved hjælp af NCBI E-forsyningsselskaber (http : //eutils.ncbi.nlm.nih.gov/entrez/query/static/eutils_help.html). Downloadet oplysninger omfatter officielle gen symbol, aliaser, gensekvens, resumé gen, kromosomal placering, potentielle promoter sekvens [-1000 til +200 bp], og alle udskrift sekvenser (sammen med exon-intron-detaljer) svarende til hvert gen. Protein relaterede oplysninger blev hentet fra UniProt (https://www.uniprot.org; [30]). Tilsvarende blev transcription start sites downloades fra dbTSS (ftp://ftp.hgc.jp/pub/hgc/db/dbtss/[31]), version 7.0. Når oplysningerne ikke var tilgængelige i dbTSS for et gen, blev 5′-enden af ​​tilsvarende NCBI gensekvens anvendes til at repræsentere TSS position. Gene ontologi oplysninger hentet fra ftp site af databasen (ftp://ftp.geneontology.org/pub/go/[32]) og protein-protein interaktion oplysninger blev hentet fra BioGRID (https://thebiogrid.org /download.php; [33]), version 3.1. EST-data blev hentet fra UniGene (ftp://ftp.ncbi.nih.gov/repository/UniGene; [29]). Perl-kode blev skrevet for at sikre integration af de downloadede data i databasen. ClustalW blev hentet fra https://www.clustal.org/clustal2/og integreret i databasen, for at give mulighed for at udføre sekvensanalyse flere.

MySQL Relational Database Management System (RDBMS) bruges til lagring af data. En tabel er dedikeret til at lagre den grundlæggende gen-relateret information, herunder gen-navn, locus og transcript detaljer. Anden tabel bruges til at gemme gen identifikatorer såsom genet navn, gen beskrivelse, officielle gen symbol og NCBI genet identifikator, microarray platform probe identifikatorer etc. særskilte tabeller vedligeholdes til at lagre oplysninger om de træarter, celletype, væv, cellelinje og betingelser, som udgør ESLC. Hver post i disse ikke-redundante borde er mærket med entydig identifikator. De opnåede fra scoresystem resultater fastholdes som flad fil database. Hver fil svarer til unikke ESLC, som navngives med identifikatorer fra ESLC tabeller. Den komplette database arkitektur og funktion er repræsenteret i en skematisk i figur 6.

Tak

Vi vil gerne takke Bhaskar Mudhagantgi og Nisha Ann Vishwan til kuratere nogle af undersøgelserne og bidrage til den primære

Be the first to comment

Leave a Reply