PLoS ONE: Rekonstruktion af Gene Regulatory moduler i Cancer Cell Cycle af Multi-Source data Integration

Abstrakt

Baggrund

Præcis regulering af cellens cyklus er afgørende for vækst og udvikling af alle organismer. Forståelse reguleringsmekanismen af ​​cellecyklussen er afgørende for optrevling mange komplicerede sygdomme, især cancer. Flere kilder til biologiske data til at studere de dynamiske samspil mellem mange gener der er relateret til kræft cellecyklus. Integration af disse informative og supplerende datakilder kan bidrage til at udlede en indbyrdes sammenhæng gen transkriptionel regulatorisk netværk med stærk lighed med de underliggende gen regulatoriske relationer i kræftceller.

Resultater og vigtigste resultater

Vi foreslår en integrativ ramme, udleder gen regulatoriske moduler fra cellen cyklus af kræftceller ved at indarbejde flere kilder biologiske data, herunder genekspression profiler, gen-ontologi og molekylær interaktion. Blandt 846 menneskelige gener med formodede roller i cellecyklus regulering, vi identificeret 46 transkriptionsfaktorer og 39 gen ontologi grupper. Vi rekonstrueret regulatoriske moduler til at udlede de underliggende regulatoriske forhold. Fire regulatoriske netværk motiver blev identificeret fra interaktionen netværk. Forholdet mellem hver transskriptionsfaktor og forudsagte målgen grupper blev undersøgt ved at træne en tilbagevendende neurale net, hvis topologi efterligner netværket motiv (er), som transkriptionsfaktoren fik. Afledte netværk motiver relateret til otte kendte cellecyklus gener blev bekræftet ved sæt berigelse genanalyse, bindingssted berigelse analyse og sammenligning med tidligere offentliggjorte eksperimentelle resultater.

Konklusioner

Vi har etableret en robust metode, der præcist kan udlede underliggende forhold mellem en given transkriptionsfaktor og dens downstream målgener ved at integrere forskellige lag af biologiske data. Vores metode kunne også være til gavn for biologer til at forudsige komponenterne i regulatoriske moduler, hvor en kandidat gen er involveret. Sådanne forudsigelser kan derefter anvendes til at designe en mere strømlinet eksperimentel fremgangsmåde til biologisk validering. Forståelse af dynamikken i disse moduler vil kaste lys over de processer, der foregår i kræftceller som følge af fejl i cellecyklus regulering

Henvisning:. Zhang Y, Xuan J, de los Reyes BG, Clarke R, Ressom HW ( 2010) Rekonstruktion af Gene Regulatory moduler i Cancer Cell Cycle af Multi-Source data Integration. PLoS ONE 5 (4): e10268. doi: 10,1371 /journal.pone.0010268

Redaktør: Geraldine Butler, University College Dublin, Irland

Modtaget: 16 oktober, 2009; Accepteret: 25 marts 2010; Udgivet: 21 April, 2010

Copyright: © 2010 Zhang et al. Dette er en åben adgang artiklen distribueres under betingelserne i Creative Commons Attribution License, som tillader ubegrænset brug, distribution og reproduktion i ethvert medie, forudsat den oprindelige forfatter og kilde krediteres

Finansiering:. Denne undersøgelse understøttes delvist af tilskud fra National Institutes of Health (CA109872, NS29525, EB00830 og CA096483) og Department of Defense (BC030280). De finansieringskilder havde ingen rolle i studie design, indsamling og analyse af data, beslutning om at offentliggøre, eller forberedelse af manuskriptet

Konkurrerende interesser:.. Forfatterne har erklæret, at der ikke findes konkurrerende interesser

Introduktion

Cell division, aldring og død er uløseligt regulerede processer, der er afhængige af balancen mellem forskellige vækstfremmende og hæmmende signaler. Snørklede af disse processer er defineret af komplekse genetiske programmer, der tillader visse gener at blive udtrykt i en stramt reguleret måde. Fejl i reguleringen forårsager ukontrolleret celledeling, en universel egenskab af tumorer. Denne egenskab er drevet af gener, der udviser unormal aktiviteter i tumorceller, hvoraf mange har vigtige roller i at transducere vækstregulerende signaler til nucleus og grænseflade disse signaler til at ændre genekspression. Mens denne signalering uundgåeligt bidrager til den proliferative kapacitet af tumorceller, er det ofte udformet til at gøre det på en hierarkisk måde, ved amplifikation af aktiviteten af ​​afferente signalering, i sidste ende konvergerende på de gener, der styrer cellecyklusprogression.

Fremskridt i kræftforskning i de senere år er begyndt at afdække den indviklede genetiske programmering af cellecyklusprogression. Ekspressionsniveauer af tusinder af gener svinger hele kræft cellecyklus [1], [2]. Periodiske transskriptionelle aktiviteter af mange gener involveret i cellevækst, DNA-syntese, spindelpol-legemers fordobling heraf og transit gennem cellecyklussen er hver især blevet observeret [3]. De transkriptionelle regulatoriske netværk (TRNs) i forbindelse med disse aktiviteter er blevet grundigt undersøgt [4], [5], [6], [7], [8]. Yderligere karakterisering af genomet hele transkriptionel programmering af pattedyr cellecyklus er et afgørende skridt i retning af at forstå de grundlæggende cellecyklus processer og deres præcise roller i kræft.

Cell cyklus genekspression data fra Hela celler er blevet analyseret med flere clustering metoder og generne organiseret i funktionelle og lovgivningsmæssige grupper [1], [2]. Baseret på disse studier, at etablere en robust inferens om de regulatoriske forhold mellem en vis transskription faktor og dens formodede target gen (er) kunne være bedre opnås ved at kombinere genekspression data med oplysninger om transkriptionsfaktor bindingssteder og de mulige former for interaktion baseret på eksisterende biologisk viden [9]. Transkriptionel aktivering eller repression afhænger af anerkendelse af bestemte promotorelement sekvenser af DNA-bindende regulatorisk protein. Hvordan en specifik kombination af disse proteiner associerer med gener tværs af en genom betegnes TRN. Derfor er det vigtigt at undersøge, hvordan disse periodiske mønstre er reguleret inden for rammerne af TRN af cellecyklus i cancerceller.

Reverse engineering af en global TRN stadig en udfordring på grund af flere begrænsninger, herunder (1) den høje dimensionalitet af levende celler, hvor titusinder af gener virker på forskellige tidsmæssige og rumlige kombinationer, (2) hvert gen interagerer næsten med flere partnere enten direkte eller indirekte, og dermed mulige relationer er dynamiske og ikke-lineær, (3) de nuværende af avanceret teknologi generere data, der involverer en betydelig mængde støj, og (4) prøvens størrelse er meget lav i forhold til antallet af gener [10]. Nedbrydning af en TRN til et lille sæt af tilbagevendende regulatoriske moduler (

f.eks

, netværk motiver) er en lovende strategi for at imødegå denne udfordring.

Vi beskriver udviklingen af ​​et innovativt beregningsmæssige ramme, udleder kompleks TRNs ved at integrere biologiske data fra flere kilder og udnytte begrebet netværk motiv modulær analyse. Det nye ved denne beregningsmæssige ramme består i dekomponering af et komplekst biologisk netværk til dynamisk simpelt men velkarakteriserede netværk motiver, og evnen til at integrere forskellige biologiske data til at udlede disse netværk motiver. De udledte moduler giver et rationelt grundlag for at skabe nye hypoteser for efterfølgende eksperimentel validering. Vi demonstrerer evne til denne beregningsmæssige rammer at udlede lovgivningsmæssige moduler forbundet med cellecyklusprogression i Hela celler ved at kombinere information fra tid-retters genekspression eksperimenter [2], protein-protein interaktioner (PPI) [11], [12], [13], [14], [15], [16], [17], [18], [19], [20], [21], [22], protein-DNA interaktioner (PDI) [23] og gen-ontologi (GO) [24].

i forhold til vores tidligere rapporteret strategi, der blev anvendt til TRN følgeslutning i gæren cellecyklus [25], denne nye ordning omfatter en integrativ brug af PPI og PDI data (herefter kaldet molekylære interaktion data) fra tretten offentligt tilgængelige databaser kombineret med påvisning af betydelige netværk motiver for hver transskription faktor. Gennemførelsen af ​​denne nye ordning betydeligt udvidet omfanget af de netværk, der inkorporerer dybere sæt af kendte og værdifulde biologiske beviser. Desuden har vi introduceret en ny klynge gyldighed metode, der udnytter GO annotation at beregne ligheden mellem to givne gener i en klynge. Skillevæggen med den højeste lighedsscore er valgt som den optimale klynge. Små TRN moduler (

dvs..

, Netværk motiver) er let fortolkelige og har potentiale til at give indsigt i nye hypoteser. Hvis en genklynge er involveret i netværket motiv af en transkriptionsfaktor, og de fleste gener har bevis for, at de er underlagt den pågældende transkriptionsfaktor, er det mest sandsynligt, at andre gener i denne klynge har lignende regulerende forbindelser med denne særlige transkriptionsfaktor. Den følgeslutning evne vores raffinerede beregningsmæssige rammer er verificeret af forskellige analyser, herunder gen sæt berigelse analyse (GSEA), bindende websted berigelse analyse (BSEA), og supplerende litteratur undersøgelsen.

Resultater

Oversigt over rammerne dataintegration

Vi overvejede to forskellige lag af netværk i hvert TRN baseret på en analyse af Hela cellecyklus data. Først er det fysiske netværk, der omfatter PPI og PDIS på faktor-genet bindende niveau. Anden er den funktionelle netværk, der inkorporerer konsekvenserne af disse fysiske interaktioner, såsom aktivering eller repression af transkription. Vi brugte tre typer data at rekonstruere TRN, nemlig PPI stammer fra en samling af PPI databaser, PDIS fra TRANSFAC databasen, og tidsforløbet genekspressionsprofiler som offentliggjort af [2]. De første to datakilder forudsat direkte netværksoplysninger at begrænse TRN model. Genekspressionsprofilerne billede en entydig måling på de kausale virkninger TRN model. GO annotation beskriver ligheder mellem gener i ét netværk, hvilket letter yderligere karakterisering af relationerne mellem generne. Målet var at skelne afhængigheder mellem genekspression mønstre og de fysiske inter-molekylære interaktioner afsløret af komplementære datakilder.

Rammerne model for TRN inferens ved integration flere lag data er illustreret i figur 1. Ud over data forbehandling, blev tre successive trin involveret i disse rammer som skitseret i det følgende:

Gene ekspressionsmønstre blev først samlet i biologisk meningsfulde grupper af FCM; GO kategorioplysninger af gener blev anvendt til at bestemme den optimale klynge nummer. At evaluere genklynger, blev GSEA udført på de optimale klynger. Derudover blev betydelige netværk motiver opdaget i den kombinerede netværk af PPI og PDI derefter tildelt hver transskription faktor. Efter gen-klynger dannes og transskriptionsfaktorer blev tildelt til netværk motiv kategorier, blev forbindelserne mellem transkriptionsfaktorer og genklynger udledes af uddannelse RNNs der efterligner topologien af ​​nettet motiver, transkriptionsfaktorer er tildelt til. Endelig blev udledte netværk motiver valideret af BSEA og litteratur resultater.

Gene klyngedannelse.

Gener med lignende udtryk profiler var repræsenteret ved en klynge for at løse skalerbarhed problem i TRN følgeslutning [26]. Antagelsen er, at en delmængde af gener, der er relateret med hensyn til udtryk (co-reguleret) kan grupperes sammen i kraft af en samlende cis-regulerende element (er) i forbindelse med en fælles transkriptionsfaktor der regulerer hvert medlem af klyngen (co-udtrykt) [27]. GO oplysninger blev anvendt til at definere det optimale antal klynger med hensyn til visse brede funktionelle kategorier. Da hver klynge primært repræsenterer en bred biologisk eller proces kategori som evalueret af FuncAssociate [28]), de lovgivningsmæssige netværk indebærer, at en given transkriptionsfaktor vil sandsynligvis blive involveret i kontrollen af ​​en gruppe af funktionelt relaterede gener [29].

Netværk motiv opgave til transskription faktor.

for at reducere kompleksiteten af ​​inferens problem, netværk motiver blev udnyttet i stedet for en global TRN inferens. De betydelige netværk motiver i det kombinerede molekylære interaktion netværk blev først etableret og tildelt mindst én transkriptionsfaktor. Disse foreninger blev yderligere anvendt til at rekonstruere de lovgivningsmæssige moduler.

Konstruktion af netværk motiver til transskription faktor.

For hver transskription faktor tildelt et netværk motiv, en genetisk algoritme (GA) genererede kandidat gen klynger for tilskrivning til en transskription faktor baseret på de relationer, der er etableret af netværket motiv. En tilbagevendende neurale netværk (RNN) blev uddannet til at modellere en TRN, der efterligner den tilhørende netværk motiv. GA genereret kandidat- genklynger, og partikel sværm optimering (PSO) blev anvendt til at konfigurere parametre RNN. Parametre blev udvalgt til at minimere kvadratisk middelfejl (RMSE) mellem udgangen fra RNN og målgenet klyngens ekspressionsmønster. Den RMSE blev returneret til GA til at producere den næste generation af kandidat gen klynger. Optimering fortsatte indtil enten en på forhånd fastsat maksimalt antal iterationer blev afsluttet eller en på forhånd fastsat minimum RMSE blev nået. Proceduren blev gentaget for alle transkriptionsfaktorer. Biologisk viden fra databaser blev anvendt til at evaluere de forudsagte resultater.

Etablering af optimale antal biologisk signifikante klynger af klynge gyldighed måling

Gener, der hører til lignende eller beslægtede funktionelle kategorier og som udviser lignende mønstre af transkription vil sandsynligvis blive reguleret af den samme mekanisme [30]. Koordineret udtrykte gener sandsynligvis vil blive forenet af fælles cis-regulatoriske elementer og deres beslægtede transkriptionsfaktor (er) [31], [32], men dette forhold er ofte let ses kun i tilfælde, hvor klyngen omfatter stærkt til moderat udtrykte gener . Endvidere i høje dimensionelle data rum disse enlige korrelationer er støjende og den underliggende korrelation datastrukturen kan være komplekse [10]. Gener tildelt de samme eller beslægtede funktionelle kategorier baseret på gen-ontologi sandsynligvis også være reguleret af en fælles transskription faktor [33]. Integreret analyse af udskrift profildata og gen-ontologi annotation er en mere robust metode til forudsigelse af netværk end en uni-dimensional tilgang baseret på et enkelt lag af information såsom univariate korrelation foranstaltninger.

I alt 846 gener, der er forbundet med kontrol af cellecyklus er blevet identificeret tidligere i Hela-celler [2]. Vi partitioneret yderligere disse gener i mere specifikke funktionelle grupper (figur 2) ved fuzzy c-betyder clustering (FCM) [34]. I forhold til traditionelle K-middel klyngedannelse, denne ordning giver en mere robust strategi, der tillader gener med lignende ekspressionsmønstre skal placeres i samme klynge med meget reduceret baggrundsstøj [26]. FCM klyngedannelse involverer to empiriske parametre: uskarphed parameter

m

antal klynger

c

. Den optimale værdi på

m

for datasættet anvendt i denne undersøgelse var 1,1548, som blev fastsat på grundlag af den af ​​Dembele og Kastner [35] metode.

Ordningen illustrerer processen med gruppering gener i biologisk meningsfulde klynger. Genekspressionen data blev først anvendt til at finde den optimale m værdi for FCM klyngedannelse. Med den optimale m værdi, blev FCM klyngedannelse udført på genekspression data for cluster tal fra 2 til 50. Ligheden snesevis af alle par af gener i hver klynge af en partition er gennemsnit og betegnes som overordnet lighed score for en klynge partition. Skillevæggen med den højeste lighedsscore blev valgt som den optimale én. GSEA blev udført under anvendelse FuncAssociate at evaluere genklynger dannet ved anvendelse af den optimale klynge nummer.

Det optimale klynge nummer blev bestemt ved den semantiske lighed mellem enhver genparret i samme klynge. Dette er en videnbaseret metode, der har til formål at estimere den optimale klynge partition fra en samling af kandidat skillevægge og forbedrer den prædiktive pålidelighed og biologiske relevans af outputtet. Semantisk lighed mellem genpar blev beregnet ved at kombinere lighedsscorerne mellem GO vilkår tildelt hvert gen. Relevans similaritetsmål blev anvendt til at beregne ligheden med hensyn til de tildelte GO terminologier [36]. Ligheden score på alle par af gener i hver klynge af en partition blev gennemsnit og betegnet som den overordnede lighed score for den pågældende klynge partition.

klynge validitet vurderingsmetoden overvejet alle tre ontologi grene (cellulære komponent, molekylær funktion, og biologisk proces) til beregning af lighedsscorer. Skillevæggen med den højeste lighedsscore blev valgt som den optimale partition (figur 3). Vi sammenlignede udførelsen af ​​FCM klyngedannelse med K-middel klyngedannelse med hensyn til to forskellige

m

værdier. Den ene er en standardværdi på 2 og den anden er baseret på den optimale værdi af 1,1548 (figur 2). Fra denne analyse, bemærkede vi, at FCM klyngedannelse med den optimale

m

værdi giver den bedste lighed score. Den højeste lighed score blev opnået med 39 klynger, hvilket indikerer en optimal betingelse for at reducere søge plads til TRN følgeslutning

Tre klyngedannelse resultater blev afbildet:. K-betyder klyngedannelse og FCM klyngedannelse med to

m

værdier (

m

er uskarphed parameter): standard værdi (

m

= 2) og optimal værdi (

m

= 1,1548)

.

for at vurdere de optimale klynger udvalgte baseret på GO blev GSEA påført ved hjælp af den optimale værdi (tabel S1). Hver klynge blev beriget i specifikke biologiske kategorier. For yderligere at evaluere den biologiske betydning af de etablerede klynger, GO oplysninger blev anvendt til at bestemme, om klyngerne har betydelig berigelse af et eller flere vilkår ved at bruge FuncAssociate program [28]. Denne strategi gjort brug af en delmængde af gener som input til at producere en prioriteret liste (ved P-værdier) af GO attributter, der er beriget blandt input gen delmængde [24]. Udgangen gav grønt vilkår, der var betydeligt beriget i hver klynge blandt alle gener (svarende til de samlede 26,512 menneskelige gener i FuncAssociate programmet).

Efter denne ordning, den samlede sæt af gener involveret i cellecyklus regulering blev yderligere opdelt i 39 klynger (tabel S1). Af disse klynger, blev 31 klart forbundet med GO kategorier, der indebærer en mere specifik funktion, som samler medlemmerne af én, men ikke andre klynger, hvorved der skabes mere direkte relationer mellem visse mindre undergrupper af gener. For eksempel kan klynger 29 og 8 begge være forbundet med præ-mitotisk, mitotisk og post-mitotiske begivenheder (M-fase). medlemmer af klynge 8, kan dog skelnes fra medlemmerne af klyngen 29 i kraft af deres specifikke roller i kromosom fordobling (DNA-replikation) og cytokinese. Omvendt kan medlemmer af klynge 29 adskilles fra medlemmerne af klyngen 8 i kraft af deres specifikke roller i spindel fiber montering og afmontering.

Biologisk betydning af disse meget specifikke funktionelle relationer, der er etableret af vores klyngedannelse ordning, kan yderligere udvides i form af relationer i lovgivningen. For eksempel har medlemmer af begge klynger 29 og 8 er tidligere blevet identificeret som direkte nedstrøms mål for E2F faktorer (Ren et al., 2002). Lignende forbindelser kan etableres med andre klynger såsom klynge 32, som består af gener med biokemiske roller en DNA-ligase. Således er generne i Cluster 32 involveret i processer associeret med hul reparation eller Okazaki-fragment forarbejdning under DNA-replikation og kromosomfordobling. Tidligere undersøgelser har fastslået, at gener, der er forbundet med denne funktion er under tilsyn i E2F1 og PCNA (Shibutani et al, 2008, se nærmere i tabel S2).

Baseret på alle disse relationer, en specifik styrke vores nuværende metode er dens evne til at skelne gener, der er relateret efter funktion i bred forstand og sub-kategorisere dem i meget specifikke (smalle) funktionelle kategorier, hvilket resulterer i forudsigelsen af ​​regulatoriske forhold, som er i overensstemmelse med biologisk gyldige relationer.

Tildeling transkriptionsfaktorer til netværk motiver

TRNs er sammensat af gentagne forekomster af netværk motiver, som er enkle, gentagne mønstre af konserverede biologiske enheder spænder fra molekylære domæner til små reaktion netværk [37]. Hvert netværk motiv udfører en defineret informationsbehandling funktion inden for netværket. Vi fokuserede på tre-node netværk motiver fordi størstedelen af ​​de større størrelse netværk motiver består maksimalt af tre knuder [38]. Målet var at tildele hver mulig cellecykluskontrol associeret transkriptionsfaktor til mindst et netværk motiv efter den kombinerede molekylære interaktion netværk. Målet blev opnået ved at bygge en RNN model for alle de mulige regulatoriske gener involveret i transkription baseret på deres specifikke netværk motiv. Den RNN output er en model, der forbinder hver

bona fide

eller formodede transkriptionel regulator med deres nedstrøms målgener.

Alle gener med enten direkte eller indirekte roller i reguleringen af ​​transskription blev først identificeret fra den samlede sæt af 846 cellecyklus forbundne gener ifølge GO kategorier, der angiver mulige roller i transskription (Ashburner et al., 2000). Kandidatgener, der forblev efter filtrering andre gen funktion kategorier er dem, der blev tildelt til følgende formodede funktioner: transskription faktor aktivitet (GO: 0.003.700), regulering af transskription (GO: 0.061.019), og transskription faktor kompleks (GO: 0.005.667). Da GO information alene ikke kan være tilstrækkelig til at identificere de gener med bona fide roller som transkriptionsfaktorer, vi yderligere filtreret vores liste over kandidat transkriptionsfaktorer ved at tilføje et ekstra lag af bekræftende oplysninger baseret på resultaterne af PubMed søgninger. Denne ekstra anmærkning tillod os at validere GO opdeling af vores kandidatgener. De detaljerede beskrivelser af GO vilkår og specifikke roller i transskription af kandidat TF’er anvendt i denne undersøgelse i tabel S3. Blandt de 846 celle cyklus gener, 46 blev kommenteret med funktioner i forbindelse med transkriptionel regulering baseret på både GO og PubMed databaser. Disse gener blev betragtet som formodede transkriptionsfaktorer.

I microarray data, gener er ofte repræsenteret ved flere oligonukleotidprober. Gener repræsenteret ved probe sæt med større varians blev yderligere behandlet i denne undersøgelse (Zhang et al., 2007). Vi nedbrydes den TRN i flere netværks-motiver, med hvert netværk motiv potentielt associeret med en given transkriptionsfaktor (s). I alt fire netværk motiver blev fundet at være signifikant i den kombinerede molekylære interaktion netværk (figur 4), således hver transskription faktor blev tildelt mindst et af disse netværk motiver.

venstre panel præsenterer fire netværk motiv regulatoriske moduler betragtes i denne undersøgelse. Den højre panel viser udledte transskription faktor for målgruppen gen relationer til otte cellecyklusafhængig transkriptionsfaktorer.

formode netværk motiv regulatoriske moduler mellem transkriptionsfaktorer og gen klynger

Forholdet mellem transkriptionsfaktorer og gen-klynger blev bestemt baseret på RNN modeller. For hver af de fire net-motiver (figur 4), blev en egnet RNN bygget som vi tidligere beskrevet [25]. De RNN modeller blev trænet ved hjælp af hybrid genetiske algoritme – partikel sværm optimering (GA-PSO) for at finde de nedstrøms gen klynger for alle 46 formodede transkriptionsfaktorer. Foreninger mellem hver transskription faktor og 39 gen klynger blev bestemt ved træning af RNN model, der efterligner den specifikke netværk motiv for en given transskription faktor. På grund af en reduktion i den beregningsmæssige kompleksitet (mapping mellem 46 transkriptionsfaktorer og 39 genklynger stedet for 846 gener), blev antallet af GA og PSO generationer for at nå den forud specificerede minimum RMSE væsentligt reduceret. PSO generation til RNN var sat til 1000 [39]. Den mindste værdi af RMSE faldt som antallet af generationer forøget (Tabel 1). Den mindste RMSE for GA generationer 600 og 800 var 0,077 og 0,075 henholdsvis. Baseret på 600 GA generationer, vores inferens metode med succes tildelt alle 46 formodede transkriptionsfaktorer til deres target gen klynger og udledte de mest sandsynlige transkriptionelle regulatoriske netværk motiver (TRNMs, se figur 4 for repræsentative TRNMs)

. gyldigheden og nøjagtigheden af ​​netværket afbildet ved de TRNMs kan vurderes ved sammenligning med en netværksmodel konstrueret baseret på faktiske biologiske data. I mangel af sådanne oplysninger, vi udførte en indledende validering af nettet ved at søge efter kendte gen forbindelser i databaser. Baseret på nettet motiv modul forudsigelse resultater, vi indsamlede litteratur beviser fra NCBI og TRANSFAC [40] databaser. Vi revideret hvert forudsagt netværk motiv og undersøgt forholdet mellem transskription faktor, og dets mål genklynge (r). Efterfølgende analyse blev udført under den grundlæggende antagelse, at udledte netværk motivet er mere tilbøjelige til at være biologisk mening, hvis de transkriptionsfaktorer deri korreleret med de berigede biologiske funktioner i de efterfølgende klynger.

Væsentlige netværk motiver som følge af undersøgelsen af tilgængelige litteratur cellecyklus afhængige gener såsom

E2F1, E2F2, SP1, BRCA1, STAT1, PCNA, RBPSUH

, og

HMGB2

er anført i figur 4. på grundlag af de kombinerede oplysninger, den biologiske konsekvenser af netværket kan forklares. Eksempelvis

E2F

er en transkriptionsfaktor som spiller en afgørende rolle i cellecyklusfremadskriden i pattedyrceller [41].

E2F1

, som indeholder to overlappende

E2F

-bindende steder i dets promotor region, aktiveres ved G1 /S overgang i en E2F-afhængig måde.

E2F2

interagerer med visse elementer i

E2F1

promotor og begge gener er involveret i DNA-replikation og reparation [42], cytokinese, og tumor udvikling [43]. Ifølge GSEA resultater, er Cluster 8 beriget med gener involveret i mitose og cytokinese, og Cluster 34 er beriget med gener involveret i adskillige funktionelle kategorier er forbundet med tumorudvikling. Som vist i figur 4, er både Cluster 8 og 34 forventes at blive reguleret af

E2F1

E2F2

, og disse resultater er i overensstemmelse med tidligere rapporter er baseret på biologiske data [41], [43].

Vores analyse forudsiger, at

E2F1

PCNA

er komponenter i det samme netværk. Begge disse gener er involveret i reguleringen af ​​klynger 32 og 34. Den bedste forstået molekylære funktion af

PCNA

protein er dens rolle i reguleringen af ​​eukaryote DNA-polymerase delta processivitet, som sikrer troskab af DNA-syntese og reparere [44]. Men de seneste undersøgelser fremlagt bevis for, at de

PCNA

protein fungerer også som en direkte repressor af de transkriptionelle coaktivator p300 [45]. En anden undersøgelse viser, at

PCNA

undertrykker den transkriptionelle aktivitet af retinsyrereceptorer (

RAR

s) [46]. Således, inddragelse af disse gener i samme netværk, som forudsagt af vores netværk inferens algoritme, kraftigt støttet af viden om regulatoriske forhold allerede er etableret i eksperimentelle data. Resultaterne af vores forudsigelse er i overensstemmelse med disse betænkninger siden både Klynger 8 og 32 er beriget med gener involveret i DNA-syntese og regulatoriske processer.

Vi tog tre metoder til at undersøge nærmere, om generne forventes at blive reguleret af

E2F

gener i klynger 8, 32 og 34 er valideret i klassiske ikke-genom brede metoder. Først undersøgte vi, hvor mange “kendte”

E2F1

E2F2

mål forudsagt af vores foreslåede metode. Ifølge Bracken

et al

. [47], 130 gener blev revideret som

E2F

mål, hvoraf 44 blev oprindeligt identificeret ved klassiske, ikke-genom-dækkende tilgange. Da vi begrænset vores analyse til de 846 cellecyklus relaterede gener, 45 gener matchede

E2F

målgener anført i ref. [47], 21, som blev kendt fra undersøgelser under anvendelse af klassisk molekylær biologi analyser. De gen-mål forudsagt af vores metode match 15 af 45 gener, som alle 15 af dem er blandt dem, der findes oprindeligt ved hjælp af standard molekylærbiologiske eksperimenter. En mulig årsag er, at genom-dækkende tilgange er normalt meget støjende og inkonsekvent på tværs af forskellige undersøgelser. De detaljerede oplysninger om disse gener er anført i tabel S4.

For det andet, vi ønskede at se, om vores forudsagte gen mål klynger er beriget i de tilsvarende bindingssteder for transkriptionsfaktorer i deres opstrøms region. For både

E2F1

E2F2

, 7 ud af 17 gener i Cluster 8 indeholder bindingssteder på deres opstrøms områder som bekræftet af data i SABiosciences databasen (http: //www.sabiosciences. dk /chipqpcrsearch.php? app = TFBS).

Endelig har vi bestemt, hvor mange gener i genet klynger har

E2F

bindingssteder. Vi anvendte motivet opdagelse værktøj, WebMOTIFS [48] for at finde fælles motiver i de gen-klynger forudsagt til

E2F

mål ved hjælp bindingssted berigelse analyse (BSEA). Resultaterne afslørede, at et motiv kaldet E2F_TDP, GCGSSAAA, er identificeret som den mest betydningsfulde motiv blandt genklynger 2, 8, 29, 31, 32 og 34. Desværre for klynger 30 og 36 antallet af gener i disse klynger er for lille for WebMOTIFS analyse. Alle disse gen-klynger forudses at de nedstrøms mål for

E2F

. For eksempel 43 ud af 52 gener i Cluster 2 har formodede

E2F

bindingssteder i deres opstrøms regioner. De detaljerede oplysninger om BSEA resultater er vist i figur 5. For de TRNMs for hvilke to transkriptionsfaktorer er involveret, vi også finde disse nedstrøms gen klynger er beriget i begge bindingsstedet sekvensmotiver. For eksempel er Cluster 32 beriget med både E2F_TDP og MH1 motiver, svarende til de to transkriptionsfaktorer i TRNM: E2F1 og SP1. Disse BSEA resultater understøtter kraftigt vores inferens resultater.

Sequence logoer repræsenterer motivet signifikant overrepræsenteret i individuelle genklyngen forbundet med deres forudsagte opstrøms transkriptionsfaktorer, ifølge den WebMOTIFS opdagelse algoritme [48].

Be the first to comment

Leave a Reply