PLoS ONE: Forudsigelse og Experimental Validering af Novel STAT3 målgener i Human Cancer Cells

Abstrakt

Den omfattende identifikation af funktionel transkriptionsfaktorbindingssites (TFBSs) er et vigtigt skridt i at forstå komplekse transkriptionelle regulerende netværk. Denne undersøgelse præsenterer en motiv-baserede komparativ tilgang, STAT-Finder, til identifikation af funktionelle DNA bindende steder af STAT3 transskription faktor. STAT-Finder kombinerer STAT-scanner, der er designet til at forudsige funktionelle STAT TFBSs med forbedret følsomhed og et motiv-baserede justering for at minimere falsk positiv forudsigelse satser. Brug to referencepunkter sæt indeholder promoter sekvenser af kendte STAT3 målgener, STAT-Finder identificeret funktionelle STAT3 TFBSs med forbedret forudsigelse effektivitet og følsomhed i forhold til andre konventionelle TFBS forudsigelsesværktøjer. Desuden STAT-Finder identificeret hidtil ukendte STAT3 målgener blandt en gruppe af gener, som er overudtrykt i humane cancerceller. Bindingen af ​​STAT3 til den forudsagte TFBSs blev også eksperimentelt bekræftet gennem kromatin immunofældning. Vores foreslåede metode giver en systematisk tilgang til forudsigelse af funktionelle TFBSs der kan anvendes på andre TF’er

Henvisning:. Åh YM, Kim JK, Choi Y, Choi S, Yoo JY (2009) Forudsigelse og Eksperimentel Validation af Novel STAT3 målgener i humane cancerceller. PLoS ONE 4 (9): e6911. doi: 10,1371 /journal.pone.0006911

Redaktør: Sridhar Hannenhalli, University of Pennsylvania School of Medicine, USA

Modtaget: April 2, 2009; Accepteret: August 3, 2009; Udgivet: 4 September, 2009

Copyright: © 2009 Oh et al. Dette er en åben adgang artiklen distribueres under betingelserne i Creative Commons Attribution License, som tillader ubegrænset brug, distribution og reproduktion i ethvert medie, forudsat den oprindelige forfatter og kilde krediteres

Finansiering:. Dette arbejde blev støttet af tilskud fra Korea Science and Engineering Foundation (KOSEF) tilskud finansieret af MEST (R01-2008-000-20721-0) og til National Core Forskningscenter for Systems Bio-Dynamics (R15-2004-033). J. K. Kim understøttes af en Microsoft Research Asia fællesskab. De finansieringskilder havde ingen rolle i studie design, indsamling og analyse af data, beslutning om at offentliggøre, eller forberedelse af manuskriptet

Konkurrerende interesser:.. Forfatterne har erklæret, at der ikke findes konkurrerende interesser

Introduktion

evne ethvert biologisk system til korrekt at reagere på stimuli stærkt afhænger af biokemiske kaskader af signalveje, der kulminerer i aktiveringen af ​​transkriptionsfaktorer (TFS) og den efterfølgende ændring af genekspression mønstre [1]. Information om, hvilke gener der skal udtrykkes i en specifik celletype på et givet tidspunkt menes at være indkodet i genomet. Den molekylære maskiner, der anvendes til at fortolke sådanne genetiske information har udviklet sig til at sikre nøjagtigheden og specificiteten af ​​genregulering. Transskription er en multi-trins proces kræver samordnet indsats af mange proteiner. Transskriptionelle aktivatorer og repressorer binder i en sekvens-specifik måde til promotorer eller forstærkere af målgener. De regulerer rekruttering af trans-aktivatorer, kromatin modifikatorer og generelle transkriptionsfaktorer, herunder RNA-polymerase II, til at regulere genekspression [2], [3].

Hele genom tilgange til måling af genom-dækkende udtryk mønstre har røbes grupper af gener, der co-regulerede at udøve rumligt og tidsligt styrede cellulære reaktioner [4]. er afgørende for at forstå de regulatoriske kredsløb af biologiske processer [5] Identifikation af ansvarlige lovgivningsmæssige moduler, der styrer de koordinerede handlinger kombinatoriske transkriptionsfaktorer. Til dette formål har beregningsværktøjer blevet udviklet til at hjælpe med at identificere transskriptionsfaktorbindingssteder (TFBSs) i fortalerne for de co-regulerede gener [6], [7], [8]. Disse beregningsmæssige metoder kan inddeles i to klasser: (1) mønster detektion og (2) mønster matching. Mønster afsløring, også kendt som de novo motiv opdagelse, finder formodede bindingssteder for ukendte TF’er, der er overrepræsenteret i fortalerne for co-regulerede gener. Hvis bindingsspecificiteten af ​​et TF allerede er kendt, er mønstertilpasning metoder foretrækkes [9]. I mønstret matching tilgang er DNA sekvensinformation af TFBSs udtrykt position vægt matrix (PWM), som kan anvendes til at score potentielle regulatoriske steder i en statistisk ramme [10]. Men fordi DNA bindingssteder for TF’er er generelt korte og degenererede, denne metode er tilbøjelig til høje falsk positiv forudsigelse satser [11].

Baseret på den iagttagelse, at konserverede ikke-kodende DNA-sekvenser er ofte vigtige for regulering af biologiske funktioner, har cross-arter sekvenssammenligninger været aktivt integreret til at skelne funktionelle og ikke-funktionelle TFBSs [12], [13], [14]. Det handler om at inkorporere evolutionært konserverede sekvens oplysninger i de regulatoriske regioner filtrerer den ikke-bevaret TFBSs, hvilket i høj grad reducerer falsk positive forudsigelse sats [15], [16], [17], [18], [19]. Selv om denne fremgangsmåde er blevet anvendt med succes til at forøge forudsigelseskraft af motiv konstatering, er meget følsom over for den algoritme, der anvendes til sekvensalignment og nøjagtigheden af ​​kommenteret transskriptionsstartstedet (TSS) information. Derfor er det blevet rapporteret, at sekvens-baseret promotor- alignments ofte ikke opdager korte eller degenererede regulatoriske elementer, når evolutionære divergerende promotorsekvenser er afstemt [12], [17]. For at overvinde disse begrænsninger har en alignment-free algoritme baseret på bevarelse netværksniveau også blevet foreslået [20].

Signal transducer og aktivator af transkription 3 (STAT3) tilhører STAT-familien af ​​transkriptionsfaktorer, der aktiveres af interleukin-6 (IL-6) og beslægtede cytokiner, såsom IL-10, Oncostatin M (OSM) og leukæmi inhibitorisk faktor (LIF) [21]. Hidtil syv mammale STAT’er (1, 2, 3, 4, 5a, 5b og 6) er blevet identificeret. De alle besidder et DNA-bindende domæne, et SH2-domænet for dimerisering, og en C-terminal trans-aktiveringsdomæne [22]. Ved stimulation med ekstracellulær ligand, aktiveret STAT3 danner homodimerer eller heterodimerer med en anden STAT familiemedlem, STAT1, så translokerer ind i kernen og binder sig til beslægtede regulatoriske elementer i initiativtagere til STAT-responsive gener. Akkumulerende beviser tyder på, at STAT3 også forbinder med andre transkriptionsfaktorer til at danne enhanceosome komplekser i promotorområder af målgener og styrer kooperativ gen induktion [23], [24], [25]. STAT3 er involveret i diverse cellulære reaktioner, herunder cellulær differentiering, overlevelse, stamceller fornyelse, sårheling og systemisk inflammation; dette er blevet bevist af fænotyper af genetisk modificerede STAT3 mutant mus [22], [26], [27], [28], [29]. Det har vist sig, at STAT3 deltager i carcinogenese, og at ektopisk ekspression af et konstitutivt aktiv form af STAT3 (STAT3-C) inducerer tumordannelse i nøgne mus [30]. Endvidere har ekspressionen af ​​konstitutivt aktive STAT3 blevet observeret i forskellige typer af human cancer, herunder multipel myeloma, colon, ovarie, lever, lunge, hoved og halscancer [31]. Mens de lovgivningsmæssige og generelle trans-aktivering mekanismer STAT3 er blevet grundigt studeret, er der gjort ikke for meget indsats for at identificere de direkte målgener af STAT3. Identifikationen af ​​de målgener er afgørende for at mediere de forskellige biologiske effekter af STAT3 signalering.

At karakterisere STAT3-medieret transkriptionelle programmer, har vi udviklet en beregningsmæssige ramme beregnet til at forudsige STAT3 TFBSs med forbedret følsomhed og lav falsk positive sats. Gennem integration af microarray data fra STAT3-aktivering tilstand og de TFBS forudsigelsesværktøjer, vi har forsøgt at identificere hidtil ukendte STAT3 målgener. Ved hjælp af vores STAT-Finder program, vi identificeret otte nye STAT3 målgener blandt en gruppe af gener, som er stærkt udtrykt i cancerceller. Disse blev derefter bekræftet gennem kromatin immunofældning.

Resultater

Oversigt over STAT-Finder

For at identificere direkte STAT3 målgener, udviklede vi en beregningsmæssige ramme, forudsiger funktionel TFBSs af STAT3 med forøget følsomhed og lav falsk positiv rate. Vores rammer, STAT-Finder, blev konstrueret baseret på to beregningsmæssige komponenter, en TFBS scanning program (STAT-scanner) og et motiv-baserede alignment program (figur 1). STAT-scanner er designet til at øge følsomheden til detektering funktionelle STAT3 TFBSs. En i øjeblikket tilgængelig STAT3-specifikke PWM af TRANSFAC database [32], V $ STAT3_01, ofte ikke kan detektere eksperimentelt bevist STAT3 bindingssteder (data ikke vist). For forbedret forudsigelseskraft blev STAT-scanner derfor designet til at bruge kombinerede PWM’er af bindingsspecificitet ligner STAT3. Selvom STAT familiemedlemmer har forskellige fysiologiske funktioner og regulere forskellige sæt målgener, målene for de enkelte STAT proteiner til tider overlapper hinanden, og DNA-sekvenser genkendes af STAT familiemedlemmer er ens [21], [22], [23].

STAT-finder har to komponenter: Den første modul, STAT-scanner, tager et sæt af seks ortologe pattedyr promoter sekvenser som input. Hver promoter sekvens søgt at markere formodede TFBSs ved hjælp af modificerede 8 STAT-relaterede PWM’er. Bindende affinitet snesevis af forudsagte TFBSs er beregnet på baggrund af den

P

-værdier, og en sekvens af affinitet scoringer genereres for hver promotor. Det andet modul gradvist justerer score sekvenser og beregner posterior sandsynlighed for at vurdere graden af ​​motivet bevaring.

For uvildig identifikation af PWM’er der deler sekvens lighed med STAT3-specifikke PWM, V $ STAT3_01, i alt 565 PWM’er afledt af hvirveldyr TRANSFAC database [32], blev grupperet på grundlag af deres motiv lighed (figur S1). Motivet lighed blev defineret som

P

-værdi af gapped alignment mellem de to PWM’er baseret på Kullback-Leibler divergens [33] (Se Metoder). Total antal PWM klynger steget med strenge

P

-værdi cut-off, nåede maksimale klynge numre på omkring 10

-16

P

-værdi (Figur S1A). Med

P

-værdien cut-off på 10

-7, PWM’er tildelt for STAT familiemedlemmer blev fundet i samme klynge. Det er bemærkelsesværdigt, at PWM klyngedannelse ikke afslørede ikke-STAT PWM’er, der var ens nok til at omfatte heller var der nogen STAT PWM’er, der var markant anderledes (figur S1B). Vi valgte blandt dem otte PWM’er fra STAT familiemedlemmer med høj PWM kvalitet scores ( 0,6), hvor hver kvalitet score blev beregnet ved hjælp af den foreslået af Rahmann et al. [34]. Relevansen af ​​de udvalgte PWM’er til detektering kendt STAT3 TFBS er blevet evalueret i de tidligere identificerede STAT3 målgener [35] (Figur S2).

For at minimere falske positive forudsigelser, resultater fra STAT-scanner blev derefter analyseret ved hjælp af den sammenlignende motiv-baserede justeringsværktøj (figur 1). Denne metode fund bevaret bindingssteder inden for de ortologe initiativtagerne til seks pattedyrarter ved at sammenligne flere sekvenser. Inden for en probabilistisk rammer, STAT-Finder vurderer derefter de posteriore sandsynligheder for TFBSs som forudsagt af STAT-scanner ved at tildele højere forudgående sandsynligheder på konserverede steder over ikke-bevarede dem.

Validering af STAT-Scanner

Vi sammenlignede først udførelsen af ​​STAT-scanner med de mest praktiske TFBS forudsigelsesværktøjer, MATCH 2.7 [36] og MotifLocator [37]. Til dette formål, vi samlet positive gener med eksperimentelt bevist STAT3 bindingssteder i deres promotorregioner gennem litteratur minedrift og TRED søgning (https://rulai.cshl.edu/TRED) [38]. Resulterende oplysninger om de 22 reference- sekvenser er anført i tabel S1. Genomiske DNA sekvenser, der spænder fra 2.000 bp opstrøms til 500 bp nedstrøms for den kommenterede TSS af hvert gen blev anvendt som input promotorsekvenser. Forudsigelse af sande positive TFBSs blev derefter afbildet som en funktion af den samlede forudsagte TFBS tæller for forskellige afskæringsværdier. Som vist i figur 2A, STAT-scanner, der anvender kombineret STAT3-relaterede PWM’er, overgår MATCH og MotifLocator, som begge bruger repræsentant STAT3 PWM (V $ STAT3_01). Vi mener, at forbedret forudsigende magt STAT-Scanner skyldes dels brugen af ​​kombinerede STAT3-relaterede PWM’er, især da den prædiktive magt MotifLocator steg også når de kombineres PWM’er blev brugt (figur S3).

Kurver for ændringerne i antallet af sande positive TFBSs detekteres ved brug MotifLocator (V $ STAT3_01), MATCH (V $ STAT3_01), eller STAT-scanner, som en funktion af det samlede antal forudsagt TFBSs (a) i referenceperioden sæt af 22 STAT3 mål gener (tabel S1) og (B) i genomet hele STAT3 chip-Seq datasæt [39].

Vi vurderede også udførelsen af ​​STAT-scanner ved hjælp genom-dækkende STAT3 bindende data opnået ved brug embryonale stamceller [39]. Blandt de 461 gener med STAT3 bindende toppe i 2,5 kb promotorregioner, er 412 blevet forudsiges nøjagtigt ved STAT-Scanner at have mindst én STAT3 TFBS (figur 2B). Det samlede resultat af STAT-scanner var bedre end både MATCH og MotifLocator, som påvisning af det samme antal sande bindingssteder blev opnået ved begge med betydeligt lavere samlede antal forudsagte websteder. Selvom MATCH og MotifLocator udføres på samme måde som STAT-Scanner i at afsløre omkring 50% af ægte STAT3 TFBSs, sidstnævnte overgår både ved præcist at forudsige de resterende sande sites. Vi mener, at dette til dels skyldes brugen af ​​kombinerede STAT-relaterede PWM’er der har kapacitet til at øge effektiviteten af ​​MotifLocator, om end mindre end forøgelsen for STAT-Scanner, med kombinerede data fra flere PWM’er (Figur S4). Den relative ydeevne begge metoder er lav sammenlignet med STAT-Scanner; dette kan forklares ved, at deres scorer på de forudsagte websteder er ikke direkte sammenlignelige mellem forskellige PWM’er, hvilket viser betydningen af ​​vores scoring ordning i at integrere kampe til forskellige PWM’er. Disse resultater indikerer også, at overlappende PWM’er med lignende bindingsspecificitet er afgørende for udviklingen af ​​bedre strategier til at påvise funktionelle TFBSs af STAT3 med høj prædiktiv nøjagtighed.

Funktioner af funktionelle STAT3 TFBS

Den ultimative målet med beregningsmæssige forudsigelse er at påvise funktionelle TFBSs med en høj grad af tillid. For at bortfiltrere den falske positive TFBSs med høj affinitet scoringer undersøgte vi forskellige funktionelle begrænsninger såsom evolutionær bevarelse og genom struktur forudsagte STAT3 TFBS regioner. Sekvens bevaring mellem flere arter har vist sig at begrænse funktionelle TFBS [16], [17], [40]. Derfor vi først vurderet fordelingen af ​​flere arter bevarelse scores (PhastCons score) [41] og regulerende potentialer (RegPotential score) [42] for positioner i de funktionelle og ikke-funktionelle STAT3 TFBSs påvist af STAT-scanner ved hjælp af henvisningen sæt af 22 gener (tabel S1). For nemheds skyld har vi overvejet en TFBS funktionelt, hvis det blev støttet af eksperimentelle STAT3 bindende data ellers blev TFBS betragtes som ikke-funktionel. Fordelingen af ​​PhastCons scorer for det ikke-funktionelle STAT3 TFBSs blev skæv mod nul, mens PhastCons scorer for ca. 50% af den funktionelle STAT3 TFBS oversteg 0,1 (figur 3A). I modsætning hertil fordelingen af ​​RegPotential scores, som måler ligheden mellem mønstre til dem i de kendte regulatoriske elementer, var ens for positioner af funktionelle og ikke-funktionelle STAT3 TFBSs (figur 3B). Dernæst undersøgte vi methylering-resistente CpG island træk ved de STAT3 TFBS-holdige regioner. Overrepræsentation af de bindende sekvenser for specifikke transkriptionsfaktorer, såsom zink-finger-proteiner, i CpG-øer er blevet tidligere rapporteret [43]. Det meste af den forudsagte STAT3 TFBSs er placeret inde CpG-øer [44], men den genomiske fordeling ændres ikke signifikant blandt de funktionelle og ikke-funktionelle STAT3 TFBSs (figur 3C). Gentag elementer [45] i den genomiske sekvens kan bringe funktioner transkriptionsfaktorer, som ingen af ​​de funktionelle STAT3 TFBSs er blevet identificeret inde i de gentagne regioner (Figur 3D). Sammenfattende har motiv bevarelse, en væsentlig hindring, der skelner mellem funktionelle og ikke-funktionelle STAT3 TFBSs, derfor medtaget i STAT-Finder.

(A) PhastCons selv, (B) Regulatory Potential score, (C ) Procent i CpG øen, og (D) Procent i Gentag regionen.

Validering af STAT-Finder

Vi næste evaluerede effektiviteten af ​​STAT-Finder forhold til andre sammenlignende metoder, nemlig EEL [46] og CONREAL [12]. Eftersom EEL udfører parvise alignment baseret på resultater til en enkelt PWM sammenlignede vi effektiviteten af ​​EEL anvendelse af hver PWM (V $ STAT3_01 og V $ STAT1_01) separat. I mellemtiden var udførelsen af ​​CONREAL undersøgt ved at kombinere begge PWM’er. Vi testede den forudsigelse nøjagtigheden af ​​STAT-Finder i de to positive datasæt med STAT3 bindinger. STAT-Finder udstillet bedre ydeevne i forhold til EEL hjælp V $ STAT3_01, EEL hjælp V $ STAT1_01, eller i forhold til CONREAL forudsige sand STAT3 TFBSs i de 22 tidligere identificerede positive gener (figur 4A). Bemærk at både ål og CONREAL ikke har kunnet påvise ca. 40-60% af sande positive STAT3 sites selv ved den mindste afskæringsværdi, mens STAT-Finder fandt alle disse. Disse data indikerer, at STAT-Finder viste bedre resultater i form af at finde sand positiv STAT3 TFBSs at de andre sammenlignelige programmer savnet. Det blev gjort mere indlysende, når vi søgte STAT3 TFBSs hjælp EEL eller CONREAL i datasæt med genom-dækkende STAT3 binding. Selvom de samlede resultater af STAT-Finder lignede EEL at opdage 56% af ægte STAT3 TFBSs, kun STAT-Finder var i stand til at detektere de resterende 30% af de sande lokaliteter (figur 4B). Vores data tyder på, at den forbedrede følsomhed STAT-Finder kunne tilskrives brugen af ​​kombinerede STAT-relaterede PWM’er, som åbenbart overvandt de begrænsninger af V $ STAT3_01 ydeevne.

Kurver for ændringer i antallet af sand bindingssteder detekteret ved hjælp EEL (V $ STAT3_01 eller V $ STAT1_01), CONREAL (All, kombinerede PWM’er i V $ STAT3_01 og V $ STAT1_01), eller STAT-Finder, som funktion af samlet antal forudsagt TFBSs (a) i henvisning sæt af 22 gener (tabel S1) og (B) i genomet hele STAT3 chip-Seq datasæt [39].

Vi har forsøgt næste genom-dækkende forudsigelse af STAT3 binding i den menneskelige promotor regioner. Til dette formål, vi først anslået cut-off værdi bevarelse motivet score (MCS) for at identificere bevaret funktionelle STAT3 TFBSs. Graden af ​​bevarelsen af ​​de forudsagte TFBS, der blev bestemt ved at beregne MCS, blev integreret med affinitet scoringer af STAT-scanner (se metoder). Den tillid score på hvert MCS blev vurderet ved hjælp af de 2,5 kb promoter sekvenser af alle kommenterede menneskelige gener og orthologe mus gener. Den tillid score bestemmer sandsynligheden for, at en given TFBS ikke er konserveret ved en tilfældighed. Som afskæringsværdier for MCS steget, det samlede antal forudsagt STAT3 TFBSs faldt i et langsommere tempo end det gennemsnitlige antal linie tilfælde af kontrol motiver, hvilket resulterer i eskalerede tillid scores på MCS værdier højere end 0,9 (figur S5). Brug STAT-Finder, vi udførte en genom-dækkende søgen efter STAT3 TFBSs i de humane promotorregioner. Blandt de 15461 humane gener med identificerede ortologer i musen blev omkring 7600 gener forudsagt at have formodede STAT3 bindingssites inden for 2,5 kb promotorområde, på sandsynligheden tærskel på 0,9. Betydelig berigelse af STAT3 TFBSs kunne forudsiges ved de proksimale opstrøms regioner i TSS hjælp STAT-Scanner og STAT-Finder [35], [39] (Figur S6).

Identifikation af nye STAT3 target gener i cancer celler

konstitutiv aktivering af STAT3 og overekspression af sit mål gen er blevet foreslået at spille kritiske roller i menneskelig carcinogenese [12], [31], [47], [48], [49], [ ,,,0],50]. For at bestemme hvorvidt STAT-Finder er nyttig til at identificere hidtil ukendte STAT3 målgener, vi anvendte dette program til en gruppe af gener, som er overudtrykt i humane cancerceller. Vi har integreret microarray data opnået fra udtrykket modulet kort af gener opreguleret i cancer [51] og data fra A549-celler overudtrykker en konstitutivt aktiv form af STAT3 [52].

Blandt de 33 gener der er almindeligt opreguleret, er allerede blevet rapporteret elleve at være reguleret af STAT3 (tabel 1). Ved hjælp af denne gruppe af gener, vi undersøgte, hvorvidt STAT-Finder kunne detektere eksperimentelt bevist STAT3 TFBSs. Det er bemærkelsesværdigt, at vi var i stand til at analysere en brøkdel af promotorsekvenserne, primært som følge af alternativ promotoranvendelse og dårligt kommenteret TSS information tilgængelig. STAT-Finder opdaget tre formodede STAT3 bindingssteder i

JunB

promoter region, herunder et sted, der tidligere er rapporteret til at være en STAT3 bindingssted [53] (figur 5A). Anvendelse af tre forskellige cellelinjer afledt fra patienter human cancer, bekræftede vi STAT3 binding til

JunB

promotoren ved chromatin immunoprecipitation (figur 5B). STAT-Finder også med held påvist en STAT3 TFBS i Nicotinamid N-methyltransferase (

NNMT

) promotorregion, en nylig identificeret STAT3 målgen [54] (figur 5C, D). Interessant, STAT-Finder ikke var i stand til at opdage kendt STAT3 TFBS i

MYC

promoter region (figur 5E), selvom

MYC

er blevet rapporteret at være en STAT3 mål [55]. Det er også blevet rapporteret, at STAT3 binding til promotorregionen af ​​

MYC

gen kræver et websted, der er forskellig fra konsensus STAT3 bindende sekvenser, men ligner E2F TFBS, hvilket indikerer, at i dette tilfælde, STAT3 binding afhænger af tilstedeværelsen af ​​andre transkriptionsfaktorer [55]. Brug primersæt der registrerer kendte STAT3 bindingssteder i

MYC

promotor, var vi i stand til at bekræfte sin bindende for IL-6-stimulering i HepG2-celler (Figur 5F). Disse resultater tyder på, at STAT-Finder kunne effektivt opdage bindingssteder for STAT3 kun hvis deres binding ikke afhænger af tilstedeværelsen af ​​andre

cis

eller

trans

faktorer.

( a, C, E) affiniteten score fra STAT-scanner (øverst) og den bageste sandsynlighed fra STAT-Finder (midten) af forventet STAT3 er plottet i de skydevinduer til et 2,5 kb promotorområde tværs af

JunB

(A),

NNMT

(C), og

MYC

(E) genomisk loci. Det åbne torv nederst viser de forudsagte TFBS med den bageste sandsynlighed højere end 0,95; mens stjerne (*) i promotorregionen viser den kendte STAT3 TFBS. (B, D, F) kromatin immunpræcipitationsanalyse med et anti-STAT3 antistof: Rapporteret STAT3 TFBSs af

JunB

(B),

NNMT

(D), og

MYC

(F) var PCR-amplificeret ved anvendelse af primerne specifikke bindingssteder (*) fra input og immunopræcipiteret cellelysater, afledt fra ikke-stimulerede eller IL-6 (10 ng /ml) + IL-6SR (10 ng /ml) stimuleret HepG2, A549, og MDA-MB-231 celler.

vi næste undersøgt, om vi kan identificere nye målgener af STAT3 hjælp STAT-Finder. Til dette formål valgte vi gener med bevaret TSS (tabel 1) og bestemmes af tilstedeværelsen af ​​formodede STAT3 TFBSs hjælp STAT-Finder i deres promotorregioner. STAT-Finder held opdaget formodede STAT3 TFBSs med høje sandsynligheder i promotorområder af

AKAP12

(A-kinase forankring protein 12),

HIC2

(hyper-methylerede i kræft 2), og

THBS1

(Thrombospondin 1). STAT3 binding til disse forudsagte steder blev eksperimentelt bekræftet af Chip assay (figur 6A-F). For at verificere specificiteten af ​​STAT-Finder, vi analyseret også binding af STAT3 til de steder, der ikke blev bevaret, men var til stede i initiativtagerne af humane ortologe gener. I modsætning til det konserverede STAT3 TFBSs, kunne vi ikke registrere STAT3 binding til det ikke-konserveret STAT3 TFBSs i humane cancer cellelinjer (figur 6G). STAT3 binding til andre forudsagt STAT3 TFBSs stede i promotorområder af

ATF3

(aktiverende transkriptionsfaktor 3),

DUSP5

(dual specificitet fosfatase 5),

SERPINE1

(serpin peptidase hæmmer, klasse E),

NP

(nukleosidphosphorylase), og

SLC2A3

(opløst stof carrier familie 2, lettet glukose transportør, medlem 3) blev også eksperimentelt valideret (Figur S7). Endelig har vi undersøgt, om andre beregningsmetoder værktøjer såsom EEL eller CONREAL kunne også præcist afsløre STAT3 målområder, der er blevet identificeret og valideret i denne undersøgelse. Af 10 promotorsekvenser indeholder eksperimentelt bevist 10 STAT3 bindingssteder (figur 5, 6 og S7), forudsagde STAT-Finder i alt 29 STAT3 bindingssteder herunder alle de 10 eksperimentelt validerede STAT3 bindingssteder. I mellemtiden, ål og CONREAL opdages kun 5 (50%) og 2 (20%) valideret STAT3 bindende sites blandt 23 og 6 af total forudsigelser henholdsvis derved indikerer, at STAT-Finder har bedre resultater med hensyn til at identificere hidtil ukendte målgener af STAT3 ( Figur S8).

(a, C, E) affiniteten score (top, STAT-scanner) og posterior sandsynlighed (midten, STAT-Finder) over forudset STAT3 TFBSs er plottet i de skydevinduer til en 2,5 -kb promoter region på tværs af

AKAP12 Hotel (A),

HIC2

(C), og

THBS1

(E) genomisk locus. Den lukkede torv i bunden indikerer de forudsagte TFBS med posterior sandsynlighed 0,5; mens den gule firkant viser de forudsagte TFBS uden bevarelse. (B, D, F) chipanalyse med et anti-STAT3 antistof. Formodede STAT3 TFBSs af

AKAP12

(B),

HIC2

(D), og

THBS1

blev PCR-amplificeret ved hjælp af primersættene angivet med omvendte pile. (G) chipanalyse med et anti-STAT3 antistof. Predicted TFBSs uden bevarelse i den menneskelige

AKAP12

,

HIC2

, og

THBS1

gener var PCR-amplificeret ved hjælp af primersættene angivet med omvendte pile.

diskussion

Vi præsenteret en beregningsmæssige ramme for at identificere funktionelle STAT3 TFBSs i mammale promotorer. Den første rum, STAT-scanner, er designet til at forudsige funktionelle STAT3 TFBSs med forbedret følsomhed. Ved at bruge sammenlignende motiv-baserede justeringer blev STAT-Scanner knyttet til STAT-Finder at minimere falsk positive forudsigelser. Vores foreslåede metode blev testet ved hjælp af tidligere identificerede STAT3 målgener og blev med succes anvendt til identifikation af nye målgener.

Vores strategi med at udvikle STAT-Finder påberåbt sig flere antagelser. Først DNA’et bindingsspecificiteten af ​​STAT3 deles af andre STAT familiemedlemmer. STAT transkriptionsfaktorer binder til lignende DNA-sekvenser, og den tilsvarende DNA-bindende specificitet af forskellige STAT transkriptionsfaktorer, såsom STAT1, STAT5A /5B, eller STAT6, er blevet eksperimentelt bevist [56]. Det er også blevet bemærket, at integration af de overlappende kampe detekteres af matricer fra de samme familiemedlemmer stærkt reducerer antallet af samlede forudsagt TFBSs, og dermed nedsætter hastigheden af ​​falsk positiv detektion [57]. Endvidere er det for nylig blevet rapporteret, at ca. halvdelen af ​​TF’er genkende flere sekvensmotiver [58]. Derfor er en konventionel motiv scanning tilgang ved hjælp af en enkelt PWM for hver TF har en iboende begrænsning i at afsløre alle funktionelle TFBSs. Som følge heraf blev den forudsigende magt STAT-Scanner væsentligt forbedret ved at integrere STAT-relaterede PWM’er. Den anden antagelse, der anvendes i motivet-baserede alignments, er, at de relative placeringer af funktionel TFBSs er konserveret blandt nært beslægtede pattedyrarter. I gær stærkt konserveret TFBSs for et sæt af TF’er udviser relativt lave rumlige afvigelser (~150-200 bp) [20]. Ligeledes fandt vi, at, kendt STAT3 TFBSs for seks pattedyrarter, ligger inden for en tilsvarende rumlig fordeling på hver promotor.

Brug STAT-Finder, vi har identificeret en liste over STAT3 target gener, der over-udtrykkes i humane cancerceller. Ligeledes STAT3 binding til den forudsagte TFBSs er blevet eksperimentelt verificeret i IL-6 stimulerede humane cancercellelinier. Interessant STAT3 blev rekrutteret til de forudsagte TFBS i en celletype-specifik måde. For eksempel STAT3 binding til det forudsagte TFBSs i promotorområder i

AKAP12

HIC2

gener blev observeret i un-stimuleret, men ikke i IL-6 stimuleret A549 og MDA-MB- 231-celler. Men i HepG2-celler, blev STAT3 rekrutteret til den samme TFBS først efter IL-6-stimulering (figur 6). I modsætning hertil STAT3 binding til promotorområder af

MYC

,

SERPINE1

,

NP

, og

SLC2A3

var kun påvises i IL-6 stimuleret HepG2-celler, men ikke i A549 eller MDA-MB-231-celler (figur 6, figur S7). Endvidere er det klart, at STAT3 binding til det forudsagte TFBSs i initiativtagerne til de kandidat målgener garanterer ikke udtryk for denne gen. Selvom ekspressionen af ​​de fleste af de målgener var blevet ændret ved STAT3 binding til promotoren, fandt vi, at STAT3 binding til målsteder ikke altid hænger sammen med genekspression i de testede cellelinier (Oh, YM, upubliceret data). Dette antyder, at STAT3 binding til målsteder er ikke tilstrækkelig til at inducere genekspression, og vævsspecifikke transskriptionsfaktorer eller trans-aktivatorer, der kan også være påkrævet at specificere modifikation i kromatin region [59], [60], [61], [62].

en

cis

reguleringsmyndigheder modul består af en klynge af flere TFBSs der samarbejdsvilligt-interagerer med TF’er at kontrollere genekspression. Identifikationen af ​​

cis

reguleringsmyndigheder moduler til specifikke genregulering er en udfordrende skridt mod forståelsen genom-dækkende transskription regulerende net i mammale genomer. Derfor er det nødvendigt at effektivt at forudsige funktionelle TFBSs for individuelle TF’er. Vi forventer, at vores komparative fremgangsmåde kan anvendes på andre TF’er med visse restriktioner. Først, effektiviteten af ​​vores program afhænger af graden af ​​evolutionære konservering blandt de seks pattedyrarter. Derfor kan DNA bindingssteder for TF’er udøver artsspecifik genregulering ikke forudsiges. Det er bemærkelsesværdigt, at den hyppige gevinst eller tab af TFBSs i intergeniske regioner fører til udviklingen af ​​transkriptionelle kredsløb [63]. For det andet, kan vores program ikke anvendes på TF’er der er afhængige af andre DNA-bindende proteiner for ansættelse i DNA. For det tredje, fordi vi kun sammenlignet 2 kb af opstrøms promoter sekvens i forhold til den kommenterede TSS, DNA bindende steder af TF’er, der er beriget med regioner distale til TSS måske overset af vores program.

Be the first to comment

Leave a Reply