PLoS ONE: A Novel HMM-Based Metode til Afsløring beriget transkriptionsfaktorbindingssites afslører RUNX3 som et potentielt mål i kræft i bugspytkirtlen Biology

Abstrakt

Baggrund

Pancreas adenocarcinom (PAC) er en af ​​de mest genstridige maligniteter. For at søge efter potentielle nye terapeutiske mål, vi påberåbt beregningsmetoder til formål at identificere transkriptionsfaktorbindingssites (TFBSs) over-repræsenteret i promotorområder af gener udtrykkes forskelligt i PAC. Selvom mange beregningsmetoder er blevet gennemført for at opnå dette, har ingen vundet overordnet accept eller produceret bevist nye targets i PAC. Til dette formål har vi udviklet DEMON, en ny metode til motiv detektion.

Metode

DEMON er afhængig af en skjult Markov-model for at score udseende sekvens motiver, under hensyn til alle potentielle steder i en promotor for potentielt varierende bindingsaffiniteter. Vi demonstrerer DEMON nøjagtighed på simulerede og reelle datasæt. Anvendelse DEMON til PAC-relaterede datasæt identificerer RUNX familien som højt beriget i PAC-relaterede gener. Ved hjælp af en ny eksperimentel paradigme til at skelne mellem normale og PAC celler, finder vi, at RUNX3 mRNA (men ikke RUNX1 eller RUNX2 mRNA) udviser tidsafhængige stigninger i normal, men ikke i PAC celler. Disse stigninger er ledsaget af ændringer i mRNA-niveauer af formodede RUNX gen mål.

Konklusioner

Den integrerede anvendelse af DEMON og en roman differentieringssystem førte til identifikation af et enkelt familiemedlem, RUNX3, som sammen med fire af sine formodede mål viste en robust reaktion på en differentiering stimulus i raske celler, den reguleringsmekanisme, der var fraværende i PAC celler, understreger RUNX3 som en lovende mål for yderligere undersøgelser

Henvisning:. Levkovitz L , Yosef N, Gershengorn MC, Ruppin E, Sharan R, Oron Y (2010) a Novel HMM-Based Metode til Afsløring beriget transkriptionsfaktorbindingssites afslører RUNX3 som et potentielt mål i kræft i bugspytkirtlen Biology. PLoS ONE 5 (12): e14423. doi: 10,1371 /journal.pone.0014423

Redaktør: Dov Joseph Stekel, University of Nottingham, England

Modtaget: Februar 2, 2010; Accepteret: 10. september 2010; Udgivet: 22 december, 2010

Dette er en åben adgang artiklen distribueres under betingelserne i Creative Commons Public Domain erklæring hvori det hedder, at når det først er i det offentlige rum, dette arbejde kan frit gengives, distribueres, overføres, ændres, bygget på, eller på anden måde bruges af alle til ethvert lovligt formål

Funding:. Dette arbejde blev støttet af en Era-Net pathogenomics tilskud til eR og RS, og Israel Cancer Association tilskud til eR, RS og slå om. De finansieringskilder havde ingen rolle i studie design, indsamling og analyse af data, beslutning om at offentliggøre, eller forberedelse af manuskriptet

Konkurrerende interesser:.. Forfatterne har erklæret, at der ikke findes konkurrerende interesser

Introduktion

pancreasadenocarcinom (PAC) er en af ​​de mest aggressive kræftformer. Selvom 10th i forekomst, er det den fjerde hyppigste årsag til kræftdødsfald i den vestlige verden. PAC er karakteriseret ved forsinket diagnose, hurtig progression og omfattende metastase og er næsten fuldstændigt modstandsdygtige over for alle terapeutiske regimer. Selv 10-15% af PAC tumorer kan behandles ved delvis pankreatektomi, den gennemsnitlige tid mellem diagnose og død er 3-6 måneder og fem års overlevelse er under 5%. I USA er ca. 30.000 nye tilfælde diagnosticeres hvert år og næsten det samme antal PAC patienter dør hvert år af sygdommen [1], [2]. Denne dystre billede gør denne kræft en værdig emne for at søge efter nye terapeutiske mål. Men publicerede genekspressionsstudier hidtil har undladt at identificere nyttige terapeutiske mål.

Identifikation af transkriptionsfaktorer (TFS), der er involveret i vigtige biologiske processer og forskellige patologiske tilstande, især kræft og arvelige sygdomme, har vundet popularitet i de seneste år. TF’er er masterstyringer af ændringer i ekspression af multiple gener og kan således tjene som foretrukne mål for terapier for humane sygdomme. Et relativt stort antal af metoder til identifikation af berigede TF bindingssteder (TFBSs) findes [3] – [5], men ingen enkelt metode har vundet universel præference over de andre

Anvendelse af state-of-the-. kunst PRIMA algoritme [4] for at datasæt afspejler forskellen ekspression af gener i PAC pegede på ZNF350 som en vigtig TF i PAC biologi (upubliceret). Imidlertid viste kun beskedne ændringer i ZNF350 ekspression upon serum fjernelse af PAC-celler, QRT-PCR-forsøg (se fig. S1). I betragtning af betydningen af ​​denne metode, vi søgt at udvikle en hidtil ukendt fremgangsmåde til formål at opnå bedre prædiktiv værdi i biologiske eksperimenter.

Et relativt stort antal PAC genekspressionsstudier er blevet udført under anvendelse af både sunde og syge pancreas væv og PAC linier in vitro. . Brandt

et al

[6] revideret data fra 10 udtryk undersøgelser og identificeret tæt på 1000 gener udtrykket som ændring i PAC; 148 af disse gener blev identificeret i to eller flere undersøgelser. Listen er udarbejdet af Brandt

et al

. indbefatter gener, der udtrykkes i en høj andel af PAC undersøgelser og havde været forbundet med mange typer af kræft, såsom Ras, INK4, P53, etc. Ingen synes imidlertid at forklare “katastrofal” [7] progression af denne sygdom . Selvom de enkelte proteiner kan tjene som lovende mål for udvikling af lægemidler, har søgningen efter terapeutiske mål i PAC mislykkedes hidtil at producere nye lovende lægemiddelkandidater kundeemner. Begrebsmæssigt terapier rettet mod TF’er, der er master-regulatorer af ekspressionen af ​​et stort antal gener, er potentielt mere tilbøjelige til at påvirke kræft cellebiologi og er særligt attraktive.

Her har vi anvendt en ny metode, DEMON, for detektering beriget TFBSs og et nyt paradigme for sammenligningen af ​​den normale bugspytkirtlen og PAC celler. Anvendelse DEMON til en PAC eksperimentelle datasæt forudsagt, at bindingssteder for RUNX underfamilien af ​​TF’er er stærkt beriget med de relevante differentielt udtrykte gen sæt. QRT-PCR bekræftede RUNX3 som et differentielt udtrykt TF. Afslutningsvis DEMON viste sig at være et nyttigt prædiktiv redskab i TFBSs analyse og sammen med eksperimentelle resultater, tyder på, at RUNX3 kan vise sig at være et vigtigt mål TF i bugspytkirtelkræft forskning.

Resultater

Afsløring Berigede motiver i co-regulerede gener (dæmon)

Givet en målet af initiativtagere til co-regulerede gener og en række kendte TFBS motiver (repræsenteret position vægt matricer fra TRANSFAC database [8], se Metoder), DEMON søger motiver, der vises i disse initiativtagere oftere end forventet tilfældigt (dvs. motiver, der er beriget med målet sæt). Algoritmen benytter en skjult Markov-model (HMM) at beskrive den probabilistiske proces, der genererer promotorsekvenserne, og at vurdere, hvor sandsynligt det er, at en given motiv er beriget i målet.

Hver HMM indeholder stater for et unikt motiv, og baggrund, at model inter-motiv segmenter (fig. 1). DEMON scores hver promoter for udseendet af et givet motiv. Denne score reflekterer sandsynligheden for, at sekvensen blev genereret baseret på HMM beskriver motiv, vs. sandsynligheden for, at det blev genereret baseret på en enkel baggrund model. Givet et mål sat af co-regulerede gener, er snesevis af initiativtagerne opsummeres for hver HMM, og sammenlignet med summer af scores opnået med tilfældige mål sæt. Denne sammenligning anvendes til at tildele en

s

-værdi for hvert motiv, der afspejler dens overflod i promotorregionerne af target sæt (se fig. 2 og fremgangsmåder).

HMM består af motiv tilstande (i pink), baggrund stater (i blåt) og en start tilstand. En baggrund tilstand er defineret for hvert nukleotid (fire tilstande), og et motiv tilstand er defineret for hver position langs PWM svarer til TFBS af interesse. Emissionsfaktorerne sandsynligheder af motivet stater er defineret i henhold til PWM, og de af baggrunden stater er sat til 1 for den tilsvarende nukleotid. Overgangssandsynligheder mellem baggrunden stater afspejler fordelingen af ​​dinukleotider i alle formodede promotorområder i human. Overgangen Sandsynligheden fra hvert motiv tilstand til den næste er sat til 1. Resterende overgange omfatter flytter til baggrunden stater (stiplede pile) eller flytter til den første motiv tilstand (faste pile). Disse overgange er lært ved hjælp af Baum-Welch algoritmen.

a. Henter en liste over co-udtrykte gener fra high-throughput eksperimenter. b. For hver HMM-promotor par en score beregnes som forholdet mellem sandsynligheden for at udsende promotorsekvensen ved hjælp af TFBS HMM og sandsynligheden for at udsende promotorsekvensen ved anvendelse af en baggrund HMM. Summen af ​​scorer for hver TF anvendes til beregning af en enkelt score afspejler TF samlede overflod i input-promotoren sæt. c. Tilfældigt vælge 100 promotor datasæt med samme størrelse som den oprindelige datasæt. Scores er beregnet som før for disse datasæt. d. Hvert TF er tildelt med en empirisk p-værdi, der defineres som den procentdel af tilfældige tilfælde, hvor den scorede højere.

Ydelse evaluering på simulerede og rigtige data

For at teste vores tilgang, vi først benchmarket DEMON på simulerede data. Til dette formål har vi simulerede sæt af 100 tilfældige promotorer, hvis sekvenser blev udvalgt efter baggrunden sandsynligheden for dinukleotider i faste promotorregioner (Methods). Vi plantede derefter en reel motiv i x% (10≤x≤90) af initiativtagerne i hvert sæt (tre forekomster af motiverne blev plantet i hver promotor). Vi gentog denne procedure for alle hvirveldyr position vægt matricer (PWM’er) i TRANSFAC database [8] (se Methods).

Figur 3 sammenligner effektiviteten af ​​DEMON som i PRIMA algoritmen. Vi valgte PRIMA som repræsentant for en gruppe af metoder, der bruger en hård grænse for at identificere formodede optrædener af motiver i en given promotor. Sådanne fremgangsmåder kan med ikke at registrere “svage” forekomster af motivet og ofte ikke tager hensyn til den faktiske antal forekomster af motivet (for eksempel i PRIMA, er promotorer kategoriseret til sådanne med 0, 1, 2, eller mere end 2 forekomster af motivet).

En sammenligning mellem DEMON s og PRIMA præstation på datasæt med forskellige procentdel af initiativtagere med plantet motiver.

Åbenbart, i alle tilfælde DEMON opnår bedre resultater både med hensyn til specificitet og følsomhed. Vi har udført yderligere simulationer, at variere antallet af initiativtagerne i hvert sæt, eller antallet af plantede motiver i hver promotor. Resultaterne forblev kvalitativt (Fig S2 og S3).

Prima har en marginal fordel i forhold DEMON på små datasæt (for 30 initiativtagere, Demon falsk positiv rate (FPR) er 0,0006 versus 0,0004 for PRIMA, se fig . S3). Men disse meget lave tal gør, at FPR af begge metoder væsentlige ens.

Dernæst vi sammenlignet de to metoder på den nyligt offentliggjorte

Amadeus

metazoan benchmark, som er en samling af TF og microRNA mål gensæt afledt af high-throughput eksperimenter (genekspression microarray og chip-on-chip eksperimenter) [9]. Vi hentede alle menneskelige og mus registreringer denne samling, hvor hver post indeholder en enkelt TF og en liste over målgener (lige fra 25 til 2238 gener).

Tabel 1 viser resultaterne af DEMON og PRIMA over alle de undersøgte dataposter. DEMON identificeret den sande TF i 70,3% af tilfældene (hvor i 51,8% af tilfældene den sande TF er klassificeret i første eller andenpladsen), mens PRIMA identificeret det i 55,5% af tilfældene (i 48,1% af tilfældene, den sande TF er rangeret i første eller anden sted). Desuden er der i 37% af tilfælde DEMON rangeret den korrekte TF højere end PRIMA mens PRIMA rangeret højre TF højere end DEMON i kun 18,5% af tilfældene.

Afsløring TF’er involveret i transkriptionel regulering i PAC

Vi brugte oprindeligt en liste over differentielt udtrykte gener i AKP udarbejdet af Brandt

et al.

[6] fra 10 studier. Vi opnåede fra denne liste en mindre liste over 45 gener, der blev identificeret som udtrykkes forskelligt i 3 eller flere studier, hvoraf 38 (30 som udviste øget og 8, som udviste nedsat udtryk) matchede vores samling af menneskelige initiativtagere (se tabel S1). Vi analyserede denne liste ved hjælp DEMON og fundet betydelig berigelse af 6 motiver, hvoraf de mest beriget motiver var for RUNX sub-familie af TF’er (også kaldet AML sub-familie). Når vi begrænset konsensus datasæt til de 30 gener, der udviste forøget transskription, DEMON fundet betydelig berigelse af 8 motiver, hvoraf de mest beriget motiver var også for RUNX.

TFS af RUNX sub-familie er bindende partnere heterodimere transkriptionelle regulatorer betegnet som CBFs (core-binding faktorer), hvoraf de (RUNX) medlemmer CBFA binde direkte til DNA og de to alternativt splejsede CBFb (også kendt som PEBP) medlemmer binder til CBFA underenhed og forbedre dens DNA-binding [10]. Det er bemærkelsesværdigt, at PEBP vises som en tredje og en anden mest beriget TF henholdsvis (se tabel 2).

Vi bruges PRIMA at analysere disse lister, og fandt en signifikant tilsætning til ét motiv, ZBRK1, også kaldet ZNF350 (se tabel S2). Dog viste QRT-PCR-forsøg kun beskedne ændringer i ZNF350 udtryk i Panc-1s upon serum tilbagetrækning (upublicerede resultater, se fig. S1).

De tre meget homologe menneskelige RUNX TF’er (RUNX1, 2, og 3 ) har været impliceret i udviklingsprocesser og, især, i kræft. RUNX1 (også kendt som AML1) er blevet grundigt dokumenteret som en vigtig faktor i hæmatopoiese og i ætiologien af ​​akut myeloid leukæmi (for en oversigt se [11]). RUNX2 har vist sig at være involveret i knogleudvikling (for en oversigt se [12]) og RUNX3 blev dokumenteret som en vigtig TF i udviklingen af ​​T-lymfocytter [13] – [15] og er blevet forbundet med patogenesen af ​​flere maligniteter [ ,,,0],16], herunder PAC [17], [18]. Derfor er DEMON analyse forudsiger, at RUNX TF familiemedlemmer er topkandidater ansvarlige for ændret transskription af gener i PAC konsensus datasæt.

RUNX eksperimentel validering

De fleste af de eksperimentelle data i kræft sammenligne genekspression af cancervæv med den for raske væv af humane donorer. Denne sammenligning filtrerer variabiliteten af ​​genekspression skyldes køn og alder af patienten, stadie af sygdommen, inddragelse af uafhængige patologiske tilstande, forskellige (kræft målrettet og andre) medicinsk behandling, samt etniske genetik og livsstil. Således er kun de gener fælles for PAC på baggrund af alle de ovennævnte kilder til variabilitet repræsenteret. Det er bemærkelsesværdigt, at Brandts et al. [6] liste over tæt på tusind differentielt udtrykte gener krymper til 148 og 45, når man tilføjer et krav, at det skal fremgå af mindst to eller tre undersøgelser, henholdsvis.

For at undgå den inter-patient variabilitet, vi valgte at studere forskellen genekspression mønstre observeret i to celletyper i kultur: HIPC, pancreas precursor celler, der vokser fra dyrkede humane Langerhanske øer af sunde kadaver donorer og PANC-1 celler, en etableret linje af menneskelig PAC. Vigtigt er det, begge typer af celler undergår mesenchymal-til-epitel overgang (MET) og delvist differentiere til en neuroendokrin fænotype når de får lov til at aggregere i serumfrit medium [19], [20]. Mens HIPC’erne ophører med at proliferere, og nogle af dem dør, PANC-1-celler fortsætter med at proliferere under disse betingelser.

Den primære antagelse af vores paradigme er, at reaktionen på en differentiering stimulus vil afsløre ændringer i genekspression, der adskiller normal fra PAC celler. Så vidt vi ved, er der ingen bevis i litteraturen, at sammenligne processer i normale og cancerceller af lignende oprindelse under forhold, der inducerer en delvis differentiering vil give indsigt i kræft-relaterede genekspression. Kontinuerlig proliferation af celler i serumfrit medium kunne tilskrives mutationer i vigtige gener (fx K-RAS). Men ikke alle kræftceller træk (for eksempel migration, invasiv, stimulering af angiogenese, resistens for cytostatika) kan være direkte relateret til deres evne til at formere sig i fravær af vækstfaktorer. Det er muligt, at dette paradigme vil give gener, som forsvandt som i den traditionelle sunde vs. sygt væv metoder. Vi har derfor dyrkede både HIPC’erne og Panc-1-celler i serum-frit medium i 24 timer og sammenlignes ændringer i genekspression i begge celletyper. Denne sammenligning gav en manuelt kurateret sæt af 30 gener, hvis ekspression ændret betydeligt i én celletype og enten ikke ændre eller udviste ændring i den modsatte retning i den anden (se tabel S3). Vi analyserede dette sæt med DEMON (se tabel S4). Selvom PEBP (CBFb) blev kun marginalt beriget (p~0.1) i denne liste, viste det sig blandt top ti TFBSs udstiller de laveste p-værdier både i de lister, der er afledt af DEMON fra konsensus datasæt (rangeret 2. og 3.) og fra den HIPC’erne vs. PANC-1-celler eksperiment datasæt (rangeret 6.). Dette fund støttede forudsigelse, at RUNX sub-familiemedlemmer kan være involveret i PAC. Analyse af de samme datasæt med PRIMA fandt ikke nogen beriget motiver (se tabel S5).

For at opnå eksperimentelt bevis for RUNX skelne mellem normale og PAC celler, overvåget vi udtryk for RUNX1, 2 og 3 mRNA ved QRT-PCR som en funktion af tiden af ​​serum deprivation af HIPC’erne og PANC-1-celler (fig. 4). Der var ringe ændring i ekspressionen af ​​RUNX1 og 2 transkripter i begge celletype. Ekspressionen af ​​RUNX3 blev imidlertid markant forøget i en tidsafhængig måde i HIPC’erne mens der var næsten ingen ændring i PANC-1-celler. Det fremgår derfor, at ekspression af RUNX3 reguleres i HIPC-lande under differentiering men formår ikke at reagere på differentiering stimulus i PANC-1 celler.

HIPC’erne og PANC-1 celler var enten dyrket i serum-holdigt medium (t = 0) eller for de angivne tidspunkter i serum-frit medium. RNA blev ekstraheret og QRT-PCR udført som beskrevet i Materialer og Metoder. Resultaterne præsenteres som% ændring i mRNA-niveauer i de tre RUNX gener som en funktion af tid i serum-frit medium.

For yderligere at validere dette fund, vi analyseret i HIPC’erne ekspressionen af ​​fem formodede RUNX mål, ECM2, DUSP2, ESAM, PECAM, og ITGB4, der blev valgt fra en liste af formodede RUNX mål genereres på basis af en fremgangsmåde svarende til fremgangsmåden beskrevet i [4]. Fire af disse mRNA’er udstillet markante ændringer i ekspression (se fig. 5A), mens den femte, ITGB4, udviste kun en forbigående fordobling. Til sammenligning havde ekspressionen af ​​disse gener ikke ændre i PANC-1-celler (se fig. 5B). Når udtrykket af de samme gener blev undersøgt på microarray data, ingen (inklusive RUNX3) var høj nok til meningsfuld analyse, der bekræfter den overlegne følsomhed QRT-PCR.

A. HIPC’erne og B. PANC-1-celler var enten dyrket i serumholdigt medium (t = 0) eller for de angivne tidspunkter i serum-frit medium. RNA blev ekstraheret og QRT-PCR udført som beskrevet i Materialer og Metoder. Resultaterne præsenteres som% ændring i mRNA-niveauer af de angivne gener som en funktion af tid i serum-frit medium.

Discussion

Vi har præsenteret en ny algoritme til detektering beriget TFBSs i et givet sæt af promotorer. Algoritmen bruger en HMM-baseret score for at tage hensyn til alle mulige parser af en promoter sekvens i bindingssteder og baggrund nukleotider. Det vejer en principfast måde alle de potentielle bindingssteder langs promotor, hvilket gør det muligt at betragte flere svage bindingssteder, der ikke ville have bestået en betydning tærskel. Dette er den første anvendelse af en sådan fremgangsmåde til berigelse tests. Vi viser, at det overgår en tidligere tilgang (PRIMA) på problemet, som bruger en tærskel til at gøre binære beslutninger på faktiske bindingssteder.

Tre aspekter af de eksperimentelle resultater, der præsenteres i denne rapport synes at være af stor betydning . Først, de eksperimentelt validere magt DEMON analyse at forudsige TF’er (og deres målgener) fra et lille antal differentielt udtrykte gener i PAC. Selvom DEMON viste sig at være bedre end PRIMA i simulering eksperimenter, kan dens værdi bevises kun ved sin eksperimentelle prædiktiv evne. I vores tilfælde, var magt DEMON ikke kun valideret for RUNX3, men også af den iboende konsekvent identifikation af CBFb, det heterodimere partner (e) af RUNX sub-familie.

For det andet, vores resultater tyder stærkt at RUNX3 og dets heterodimere partner CBFb bør undersøges nærmere med hensyn til deres potentielle rolle (r) i PAC ætiologi. Afvigelser i ekspressionen af ​​RUNX1 blev identificeret i en betydelig del af leukæmier [11]. RUNX2 og 3 gener er blevet grundigt undersøgt som udviklingsmæssige TF’er. RUNX2 viste sig at være afgørende for knogle og skelet udvikling [12]. RUNX3 viste sig at være direkte involveret i engagement CD4 + /CD8 + celler i CD8 + T-celler og i modningen af ​​dendritiske T-celler [15], [21]. Nogle rapporter demonstrere rolle RUNX3 i udviklingen af ​​den sensoriske neuron systemet [22], [23]. Hypermethylering af RUNX3 promotorområdet er blevet korreleret med forskellige metastatiske maligne lidelser, såsom bryst-, ikke-småcellet lunge-, mave-, pankreas-, colorektal, eller hepatocellulære carcinomer [24]. Vigtigere, genoprettelse af RUNX3 ekspression i cancercellelinier fører til apoptose eller nedsat proliferation af cancerceller og deres differentiering [25] – [28]. Disse og lignende rapporter, fastslået, at RUNX3 synes at fungere som en tumorsuppressor. De er yderligere bekræftet af vores fund, at ikke-transformerede mesenkymale HIPC reagere på en differentiering stimulus ved øget RUNX3 transskription og spredning anholdelse, mens maligne PANC-1 celler synes at have mistet denne regulatoriske respons og fortsætte med at formere sig. I human PAC blev hypermethylering og tab af heterozygositet af RUNX3 findes i en stor del af PAC væv og korreleret med dårligere prognose [17], [18]. Disse fund placere RUNX3 som en anden PAC-associeret genprodukt. DEMON analyse imidlertid placerer RUNX og partneren, PEBP, som putativt meget vigtige TF’er kontrollerer ekspressionen af ​​mange PAC-beslægtede gener.

det tredje vores resultater bekræfter den hypotese, at forskellene mellem normal pancreas og PAC-celler bliver afsløret efter en differentiering stimulus. Denne antagelse forstærkes yderligere af en nylig analyse af transcriptomes involveret i kræft og udvikling [29]. I prolifererende HIPC-lande og Panc-1 celler, både udviser mesenkymale fænotyper [19], få RUNX3 udskrifter er til stede (tærskler for 31,5 og 30 cykler, henholdsvis). Ved 24 timer i differentiering medium imidlertid niveauerne af RUNX3 mRNA’er i HIPC’erne steg mere end 1000 gange hvorimod der var næsten ingen reaktion i PANC-1-celler. Ligeledes formodede RUNX3 målgener udviste ændret transkription i HIPC’erne men ingen ændringer i PANC-1-celler. Vigtigere er det, Li

et al

. [30] har fundet, at RUNX3 kun udtrykkes i øer og en del af PAC væv. Vores eksperimentelle data viser, at mens RUNX3 mRNA-ekspression ikke kan være anderledes i prolifererende normale og PAC celler, er dens rolle kun afsløret efter differentiering stimulus, hvilket forklarer den tilsyneladende uenighed mellem resultaterne af Wada

et al.

Nomoto

et al.

[17], [18] og de af Li

et al

. [30].

Vigtigt er det, kan differentieringen-inducerede respons af RUNX3 og de fem formodede mål i HIPC’erne ikke udledes microarray analyse på grund af fraværet af signalet eller deres meget lave niveauer. Selvom PECAM1 og CBFA2T1 signaler steget mere end to gange, deres signaler var for lav til at være betydelig. Dette retfærdiggør brugen af ​​beregningsmetoder, såsom DEMON eller PRIMA, at identificere gen mål og validering af den mere følsomme QRT-PCR-teknik. Ganske vist kan QRT-PCR ikke afsløre epigenetisk styrede forskrifter celle fænotype.

Vores resultater tyder tab af respons af RUNX3 genet i PAC og foreslå yderligere undersøgelser, såsom undersøgelser af methylering af sin promotor, og en mere omfattende udtryk undersøgelse af formodede RUNX målgener.

Materialer og metoder

The DEMON algoritme

DEMON algoritme bruger HMM’er til at repræsentere TFBSs. Hver HMM består af to typer af stater: motiv stater og baggrund tilstande (Fig. 1). En baggrund tilstand er defineret for hvert nukleotid (fire tilstande), og et motiv tilstand er defineret for hver position langs PWM svarer til TFBS af interesse. Emissionsfaktorerne sandsynligheder af motivet stater er defineret i henhold til PWM, og de af baggrunden stater er sat til 1 for den tilsvarende nukleotid. Overgangssandsynligheder mellem baggrunden stater afspejler fordelingen af ​​dinukleotider i alle formodede promotorområder i human. Overgangen Sandsynligheden fra hvert motiv tilstand til den næste er sat til 1. Resterende overgange omfatter flytter til baggrunden stater (fig. 1, stiplede pile) eller flytter til den første motiv tilstand (fig. 1, solide pile). Disse overgange er lært ved hjælp af Baum-Welch algoritmen [31] (Støtte Information S1).

De input til DEMON er listen over gener af interesse (fig. 2a), og et sæt TFBS motiver repræsenteret ved PWM’er . Udgangen er en liste over TF’er hvis bindingssteder er statistisk overrepræsenteret i de promotor-regioner i givet liste af gener.

Som et første skridt, bygger vi en HMM fra enhver given PWM, og hver HMM- promotor par er tildelt en score, der afspejler sandsynligheden for, at den respektive TFBS vises i respektive promotorregion. Denne score beregnes som forholdet mellem to værdier (fig 2b.): (I) sandsynligheden for at udsende promotorsekvensen ved hjælp af TFBS HMM i figur 1, og (ii) sandsynligheden for at udsende promotorsekvensen anvendelse af en HMM udelukkende består af baggrunden stater. Sandsynlighedsværdierne er beregnet ved hjælp af den Forward algoritmen [32]. De parvise scorer derefter bruges til at beregne en enkelt score for hvert TF, hvilket afspejler dens samlede overflod i input promotor sæt. Denne score er defineret som summen over alle scores tildelt individuelt med hver promotor.

I det andet trin, bruger vi en empirisk tilgang til evaluering af den statistiske signifikans af de samlede sandsynligheden scores beregnet til TFS. Vi vælger tilfældigt et tilsvarende antal initiativtagere som i de oprindelige datasæt fra puljen af ​​alle menneskelige promotorområder og beregne en ny score for hvert TF som før (fig. 2c). Vi gentager denne procedure 100 gange, ender med en empirisk fordeling af tilfældige sandsynligheden scoringer. Hvert TF derefter tildelt en empirisk

s

-værdien definerer som sandsynligheden for at se målet sum af scoringer, givet de tilfældige beløb, som antages at være normalfordelt (fig. 2d). dvs. vi beregne den gennemsnitlige og standardafvigelse af de tilfældige scoringer, og bruge den normale kumulative fordelingsfunktion at beregne sandsynligheden for, at en observation fra en standard normalfordeling vil være højere end det fastsatte mål sum af scoringer. De p-værdier korrigeres for flere hypoteser test ved hjælp af den falske opdagelse sats procedure [33]. Vi rapporterer alle resultater med falsk opdagelse sats under 5%.

Data Acquisition og PRIMA implementering

Vi fik et sæt af nukleotid distributionsomkostninger matricer, model hvirveldyr TFBSs fra TRANSFAC databasen (slip 11.1) [ ,,,0],8]. I alt 588 hvirveldyr matricer blev hentet fra databasen. Matricerne blev transformeret til sandsynlighed matricer, der afgrænser sandsynligheden for hvert nukleotid skal vises i hver position i TFBS. Da databasen er overflødigt, og nogle af de matrixer skildrer lignende TFBS, vi grupperet matricerne i et forbehandlingsfasen led i en procedure svarende til den anvendt i [4]. Til dette formål har vi bygget en PWM

w

fra hver sandsynlighed matrix

m

, og brugte en lav forudberegnede tærskel

t

at scanne menneskelige genom initiativtagere. Tærsklen er beregnet ved hjælp af to sæt baggrund initiativtagere: (i) tilfældige initiativtagere, der er bygget baseret på nukleotid distribution i alle initiativtagere, (ii) tilfældigt udvalgte segmenter af rigtige initiativtagere. De to sæt er scannet af hver PWM

w

tærsklen

t

defineres som det maksimale mellem 100

th højeste score fra hver af de to baggrund datasæt (hvilket indebærer en FPR på 0,01). Hver delsekvens, der havde en lighed score til PWM

w

over tærsklen

t

blev markeret som en formodet forekomst af

w

. Så hvert par af matricer,,

x

% af deres optræden på promotoren indstillet overlappede hinanden blev grupperet og matrixen med indhold nedre information (dvs. den matrix, som er mindre forskellig fra en ensartet fordeling) blev fjernet . Da værdien af ​​

x

vokser, den klyngedannelse kriterium bliver strengere og de resulterede matricer, der er vokser, og vice versa. Vi brugte

x

= 0,2 for at opnå et sæt af 219 matricer til brug i vores analyse.

Vi hentede det komplette sæt af menneskelige initiativtagere fra UCSC Genome Browser database [34], [35 ]. Baseret på indledende test, og de seneste undersøgelser hævder, at det meste af TFBSs i humane promotorer er placeret i nærheden transkriptionsstartstedet [36], definerer vi promotorregionerne af generne som 500 bp sekvens opstrøms for transkriptionsstartsitet.

Vi har implementeret PRIMA som beskrevet i [4].

Cell kulturer

Humane ø-afledte pancreas præcursorceller (HIPC) blev isoleret og opformeret i modificeret CMRL medium som tidligere beskrevet [ ,,,0],20]. Human pancreas adenocarcinom cellelinie PANC-1 blev erhvervet fra American Tissue Type Collection og opretholdt i Dulbecco-modificeret minimal Eagles Medium (DMEM) som tidligere beskrevet [20]. Delvis differentiering af enten celletype blev opnået ved dyrkning af celler i serumfrit medium, i det væsentlige som tidligere [20] beskrevne. Celler blev dyrket og vedligeholdt i 95:5% luft:. CO

2 atmosfære ved 37 °

mikromatrice

Affymetrix GeneChip Human Genome U133 Plus 2.0 fra microarray (katalog # 900.466) blev anvendt, hvilket gav 12.760 sekvenser. HIPC’erne blev analyseret tredobbelt, hver af en særskilt biologisk prøve. PANC-1-celler blev analyseret i pentaplicate arrays, to fra separate biologiske replikater og anden biologisk replikere køre i tredobbelte arrays. Hvert sæt bestod af prøver isoleret fra prolifererende celler (t = 0, i 10% føtalt bovint serum-holdigt medium), og celler efter 24 timer i serumfrit (differentiering) medium.

Be the first to comment

Leave a Reply