Abstrakte
MikroRNA’er (miRNA) har tiltrukket stor opmærksomhed i biologi og medicin. Det er blevet en hypotese, at miRNA interagerer med transkriptionsfaktorer (TFS) i en koordineret måde at spille vigtige roller i reguleringen af signalering og transkriptionelle veje og opnå robust genregulering. Her foreslår vi en ny integrativ beregningsmæssige metode til at udlede visse typer deregulerede miRNA-medierede regulatoriske kredsløb på det transskriptionelle, post-transkriptionel og signaler niveauer. At pålideligt forudsige miRNA målgruppen interaktioner fra mRNA /miRNA udtryk data, vores metode kollektivt udnytter sekvens-baserede miRNA målgruppen forudsigelser opnået fra flere algoritmer, kendte oplysninger om mRNA og miRNA mål for TF’er tilgængelige i eksisterende databaser, visse molekylære strukturer identificeret til at være statistisk overrepræsenteret i gen regulatoriske netværk, tilgængelig molekylær subtypning information, og state-of-the-art statistiske teknikker på passende begrænse den underliggende analyse. På denne måde er fremgangsmåden udnytter næsten ethvert aspekt af ekstraherbart oplysninger i udtrykket data. Vi anvender vores procedure på mRNA /miRNA udtryk data fra prostata tumor og normale prøver og opdage mange kendte og nye miRNA-medieret deregulerede loops og netværk i prostatakræft. Vi viser også eksempler på resultaterne i en række særskilte biologiske indstillinger, som vides at spille vigtige roller i prostata og andre kræftformer. Vores resultater viser, at den foreslåede beregningsmæssige metode kan bruges til effektivt at opnå bemærkelsesværdige indsigt i de dårligt forståede molekylære mekanismer i miRNA-medierede interaktioner og dissekere deres funktionelle roller i kræft i et forsøg på at bane vejen for miRNA-baserede lægemidler i kliniske omgivelser.
Henvisning: Afshar AS, Xu J, Goutsias J (2014) Integrativ Identifikation af dereguleret miRNA /TF-medieret Gene Regulatory loops og netværk i prostatakræft. PLoS ONE 9 (6): e100806. doi: 10,1371 /journal.pone.0100806
Redaktør: Sebastien Pfeffer, franske Nationale Center for Videnskabelig Forskning – Institut de biologie moléculaire et cellulaire, Frankrig
Modtaget: Januar 20, 2014 Accepteret: 28. maj 2014 Udgivet: 26 jun 2014
Copyright: © 2014 Afshar et al. Dette er en åben adgang artiklen distribueres under betingelserne i Creative Commons Attribution License, som tillader ubegrænset brug, distribution og reproduktion i ethvert medie, forudsat den oprindelige forfatter og kilde krediteres
Finansiering:. Dette arbejde blev finansieret af National Science Foundation (NSF) Grants CCF-0.849.907 og CCF-1.217.213. De finansieringskilder havde ingen rolle i studie design, indsamling og analyse af data, beslutning om at offentliggøre, eller forberedelse af manuskriptet
Konkurrerende interesser:.. Forfatterne har erklæret, at der ikke findes konkurrerende interesser
Introduktion
MikroRNA’er (miRNA) er små ikke-kodende ribonukleinsyrer (RNA’er), der i udstrakt grad regulerer genekspression i metazoan dyr, planter og protozoer. Ca. 22 nukleotider langt, miRNA normalt undertrykke genekspression ved binding til sekvenser med partiel komplementaritet mod mål messenger RNA (mRNA) transkripter. I pattedyr, er miRNA menes at kontrollere aktiviteten af mere end 60% af alle protein-kodende gener og ekstensivt deltage i reguleringen af mange cellulære funktioner [1], [2].
Med få undtagelser metazoan miRNA basepar med deres mål ufuldkomment, efter et sæt regler, der er blevet formuleret ved at ansætte forsøg og bioinformatik-baserede analyser [3]. Denne begrænsede komplementaritet gør opgaven med beregningsmæssigt identificere miRNA mål meget udfordrende og normalt fører til stort antal, for det meste falsk, potentielle mål.
Tidligere beregningsværktøjer hovedsageligt har fokuseret på dissekere enkelte miRNA målgruppen interaktioner ved at stole på sekvens -baseret identifikation af miRNA-target bindingssteder eller på mRNA /miRNA udtryk dataanalyse [4] – [6]. Alternative metoder bruger miRNA vært gener som fuldmagter til at måle ekspressionen af indlejrede miRNA [7], eller ansætte en information-teoretisk tilgang til at identificere kandidat mRNA, som modulerer miRNA aktivitet ved at påvirke forholdet mellem en miRNA og sit mål (s) [8]. På den anden side, seneste arbejde betragter co-ekspression analyse, ved at antage, at mål for en given miRNA er co-udtrykkes i det mindste i bestemte væv eller betingelser [9].
Konventionelt mange beregningsmæssige metoder udviklet til miRNA-target forudsigelse stole på den antagelse, at der er en omvendt korrelation mellem ekspressionsniveauet af et miRNA og af sit mål [10]. Det har imidlertid for nylig blevet vist, at både positive og negative transkriptionel samregulering af miRNA og dens mål er fremherskende i de menneskelige og mus genomer [11], [12]. Især er to typer af regulatoriske kredsløb (som vi vil drøfte om kort tid) blevet foreslået til miRNA-medierede interaktioner, som tilskriver modulerende og /eller forstærkende roller til miRNA i deres netværk baseret på motiver, såsom foder frem sløjfer (FFLs ) [13]. Som følge heraf forventes miRNA målgruppen forudsigelser alene på en omvendt korrelation antagelse at være begrænset, hvis forudsigelsen metoden ikke hensigtsmæssigt at indarbejde den underliggende FFL netstruktur.
Baseret på den tidligere paradigme, har flere forskere undersøgt den statistiske overrepræsentation af netværksstrukturer involverer miRNA og TF samregulering af mRNA’er at identificere berigede netværk motiver og /eller vurdere deres forekomst i forskellige biologiske sammenhænge [14] – [21]. Væsentlige, disse metoder beregne foranstaltninger af koordineret gen samregulering af miRNA og TF regulatorer. Andre forskere har overvejet regressionsmetoder eller Bayesian modeller til at kvantificere statistiske foreninger ved at bestemme ændringer i ekspressionsniveauet af et givent mRNA forklares ved ekspressionsniveauerne af TF’er og miRNA forudsagt at målrette mRNA baseret på sekvensinformation [22] – [25]. Efterfølgende de bruger udledte relationer til at afgrænse væsentlige netværksstrukturer og motiver på en måde svarende til den, der anvendes i de førnævnte metoder. Det er vigtigt at bemærke dog, at de kollektive resultater, som alle disse tilgange yde yderligere støtte til betydningen af miRNA /TF-medierede FFLs som fremherskende netværk motiver på tværs af forskellige biologiske sammenhænge, at bekræfte hypoteserne oprindeligt foreslået i [11], [12] .
Ud over de ovennævnte, forstyrrelser i genregulering (for eksempel ved genetiske og epigenetiske ændringer) menes at inducere ændringer i normal cellefunktion, der fører til udviklingen af patologiske tilstande, såsom cancer, udbredes gennem gen-regulatoriske netværk. Som følge heraf kan effektiv behandling af mange humane sygdomme kræver en grundlæggende og systemisk forståelse af genomiske regulatorer, såsom miRNA og TF’er, og deres netværk for interaktion. Men systematisk udlede molekylære interaktioner ved eksperimentelle metoder er både vanskeligt og dyrt. Derfor er det stærkt ønsket at udvikle “pålidelige” beregningsmæssige metoder, der kan identificere sådanne netværk. Netværk forudsigelser kan efterfølgende anvendes af en ekspert biolog at formulere nye hypoteser og effektivt videre med deres eksperimentelle undersøgelse og validering.
For nylig er der blevet foreslået en række nye metoder til at identificere koordineret miRNA /TF interaktioner [26], [ ,,,0],27]. Men, og for et givet motiv struktur (fx et FFL), disse metoder forsøger at forudsige de underliggende vekselvirkninger (de tre kanter af en FFL) ved anvendelse af begrænsede biologiske oplysninger og en smal sæt af beregningsværktøjer. Som et resultat, selv om de metoder er effektive i at yde indsigt i forekomsten af forskellige motiv forekomster i gen regulatoriske netværk, kan de ikke producere pålidelige forudsigelser fra eksperimentielt.
Udførelsen af nogle af de tidligere metoder har for nylig blevet testet i [27]. Det blev observeret, at selv om nogle metoder var i stand til at opnå en rimelig succesrate i at forudsige tilfælde af en type interaktion, de var mindre effektive til at forudsige forekomster af de to andre typer, med flere algoritmer, der har en succesrate på tæt på eller mindre end 1% forudsige TF-mRNA og TF-miRNA interaktioner. Dette understreger den kritiske, at forudsige parvise molekylære interaktioner og konstruere højere orden forekomster af motiver ved hjælp af de forudsagte kanter kunne oversætte til højere samlede falsk-positive rater. Da der er et væld af oplysninger om, hvordan en TF binder sine mål og på deres specifikke regulatoriske roller, besluttede vi at overveje kun
eksperimentelt
validerede TF-mRNA og TF-miRNA interaktioner under rammebestemmelserne FFL og skift fokus på pålideligt forudsige dårligt forstået miRNA-target interaktion kant. Vi mener, at ved passende begrænse den underliggende statistisk analyse problem, kunne vi potentielt øge pålideligheden af miRNA /TF-medieret gen regulatoriske loop forudsigelser.
For yderligere at begrænse miRNA-target interaktion forudsigelse problem, vi fokuserer på dette papir på visse tre-node regulatoriske motiver. Det første sæt af motiver, at vores metode anser er tre-node FFLs, der for nylig tiltrak stor opmærksomhed blandt systemer og eksperimentelle biologer. Disse motiver er gode modeller for koordineret miRNA-medieret og transkriptionel regulering, som er blevet antaget at være fremherskende i de menneskelige og mus genomer [12].
Vi betragter to type I ffl motiver, hvor miRNA og TF er de opstrøms og nedstrøms regulatorer henholdsvis samt fire type II FFL motiver, hvor TF er nu den opstrøms regulator, mens miRNA er den nedstrøms regulator – se figur 1. Fra en mekanistisk perspektiv, disse seks FFLs er klassificeret som
sammenhængende
eller
usammenhængende
. I det sammenhængende tilfælde, de miRNA og TF regulatorer handle på en koordineret måde at styrke reguleringen logik langs to foder frem stier. I type I- og type II-B sammenhængende FFLs, disse stier samtidigt undertrykke ekspressionen af det målrettede mRNA. Den resulterende mekanisme bruges for eksempel til at undertrykke utætte transskription af et gen ved at sikre, at dens ekspression forbliver på et ligegyldig niveau. På den anden side, i et type II-A sammenhængende FFL, TF forstærker transkriptionen af det målrettede mRNA ved direkte at aktivere det, samt ved at inhibere undertrykkelsen af det målsøgende miRNA regulator.
type I FFL består af tripletter (miRNA, TF, mRNA), således at en miRNA samtidigt rettet mod en mRNA og dens TF mRNA. Type II FFL består af trillinger (miRNA, TF, mRNA), således at en TF samtidig regulerer en miRNA og sit mål mRNA. Endelig Type III loop består af tripletter (miRNA, G-1, G-2), således at miRNA samtidigt er rettet mod to transkripter i en given Kegg pathway, en fra hvert gen G-1 og G-2, hvis tilsvarende proteiner kunne potentielt interagere med hinanden baseret på en sti kortet leveres i Kegg databasen.
i de usammenhængende FFLs de miRNA og TF regulatorer handle på en koordineret måde at finjustere udtryk for den målrettede mRNA . Mere specifikt enhver afvigelse fra steady-state koncentration af den opstrøms regulator (dvs. den miRNA i type I og TF i type II-A og type II-B FFLs) ville drive målrettet mRNA, samt den nedstrøms regulator , væk fra deres steady state-niveauerne i samme retning. På denne måde kan den nedstrøms regulator afbalancere ekspressionen af det målrettede mRNA, kompenserer udsving i ekspressionsniveauet af den opstrøms faktor.
Visse cellulære processer kan være ultra-følsom over for aktiviteten af en given transkript i en specifik biologisk sammenhæng. I disse situationer “støj buffering” mekanisme, som usammenhængende FFLs bidrager til at opretholde målprotein homeostase og sikrer, at en ukoordineret afdrift fra steady-state niveau af den opstrøms regulator ikke kan resultere i en uønsket variation i proteinniveauet mål, som kan føre til patologiske resultater. MiRNA er særligt effektive i denne indstilling på grund af deres hurtige virkningsmekanisme ved post-transkriptionel niveau, i modsætning til transkriptionelle repressorer, således fremskynde støj buffering [12].
Ud over den modulerende og /eller forstærkende gen regulatoriske roller, miRNA er kendt for at spille i koncert med TFS har de været en hypotese at spille vigtige roller i reguleringen signalveje så godt. I denne henseende, selv om miRNA vides at have subtile virkninger på proteinniveauer af individuelle mål, kan deres samlede indflydelse påvirker betydeligt de resultater, der kontrolleres af signalveje, i betragtning af den mangfoldighed af deres mål og samtidig nedregulering af flere af disse mål. At tage dette vigtige aspekt i betragtning, vores metode mener også den grundlæggende type III loop motiv afbildet i figur 1, i hvilken en miRNA målretter to gentranskripter, G-1 og G-2, hvis proteiner potentielt kunne vekselvirke med hinanden ifølge en sti kortet leveres i Kegg databasen (https://www.kegg.jp). Eksistensen af Type III loop motiver understøttes af to centrale hypoteser: (i) miRNA spiller store roller i reguleringen signalveje på grund af deres skarpe dosis-følsomme karakter [28] – [32], og (ii) mål for enkelte miRNA er mere forbundet (dvs. interagere) på protein niveau end forventet tilfældigt [28], [33] – [35].
til sammenligning foreslået i metoden [26] finder kun type II FFLs og gør ikke diskriminere mellem sammenhængende og usammenhængende FFLs, som er nødvendig for et system-niveau forståelse af transkriptom ændringer i sygdommen. Desuden er de standard statistiske test, der anvendes til at identificere differentielt udtrykte gener mellem to betingelser i en typisk genekspression profilering undersøgelse, som blev vedtaget af tidligere metoder [26], [27], bliver fundamentalt forkert i overværelse af afregnet kilder til variation (på grund af biologiske og eksperimentelle faktorer blandt andre) [36] – [38]. Molekylær subtypning information er en kritisk eksempel på sådanne kilder til variation.
For at løse de tidligere problemer, vi udvikler i dette papir IntegraMiR, en roman integrativ analyse metode, der kan bruges til at udlede visse regulatoriske løkker af dereguleret miRNA /TF interaktioner, der forekommer på transkriptionelle, post-transkriptionelle og signalanlæg niveauer i en statistisk overrepræsenteret måde. Den foreslåede metode tildeler biologiske roller til miRNA ved at integrere fem store informationskilder sammen med state-of-the-art statistiske teknikker til pålideligt udlede specifikke typer af miRNA-target vekselvirkninger i forbindelse med regulatoriske sløjfer. Især IntegraMiR udnytter:
mRNA og miRNA udtryk data
Sekvens-baserede miRNA-target oplysninger fra forskellige algoritmer
Kendt information om mRNA og miRNA mål.. TF’er tilgængelige i eksisterende databaser.
Visse tre-node motiver i gen regulatoriske netværk.
kendt molekylær subtypning oplysninger med genekspression data.
For at gøre det , IntegraMiR identificerer deregulerede miRNA TFS og mRNA ved at udføre statistiske analyser inden for en begrænset ramme, der bruger “forud” information bestående nylig opdaget motiver, tilgængelig viden på miRNA /mRNA transkriptionel regulering, og kendte protein-niveau interaktioner på signalveje. For at illustrere effektiviteten og potentialet i denne metode, anvender vi det på mRNA /miRNA udtryk data fra tumor og normale prøver og identificere flere kendte og nye deregulerede sløjfer i prostatakræft (PCA). Dette giver os mulighed for at demonstrere forekomster af resultater og konklusioner i en række forskellige biologiske indstillinger, som er kendt for at spille afgørende roller i PCa og andre former for kræft.
Vi bør understrege på dette punkt, at IntegraMiR er skalerbar i den forstand, at oplysninger fra eksisterende eller nyudviklede /opdaterede databaser kan være input til generere den ønskede /udvidede resultater. Desuden kan enhver miRNA /mRNA udtryk data med prøver opnået i enhver biologisk sammenhæng mellem to betingelser udnyttes til at udlede de tilsvarende deregulerede sløjfer relevante for den pågældende kontekst ved hånden. Endelig kan den interesserede læser frit downloade en R implementering af IntegraMiR fra www.cis.jhu.edu/~goutsias/CSS%20lab/software.html.
Resultater
Integreret miRNA /TF medierede Regulatory Loop Prediction
flow-chart afbildet i figur 2 giver en generel beskrivelse af de forskellige trin ansat af IntegraMiR. Vi henviser læseren til afsnittet “Materialer og metoder” for yderligere oplysninger om hvert trin. Proceduren bruger mRNA og miRNA udtryk data fra prostata væv på to forskellige biologiske forhold (normal vs. kræft). Den beskæftiger desuden resultater opnået ved sekvens-baserede miRNA mål forudsigelse algoritmer og inkorporerer oplysninger fra fire databaser tilgængelige online, nemlig:
Metoden tildeler biologiske roller til miRNA ved at integrere fem store informationskilder sammen med state-of the-art statistiske teknikker til pålideligt udlede specifikke typer af miRNA-target vekselvirkninger i forbindelse med regulatoriske sløjfer fra mRNA og miRNA udtryk data.
-mSigDB (www.broadinstitute.org/gsea/msigdb ).
-miRTarBase (https://mirtarbase.mbc.nctu.edu.tw).
-TRANSFAC (www.gene-regulation.com/pub/databases.html).
-TransmiR (https://202.38.126.151/hmdd/mirna/tf).
Bemærk at KODE udgivet oplysninger nylig på TF bindende sites baseret på chip-seq eksperimenter for 161 TF’er i 91 cellelinjer (https://genome.ucsc.edu/ENCODE). Desværre er denne database ikke giver reguleringen type (aktivering eller repression) af en bestemt TF-target interaktion, information, der er afgørende i vores tilgang. Derfor IntegraMiR bruger TRANSFAC. Men når disse oplysninger bliver tilgængelige via KODE eller anden TF-target-database, det let kan udnyttes af IntegraMiR.
Det første skridt i IntegraMiR anvender standard forbehandlingstrin teknikker på de rå udtryk data (såsom baggrund korrektion , normalisering, og data heterogenitet korrektion) for at forbedre datakvaliteten, efterfulgt af flere test hypotese (MHT) og surrogat variabel analyse (SVA) for at identificere mRNA og miRNA, der udtrykkes forskelligt mellem de to biologiske forhold, mens korrigere for biologisk variation på grund af molekylær subtypning, flere test og batch effekter.
det andet skridt implementerer yderligere statistiske analyser ved hjælp sæt berigelse gen analyse (GSEA) til yderligere at evaluere den biologiske betydning af visse mRNA og miRNA, der ikke anses for at være forskelligt udtrykt af MHT. Ved at anvende de molekylære signaturer database mSigDB af kommenteret gen-apparater til brug med GSEA og
eksperimentelt
verificeret miRNA måldatabase miRTarBase, IntegraMiR konstruerer tre separate grupper af gen-apparater og evaluerer den statistiske signifikans af hvert gen sæt beriget for deregulering i de tilgængelige mRNA-ekspression data. Den første gruppe består af gen sæt i mRNA data indekseret af en TF mRNA, der ikke anses for at være forskelligt udtrykt af MHT og bestemmes af mSigDB til direkte regulere hvert gen i genet sæt. Den anden gruppe består af gensæt i mRNA data indekseret af en miRNA som ikke anses at være differentielt udtrykt af MHT og bestemmes ved miRTarBase at målrette hvert gen i gensæt. Den tredje gruppe består af gen sæt i mRNA data indekseret af en specifik Kegg signalvejen [39], [40] indgår i mSigDB. Endelig TF’er forbundet med statistisk signifikante berigede gen sæt ændret til listen over disse mRNA anses for at være forskelligt udtrykt af MHT til at generere en kombineret liste over differentielt udtrykte mRNA, og det samme er gjort for miRNA. Vi bør bemærke her, at mSigDB vidt omfang anvendes til at opnå gen sæt til GSEA analyse. På den anden side, vi beskæftiger MiRTarBase da denne database har oparbejdet et relativt stort antal eksperimentelt validerede miRNA-target interaktioner.
Kort fortalt GSEA afgør, om et givet sæt af gener viser statistisk signifikante overensstemmende forskelle mellem to biologiske stater [41]. Den væsentligste årsag IntegraMiR anvender GSEA efter den indledende hypotese test skridt er at forbedre påvisning af differentielt udtrykt TF’er og miRNA, som kan gå glip af når enkelt udtryk niveauer viser kun moderate ændringer mellem de to biologiske forhold. Som en kendsgerning, hvis en række transkripter er kendt for at deltage i en fælles biologisk mekanisme, så selv moderate ændringer i ekspressionsniveauer af disse transkripter kan være statistisk signifikant på grund af det faktum, at kendte biologiske forhold mellem transkripter kan resultere i højere statistisk styrke, når der detekteres små variationer i deres ekspressionsniveauer sammenlignet med tilfældet med enkelt transkripter. Desuden er det for visse TF’er, TF mRNA-ekspression ikke nødvendigvis kan anvendes som målestok af sin aktivitet på proteinniveauet, som følge af post-transkriptionelle og post-translationelle modifikationer af TF’er [42], [43]. For at løse disse problemer, IntegraMiR mener også, den kollektive forskellen ekspression af gener, i modsætning til flere procedurer, som andre dertil knyttede aktiviteter diskuteret tidligere, der primært bygger deres analyser om statistikker opnået fra enkelte udskrifter.
Det tredje trin af IntegraMiR bruger resultaterne af MHT og GSEA samt tilgængelige biologisk viden og sekvens-baserede miRNA target forudsigelser, at identificere kendte
direkte
regulerede mål for differentielt udtrykt TF’er og miRNA og forudsagde mål for miRNA. Ved at anvende den eukaryote TF database TRANSFAC og TF /miRNA regulering database TransmiR, IntegraMiR producerer en liste over differentielt udtrykt TF’er sammen med deres gen-mål og regulering type (aktivering eller repression) for hvert mål gen. Det producerer også en liste over differentielt udtrykt TF’er sammen med deres differentielt udtrykte miRNA mål og regulering type for hvert mål miRNA. Bemærk, at vores valg til at bruge TRANSFAC og TransmiR er baseret på det faktum, at TRANSFAC pålideligt giver den afgørende oplysninger af regulering type (aktivering /repression) af en transskription faktor og sit mål gen (er), mens TransmiR giver den afgørende oplysninger af microRNA (s) er reguleret af det. På den anden side, til at identificere mRNA-mål for differentielt udtrykte miRNA, IntegraMiR beskæftiger miRecords (https://mirecords.umn.edu/miRecords), en integreret sekvens-baserede miRNA target forudsigelse værktøj, samt miRTarBase, en database over eksperimentelt validerede miRNA mål. På dette trin, IntegraMiR producerer en liste over differentielt udtrykte miRNA med de tilsvarende sekvens-baserede mål forudsigelser, ændret med eksperimentelt validerede mRNA-mål fra miRTarBase at hjælpe med at identificere ægte-positive og falsk-negative forudsigelser ved hjælp af tilgængelig biologisk viden. I denne henseende IntegraMiR indeholder en
prædiktiv
modul (udnyttelse miRecords) og en
ikke-prædiktiv modul
(miRTarBase) at udføre denne opgave.
Det fjerde trin af IntegraMiR implementerer en teknik, der er beskrevet i afsnittet “materialer og metoder”, til at konstruere deregulerede sløjfer af de typer, der er afbildet i figur 1 under anvendelse af resultaterne fra de foregående trin. IntegraMiR konstruerer følgende tre typer af regulatoriske løkker:
(i) en FFL omfatter et miRNA som samtidig retter sig mod en TF og et mRNA, der er direkte reguleret af TF
(ii) An. FFL omfattende en TF, som direkte regulerer en miRNA og et mRNA, der er direkte rettet af miRNA.
(iii) en regulerende loop, der omfatter et miRNA der samtidig retter sig mod to forskellige gener i en given Kegg vej, hvis proteiner kunne potentielt interagere med hinanden baseret på en sti kortet leveres i Kegg databasen.
for at rangere de konstruerede regulatoriske sløjfer i form af deres “betydning”, IntegraMiR anvender en hypotesetest procedure ved hjælp af Fishers metode [44] . Proceduren beskæftiger Fisher sammenfatning teststørrelse, givet af Eq. (2) i afsnittet “materialer og metoder”, at kombinere MHT-beregnede
P
værdier tildelt hver node i løkken i en
P Drømmeholdet værdi bruges som en rangordning score for hele løkken. Dette gælder ikke for type III loops, da disse sløjfer involverer gener og ikke specifikke mRNA-transkripter. Da de funktionelle roller regulatoriske loops er forskellige, IntegraMiR grupper disse sløjfer i fem forskellige kategorier: Type I sammenhængende FFL, type I usammenhængende FFL, type II sammenhængende FFL, type II usammenhængende FFL, og Type III sløjfer – se figur 1 2. For at give yderligere fleksibilitet i fortolkningen af resultaterne, IntegraMiR sorterer type II FFLs i to forskellige undergrupper, type II-A og type II-B, selv om dette yderligere sortering ikke kan være nødvendig. Inden for hver gruppe og undergruppe, IntegraMiR rangerer de deregulerede sløjfer ved at øge scoringer, med lavere score svarer til højere “betydning”, og fremhæver disse sløjfer opdaget at blive dereguleret på en måde,
konsistent
med den underliggende kant struktur og ekspressionsdata, som bestemmes af reglerne afbildet i figur 3 (se også afsnittet “Materialer og metoder”). Det markerer desuden miRNA mål afhængigt af, om disse mål forudsagt af proceduren eller er blevet eksperimentelt valideret efter miRTarBase, eller begge dele. Bemærk, at “konsistens” henviser til det faktum, at udtrykket mønstre af knudepunkterne i et dereguleret løkke er i overensstemmelse med dens regulerende kant struktur. For eksempel er en type I så sammenhængende FFL siges at være konsekvent dereguleret, hvis det omfatter en opreguleres miRNA og nedreguleret TF og mRNA, eller et nedreguleret miRNA og opreguleret TF og mRNA; se Figur 3.
En dereguleret løkke anses for at være
konsekvent
hvis udtrykket mønster af dets knudepunkter er i overensstemmelse med dens regulerende kant struktur. Enhver dereguleret løkke, som ikke opfylder denne ejendom siges at være
inkonsekvent
.
IntegraMiR Identificerer Omfattende Transkriptionel, Post-transkriptionel og signaler Deregulering i PCa
Til undersøge effektiviteten af IntegraMiR afgrænsning miRNA-medierede regulatoriske loops, bruger vi mRNA microarray udtryk data, opnået fra 48 normale og 47 prostata tumor vævsprøver (NCBI GEO database, tiltrædelse nummer GSE29079), samt miRNA microarray udtryk data fra matchede normale og ondartede vævsprøver, udvundet fra 20 individer (NCBI GEO database, tiltrædelse nummer GSE23022). For mere information om disse data, henviser vi læseren til afsnittet “Materialer og metoder”. Efter data forbehandling, IntegraMiR inkorporerer surrogat Variabel Analysis (SVA) [36] sammen med MHT, at identificere differentielt udtrykte gener mellem de to betingelser. Det er blevet vist, at SVA øger den biologiske nøjagtighed og reproducerbarhed af analyser i genom-dækkende ekspressionsundersøgelser [36], [37]. IntegraMiR beskæftiger SVA at tage hensyn til biologiske variabilitet grundet molekylære undertyper kategoriseret efter status TMPRSS2-ERG gen fusion, som er blevet identificeret i omkring halvdelen af alle PCA tilfælde og er en kritisk tidlig begivenhed i udviklingen og progressionen af denne sygdom [ ,,,0],45] – [47]
IntegraMiR udfører først MHT, ved anvendelse af en modereret t-statistik [48], identificeres separat mRNA’er og miRNA, der udtrykkes differentielt mellem tumor og normale prøver.. Denne analyse identificerer omfattende transkriptionel deregulering i tumor vævsprøver: 7,934 gener (ud af 17.324) findes at være differentielt udtrykte på grundlag af deres statistiske signifikans, med 164 af disse gener bliver overudtrykt af en fold ændring eller undertrykkes af en fold forandring – se Borde S1 S2. Genet liste, vi leverer i tabel S2 indeholder vigtige gener, såsom TARP, MYC, SNAI2 (SLUG), WIF1 og ERG blandt andre, som tidligere er blevet karakteriseret i PSA.
Analyse af de tilsvarende miRNA udtryk data af MHT resultater i 18 (ud af 847) differentielt udtrykte humane miRNA, som vi viser i tabel 1 (første 18 miRNA) – se også tabel S3. For nylig, dyb sekventering analyse af miRNA udtryk profiler identificeret 33 miRNA som værende udtrykkes forskelligt i PCa, med miR-375, miR-200C, miR-143 og miR-145 udstiller den mest udtalte deregulering [49]. Vi sammenlignede IntegraMiR resultater til dem opnået ved dyb sekventering. Af de 18 miRNA identificeret af IntegraMiR, 7 miRNA (miR-200C, miR-20a, miR-375, miR-106a, lad-7a, miR-21, og miR-106b) er blevet bekræftet til at blive opreguleret ved dyb sekventering analyse , mens 2 miRNA (miR-221 og miR-145) er blevet bekræftet til at blive nedreguleret. De resterende 9 miRNA identificeret af MHT blev ikke opdaget af dyb sekventering.
Under det andet trin i IntegraMiR, anvendelse af GSEA på gen-sæt TF mål opnået fra mSigDB opdager 37 betydeligt dereguleret TFS som er ikke opdaget af den indledende MHT skridt baseret på enkelt gen-analyse. Vi lister disse TF’er i tabel S4. Interessant, flere af disse TF’er (f.eks NKX3-1, SMAD1 /3, SRF, ETV4 og Elk1) er kendt for at spille vigtige roller i PCa, samt i andre typer af kræft.
Ligeledes ansøgning af GSEA om gen-sæt eksperimentelt valideret (ved dyb sekventering analyse) miRNA mål opnået fra miRTarBase identificerer 5 signifikant nedreguleret miRNA, der ikke påvises ved MHT. Vi lister disse miRNA i tabel 1 (sidste fem miRNA). I begge tilfælde, og for hvert TF eller miRNA, GSEA udføres baseret på tilgængeligheden af gen-apparater i dataene.
Endelig anvendelse af GSEA identificerer 30 betydeligt dereguleret signalveje, blandt de 186 Kegg signalveje rådighed i mSigDB. Vi viser resultaterne i tabel 2. Blandt andre veje, listen indeholder TGF og Wnt signalveje, som har været impliceret i PCa initiering og progression. Naturligvis omfatter resultaterne også prostatakræft og Adherens Junction veje. Den sidste vej regulerer intercellulære vedhæftning, der spiller en vigtig rolle i epitel-til-mesenkymale overgang (EMT), anses for at være et vigtigt skridt i tumorprogression [50], [51].
Leave a Reply
Du skal være logget ind for at skrive en kommentar.