PLoS ONE: En ny algoritme for integreret analyse af miRNA-mRNA Interaktioner Baseret på individuel klassificering afslører Indblik i Blære Cancer

Abstrakt

Baggrund

MikroRNA’er (miRNA) er små ikke-kodende RNA at regulere genekspression. Det er blevet foreslået, at miRNA spiller en vigtig rolle i cancerudvikling og progression. Deres evne til at påvirke flere gen veje ved at målrette forskellige mRNA gør dem en interessant klasse af regulatorer.

Metodologi /vigtigste resultater

Vi har udviklet en algoritme, Klassifikation baseret Analyse af Forbundne Expression data for RNA (CAPE RNA), som er i stand til at identificere ændret miRNA-mRNA regulering mellem væv prøver at tildele interaktion stater til hver prøve uden allerede eksisterende lagdeling af grupper. Fordelingen af ​​de tildelte interaktion stater i forhold til givne eksperimentelle grupper bruges til at vurdere kvaliteten af ​​en forudsagt interaktion. Vi demonstrerer anvendeligheden af ​​vores tilgang ved at analysere urotelial karcinom og normale blære vævsprøver stammer fra 24 patienter. Ved hjælp af vores tilgang, normale og tumor vævsprøver samt forskellige stadier af tumor progression var succesfuldt lagdelt. Også vores resultater tyder interessante forskelligt regulerede miRNA-mRNA interaktioner forbundet med blære tumor progression.

Konklusioner /Betydning

Behovet for værktøjer, der giver en integrativ analyse af microRNA og mRNA-ekspression data har været rettet. Med denne undersøgelse, giver vi en algoritme, der lægger vægt på fordelingen af ​​prøver at rangere forskelligt regulerede miRNA-mRNA interaktioner. Dette er en ny synsvinkel i forhold til nuværende tilgange. Fra bootstrapping analyse, vores ranking giver funktioner, der bygger stærke klassificører. Yderligere analyse afslører gener identificeret som forskelligt reguleret af miRNA til at blive beriget i kræft veje, hvilket tyder biologisk interessante interaktioner

Henvisning:. Hecker N, Stephan C, Mollenkopf HJ, Jung K, Preissner R, Meyer HA (2013 ) En ny algoritme for integreret analyse af miRNA-mRNA Interaktioner Baseret på individuel klassificering afslører Indblik i blærekræft. PLoS ONE 8 (5): e64543. doi: 10,1371 /journal.pone.0064543

Redaktør: Panayiotis V. Benos, University of Pittsburgh, USA

Modtaget: 12 oktober, 2012; Accepteret: 17. april, 2013; Udgivet: 24. maj 2013 |

Copyright: © 2013 Hecker et al. Dette er en åben adgang artiklen distribueres under betingelserne i Creative Commons Attribution License, som tillader ubegrænset brug, distribution og reproduktion i ethvert medie, forudsat den oprindelige forfatter og kilde krediteres

Finansiering:. Denne undersøgelse blev finansieret af BMBF (MedSys indrømme No. 0.315.450) https://www.bmbf.de/and Deutsche Forschungsgemeinschaft (DFG) GRK 1772 “Computational Systembiologi” https://www.dfg.de. De finansieringskilder havde ingen rolle i studie design, indsamling og analyse af data, beslutning om at offentliggøre, eller forberedelse af manuskriptet

Konkurrerende interesser:.. Forfatterne har erklæret, at der ikke findes konkurrerende interesser

Introduktion

Blærekræft er den fjerde mest almindelige kræftform i de industrialiserede lande [1]. Muskel invasiv blærecarcinom har stadig en høj dødelighed, trods bedre behandlinger af forbedrede kirurgiske teknikker og aggressive behandlinger. Ca. 90% af alle urothelial neoplasmer klassificeres som urotelial cellecarcinom (UCC), der kan divideres med kliniske og morfologiske parametre i to forskellige undergrupper [2], [3]. Hovedparten af ​​UCC tilhører gruppen af ​​papillære ikke-invasive tumorer (fase PTA), generelt disse tumorer er godt differentieret, tendens til at vokse langsomt uden store spredning og har en god klinisk prognose. Den resterende tredjedel af UCC er invasive tumorer (fase pT1 og højere) med dårligt differentiering, høje progression satser og evnen til at danne metastaser. På det molekylære niveau, er de fleste ikke-invasiv UCC forbundet med FGFR3 mutation og kromosom 9 tab [4], [5], mens inaktivering af p53 og PTEN funktion spiller en vigtig rolle i progressionen af ​​invasiv UCC [6]. I flere publikationer, har transkriptomisk ekspressionsmønstre været forbundet med kliniske resultater i urothelial carcinoma [7] – [10]. Endvidere blev først integreret analyse af både miRNA og mRNA-data udført for at få en mere detaljeret indsigt i regulatoriske netværk og involverede cancer signaltransduktionsveje, der forårsager blærekræft [11], [12]. Men de nøjagtige mekanismer involveret i initiering og progression af blære urothelial karcinom stort set uklar. Yderligere undersøgelse af genekspression og miRNA udtryk data er afgørende for at opdage de ukendte processer, der fører til tumorgenese. Med etableringen af ​​microarray applikationer, har flere beregningsmetoder blevet udviklet til at analysere genekspression data. Gensæt analyse og gen berigelse analyse anvendes ofte til at identificere differentielt udtrykte gener [13], [14]. De mest almindelige værktøjer og web-tjenester, der gælder principperne for gen-berigelse analyse er DAVID [15], GeneTrail [16], gorilla [17], GeneCodis [18] og GOEAST [19], for en generel oversigt se reference [20] .

Udover co-udtrykte gener, differentielt regulerede par af miRNA og mRNA’er spiller en vigtig rolle i flere cellulære processer og sygdomme. For at vurdere dette spørgsmål, er flere metoder blevet udviklet til at forudsige samspillet mellem miRNA og mRNA baseret på deres sekvenser. De fleste af de værktøjer udnytter frøet komplementaritet mellem miRNA og 3’UTR af specifikke mRNA, oplysninger om bevarelse af tilstødende baser og termodynamiske egenskaber af miRNA-target mRNA interaktioner sekvens. De forskellige metoder er for nylig blevet revideret [21]. Nogle af de mest almindelige værktøjer er Targetscan [22] – [25], PicTar [26] – [29], Miranda [30] – [32] og PITA [33]. Adskillige webressourcer giver valideret eller forventet miRNA-mRNA interaktioner, f.eks TarBase [34], miRecords [35], miRGen [36] og miRBase [37], miRGator tilbyder miRNA og mRNA udtryk profiler [38], starbase [39] og Dorina [40] er databaser, der integrerer miRNA og ribonucleoprotein bindingssteder.

der er behov for metoder, som anser den særlige karakter af miRNA induceret regulering. miReduce [41] og Sylamer [42] kan anvendes til at vurdere sammenhængen mellem frø motiv berigelser i 3’UTRs af mRNA’er for differentielt regulerede gener i miRNA knockout eksperimenter. DIANA-mirExTra implementerer lignende evaluering gen motiv metoder som en webservice [43]. Creighton et al udviklet en samling af Excel makroer at kombinere sæt af beriget gener med miRNA-mRNA interaktion forudsigelser [44]. For nylig har metoder og web-services til den integrerede analyse af miRNA og mRNA udtryk data blevet udviklet som MAGIA [45], [46], MMIA [47], mirAct [48], miRConnX [49] og miRTrail [50] . GenMIR ++ implementerer en Bayesian læring tilgang til at identificere forskellen miRNA-mRNA regulering [51], [52]. HOCTAR beregner negative korrelationer mellem miRNA og mRNA udtryk [53]. Andre metoder er baseret på regressionsanalyse [54], [55]. En strategi baseret på clustering miRNA og mRNA-ekspression data i kombination med en t-test blev udviklet af Jayaswal et al. [56]. De fleste af de nuværende værktøjer har mangler såsom at bruge metoder, der er fejlbehæftet for outliers eller de ikke tillader at identificere forskellen regulering mellem to grupper af prøver.

I denne undersøgelse præsenterer vi en ny tilgang, der vurderer forskellen miRNA -mRNA’et regulering kombineret med fordelingen af ​​prøver til en enkelt interaktion. Vi hypotesen, at enlige miRNA-mRNA vekselvirkninger er karakteristisk for en bestemt tilstand af tumorigenese. Vi anser forskellen miRNA induceret genregulering som en to klasse problem og bruge følgende antagelse. Givet en interaktion mellem en miRNA og mRNA, som er karakteristisk for en forskel mellem to grupper af prøver, skal miRNA opreguleret og mRNA nedreguleres i den første gruppe i forhold til den anden gruppe, eller gensidig. Vores tilgang klassificerer hver forudsagte interaktion for hver prøve uafhængigt af gruppe viden. Ved denne måde kan man analysere individuelle forskelle inde i en kollektiv af prøver til et bestemt sæt af interaktioner. Desuden gives en interaktion, kan vi opdele prøver i forventede grupper, der afspejler den miRNA inducerede genregulering. Aftalen mellem de forventede grupper og de eksperimentelle dem giver en meningsfuld rangordning at skelne potentielle interaktioner fra dem, der er usandsynlig. I et sidste trin, vi indarbejde oplysninger om negativ korrelation mellem miRNA og mRNA udtryk for at eliminere falske positiver.

Identifikation forskelligt regulerede miRNA-mRNA interaktioner er en dybest set en form for funktion udvælgelse. For at validere de forskellige trin i vores tilgang, har vi udført en principal komponent analyse til at analysere adskillelsen af ​​prøver efter tildeling af interaktion stater og vurderet effektiviteten af ​​vores ranking at bygge klassificører.

I særdeleshed har vi anvendt vores tilgang til et kollektiv af sunde blære vævsprøver og blære tumor prøver på forskellige stadier. Derudover har vi undersøgt muligheden for vores tilgang til at klassificere prostatakræft tumorer og sundt væv samt tyktarmskræft prøver og sundt væv med en lille stofmængde [57]. Udførelsen af ​​vores klassificører blev sammenlignet med en veletableret metode til genekspression data, Prediction Analyse af Microrarrays for R (PAMR), der er en forbedret nærmeste tyngdepunkt klassificeringen [58]. Desuden vi beregnet pathway berigelse scoringer for gener involveret i forudsete vekselvirkninger og foreslå interessante interaktioner for blærekræft tumor progression.

Materialer og metoder

Patienter og vævsprøver

Et udvalg af 24 urothelial prøver fra et kollektiv af blærecancerpatienter tidligere beskrevne blev anvendt i denne undersøgelse [59]. Otte prøver blev udvundet fra nonmalignant blære væv (8 mandlige patienter, median alder 69, interval 47-80 år), 8 prøver fra lav kvalitet papillær urothelial karcinom (8 mandlige patienter, median alder 72,5, interval 59-79 år; 2x pTaG1 og 6x pTaG2)), og 8 prøver fra invasive tumorer (6 mandlige, 2 kvindelige patienter, median alder 73, rækkevidde 62-76 år, 1x pT1G1, 4x pT1G3 og 3x pT2G3). Prøverne blev udtaget umiddelbart efter operationen i flydende nitrogen og opbevaret ved -80 ° C indtil yderligere analyse. Tumor iscenesættelse blev udført i overensstemmelse med Den Internationale Union Against Cancer og histologiske sortering i overensstemmelse med WHO /ISUP kriterier for 2004 [60]. Alle blære kræftpatienter gik gennem radikal cystektomi eller transuretral resektion på University Hospital Charité i Berlin mellem 2008 og 2009 og gav skriftligt informeret samtykke til brug af repræsentative vævsprøver til forskningsformål. Undersøgelsen blev godkendt af Etik Komité Universitetshospital Charité (Fil: EA1 /153/07).

Isolering af RNA og karakterisering af kvantitet og kvalitet

De analyserede tumorvæv prøverne indeholdt mere end 80% af tumorcellerne som tidligere beskrevet [59]. Ca. 20-30 mg vådvægt væv blev behandlet med 350 pi lysepuffer og totalt RNA blev isoleret ved anvendelse af miRNeasy Mini Kit (Qiagen, Hilden, Tyskland) ifølge producentens protokol. En yderligere DNase I fordøjelsen skridt på RNA-bindende silicagel membran blev udført. Mængden og kvaliteten af ​​isolerede RNA blev bestemt ved en NanoDrop 1000 spektrofotometer (NanoDrop Technologies, Wilmington, DE, USA) og en Bioanalyzer 2100 (Agilent Technologies, Santa Clara, CA, USA). Kun prøver med RNA integritet nummer (RIN) værdier 5 blev anvendt. De RNA-prøver isoleret fra ikke-malign samt fra ikke-invasive og invasive tumor vævsprøver viste sammenlignelige median 260/280 absorbans-forhold (2,02, 2,03 og 2,03) og medianværdier RIN værdier (7,3, 6,7, og 7,2; Kruskal-Wallis test, P = 0,486).

Microarray-baserede RNA analyse

miRNA udtryk analyse blev udført af én farve hybridiseringer på human katalog 8-plex 15 K microRNA microarrays (AMADID 019.118) fra Agilent (Agilent Technologies, Santa Clara, CA, USA), der lukkede 723 mennesker og 76 virale microRNA’er fra Sanger miRBase (frigive 10.1). Alle reaktionstrin blev udført som tidligere beskrevet detaljeret [61]. Efter hybridisering blev microarrays vaskes, scannes, og forarbejdet i henhold til leverandørens protokol. De rå data blev normaliseret ved hjælp Genespring GX11 Software (Agilent) med standardparametre (tærskel rå signal til 1,0, procent skiftet til 90. percentil som normalisering algoritme og ingen baseline transformation). Alle microarray data er blevet deponeret i NCBI GEO-databasen med tiltrædelsen nummer GSE36121.

mRNA-ekspression blev udført af én farve hybridiseringer på hele den menneskelige genom microarray 4 × 44 K v2 (026652) fra Agilent omfattende sonder for menneskelige 34184 mRNA-transkripter. Efter hybridisering blev microarrays vaskes, scannes, og forarbejdet i henhold til leverandørens protokol. De rå data blev normaliseret ved hjælp Genespring GX11 Software (Agilent) med standardparametre (procent skift til 75. percentil som normalisering algoritme og en median baseline transformation af alle prøver). Alle microarray data er blevet deponeret i NCBI GEO-databasen med tiltrædelsen nummer GSE40355.

Klassificering af miRNA-mRNA interaktioner

miRNA-mRNA interaktion datasæt.

Valideret menneskelige miRNA -mRNA’et interaktioner blev opnået fra Tarbase 5,0 og miRecords (version 11-2010) [34], [35], [62]. Humane target mRNA forudsigelser for miRNA blev ekstraheret fra Targetscan 5.2 og microRNA.org (version 8-2010) [22] – [25], [63]. Den microRNA.org ressource omfatter forudsigelser beregnet af Miranda algoritmen [30], [31]. I tilfælde af microRNA.org, de eneste forudsigelser, der blev anset, var dem, kommenteret som “bevaret miRNA” og “god mirSVR score”. Til analysen blev skæringspunktet mellem microRNA.org og Targetscan forudsigelser tilføjet til sæt af validerede interaktioner. miRNA familier blev udvundet som defineret i Targetscan datasæt.

Algoritme til klassificering af udtryk værdier.

Målet med algoritmen er at opdele udtrykket værdier svarende til hver probe i tre sæt :. “høj”, “middel” og “lav”

Lad være log-normaliserede udtryk værdien af ​​en specifik probe for en given prøve, som enten henviser til en miRNA eller mRNA. er den tilsvarende sæt af udtryk værdier for at sonden løbet alle prøver. I første omgang er udtryk værdier exponentiated, dvs.. På den måde undgår vi nogle numeriske problemer. Alle værdier er større end nul, fordi nærmer sig nul som bliver mere negativ, dvs. når tilgange, også, hvis da. Der er tydeligvis en afhængighed af, hvordan det oprindelige data blev normaliseret.

Vi definerer den absolutte gange ændring som for to værdier. Bemærk venligst, at.

Der er to indledende overvejelser. Den første antagelse er, at to udtryk værdier forskelligt udtrykkes, hvis deres absolutte fold ændring er højere end en vis tærskel. Den anden antagelse er, at værdier, som absolut fold ændring er i et bestemt interval tilsvarende udtrykkes, dvs. deres absolutte fold ændring er lavere end eller lig med en tærskel.

Da og en ikke tom indstille

B

hvor er kardinaliteten af ​​sættet

B

, definerer vi den absolutte fold skift mellem

en

og gennemsnittet af sættet

B

som, hvor. Igen, da

B

er ikke tom, og hvis og kun hvis.

Vi definerer det sæt

En

er omegnen af ​​

en

hvis og kun hvis hvor.

Vi definerer

en

som repræsentant for et sæt

a

hvis og kun hvis

en

er omegnen af ​​

en

. Bemærk, at der kan være mere end én repræsentant for et sæt

En

, dvs. for to værdier, hvor

En

er kvarter

en

B

er kvarter

b,

hvis, men også hvis og.

Vi definerer en scoring funktion på to elementer,

en

b

og deres kvarterer

A

og

B

som følger:

Vi tilføjer følgende begrænsning for at bestemme det endelige resultat, hvor:

rationalet bag denne scoring funktion er at finde to sæt tilsvarende udtrykte værdier, som dækker de fleste af de data, dermed også som overlapper lidt som muligt, dvs. datadækning sigt. Desuden mere lige store sæt er højere scoret, dvs. udtrykket størrelsesfordeling. Ellers kunne et sæt indeholder et enkelt medlem, og det andet sæt alle andre medlemmer. Da bør datadækning være mere end lineært vægtet i forhold til størrelsesfordelingen af ​​sættene, vi introducerede en kvadratisk forhold på de data dækning sigt. Den sidste form for betingelser, dvs. de fastsatte repræsentative straf vilkår, straffe sæt repræsentanter, der er langt fra deres kvarter. De, der er repræsentative straf vilkår skal have mindre indflydelse end datadækning sigt, således disse vilkår indføres i kun én af de to data dækning vilkår.

For at opsummere den væsentlige betydning af scoring funktion, identificerer vi to forskellige kvarterer, dvs. værdier af lignende udtryk. Disse kvarterer afviger med mindst en defineret absolut gange ændring, men derefter den absolutte fold ændring kan være vilkårlig stor. Den scoring funktionen vurderer i hvilket omfang disse kvarterer er nyttige til at repræsentere data, baseret på data dækning ikke absolutte værdier.

I betragtning af de to resulterende sæt og deres tilsvarende repræsentanter, som producerer den højeste endelige resultat, vi betegne repræsentanten med lavere værdi som og repræsentanten med den højeste værdi som. Baseret på, og to grænser og er beregnet som følger:

Begrundelsen for dette er som følger. Grænserne er defineret af den øvre grænse for det nederste sæt, og nedre grænse for den øverste sæt; hvis sættene overlapper hinanden, er grænserne skiftet

Endelig for hver klassificering af

v

er defineret ved:.

Denne klassificering vil blive omtalt som stat i efter.

for selve klassificering af udtryk værdier, fold tærskel og kvarter tærskel bestemmes dynamisk fra en liste over foruddefinerede parrede værdier, dvs. et par til den i’te element i listen. Separat for hver miRNA eller mRNA-sonde, der folden tærskel og kvarter tærskel, der giver den højeste for det pågældende sæt af udtryk værdier anvendes. For denne undersøgelse, vi definerede.

Filtrering og interaktion stater.

Kun de miRNA eller mRNA sonder betragtes som overstiger en vis score højere end en tærskel, hvor

t

sige en arbitrær reel værdi og kardinaliteten er antallet af prøver. Overvejer en enkelt prøve, er mRNA sonder, som er mappet til samme EntrezGeneID klassificeret af den maksimale forekommende tilstand. På et slips, præferencer til klassificering er lav (L), høj (H) og derefter medium (M). Før interaktioner er klassificeret, er mRNA og miRNA sonder filtreret af forholdet mellem M klassificerede prøver, hvor er den tilsvarende tærskel. For en miRNA-mRNA interaktion og for hver prøve klassificeringen af ​​en interaktion er kombinationen af ​​de to stater i miRNA og mRNA i nævnte rækkefølge, f.eks hvis en miRNA er klassificeret som L for en specifik prøve og mål-mRNA’et er klassificeret som H, så tilstanden af ​​interaktionen er LH. Derfor er der ni mulige tilstande for interaktion:

S

= {LH, HL, LM, HM, MH, ML, HH, LL, MM}

Vi gruppe disse kombinationer ved. deres biologiske betydning:

Down-regulerede stater

S

compHL

= {HL, ML, HM}; opreguleret miRNA forårsager hypotetiske nedregulering af mRNA.

Up-regulerede stater

S

compLH

= {LH, MH, LM} ;. Down-regulerede miRNA forårsager hypotetiske opregulering af mRNA.

Udefineret stater

S

undef

= {HH, LL, MM} som ikke følger den biologiske fortolkning nævnt ovenfor.

interaktioner med en frekvens på udefinerede tilstande højere end en tærskel blev udelukket fra det sæt af interaktioner. Vi vil yderligere henvise til det sæt af interaktioner, som tilfredsstiller de filtrering ovennævnte kriterier som det sæt af regulerede interaktioner.

Da to foruddefinerede grupper

A

og

B

blev det defineret, at en interaktion forskelligt reguleres for

A

og

B

, hvis staten med den maksimale frekvens af gruppe

en

er et element i og staten med den maksimale frekvens i gruppe

B

er et element af eller gensidig. For alle datasæt i denne undersøgelse, vi har sat, og.

Jaccard-indekset.

For hver interaktion, er en Jaccard-indeks beregnet til at evaluere aftalen mellem de foruddefinerede forsøgsgrupper og forventede grupper baseret på den antagelse, at en mRNA nedreguleres for en gruppe og opreguleret for den anden gruppe med en bestemt miRNA.

Derfor er en partition beregnes hvor prøverne er grupperet i de tre grupper og. Hvor er det sæt af prøver, der har en vekselvirkning tilstand af enten HL, HM, eller ML, er det sæt af prøver, der har en interaktion tilstand af enten LH, LM, eller MH og er det sæt af prøver, hvis tilstand er enten HH, MM, eller LL.

Jaccard-indekset er så ligheden mellem de to partitioner og og påtager sig en værdi mellem 0 og 1 [64], [65]. Figur 1 opsummerer de trin, der blev udført for at identificere differentielt regulerede interaktioner i denne undersøgelse.

Input data er afbildet af appelsin rektangler. Output data indikeres af røde rektangler. Ellipsen refererer til sættet af udledte interaktioner. Dette sæt er uafhængig af input-data, selvom det kan ændres. Operationer at manipulere data er afbildet som diamanter.

Enkel klassifikation model.

For at vurdere anvendeligheden af ​​vores ranking af Jaccard-indeks, baseret på det sæt af udvalgte forskelligt regulerede interaktioner en simpel klassifikation model er konstrueret som forudsiger den første gruppe af et ensemble af prøver, fx cancer prøver fra et kollektiv af kræft og ikke-kræft prøver.

En sådan model indeholder et sæt af tilstande for hver interaktion

i

af sættet af udvalgte interaktioner

jeg

, hvor eller. Desuden er et sæt af udefinerede tilstande defineres. For hver prøve, er summen af ​​interaktioner er klassificeret som den første gruppe givet af alle interaktioner

jeg

hvor staten af ​​prøven. refererer til summen af ​​interaktioner er klassificeret som den anden gruppe, dvs. alle interaktioner

jeg

hvor staten af ​​prøven og. Med andre ord for en prøve, vi øg hvis staten af ​​prøven viser en regulering i samme retning som defineret i modellen for den specifikke interaktion, øg vi hvis staten af ​​prøven svarer til den modsatte regulering og intet forøges, hvis tilstanden af ​​prøven svarer til en udefineret interaktion tilstand. Klassificeringen af ​​prøven derefter defineret af maksimalt og.

En model er genereret fra de højest rangerende interaktioner inden en tærskelværdi for Jaccard-indeks for en interaktion eller et defineret antal randomiserede interaktioner inden en række Jaccard-indekser. Staterne er defineret i henhold til staten med den højeste frekvens for den første gruppe.

Bootstrapping analyse.

De normaliserede udtryk værdier blev tilfældigt opdelt i uddannelse og test sæt, hvor hvert træningssæt indeholder halvdelen af prøver af hver gruppe uden erstatning. Hvis antallet af prøver var mærkeligt for en gruppe, blev kurserne sæt tildelt én prøve mere end test sæt til den gruppe. Med hensyn til blærekræft datasæt, for kollektiv af alle prøver, hver træning og hver test sæt indeholder otte prøver fra enten gruppen af ​​invasive eller ikke-invasive blærekræft prøver og fire normale vævsprøver. For den kollektive prøver blærekræft, hver træning og hver test sæt indeholder fire invasive blærekræft prøver og fire ikke-invasive blærekræft prøver. For de to kollektiver blev 100 forskellige datasæt for uddannelse og test sæt genereret af tilfældigt dividere prøver under de ovennævnte begrænsninger. miRNA-mRNA interaktioner blev beregnet og klassificeret separat for hver træning og hver test sæt. For hver af de 100 datasæt en model er beregnet på baggrund træningssættet og anvendes til den tilsvarende test sæt. Mean særtræk, følsomheder og falske positiver satser blev beregnet over alle 100 datasæt.

Ligeledes til blærekræft datasættet, en tyktarmskræft og prostatakræft tumor datasæt, der indeholder parrede miRNA /mRNA micro-array udtryk data blev brugt at estimere særlige og følsomheder. Colon vævsprøver og prostata vævsprøver blev ekstraheret fra datasættet tilvejebragt af Lu et al. [57] og behandles som to separate datasæt. Mere detaljeret colon tumor datasæt omfatter fire raske prøver og syv tumorprøver. Prostatatumoren datasæt indeholder seks raske og seks tumorprøver. For både tyktarmskræft og prostata tumor datasæt separat, 50 randomiserede uddannelse sæt og test sæt blev genereret, så betyde særlige forhold og følsomheder er beregnet på samme måde som nævnt ovenfor.

Ud for kræftvæv prøve kollektiv af blærekræft datasættet, blev hele proceduren udføres med en outlier fjernet og det samme outlier igen tildelt den forventede gruppe efter resultaterne af vores undersøgelse.

Forudsigelse Analyse af microarrays for R

for at sammenligne resultaterne af vores klassificører til en anden metode, Prediction Analyse af microarrays for R (PAMR) [58], blev udført ved hjælp af den samme uddannelse og test sæt som nævnt ovenfor. PAMR består af en k nærmeste indskrumpet tyngdepunkt klassificeringen. En tærskelværdi anvendes til at definere det omfang af krympning efter en model, dvs. en lavere tærskelværdi vil generere en større model og en højere tærskel mindre model. PAMR blev påført hvert sæt af log-normaliseret miRNA og mRNA-ekspression separat. Først bestemmes vi en række tærskelværdier separat for miRNA og mRNA data for hvert datasæt ved hjælp af “pamr.plotcv” for nogle tilfælde af uddannelse sæt. Dernæst brugte vi, at forskellige tærskler for at gentage over alle randomiserede uddannelse sæt svarende til en miRNA eller mRNA af et datasæt, beregnet modellerne og klassificeret de tilsvarende forsøgsmetoder sæt. ‘Pamr.adaptthresh «blev brugt til at skalere modellen før klassificere den tilsvarende test sæt. Bortset fra tærskelværdier standardparametre blev brugt til alle funktioner i PAMR.

Mean særlige og følsomheder er beregnet på samme måde som nævnt ovenfor.

Korrelationskoefficienter

For hver af tre forsøgsgrupper, dvs. invasive blærekræft prøver, non-invasive blærekræft prøver og normale vævsprøver, Spearman korrelationskoefficienter, ρ, blev beregnet mellem miRNA og mRNA-ekspression. Log-normaliseret ekspressionssystemer værdier blev anvendt som input-data. Par af miRNA-mRNA’er blev defineret af det samme sæt af interaktioner, som nævnt ovenfor. Ekspressionsniveauerne værdier blev behandlet separat for hver af de tre eksperimentelle grupper. Spearman korrelationskoefficienter blev beregnet for hvert par af miRNA-mRNA interaktioner for hver gruppe.

Behandling af blærekræft datasæt

Vi anvendte vores tilgang til to forskellige kollektiver, et kollektiv af alle prøver (8 ikke-invasive- og 8 invasive tumor prøver samt 8 kontrolpersoner) og en kollektiv af tumor prøver med forskellige tumor etaper (8 non-invasiv og 8 invasive prøver) uden raske personer. For begge kollektiver, kun miRNA og mRNA’er udtryk værdier blev forarbejdet viser i mindst 20% af de anvendte prøver en “nuværende opkald”, angivet med microarray normalisering software Genespring GX. Dernæst vi anvendt vores tilgang til at identificere differentielt regulerede interaktioner. I et yderligere skridt, valgte vi kun interaktioner, der viser en negativ sammenhæng, dvs. ρ≤-0,4, mellem normaliserede miRNA og mRNA ekspression værdier for mindst én forsøgsgruppe. For kollektiv af cancer vævsprøver disse grupper er de invasive blærekræft prøver og ikke-invasive blærekræft prøver. For den kollektive af alle prøver grupperne omfatter både blærekræft prøve grupper og gruppen af ​​normale vævsprøver, dvs. tre forskellige grupper.

Clustering

På baggrund af interaktionen hedder en hovedkomponent og klyngedannelse analyse blev udført. Til dette formål blev interaktion stater erstattet i reelle værdier som nævnt i tabel 1. En afstand matrix blev beregnet ved hjælp af byen blok afstand som en metrik. Derefter blev hierarkisk klyngedannelse udført under anvendelse Wards fremgangsmåde som et afstandsmål [66]. Vigtigste komponenter af afstanden matrix blev beregnet hvor afstanden matrix blev behandlet som et sæt af

NN

dimensionale vektorer [67].

Funktionel annotation clustering

Gener, som er involveret i de forskelligt regulerede interaktioner mellem miRNA og mRNA blev analyseret ved hjælp af databasen for kommentering, visualisering og integreret discovery (DAVID) [15] med standard klassifikation stringens parametre.

Analyse af blærekræft datasæt hjælp Magia2 og Talasso

for sammenlignende analyse, vi anvendt yderligere fire tilgange til at analysere de to kollektiver af blære kræft prøver, den kollektive af sunde og tumorprøver og kollektiv af invasive og non-invasive tumor vævsprøver. Den Talasso webserver blev anvendt til at identificere miRNA-mRNA interaktioner med Talasso metoden og GenMiR ++ algoritme [55]. Foreningen mellem Tarbase blev miRecoreds 2010 og skæringspunktet mellem miRandaXL, PicTar 4-vejs og Targetscan (miRGen) valgt som sæt af formodede miRNA-mRNA interaktioner.

Desuden Spearman korrelationer og en Meta analyse tilgang med den Magia2 webserver blev brugt til at analysere de datasæt [46]. Til analyse med Magia2 blev krydsfeltet mellem forudsigelser fra Targetscan og microRNA.org (Miranda) defineret som sæt af formodede interaktioner. Med hensyn til analyse ved hjælp Spearman korrelation, er det kun interaktioner anses som udviser en negativ sammenhæng, dvs. ρ. 0

For alle tilgange og begge kollektiver, kun miRNA og mRNA’er udtryk værdier blev forarbejdet viser i mindst 20% af de anvendte prøver en “nuværende opkald”, angivet med microarray normalisering software Genespring GX. Log-normaliseret ekspressionssystemer værdier blev anvendt til analyse, som nævnt ovenfor.

Be the first to comment

Leave a Reply