PLoS ONE: Bayesian Pathway Analyse af Cancer Microarray Data

Abstrakt

High Throughput Biologiske data (HTBD) kræver detaljerede analysemetoder og fra et liv science perspektiv, disse analyseresultater gør mest mening, når fortolkes inden for rammerne af biologiske veje. Bayesianske Netværk (BNS) fange både lineære og ikke-lineære interaktioner og håndtere stokastiske hændelser i en probabilistisk rammer tegner sig for støj gør dem levedygtige kandidater til HTBD analyse. Vi har for nylig foreslået en tilgang, der kaldes Bayesian Pathway Analysis (BPA), til analyse HTBD hjælp BNS, hvor kendte biologiske veje er modelleret som BNS og veje, der bedst forklarer den givne HTBD findes. BPA bruger fold-change oplysninger for at give et input matrix at score hver pathway modelleret som en BN. Scoring sker via den Bayesian-Dirichlet Ækvivalent metode og betydning bedømmes ved randomisering via bootstrapping af søjlerne i inputmatrixen. I denne undersøgelse, vi forbedre den BPA-systemet ved at optimere de trin der er involveret i “Data Forbehandling og Diskretisering”, “Scoring”, “Betydning Assessment” og “Software og Web Application”. Vi testede det forbedrede system på syntetiske datasæt og opnået over 98% nøjagtighed at identificere de aktive veje. Den overordnede tilgang blev anvendt på virkelige kræft microarray datasæt for at undersøge de veje, der er almindeligt aktive i forskellige typer kræft. Vi sammenlignede vores resultater på det virkelige datasæt med en relevant tilgang kaldet signalvejen Impact Analysis (SPIA)

Henvisning:. Korucuoglu M, ISCI S, Ozgur A, Otu HH (2014) Bayesian Pathway Analyse af kræft microarray data. PLoS ONE 9 (7): e102803. doi: 10,1371 /journal.pone.0102803

Redaktør: Raya Khanin, Memorial Sloan Kettering Cancer Center, USA

Modtaget: Februar 14, 2014 Accepteret: Juni 24, 2014, Udgivet: 18 juli 2014

Copyright: © 2014 Korucuoglu et al. Dette er en åben adgang artiklen distribueres under betingelserne i Creative Commons Attribution License, som tillader ubegrænset brug, distribution og reproduktion i ethvert medie, forudsat den oprindelige forfatter og kilde krediteres

Finansiering:. Dette arbejde blev støttet af videnskabelig og teknologisk forskning råd i Tyrkiet (TUBITAK) tilskud nummer 111E042 (HHO). De finansieringskilder havde ingen rolle i studie design, indsamling og analyse af data, beslutning om at offentliggøre, eller forberedelse af manuskriptet

Konkurrerende interesser:.. Forfatterne har erklæret, at der ikke findes konkurrerende interesser

Introduktion

Bayesian Network (BN) modeller har vundet popularitet for at lære biologiske veje fra microarray genekspression oplysninger [1], [2]. BNS repræsenterer afhængighed struktur for et sæt stokastiske variable ved hjælp rettet acykliske grafer og har været anvendt med stigende popularitet i matematik og beregningsmæssige videnskaber gennem de sidste 20 år. Dog er de nuværende BN applikationer begrænset til at strukturere læring ved hjælp af observerede data, og derfor arbejder kun på nogle få hundrede variabler som struktur learning algoritmer beregningsmæssigt kompleks. Dette vil igen resulterer i ineffektiv udnyttelse af HTBD, som indeholder et meget større antal variable.

Fra et biovidenskab perspektiv, data analyseresultater gør mest mening, når fortolkes inden for rammerne af biologiske netværk og veje. Tidligere etablerede individuelle gen analyse metoder er blevet udvidet til at netværke og sti skala meste i retning af gen-sæt analyse (GSA) [3], [4] eller Gene Ontology (GO) tilgange [5] – [7], som fokuserer på at bestemme foruddefinerede gen-apparater eller klasser, der er væsentligt reguleret. Men overveje, disse tilgange input gener og målgenet sæt og klasser blot som

lister

og ikke indarbejde i deres modeller topologi via hvilken gener i disse klasser interagere med hinanden. Andre populære kommercielle tiltag, såsom Ingenuity Pathway Knowledge Base (Ingenuity Inc., Californien) eller PathwayAssist (Ariadne Genomics, Californien) også identificere kendte veje som aktiv baseret på HTBD blot ved at overveje antallet af gener deles af input listen og target pathway. Alle aferomentioned metoder bruge nogle variation af de vigtigste idé, at en funktionel klasse er relevant for den observerede HTBD hvis klassen har en statistisk signifikant mængde af input gen listen.

Vi har for nylig foreslået en tilgang, der kaldes Bayesian Pathway analyse (BPA), til analyse HTBD hjælp BNS [8]. Inden for rammerne BPA kendte veje er modelleret som BNS og forarbejdede HTBD bruges til at score hvert netværk at vurdere dets egnethed til den observerede data; opnå en arbejdsgang, der inkorporerer i sin model topologi veje. Der har siden været tilgange, modellerer vejen topologi til en vis grad i analysen af ​​HTBD [9] – [14]. Med hensyn til generel anvendelighed og direkte relation til produktionen af ​​BPA, har vi brugt signalvejen Impact Analysis (SPIA) [15] i vore sammenligninger. SPIA kombinerer GSA baseret pathway aktiveringsforanstaltning med en hidtil ukendt pathway perturbation score, som afspejler hvor høj grad dereguleringen af ​​generne i reaktionsvejen er i overensstemmelse med de i signalering hierarki.

I BPA tilgang, veje er hentes fra Kegg databasen [16]. Hver post (node) i forløbet kobles til en intern unikt ID og en konvertering modul udfører den nødvendige mapping mellem input genekspression ID’er og vejen node id’er. Gentagelse poster i vejen flettes og repræsenteret som en enkelt node, mens bevare kant relationer. BN teori udnytter Orienteret Acyklisk Graf (DAG), men der kan eksistere cyklusser i de biologiske veje. Dette er overvundet ved hjælp Spirtes ‘metode, hvor graf repræsentationer af strukturelle ligning modeller [17] konverteres til sammenfaldne acykliske grafer således at d-separationer i den kollapsede graf medfører de samme om uafhængighed relationer defineret af modellen. Til dette formål er en biologisk vej modelleret som en BN, som nu kan testes mod inputdata at vurdere dens egnethed.

BPA antager en to-gruppe (f.eks tilfældet vs. kontrol) normaliserede genekspression data som input. Observationen matrix til at score hver DAG opnås ved at generere de fold ændring (FC) værdier for hvert par af prøver i de to grupper. I denne matrix, kolonner repræsenterer gener i DAG og rækkerne repræsenterer parvise sammenligninger. Hvis der er

N

1

og

N

2

prøver i de to grupper, observation matrix består af

N

1 × N

2

rækker. Hver søjle repræsenterer FC for det tilsvarende gen i hver af de

N

1 × N

2

parvise sammenligninger. Disse kontinuerlige FC værdier diskretiseres ved anvendelse af en afskæring på 2. Hvis FC værdien er større end 2 eller mindre end 0,5 (dvs. genet dereguleret), omdannes det til 1, og ellers det omdannes til 2.

i hvor høj grad en sti forklarer givet HTBD måles ved hjælp af Bayesian Dirichlet tilsvarende (BDE) score med tilsvarende stikprøvestørrelse metode [18]. I denne fase er det BN opdateret med den observation matrix under beregningen score. Statistisk signifikans af denne måling vurderes ved at teste den mod datasæt genereret ved at anvende randomisering via bootstrapping, hvor den observerede score klassificeret mod scoringer opnået fra randomiserede datasæt. Bootstrapping påføres søjlerne i observation matrix tilvejebringer en randomisering af rækkerne, som anvendes i scoring. Resultaterne vurderes i forhold til nominelle p-værdier og falsk opdagelse sats (FDR) værdier korrigere for flere hypoteser test.

I dette papir, vi har to grundlæggende mål. Vores første mål er at forbedre den BPA-systemet ved hjælp af følgende strategier. For at optimere diskretiseringen fase, forsøgte vi samme bredde, samme frekvens, K-midler, Række K-midler, Tovejs K-midler og Automatiske Threshold Diskretisering [19], [20] Ud over den hårde-cut -off niveauer tilbydes af BPA. I scoring fase vi anvendt Akaike Information Criterion (AIC) [21], Bayesian Information Criterion (BIC) [22], og faktoriserede Normaliseret Maximum Likelihood (fNML) [23], og sammenlignet resultaterne med BDE scoring ordningen. Betydningen Vurderingen fase blev ændret, således at tilfældige datasæt blev opnået ved genet signalniveau. I denne tilgang, er prøver i hver af de to klasser tilfældigt permuteret at give nye datasæt [24]. Hver ny datasæt (med nye klasse opgaver for hver prøve) køres gennem hele arbejdsgangen og en score værdi beregnes. Denne måde, vi overvinde de tilfælde, hvor den nuværende BPA tilgang undlader at give randomiserede datasæt. Ved at teste disse nye tilgange, der genereres vi syntetisk microarray data, der simulerer genekspression fra

N

veje, hvor en delmængde,

N

en

, af disse veje er aktiv. Et kriterium præstationer vurderes ved nøjagtigheden af ​​forudsige aktive og passive veje. Ud over at forbedre hukommelsen og CPU-forbrug af algoritmen, tilføjede vi også nye organismer, for hvilke der kan anvendes af BPA, og vi giver en webportal på https://bioinfo.unl.edu/bpa/der er vært for stand- alene version af den optimerede software sammen med en tutorial og eksempel datasæt.

Vores andet mål i denne undersøgelse er at anvende den forbedrede pathway analyse tilgang på virkelige kræft datasæt. Til dette formål, vi hentede real microarray datasæt fra NCBI s GEO database vedrørende blære, hjerne, bryst-, tyktarms-, lever, lunge, æggestokkene og skjoldbruskkirtelkræft. Vi undersøgte de veje, der er almindeligt identificeret som aktiv i disse forskellige cancer microarray datasæt.

Metoder

Klasse Label Permutation

I den oprindelige BPA-systemet, observation af data matrix for BN scoring er sammensat af de to-niveau diskretiseres FC niveauer for generne i netværket for at blive scoret. I hvilken grad en sti forklarer givet HTBD måles ved hjælp af “Bayesian Dirichlet tilsvarende” (BDE) scorer og den statistiske signifikans af denne måling vurderes ved randomisering via bootstrapping, hvor den observerede score er rangeret mod scoringer opnået fra randomiserede datasæt. Randomiserede datasæt opnås ved at ændre strukturen i kolonnerne i observation matrix via sampling med udskiftning af hver kolonne for sig.

I tabel 1, viser vi to eksempler forekomster af sådanne input matricer. Her, kolonner angiver generne og rækker angiver den parvise sammenligning af prøverne i de to prøvegrupper (fx cancer vs. normal). Den aferomentioned randomisering metode (oprindeligt ansat af BPA) arbejder med succes, når en observation matrix som i tabel 1 (a) er tilfældet, når en given kolonne ikke kun bestå af én type observation. Men hvis observationen matrix viser sig at være som i tabel 1 (b), hvor kolonner repræsenterer kun én type observation, randomisering kolonner af observationen matrix vil ikke resultere i nogen ændring. Derfor vil de opnået ved randomiserede datasæt scoringer være den samme, hvilket gør betydningen vurdering næsten umuligt at opnå. Det er muligt at opnå matricer som i sidstnævnte tilfælde, dvs. en matrix, hvor en given kolonne kun består af det samme niveau, når et gen viser samme grad og retning af skift mellem de to klasser. Med andre ord, hvis et gen i en given vej er konsekvent to eller flere FC opreguleret i en klasse versus den anden, ville vi ende med at have kolonnen for dette gen til kun består af det samme diskretisering niveau.

for at overvinde dette problem, vi anvendte permutation tidligere beskrevne fremgangsmåde til randomisering genekspression datasæt [24]. Denne randomisering gøres ved at udskifte de prøver af hver klasse tilfældigt. Antag, at vi har et datasæt bestående af 10 normale og 10 kræft prøver. I et tilfælde af permutation, for eksempel 3

rd, 5

th, og 6

th normale prøver erstattes med 1

st, 7

th, og 9

th cancer prøver. Observationen matrix dannes ved parvise sammenligning af de signalværdier over nye orden af ​​to klasser efterfulgt af diskretisering. Denne procedure gentages

B

tider og pathway scoringer beregnes ved hjælp af diskretiserede matricer. Som et resultat, kan den statistiske signifikans af den observerede score vurderes nøjagtigt via ranking mod scoringer opnået fra forskellige observation matricer genereret af disse

B

randomiserede datasæt. Hvis score på en given vej er Sn, er dens p-værdi vurderes ved hjælp af hvor

I (a)

er en hvis

en

er “sand” og 0 ellers. Betydningen af ​​hver vej rapporteres som dette nominel p-værdi og den tilsvarende falske opdagelse sats (FDR) beregnet ved hjælp af Benjamini-Hochberg procedure [25]

Diskretisering

BPA udnyttet en diskretisering metode således at den løbende FC værdi repræsenteres som 1, hvis det er større end 2 eller mindre end ½ (dvs. et gen dysreguleret), og som 2 ellers. En anden anvendelse af 2-niveau diskretisering er at vælge en cut-off værdi på 3, dvs. at FC repræsenteret som 1, hvis dens værdi er større end 3 eller mindre end 1/3, og som 2 ellers. I 3-niveau diskretisering med cutoff værdien 2 er fold ændring repræsenteret som 1, hvis dens værdi er større end 2, som 2, hvis mindre end ½, og som 3 ellers. I 3-niveau diskretisering med cut-off værdi på 3, er folden forandring repræsenteret som 1, hvis dens værdi er større end 3, som 2, hvis mindre end 1/3, og som 3 ellers.

I denne undersøgelse, foreslår vi nye diskretisering metoder [19], [20], som skal anvendes i behandlingen af ​​de observerede fold ændre værdier til brug ved Bayesianske scoring målinger. En

N

-by-

M

matrix

E

bruges til at betegne den observerede FC matrix, hvor

N

er antallet af parvise sammenligninger og

M

er antallet af gener.

E (n, m)

betegner FC værdi sammenligning

n

for genet

m

.

E (n, 🙂

betegner FC data sammenligning

n

for alle gener og

E (:, m)

betegner FC data gen

m

for alle sammenligninger.

Equal Bredde Diskretisering (EWD).

EWD opdeler observation matrix rækken

n

k

intervaller i af samme bredde mellem

E (n,:)

min

E (n,:)

max

. Således intervallerne sammenligning

n

har bredde

w

=

(E (n,:)

max

E (n,:)

min)

/

k

, med grænsen peger på

E (n,:)

min + w, E (n,:)

min + 2w, … , E (n,:)

min + (k – 1) w

hvor

k

er et positivt heltal

Lige Frequency Diskretisering (EFD)

..

EFD opdeler sorteres

E (n, 🙂

ind

k

intervaller, således at hvert interval indeholder det samme antal FC værdier.

K-betyder Diskretisering .

K-betyder skel

E (n, 🙂

ind

k

mellemrum af k-betyder clustering, så lignende FC værdier for sammenligning

n

er placeret i samme interval

Kolonne K-midler Diskretisering (Co-k-midler)

Co-k-betyder skel

E.. (:, m)

i

k

mellemrum af k-betyder clustering, så lignende FC værdier for genet

m

er placeret i samme interval.

Tovejs K-betyder Diskretisering (Bi -k-midler).

i det bi-k-betyder metode både k-midler og co-k-midler henholdsvis implementeret med parameteren

k + 1

, give hver FC værdi to diskretiserede værdier. Hvis produktet af de to værdier er lig med eller større end

x

2

, og mindre end

(x + 1)

2

den endelige diskretiserede værdien af ​​denne udtryk værdi

x

, hvor

x

er et positivt helt tal fra

1

til

k

.

Automatisk Threshold Diskretisering .

der er to muligheder for automatisk tærskel diskretisering, som iterativt bestemmer cut-off-værdier ved at minimere variansen. Hele FC data

E

er opdelt i to mellemrum i henhold til en bestemt grænseværdi i den globale løsning. Den lokale mulighed for denne metode skel

E (:, m)

i to intervaller i henhold til cutoff-værdier, der er defineret for hver kolonne (gen) separat

Scoring

I. Ud over den BDE scoring ordningen, foreslår vi følgende score metrics, der skal anvendes i BPA-systemet.

Akaike Information Criterion (AIC).

AIC er en af ​​de mest almindeligt anvendte kriterier information , som vælger den model, der minimerer den negative sandsynlighed straffet med antallet af parametre [21]: hvor er den maksimale sandsynlighed for modellen

M

,

D

observeres data, og p er antallet af parametre i modellen.

Bayesian Information Criterion (BIC).

BIC er en anden udbredte kriterier for og i modsætning til AIC, BIC er konsistent og forbedrer i ydeevne med store stikprøvestørrelser [ ,,,0],22]. BIC er defineret som:..

BIC forskellig fra AIC kun i den anden periode, som afhænger af prøvens størrelse

N

faktoriserede Normaliseret Maximum Likelihood (fNML)

Silander et al. [23] udviklet fNML score baseret på den normaliserede maksimal sandsynlighed (NML) fordeling [26], [27]. Givet et datasæt

D

, udvælgelse model kriteriet NML vælger modellen

M

for hvilket er største. hvor normaliseringen sker frem for alle datasæt

D ‘

af samme størrelse som

D

. Efter at have taget logaritmen, scoren er i en form for straffet log-sandsynlighed givet

G

= {

G

1

, …,

G

m

} som moderselskabet sat i DAG (dvs.

G

jeg

er moderselskab sæt af noden

X

jeg

i DAG): hvor normaliserende sum går over alle de mulige

D

jeg

søjlevektorer. Selvom straffen sigt har en eksponentiel antal udtryk, kan det vurderes effektivt anvendelse af en lineær-tid algoritme indført i [28]. Ved at beregne straffen betegnelse for hver variabel i datasættet, bliver NML faktoriserede.

Datasæt

Vi genererede syntetiske transkriptionelle regulerende net og produceret simulerede genekspression data med støj ved hjælp SynTReN v1.12 [29]. Vi skabte 55 syntetiske net, der efterligner biologiske veje med størrelser fra 7 til 200. Vi valgte tilfældigt 20 ud af 55 veje til at være aktiv og SynTReN genereret de tilsvarende udtryk datasæt for 20 test- og 20 kontrolprøver med 2249 gener tilføje en 4% støj niveau.

for at teste optimeret og forbedret BPA præstationer på virkelige datasæt, brugte vi en blære, 2 hjerne, 2 bryst, en tyktarm, 2 lever, en lunge, en æggestokkene, og 2 kræft i skjoldbruskkirtlen datasæt . Ved valget af de datasæt, vi fast platform til at være Affymetrix at forebygge fordomme og brugte datasæt, hvor tumor og normale prøver er klart definerede og kræft prøverne er så ensartet som muligt. De fleste af de chip data kom fra Affymetrix HG-U133 Plus 2,0 GeneChip, som er sammensat af mere end 54.000 probe sæt repræsenterer over 47.000 udskrifter giver et samlet billede af den menneskelige transkriptom. Andre chip typer omfatter HG-U133A og HG-U133A_2, som repræsenterer ca. 22.000 probesets. Før anvendelse af den foreslåede fremgangsmåde, har rå microarray data blevet normaliseret ved hjælp Affymetrix Microarray Analyse Suite (MAS) 5,0 algoritme [30].

For hvert datasæt, vi anvendte den foreslåede analysemetode med 1000 permutationer og vurderet væsentlige veje med en nominel p-værdi på 0,05 og en FDR på 0,25.

Resultater

i tabel S1, en liste over de nøjagtighed niveauer (hvis et netværk er korrekt kaldes aktiv /inaktiv) af de forskellige diskretisering for 10 simulerede datasæt (D

1-D

10). Ifølge resultaterne af simulationen, den bedste diskretisering metode er 2-niveau k-midler diskretisering påført rækkerne af observation matrix. Denne tilgang opnår en nøjagtighed på 0,962 ± 0031. Derfor er 2-niveau k-means metode anvendes som diskretisering samtidig i de eksperimenter for at bestemme den bedste scoring kriterium.

datasæt, som anvendes til udførelsen måling af diskretisering metoder, anvendes også til vurdering af scoring metoder. De opnåede forudsigelse nøjagtigheder er anført i tabel 2. Ifølge resultaterne af simulationen, den bedste scoring metode er fNML metoden, som vurderer, om en vej er aktiv eller ej med en nøjagtighed på 0,984 ± 0016. Derfor 2-niveau k-betyder anvendes diskretisering og fNML scoring metoder til dataanalyse virkelige microarray da denne kombination opnået den højeste nøjagtighed.

I tabel 3 vi en liste over de 12 reelle kræft microarray datasæt (GEO tal, cancertyper, og antal af prøver), og antallet af veje identificeret som aktiv ved BPA og SPIA analyser. I tabel S2 og S3, en liste over den komplette liste af veje skønnes aktiv af BPA og Spia metoder for hver ægte cancer microarray datasæt, hhv. I alt BPA identificeret 171 veje der er blevet fundet signifikant i mindst én af datasættene. 15 af disse veje har vist sig at være signifikant i mindst halvdelen af ​​datasættene og derfor potentielt repræsenterer mekanismer fælles for forskellige typer kræft (se tabel S2).

Vi undersøgte også ensartethed i betydelige veje i cancertyper repræsenteret af to datasæt undtagelse af thyroidcancer, hvilket har resulteret i meget få væsentlige veje. Disse resultater til BPA-analyse er opsummeret i figur 1. I tilfælde af hjerne og leverkræft datasæt, de fælles veje består af 52% og 59% af datasættet med mindre antal veje. I brystkræft datasæt, ser vi en mindre grad af enighed (-31%). Disse fællestræk er 60%, 41%, og 52% for de hjernen, bryst, og lever datasæt, henholdsvis ved hjælp af SPIA analyse. Men SPIA bruger en delmængde af de undersøgte af BPA-systemet veje. Når vi betragter kun de veje i SPIA databasen fællestræk i BPA-analyse er 73%, 45%, og 71% for hjernen, bryst og lever datasæt, henholdsvis.

I figur 2, en liste over antallet af veje, som de to analysemetoder, når vejen databasen er begrænset til den, der anvendes af SPIA. I gennemsnit er antallet af veje fundet at være signifikant aktive ved begge metoder er omkring 60% af de veje i algoritmen med den mindre antal aktive pathways.

Selvom det forbedrede BPA systemet udkonkurrerede den gamle BPA-system på syntetiske datasæt (data ikke vist), sammenlignede vi effektiviteten af ​​begge metoder på virkelige cancer microarray data. Listen over veje anses signifikant ved det gamle BPA systemet er repræsenteret i tabel S4. Den gamle BPA analyse viste 127 pathways aktive i mindst én af kræft datasæt og 18 af de veje fandtes at være fælles for mindst halvdelen af ​​datasættene. I tabel S5, vi liste antallet af veje identificeret som aktiv af både BPA-systemer og angive antallet af veje almindeligvis identificeret ved de to metoder på de enkelte kræft datasæt.

Disse resultater på de reelle kræft datasæt ( tabeller S4 og S5) viser, at det gamle BPA systemet ikke udvise konsekvens for nogle af de datasæt (f.eks 57 vs. 1 pathway identificeret ved den nye vs. gamle PBA i “blære” datasæt; 16 vs. 3 veje identificeret ved den nye vs gamle PBA i “bryst” datasæt, 58 vs. 0 vej identificeret af den nye vs. gamle PBA i “lunge” datasæt, og 10 vs. 0 vej identificeret af den nye vs. gamle PBA i den “thyreoidea” datasæt). Vi mener, at dette skyldes primært permutationen testmetode indført i den nye BPA-system, hvor det gamle system ikke generere randomiserede datasæt i veje, der viser en konstant fold ændre retning for sine medlemmer (se tabel 1). Nogle af performance forbedringer kan tilskrives de optimerede diskretisering og scoringsmetoder indarbejdet i den nye BPA system. De gamle og nye BPA sytems viser i gennemsnit en 28% overlapning mellem veje er identificeret i hvert datasæt. Dette niveau af aftale er betydeligt lavere end den observeret mellem de nye BPA og Spia metoder, som viste 60% overlap i gennemsnit. Desuden opnåede vi en 25% overlap i gennemsnit mellem de gamle BPA og Spia metoder, når vejene er identificeret for hver rigtige kræft microarray datasæt ved de to metoder blev overvejet.

Vi anvendte også den forbedrede BPA-metoden på NCI-60 cancercellelinie microarray datasæt anvendes ved beskrivelse af Gene Set Enrichment Analysis (GSEA) metoden [31]. Datasættet indeholder microarray resultater (kører på Affymetrix HGU95Av2 platform) for 50 af de NCI-60 cellelinjer (www.broadinstitute.org/gsea/datasets.jsp~~number=plural). Vi anvendte dette datasæt til at identificere veje deregulerede efter en mutation i tumoren suppressor p53-genet. Ud af de 50 prøver, 17 er vild type og 33 carry mutationer i p53-genet. De veje er identificeret som aktiv af BPA på grund af de mutationer i p53, er anført i tabel 4.

Diskussion

Vores syntetiske datasimulationer identificeret k-betyder clustering som de bedste resultater diskretisering metode . Vi finder dette resultat rimeligt som k-midler anvender fordelingen i de data, at minimere den samlede gennemsnitlige kvadrerede fejl med hensyn til de diskretiserede værdier og de reelle FC forekomster. Også baseret på de syntetiske dataresultater, den scoring metode, der gav den højeste nøjagtighed var den faktoriserede normaliseret maximum likelihood (fNML) score [23]. Dette resultat blev også forventet, da det har vist sig, at BDE scoring ordningen er meget følsom over for valget af tidligere hyper-parametre og AIC og BIC kræver nogle manuelle parameterindstilling og fungerer ikke godt med små datasæt, som undertiden er tilfældet med HTBD [32]. fNML på den anden side er en informationsteori baseret optimeret scoring metode, der ikke har nogen indstillelige parametre.

I analysen virkelige microarray data ved hjælp BPA, den sti, der kom ud i de fleste af de data kræft sætter så meget aktiv ( 8/12) er Celleadhæsionsmolekyler (CAM’er) pathway. CAM’er er placeret på celleoverfladen og deltage i aktiviteten af ​​et cellebindende med andre celler. En af de primære funktioner i cancerceller er ukontrolleret vækst, hvor cellerne er immune over for tæthed inhibering. Cancerceller holde på dyrkning, danner flere niveauer, selv når celledensiteten forøges. Dette skyldes primært den funktionssvigt i CAM’er, som er blevet vist at spille en vigtig rolle i cancer progression [33] og forstyrrer vigtige signal-transduktion pathways [34]. Specifikt har CAM’er blevet vist at være involveret i hjernen [35], blære [36], bryst [37], lever [38], lunge [39] og skjoldbruskkirtel [40] cancer; kræft datasæt, hvor det foreslåede system fundet CAM vej som væsentligt aktiveret.

Andre veje, der skal fremhæves, er “Citrat (TCA /tricarboxylsyre) cyklus”, “supplerer og koagulationskaskaden” og “Adipocytokine signalerer “veje, der findes at være betydeligt aktiv i 7 kræft datasæt ud af 12. Citrate cyklus, også kendt som tricarboxylsyrecyklen (TCA cyklus) eller Krebs cyklus, er en del af cellulære respiration. Det er en række af kemiske reaktioner, der anvendes af alle aerobe organismer til at generere energi. Dens centrale betydning for mange biokemiske veje tyder på, at det var en af ​​de tidligste dele af cellulær metabolisme at udvikle sig [41]. En nylig undersøgelse identificeret denne cyklus som en cancer-specifik metabolisk pathway [42]. I en lang række tumorceller, herunder typerne inkluderet i vores datasæt, har det vist sig, at en mutation forårsager denne cyklus til at køre baglæns. Suppler og koagulationskaskaden vej kan forklares i to dele: komplementsystemet er et proteolytisk kaskade i blodplasma og en formidler af medfødt immunitet, en uspecifik forsvarsmekanisme mod patogener, og blod koagulation er en anden serie af proenzym-til-serin protease konverteringer . Denne vej er identificeret som væsentlig for bryst- og leverkræft typer i en funktionel cancer kort, der er blevet etableret efter en analyse af funktionelle udtryk profiler af betydeligt beriget Kegg veje på tværs af forskellige tumor enheder tildelt forskellige tumor klasser [43]. Adipocytokine-signalvejen er positivt korreleret med leptin produktion, som er en vigtig regulator af energiindtag og stofskifte. Leptin og adiponectin er de mest udbredte adipocytokines og de bedst undersøgte molekyler i denne klasse hidtil. Nylige tumor biologiske resultater om rollen som den mest fremtrædende adipocytokines leptin og adiponectin, som er involveret i tumorvækst, invasion og metastase, vise virkningerne af adipocytokines til hjerne og brystkræft [44], de kræftformer datasæt, hvor BPA-systemet fundet denne vej så markant aktiveret. Der har været andre supplerende undersøgelser, der har vist forholdet mellem adipocytokine signalvejen til lunge- og leverkræft [59], [60].

Vores syntetiske data viser, at den forbedrede BPA systemet identificerer aktiviteten af ​​en sti med over 98% nøjagtighed. Selv om der ikke guld standart ved vurderingen af ​​de aktive veje vedrørende de reelle microarray data for en bestemt fænotype, har BPA reproducerbarhed i de samme typer kræft været over 50% i gennemsnit. Når pathway databasen er begrænset til den, der anvendes af SPIA, denne reproducerbarhed overstiger 70%. Endelig, når alle de kræft datasæt betragtes, aftalen mellem de to metoder er omkring 60%. I betragtning af den tekniske og biologisk variation, en så høj grad af overlapning mellem forskellige pathway analyse ordninger er meget lovende.

I et forsøg på at identificere patways bestemte type kræft, vi undersøgte veje, der er konsekvent findes at være aktive for de samme typer kræft (og ikke-aktiv for de andre typer kræft) ved nuværende BPA-systemet. For kræft i hjernen, “Parkinsons sygdom vejen (hsa05012)” blev fundet aktiv i både hjernen kræft datasæt, og kun i en af ​​de resterende 10 kræft datasæt. Parkinsons sygdom (PD) er en af ​​de mest almindelige neurodegeneretive lidelser forbundet med celletab i substantia nigra regionen midthjernen [45]. For nylig har der været undersøgelser, der forbinder de molekylære mekanismer og genetiske dispositioner af sygdommen til kræft. Mutationer i PARK2, en af ​​de mest almindelige årsager til tidlig indtræden PD, har vist sig at spille en central rolle i glioblastomer [46], der udviser ændringer i næsten identiske rester i både PD og kræft hjerne prøver. Identifikation af denne vej som aktiv næsten entydigt og konsekvent i kræft hjerne datasæt indebærer, at BPA kan identificere biologisk meningsfulde veje baseret på den underliggende HTBD. I leverkræft datasæt, “Biotin metabolisme (hsa00641)” og “3-chloracrylsyre nedbrydning (hsa00780)” veje viste sig at være aktiv kun i de to lever datasæt.

Be the first to comment

Leave a Reply