PLoS ONE: Forudsigelse og Test Biologisk Networks Underliggende tarmkræft

Abstrakt

Tyktarmskræft skrider frem gennem en ophobning af somatiske mutationer, hvoraf nogle bor i såkaldte “driver” gener, der giver en vækst fordel tumoren. At identificere skæringspunkter mellem fører gen veje, vi implementeret en netværksanalyse, der anvender protein interaktioner at forudsige sandsynlige forbindelser – både præcedens og roman – mellem centrale driver gener i cancer. Vi anvendte rammer for at finde signifikante sammenhænge mellem to gener,

Apc

Cdkn1a Hotel (

p21

), kendt for at være synergistisk i tumorigenese i musemodeller. Vi vurderede derefter den funktionelle sammenhæng i den resulterende

Apc-Cdkn1a

netværk ved engineering

in vivo

enkelt node forstyrrelser i netværket: musemodeller muteret individuelt ved

Apc

(

Apc

1638N +/-

) eller

Cdkn1a Hotel (

Cdkn1a

– /-

), efterfulgt af målinger af protein- og genekspression ændringer i tarm epitelvæv . Vi antager, at hvis den forudsagte netværk er biologisk sammenhængende (funktionelle), derefter de forudsagte knudepunkter bør associere mere specifikt med dysregulerede gener og proteiner end stokastisk udvalgte gener og proteiner. Den forudsagte

Apc-Cdkn1a

netværk var signifikant forstyrret på mRNA-niveau ved både enkelt gen knockouts, og forudsigelserne blev også kraftigt støttet baseret på fysisk nærhed og mRNA coekspression af proteom mål. Disse resultater understøtter den funktionelle sammenhæng i det foreslåede

Apc-Cdkn1a

netværk, og også viser, hvordan netværksbaserede forudsigelser kan statistisk testet ved hjælp af høj-throughput biologiske data

Henvisning:. Patel VN, Bebek G, Mariadason JM, Wang D, Augenlicht LH, Chance MR (2010) Forudsigelse og Test Biologisk Networks Underliggende tarmkræft. PLoS ONE 5 (9): e12497. doi: 10,1371 /journal.pone.0012497

Redaktør: Chad Creighton, Baylor College of Medicine, USA

Modtaget: Maj 16, 2010; Accepteret: 26 Juli 2010; Udgivet 1. september, 2010

Copyright: © 2010 Patel et al. Dette er en åben adgang artiklen distribueres under betingelserne i Creative Commons Attribution License, som tillader ubegrænset brug, distribution og reproduktion i ethvert medie, forudsat den oprindelige forfatter og kilde krediteres

Finansiering:. Dette arbejde er blevet støttet af National Institutes of Health Tilskud UL1-RR024989 fra National center for Research Resources (Kliniske og Translationel Science Awards) og P30-CA043703 fra Case Western Reserve University Comprehensive Cancer center. De finansieringskilder havde ingen rolle i studie design, indsamling og analyse af data, beslutning om at offentliggøre, eller forberedelse af manuskriptet

Konkurrerende interesser:.. Forfatterne har erklæret, at der ikke findes konkurrerende interesser

Introduktion

de fleste nonhereditary kolorektale tumorer opstår via den sekventielle ophobning af mutationer i vigtige driver gener, hvor en mutation i en tumor suppressor (f.eks

Apc

) eller onkogen (f.eks

Kras

) initierer processen, og en kaskade af somatiske mutationer ensues [1]. Selv om disse mutationer klassisk blev anset for at være omfattet af nogle få gener (f.eks

Apc

Kras

Trp53

), seneste store sekventering indsats viste, at en given tumor omfatter (i gennemsnit) 80 mutationer, med så mange som 15 liggende i hyppigt muterede “driver” gener [2]. Til støtte for den hypotese, at disse centrale gener fungerer kooperativt i kørsel tumorigenese, musemodeller muteret ved to driver gener samtidigt har vist en synergistisk stigning i tumor byrde, herunder:

PTEN-Apc

[3],

Kras-Tgfb

[4], og

Apc-Trp53

[5]. Beviset for synergistisk, dvs. ikke-additiv, stigninger i tumorbyrde antyder, at signalveje af to muterede gener kan skærer nedstrøms, og dermed forudsige og spørgekriterierne disse skæringspunkter –

som en biologisk netværk

– er af væsentlig interesse. For at spore sammenhænge mellem gener, en række high-throughput datasæt – f.eks protein-protein interaktioner (PPI), gen-co-ekspression og transskription faktor relationer – er blevet ansat til at udlede funktionelle foreninger, der egner sig til analyse som netværk, hvor hvert gen eller protein er repræsenteret som en node og en interaktion som en kant. Desuden kan netværksbaserede analyser anvendes til at identificere biomarkører [6], til at forudsige tumor progression [7], eller at afsløre de molekylære forandringer underliggende sygdom [8].

Men vores nuværende viden om biologiske netværk er langt fra afsluttet. Dækningen af aktuelle interactome databaser skønnes at være mindre end 10% af det samlede antal interaktioner [9]. Således når interpolere forbindelserne mellem driver gener, kan netværksbaserede analyser, der udelukkende stole på bekræftede interaktioner mangler væsentlige forbindelser. Som ét mål for vores forskning er at forudsige og analysere de funktionelle stier mellem chauffør gener, et afgørende skridt var at udvikle en prædiktiv rammer til at udlede og evaluere nye forbindelser mellem gener. Den her foreslåede ramme (inspireret af Pathfinder [10]) udleder mangler kanter ved hjælp af forudsigelser fra protein familieforhold og filtrerer disse stier baseret på kendte forening regler. På den anden side, da en cancer gen deltager i multiple signalveje, kan der være snesevis – hvis ikke, hundreder – af veje for to proteiner funktionelt interagere. Således er en beregningsmæssige tilgang nødvendig for at begrænse netværket plads til den specifikke biologiske sammenhæng af interesse. At udvinde funktionelt relevante undernet, rammen registrerer højst sandsynlige signalveje baseret på gen-gen-mRNA coekspression og Gene ontologi [11] forening regler udvindes fra publicerede veje.

Vi brugte beregningsmæssige metode til at belyse sammenhænge mellem en velkendt driver gen af tarmkræft,

Apc

(

adenomatøs polypose coli

), til et andet gen også involveret i kræft,

Cdkn1a Hotel (tidligere kendt som

p21

). Selvom

Cdkn1a

blev ikke fundet at være muteret i populationer af humane kolorektal kræft undersøgt til dato [2], dens udtryk niveauet korrelerer med neoplastisk progression og har en prognostisk værdi større end

Trp53

[12]. Yderligere støtter dens betydning i neoplasi, den dobbelte mutant mus,

Apc

1638N +/- Cdkn1a

– /-

, udviser en synergistisk stigning i tumor byrde [13]. Efter forudsige netværk mellem

Apc

Cdkn1a

, vi vurderet relevansen af disse forudsigelser ved at manipulere det underliggende system: generere

in vivo

netværk forstyrrelser i to musemodeller, efterfulgt af systemer-niveau ‘OMIC målinger fra tyndtarmens epitel. De “OMIC målinger – både proteom og genomiske – i det perturberede systemet blev anvendt til statistiske test af den forudsagte netværk, og dermed indføre begrebet evaluere

i silico

forudsigelser mod kontekst-specifikke biologiske data

Materialer og metoder

Network Analysis Framework

netværksanalyse ramme (illustreret i figur 1, og forklaret i Metoder S1) beskæftiger PathFinder arkitektur skitseret tidligere [10]. Den rå netværk af offentligt tilgængelige fysiske interaktioner først beskæres af falske positiver under anvendelse af en logistisk regressionsmodel, der inkorporerer (i) det antal gange der observeres en PPI, (ii) Pearson korrelation af ekspressionssystemer målinger for de tilsvarende gener, (iii) proteinerne ‘lille verden clustering koefficient, og (iv) proteinet subcellulære lokalisering data for interagerende partnere. Positive (1000 PPI’er fra MIPS [14] database af interaktioner) og negative uddannelse datasæt (1000 tilfældigt udvalgte PPI’er, der ikke er i MIPS) anvendes i 1000 på tværs af validering forsøg for at erhverve de parametre, der maksimerer sandsynligheden for en sand interaktion .

processen begynder med en to-trins filtrering proces at tage højde for falske positiver og falske negativer i Interaktionsdatabasen. Efter valg føreren gener af interesse, er veje forudsagt og derefter beskæres ved hjælp af både GO sigt foreningens regler og gen-gen-coekspression værdier. Endelig er de betydelige pathway segmenter under at nå frem til et netværk, der forbinder de to driver gener. Rammerne indeholder vævsspecifik mRNA coekspression på to niveauer: i den parvise filtrering af falske positiver; og i filtrering af stier ved gennemsnitlig co-ekspression. Den logistiske regressionsmodel er uddannet på guld-standard interactome databaser (se Metoder S1 for yderligere detaljer).

Falske negative interaktioner udledte hjælp sekvens homologi relationer. Det blev observeret, at proteiner med lignende sekvenser deler lignende interaktion partnere i den samme organisme [15], og dermed proteiner fra den samme familie er også tilbøjelige til at have lignende interaktion mønstre. Den Pfam database, udnytte flere sekvensopstillinger og skjulte Markov modeller (HMM’er), bruger sekvens lighed til at formulere protein familie klassificeringer [16], og tjener som et nyttigt redskab til at udnytte disse relationer. Derfor har vi udledt en interaktion kant, hvis (i) to proteiner ikke interagerer med hinanden i PPI-netværket, og (ii) der findes mindst et samspil mellem familierne til disse to proteiner.

For at identificere disse veje er relevante for vores model-system af interesse, coekspression data baseret på microarray eksperimenter fra

Apc

Min /+

mus tyndtarmens epitel blev opnået fra Gene Expression Omnibus (serie GSE422 [17]); denne undersøgelse anvendte laser-capture mikrodissektion at prøve de krypter af adenomer, karcinomer, og normal epitel. I vores implementering, brugte vi Pfam release 23.0 [16] og Gene ontologi udgivelse i august 2008 [11]. Søgningen algoritme blev udvidet til at finde veje op til 6 knuder i længden, og tærsklen for den gennemsnitlige coekspression af veje var.

Mus tarmepitelet Isolering

Alle dyr blev håndteret i nøje overensstemmelse med god dyr praksis som defineret af de relevante nationale og /eller lokale dyrevelfærd organer, og alle dyr arbejde blev godkendt af Institutional Animal Care og brug Udvalg (IACUC) af Albert Einstein College of Medicine (tilladelse nummer 20.070.805).

Apc

1638N +/-

Cdkn1a

– /-

C57BL6 /J-mus blev frembragt som beskrevet tidligere [13] og vævsprøver blev høstet under anvendelse af fremgangsmåden beskrevet af Weiser et al, hvilket resulterer i krypt og villus populationer af celler fra tyndtarmen af

APC

1638N +/-

Cdkn1a

-. /- iBooked.dk, og vild-type mus [18].

2D Differential I gelelektroforese

2D Differential I gelelektroforese (2D-DIGE) blev udført som tidligere beskrevet [19]. Differentielt udtrykte proteiner fra krypt og villus fraktioner blev identificeret i mutant mus (

Apc

1638N +/-

Cdkn1a

– /-

) i forhold til de respektive fraktioner fra vildtlevende -type mus (4 replikater hver). Univariate t-test (ulige varianser og lige stikprøvestørrelser) og multivariat lineær regression (kodet i R-pakken LIMMA [20]) blev udført. Gel pletter blev udvalgt til LC-MS /MS identifikation baseret på disse to t-statistik på 0,05 signifikansniveau.

gel spots blev udskåret, trypsin fordøjet, og peptiderne blev efterfølgende analyseret ved tandem LC-MS /MS på en LC Pakninger /Dionex Ultimate 3000 HPLC-Orbitrap XL (Finnigan, San Jose, Californien) systemet [19]. For fortolkning af MS /MS spektre blev MASCOT software pakke, der bruges til at søge i SwissProt databasen; en null database af reverserede peptidsekvenser blev søgt samtidigt at tage højde for falske positiver. Identificerede proteiner er anført i tabel S1. Mascot DAT filer er blevet gjort offentligt tilgængelig via Proteomics identifikation Database [21], tiltrædelse nummer 10638.

genekspressionsprofilering

Microarray undersøgelser for krypt og villus befolkninger mod

Apc

1638N + /

–

Cdkn1a

– /- iBooked.dk, og vildtype-mus (4 replikater hver) blev udført på Affymetrix Mouse Genome 2,0 chips ifølge offentliggjorte procedurer [22] . Alle data er MIAME kompatibel og er blevet gjort offentligt tilgængelige de rå data via kompatibel database MIAME, Gene Expression Omnibus [23], tiltrædelse nummer GSE19338.

Netværk mRNA Analysis

Raw .CEL filer blev behandlet i Matlab ved hjælp af den Robust Multiarray Gennemsnitsperiode procedure [24]. At beskæftige sig med multiple prober indfange forskellige aspekter af et genprodukt adfærd, vi brugte alle prober til at repræsentere et gen. Således i den følgende analyse, hver

Apc-Cdkn1a

netværk node,

jeg

, var repræsenteret ved

jeg

sonder på array, hvilket resulterer i en matrix af størrelse

, hvor og. For at afgøre, om

Apc-Cdkn1a

netværksnoder blev kollektivt udtrykkes forskelligt i et væv rum (krypter eller villi), udvidet vi Hotelling s

statistik – en klassisk tilgang nyttig til test gen grupper [25] – at indarbejde flere eksperimenter, som følger: hvor er vektor af gennemsnitlige mRNA intensitet for alle de

sonder for en genetisk baggrund,

, hvor (

Apc

angiver

Apc

1638N +/-

;

Cdkn1a

angiver

Cdkn1a

– /-

, og

indikerer vildtype C57BL6 /J).

er den absolutte værdi af den fordomsfri samleprøve kovarians matrix for hver mutant: Hvor

Mutant

kan henvise til enten

Apc

1638N +/-

eller

Cdkn1a

– /-

, og den absolutte værdi i

bruges til at undgå imaginære komponenter, når du tager den inverse roden af

i. Det skal bemærkes, at sonder, der svarer til

Apc

Cdkn1a

selv blev udelukket, da disse forventes at have værdier ekstremt lave intensitet (i de respektive mutanter), som ville forvrænge den opfattede samlede netværk effekt. I, forskellen på midler, for hver mutant kan være positiv eller negativ for en sonde

jeg

, så i modsætning til

kan være enten positiv eller negativ.

i betragtning af at, prøve kovarianskomponenter skøn er ikke positiv konkret, og dermed det omvendte er ental. For at omgå dette problem, vi indstille alle kovarianser nul for første beregning af

og derefter beregne betydningen af

ved hjælp af en permutation test (dvs. stokastisk generere nye “

mutant

” og “

vildtype

” fænotype etiketter), således at beskytte det underliggende kovarians struktur i null distribution. Indstilling af off-diagonal elementer af

til nul forenkler

til: Således

er simpelthen summen af produktet af det afvejede t-statistik beregnet for hver probe, i hver af de to eksperimentelle forstyrrelser. Da antallet af prøver var små (for mutant og vildtype, hver), blev tilfældig støj tilsat til hver permuteret matrix for at opnå en interpoleret og glattede empirisk null distribution; standardafvigelsen,, af støjen for hver probe,

, i den genetiske baggrund,

, blev estimeret ved prøvens standardafvigelse af hver probe. 10000 sådanne permutationer blev beregnet til at opnå de null distributioner, som -Som forventet – ligne F-distributioner (se figur S1). Da

Apc

Cdkn1a

er både tumorsuppressorer og hypotese at påvirke vores netværk af interesse på en lignende måde, forventer vi, at t-statistik til at variere i samme retning, hvis nulhypotesen ( af noget fælles effekt) skal afvises. Derfor har vi beregne

-værdi af

som antallet af null observationer større end vores observerede værdi af

. Beregning af

-værdi for den negative hale af fordelingen ville være nyttigt, hvis der blev forventes forstyrrelser at have modsatte molekylære virkninger (f.eks

Apc

+/-

parret med en

Stat3

+/-

hypomorph).

Mens vi fremlægge en analyse for en 2-node forstyrrelse af et netværk, denne analyse kan udvides til

eksperimentelle forstyrrelser ved at beregne parvise

statistik, hvilket resulterer i en matrix: Hvor repræsenterer statistik mellem forstyrrelser

; som vist, diagonalen formindsket til en skaleret version af Hotelling s

statistik for hvert forsøg. Da statistikken er hver af en anden skala, kan de ikke sammenlignes direkte, og derfor bør betydningen af hver matrix element beregnes (som ovenfor) via en permutation test. Så for matricen af

-værdier, de diagonale elementer giver oplysninger om betydningen af de enkelte eksperimenter, mens off-diagonal værdier giver oplysninger om parvis eksperimentelle betydning. Den samlede eksperimentelle støtte til netværk forstyrrelser kan derefter beregnes ved at samle off-diagonal

-værdier, f.eks af Fisher metode [26]. Vi anbefaler denne metode til håndtering af forstyrrelser; for forstyrrelser, som i vores tilfælde,

-værdier kan tolkes direkte.

Analyse af proteom Mål

For at vurdere betydningen af fysisk nærhed, den topologiske afstand mellem

Apc

–

Cdkn1a

netværksknuder og de respektive proteom mål blev beregnet. Fysiske PPI-net blev samlet fra BioGRID [27], det humane protein reference Database (HPRD) [28], og intakt [29]. Hvert netværk node blev testet uafhængigt for antallet af to-hop stier forbinder det til et sæt af

eksperimentelt målte proteiner, udtrykkes således: Hvor er indrejse ved rækken

jeg

og søjle

i nabomatricen,

, af PPI-netværket;

jeg

er et protein i

Apc-Cdkn1a

netværk;

er et mellemprodukt protein; og

er en eksperimentelt målt protein. I dette tilfælde de eksperimentelle proteiner var de proteom mål fra enten

Apc

1638N +/-

eller

Cdkn1a

– /-

mus. Hvis der er mindst én mellemliggende protein,

, for hvilken der findes en to-hop sti mellem knudepunkter

, derefter 2-hop afstand, , er 1; den samlede konnektivitet,, protein

til sættet af 2D-Dige mål er simpelthen summen af den. Betydning blev beregnet mod en empirisk null formuleret fra 10000 tilfældigt genererede sæt af proteiner også størrelse

For at vurdere mønstre af samregulering, blev mRNA coekspression værdier (Spearman korrelationskoefficient) beregnes ud fra tilsvarende sæt af normaliserede microarray eksperimenter, der spænder over vildtype,

Apc

1638N +/-

, og

Cdkn1a

– /- iBooked.dk krypter og villi; proben med maksimal intensitet blev anvendt som repræsentant for et gen. For at teste betydningen af mRNA-niveau sammenhænge, en modificeret Kuiper test statistik,

, blev beregnet mellem gruppens korrelationer (dvs. alle sonder på array) og prøve korrelationer (dvs. sæt af 2D-Dige mål) for hvert knudepunkt i netværket uafhængigt; det beregnes som summen af den maksimale og minimale afvigelser i prøven, og kontrol (dvs. hele array),

, fordelingsfunktion [30]: Som pr forslagene fra Subramanian et al. [31], Kuiper s statistik,

blev ændret for at forbedre sin evne til at opdage bimodale skift i placering af prøven distribution (som man kunne forvente co-udtrykt grupper af proteiner til at vise både positive og negative korrelationer): Hvor

er det sæt af proteiner, der testes (enten

Apc

1638N +/-

eller

Cdkn1a

– /-

2D-Dige mål) ;

er den bestilte vektor af korrelationskoefficienter mellem de respektive 2D-Dige mål og et enkelt netværk node; og normaliserer at have summen 1. signifikanstestning blev udført under anvendelse af en normal tilnærmelse til den empiriske null: den empiriske null blev samlet af den modificerede

beregnet for 500 tilfældigt udvalgte protein sæt, hver af størrelse og maximum likelihood estimering blev anvendt til at passe en normalfordeling. For at udforske og illustrerer de forbindelser af signifikant (

= 0,05) netværksnoder, vi undersøger delmængde af sammenhænge,

, hvor sådan, at og; og delmængde af sammenhænge,

, hvor sådan, at og (analog til den “forkant” delmængde af GSEA [31]). For at identificere differentielt udtrykte knudepunkter, valgte vi disse knudepunkter, hvor t-statistik (ulige varians) af den maksimale intensitet proben var sådan, at enten krypten eller villus rum, hvor er den normale inverse kumulative fordelingsfunktion.

Test hver node i

Apc-Cdkn1a

netværk resulterede selvstændigt i en

-værdi for hver af de nulhypoteser, hvor, og hver hypotese,, forudsætter, at der ikke er nogen sammenhæng ( fysisk-baserede eller co-ekspression-baserede) mellem

Apc-Cdkn1a

netværk node,

jeg

, og 2D-Dige mål. For at teste gruppen nulhypotesen, at alle er på samme tid sande,

-værdier blev samlet i en statistik,

, foreslået af Fisher; signifikans blev vurderet mod en fordeling med 2

frihedsgrader [26] (se også Methods S1). Det muterede node (

Apc

1638N +/-

eller

Cdkn1a

– /-

) blev udelukket fra de respektive analyser, som deres ekstreme ekspressionsmønstre forvrænge gruppevise resultater.

resultater

driver Gene Network Forudsigelser

Den dobbelte mutant

Apc

1638N +/- Cdkn1a

– /-

mus er tidligere vist at udvise en synergistisk stigning i tumor byrde sammenlignet med de enkelte mutanter [13]. For at identificere de potentielle forbindelser mellem

Apc

Cdkn1a

, vi konstrueret en prædiktiv rammer, dels lærer annotation mønstre karakteristiske for kendte signalveje (f.eks dem, der findes i Kegg [32] og andre) og derpå par disse mønstre med specifikke coekspression data væv for at ekstrahere de mest sandsynlige kæder af interagerende proteiner involveret i

Apc-Cdkn1a

signalering (illustreret i figur 1). At identificere kun høj tillid veje, blev en to-faset filtrering proces først anvendt på det globale PPI-netværket. I den første fase, kanter – indsamlet fra pattedyr samspil BioGRID [27] og HPRD [28] – blev beskåret fra netværket, hvis de ikke ligner sandsynlige interaktioner (som defineret ved en logistisk regressionsmodel), med det mål at reducere falske positiver blandt de rapporterede interaktioner. At tage højde for falske negative (fase 2), blev interaktioner føjet til netværket ved at udlede relationer, der er usete i modelorganismer basis af protein familieforhold. Efter anvendelse af disse foranstaltninger for at generere et syntetisk net, søgte vi efter sandsynlige forbindelser mellem

Apc

Cdkn1a

bruge både gen coekspression data og Gene ontologi foreningens regler.

For at understrege knuder og kanter er relevante for vores biologiske system, vi indført en vævsspecifik skævhed i vores søgen efter

Apc

–

Cdkn1a

forbindelser ved hjælp af genekspression data fra tarmepitelet af

Apc

Min /+

mus. Ud fra disse data beregnede vi mRNA-niveau coekspression værdi for individuelle kanter via gen-genet Pearson korrelationskoefficienten. Dernæst alle stier i den syntetiske net forbinder genprodukter fra

Apc

Cdkn1a

blev spurgt, og de forudsete stier blev filtreret baseret på (i) støtte af foreningen regler for GO anmærkninger og (ii) den gennemsnitlige coekspression langs en bane; resultatet (på et signifikansniveau på

= 0,01) er vist i figur 2.

Apc

–

Cdkn1a

netværk omfatter en række tidligere kendte interaktioner (fast linjer), samt forudsete vekselvirkninger (stiplede linjer) er baseret på: (i) protein familieforhold, (ii) styrke GO forening regler, og (iii) microarray coekspression langs bestemt sti forbinder

Apc

til

Cdkn1a

. Som genetiske interaktioner blev inkluderet i de oprindelige Interaktionsdatabasen, den forudsagte netværk omfatter både fysiske og funktionelle relationer

Solid kanter repræsenterer tidligere kendte interaktioner.; stiplede kanter repræsenterer forudsete vekselvirkninger; og kanter er markeret med et “v” repræsenterer forudsete vekselvirkninger, der er blevet valideret for nylig i den publicerede litteratur.

På et system-niveau, det foreslåede

Apc-Cdkn1a

netværk bærer statistisk usandsynligt ejendom for at blive mættet med onkogener: 8 af de 20 proteiner kommenteret som onkogener i OMIM (

-værdi 5 × 10

-10 af Fishers eksakte test, se Methods S1), og mange af de resterende gener er blevet eksperimentelt vist at virke som onkogener (fx

ErbB3

[33], [34],

Shc1

[35],

Map2k1

[36 ]). Selv om

Apc

–

Cdkn1a

netværk indeholder mange velundersøgte proteiner, node grad (dvs. antal interaktioner) inden for subnetværket ikke strengt korrelerer med node grad i den ufiltrerede interaktion database (Pearsons korrelation = 0,51). For eksempel, mens Akt1 har mange kendte interaktioner, dens almindeligt studerede biologiske partnere – nemlig GSK3b og PTEN (som begge er forbundet med

Apc

[3] og

Cdkn1a

[37] signalering ) – vises ikke i netværket. Andre kendte interaktioner, såsom den mellem SHC1 og SRC [38], er også fraværende fra netværket. Da vores algoritme forudsiger forbindelser forudindtaget af biologi systemet under studiet (ved brug af genekspression data fra

Apc

Min /+

mus tarm væv), et bestemt protein eller kant vises muligvis ikke i netværket, hvis vejen (dvs. kæde af proteiner), som det er bosat ikke opfylder genet coekspression og /eller GO forening regel tærskler

Omvendt

Apc

Cdkn1a

netværk omfatter nye foreninger: disse ikke indeholdt i kildedatabaser (stiplet kanter i figur 2). Flere af disse interaktioner er for nylig blevet valideret i fokuserede undersøgelser (se tabel 1), der giver tillid til, at rammen er nyttigt. Hertil kommer, at

Apc

–

Cdkn1a

netværk antyder også, at visse interaktioner tidligere forbundet med andre kræftmodeller – såsom SRC-CCND1 funktionel forening findes i prostatacancer [39], eller fosforylering af CDK4 af SRC i en cellelinje [40] – er relevante i denne model for tyktarmskræft

enkelt node Forstyrrelser:. mRNA Profilering

Apc- Cdkn1a

netværk repræsenterer skæringen af signalveje stammer fra

Apc

fra

Cdkn1a

, forventer vi at observere funktionelle ændringer i net-associerede proteiner som reaktion på forstyrrelser på enten

Apc

eller

Cdkn1a

. Single-node forstyrrelser blev udviklet i musemodeller med mutationer i enten

Apc

(nemlig

Apc

1638N +/-

) eller

Cdkn1a Hotel (

Cdkn1a

– /-

). Mens

Apc

–

Cdkn1a

netværk blev genereret ved hjælp af tumor-specifikke

Apc

Min /+

data – en model, der huser en række baggrund genetiske læsioner [41 ] – tarmens væv opnået fra

Apc

1638N +/-

Cdkn1a

– /-

mus ved 3 måneders alderen er relativt polyp fri, hvilket tillader os at måle effekten af en enkelt genetisk forstyrrelse på præ-neoplastisk epitel. Selv om dette fjerner potentielle skævhed, der er indført ved de efterfølgende mutationer af neoplastisk væv, kan denne tilgang også dæmpe strømmen af information mellem de to gener.

Da vi bruger de to forstyrrelser til at bestemme, hvor godt

Apc-Cdkn1a

netværk kan fange biologiske fænomener, vi indført en multivariat statistik,

at teste om forskelle i gennemsnitlig mRNA overflod findes i fællesskab mellem

Apc

1638N + /-

Cdkn1a

– /-

modeller. Ved at bruge

, som illustreret i figur 3, gener med mild forskellen udtryk i de to individuelle mutanter kan bidrage til den samlede støtte fra netværket, som

belønner de gener, hvor hver af de to uafhængige t-statistik er både større end 1. Statistisk signifikans af

blev testet mod en permutation null, og, som vores forstyrrelser involveret to tumorsuppressorer forventes at have molekylære virkninger i samme retning, anvendte vi den positive hale af fordelingen. Vel vidende, at mange molekyler “switch” udtryk (dvs. høj til lav, eller omvendt) i overgangen fra krypter til Villi [19], de microarray datasæt for disse to biologiske rum blev testet hver for sig. Vi fandt, at

Apc-Cdkn1a

netværk blev kraftigt støttet (

-værdi = 0,002) af joint mRNA differential udtryk i de to mutanter ‘krypt rum. Netværk sammenhæng var svagere (

-værdi = 0,060) i villus rummet, og netværket som helhed ikke udtrykkes forskelligt i villi af enten mutant, bemærkede i to

matricer ‘

-værdier: Hvor som nævnt, de diagonale elementer indikerer betydningen af forskellen udtryk

inden

en mutant (som pr Hotelling s

), og off-diagonal elementer indikerer betydningen af fælles differentiel ekspression

tværs

mutanter (som pr

). I krypter, blev netværket udtrykkes forskelligt i

Cdkn1a

– /-

(

-værdi = 0,009), men ikke i

Apc

1638N +/- Hotel (

-værdi = 0,871), og, endnu, blev støttet i fællesskab af differential udtryk på tværs af begge musemodeller (

-værdi = 0,002). Dette illustrerer, at små ændringer mRNA niveau, der deles mellem flere forstyrrelser – på et gen-for-gen-basis – yde fælles støtte for netværket hypotese, mens en individuel forstyrrelse kan undlade at vise påstanden

Hver. netværk gen er repræsenteret ved to overlappende bobler farvede ifølge t-statistik (ulige varians) i de to mutanter: nederste venstre boble af et gen svarer til t-statistik for

Apc

1638N +/-

, og det øverste venstre boblen til t-statistik for

Cdkn1a

– /-

. Skæringspunktet mellem de to bobler svarer til summen af t-statistik, der illustrerer, hvordan betydningen af små effekter kan styrkes, når de betragtes i fællesskab. Nodes nedreguleret i mutanten er farvet lyserød, der opreguleres i mutanten er gule, og neutrale t-statistik er grå.

Kronisk sygdom

PLoS ONE: Forudsigelse og Test Biologisk Networks Underliggende tarmkræft

Be the first to comment

Leave a Reply Annuller svar