Abstrakt
Motivation
Gene Væsentlighed Analyse baseret på Flux Balance Analysis (FBA-baserede GEA) er et lovende redskab til identifikation af nye metaboliske terapeutiske mål i kræft. Genopbygningen af cancerspecifikke metaboliske netværk, typisk baseret på genekspression data, udgør et fornuftigt skridt i denne fremgangsmåde. Men så vidt vi ved, ingen omfattende vurdering af indflydelsen af genopbygningsprocessen om de opnåede resultater er blevet udført til dato.
Resultater
I denne artikel, vi sigter mod at studere kontekst- specifikke netværk og deres FBA-baserede GEA resultater for identifikation af kræft-specifikke metaboliske essentielle gener. Til det formål, vi brugte genekspression datasæt fra Cancer Cell Linje Encyclopedia (CCLE), evaluering af resultaterne i 174 kræftceller. For mere klart at observere effekten af cancerspecifikke udtryk data, gjorde vi den samme analyse under anvendelse af tilfældigt genererede ekspressionsmønstre. Vores beregningsmæssige analyse viste nogle vigtige gener, som er ret almindelig i de rekonstruktioner, der stammer fra både genekspression og tilfældigt genererede data. Men skønt af begrænset størrelse, vi fandt også en delmængde af essentielle gener, der er meget sjælden i de tilfældigt genererede net, mens tilbagevendende i prøve afledt net, og således vil formentlig udgøre relevante lægemiddelmål til yderligere analyse. Desuden sammenligner vi
in-silico
resultater til high-throughput gene silencing eksperimenter fra Projekt Achilles med modstridende resultater, hvilket fører os til at rejse flere spørgsmål, især stærk indflydelse af den valgte biomasse reaktion på den opnåede resultater. Uanset, at bruge tidligere litteratur i kræftforskning, vi evaluerede de mest relevante af vores mål i tre forskellige cancer cellelinjer, to stammer fra Gliobastoma multiforme og én fra ikke-småcellet lungekræft, finde, at nogle af de forudsigelser er i det rigtige spor .
Henvisning: Tobalina L, Pey J, Rezola a, Planes FJ (2016) Vurdering af FBA Based Gene Væsentlighed Analyse i Cancer med en Fast Kontekst-Specific Network Reconstruction Method. PLoS ONE 11 (5): e0154583. doi: 10,1371 /journal.pone.0154583
Redaktør: Julio Vera, University of Erlangen-Nürnberg, Tyskland
Modtaget: August 15, 2015; Accepteret: April 15, 2016; Udgivet: Maj 4, 2016
Copyright: © 2016 Tobalina et al. Dette er en åben adgang artiklen distribueres under betingelserne i Creative Commons Attribution License, som tillader ubegrænset brug, distribution og reproduktion i ethvert medie, forudsat den oprindelige forfatter og kilde krediteres
Data Tilgængelighed:. Alle relevante data er inden for papir og dens støtte Information filer
Finansiering:. Dette arbejde blev støttet af den baskiske regering [til LT], Asociación de amigos de la Universidad de Navarra [til AR] og minister for økonomi og konkurrenceevne Spanien [BIO2013-48933]. De finansieringskilder havde ingen rolle i studie design, indsamling og analyse af data, beslutning om at offentliggøre, eller forberedelse af manuskriptet
Konkurrerende interesser:.. Forfatterne har erklæret, at der ikke findes konkurrerende interesser
Introduktion
Seneste resultater viser, at kræftceller tilpasse deres metaboliske processer til at forbedre proliferation [1,2]. Med henblik herpå kræftceller forbruge ekstra næringsstoffer og aflede disse næringsstoffer i makromolekylære syntese veje. Udover ændringer i glucosemetabolisme, den såkaldte Warburg effekt, flere er blevet rapporteret til syntese af nukleotider, aminosyrer og lipider [3,4]. Desuden er der fundet relevante mutationer i metaboliske gener og ophobninger af vigtige metabolitter i cancerceller [5]. I lyset af disse beviser, er studiet af cellulære metabolisme i kræftforskning været aktivt reawakened. Holistisk systembiologiske metoder, baseret på genom-skala metaboliske netværk og high-throughput “omik” data, åbne nye veje til at udnytte metaboliske forstyrrelser af tumorceller, især for at løse forskellige udækkede kliniske behov i kræft.
Forskellige metoder findes at analysere genom-skala metaboliske netværk af menneskelige kræftceller. Constraint-modellering (CBM) er et emergent område i Systembiologi, der omfatter en stigende række metoder [6,7]. Den mest fremtrædende metode i CBM er Flux Balance Analysis (FBA), hvilket forudsætter, at de fluxe i netværket følger en biologisk objektive funktion, der skal optimeres, typisk cellulær vækst [8]. Væksten er modelleret her som en ekstra kunstig reaktion, der involverer de metaboliske krav, i form af byggeklodser og energi, til fremstilling af et gram tørvægt (GDW) af biomasse. FBA giver os mulighed for at foretage gen væsentlighed analyse (GEA) på det metaboliske niveau, nemlig ved at identificere de gener, hvis individuelle sletning forhindrer vækst reaktion fra at være aktiv [9]. Syntetisk letalitet, som henviser til to (eller flere) ikke-essentielle gener, hvis samtidige deletion bliver dødbringende for en given fænotype, kan tilsvarende opnås. Vigtigt er det, blev den første anvendelse af FBA-baserede GEA til menneskelige stofskifte og kræftforskning udført i [10]. De viste, at hæm oxygenase er syntetisk dødbringende med tumor suppressor fumarat hydratase. Dette resultat blev senere eksperimentelt valideret, viser dens relevans til behandling leiomyomatosis og renal-celle cancer, som germlinie mutationer af fumarat hydratase ligger til grund for denne kræft [11]. Denne vellykkede resultat viste, at FBA-baserede GEA er en egnet metode til at belyse nye lægemiddelkandidater i kræft.
FBA-baserede GEA starter fra en reference-genom-skala metaboliske netværk af menneskelige stofskifte, såsom Recon2 [12] . For at fange kræft-specifikke metaboliske funktioner, skal denne henvisning netværk blive kontekstualiseret med tilgængelige eksperimentelle data [13]. Den manuelle proces med at opbygge en pålidelig sammenhæng-specifikke metaboliske netværk er kompleks og tidskrævende [14]. Af denne grund er der foreslået automatisk netværks rekonstruktionsalgoritmer, typisk baseret på gen /protein udtryk data. I betragtning af den rigdom af transkriptomisk data, mRNA-ekspression data er den hyppigste form for data, der anvendes i de forskellige genopbygning metoder. En ikke-udtømmende liste over denne type metoder omfatter: GIMME [13], iMAT [15], E-Flux [16], MBA [17], PROM [18], MADE [19], INIT [20], eller MIRAGE [21].
de opnåede fra FBA-baserede GEA resultater er afhængige af de forskellige elementer, der indgår i dette netværk genopbygningsproces, dvs. referencenet, defineret vækstmedium, genekspression data og genopbygning algoritme. Men så vidt vi ved, ingen omfattende vurdering vurdere indflydelsen af de metaboliske genopbygningsproces og udtryk data om resultaterne af gen væsentlighed analyse er foretaget til dato i kræft. Med henblik herpå, i denne artikel, vi foretaget en omfattende undersøgelse af forskellige typer af kræft fra cancercellelinie Encyclopedia (CCLE) [22], således at udrede effekten af nogle af disse faktorer i den resulterende liste over væsentlige gener. For mere klart at observere effekten af cancerspecifikke udtryk data, gjorde vi den samme analyse under anvendelse af tilfældigt genererede ekspressionsmønstre. Derudover brugte vi high-throughput gene silencing data [23] for udstrakt teste forudsigelser FBA-baserede GEA tilgang. Endelig kontrast vi litteratur data om forventede væsentlige gener i tre cancer cellelinjer:. To stammer fra Gliobastome multiforme (GBM) og en fra ikke-småcellet lungekræft (NSCLC)
For at kunne gennemføre denne omfattende undersøgelse introducerer vi et hurtigt netværk rekonstruktion algoritme baseret på genekspression data, som er behandlet ved anvendelse af Gene Expression Stregkode [24], en robust statistisk metode udviklet til at forudsige udtrykt og ikke-udtrykte gener i mikroarrays.
Metoder
Netværk genopbygning model
genopbygning Netværk algoritmer løse problemet starter med en gruppe af reaktioner, der skal være til stede baseret på tidligere eksperimentelle beviser, typisk gen /protein ekspressionsniveauerne. Disse reaktioner normalt ikke udgør et sammenhængende netværk [25]. Faktisk er de ikke nødvendigvis er knyttet til hinanden, kan danne adskilte klynger eller endda isoleres fra resten. Således rekonstruktionsalgoritmer udfylde hullerne indtil der opnås et sammenhængende netværk. Hypotese reaktioner kommer fra en database over kendte biokemiske reaktioner, der generelt er forbundet med organismen under undersøgelse. Bemærk også, at det også typisk at undgå nogle reaktioner i genopbygningen grund af eksperimentel dokumentation for deres fravær [15].
Aktuelle genopbygning algoritmer typisk afhængige Mixed Integer Lineær Programmering (MILP). Vi i stedet gøre brug af en iterativ strategi baseret på lineære programmer (LP), som MILP formuleringer er ikke tilstrækkeligt hurtigt til den påtænkte undersøgelse. Det er også tilfældet, at hver rekonstruktionsalgoritme normalt er fokuseret i retning af integration af en anden type af et eller flere input eksperimentelle information. På grund af dette, i de fleste tilfælde, er resultaterne opnået fra hver enkelt af dem er ikke let sammenlignelige. I vores tilfælde, vi fokuserer på brugen af mRNA transkript niveau data, da dette er den lettest tilgængelige datakilde i cancer. Som beskrevet nedenfor, brugte vi Gene Expression Barcode [24], en elegant teknik til at vælge til udtryk og ikke-udtrykte gener, som i sidste ende udgør kilden til beviser at kontekstualisere metaboliske processer.
En anden funktion i vores genopbygning algoritme er, at det leverer netværk direkte modtagelig for FBA, som vi vil gennemføre Gene Væsentlighed Analyse baseret på FBA i vores undersøgelse. Dette betyder, at den rekonstruerede netværk være i stand til at producere biomasse, mens den opfylder den stabil tilstand. De fleste andre rekonstruktionsalgoritmer er designet til at garantere senere, men ikke den førstnævnte.
Vores algoritme adskiller sig fra andre på flere måder, bortset fra, at de fleste af dem er afhængige af MILP formuleringer. GIMME [13] og iMAT [15] også bruge mRNA-transkript niveau information, men dens behandling er mindre uddybet end den udført med stregkode. MADE gør brug af differentieret udtryk [19], med fokus på metaboliske tilpasning mellem mindst to scenarier. INIT er gearet til brugen af mere end én type data [20]. MBA kræver definitionen af en kerne af reaktioner tvunget til at indgå i rekonstruktionen [17]; Men samtidig definere denne aktive kerne er muligt for kendte væv, dette er tvivlsom, når de foreliggende beviser er begrænset til genekspression data, der typisk involverer konflikter mellem udtrykte og ikke-udtrykte gener og reaktioner på grund af post-transkriptionelle regulatoriske begivenheder [15 , 26]. MIRAGE udvider på MBA regnskab, blandt andet til produktion af biomasse [21]. PROM [18] og E-Flux [16] tilhører en anden familie af metoder, hvor maksimalt tilladte strømme justeres ved hjælp af genekspression data. Især PROM integrerer metabolisme med regulatoriske netværk, der kræver en stor genekspression datasæt med genetiske og miljømæssige forstyrrelser.
Begrebsmæssigt vores algoritme tager en tilgang, der er mere ligner iMAT end til andre algoritmer. Begge klassificere reaktioner i høj (
H
), moderat (
M
) og lav (
L
) aktivitet baseret på genekspression data og forsøge at afbalancere inddragelse af
H
L
reaktioner ved hjælp af objektive funktion. I modsætning iMAT, vi også minimere
M
reaktioner til en vis grad, således at der opnås en minimal netværk, der opfylder sættet af begrænsninger. Desuden er vores algoritme tilføjer kravet om biomasseproduktionen, da det er beregnet til at opnå net direkte modtagelige for FBA. Men som nævnt ovenfor, det vigtigste bidrag i vores tilgang til iMAT er en betydelig reduktion af beregningstid, samtidig med at kvaliteten af løsningen.
For at reducere beregningstiden, vores algoritme går i samme retning som algoritmen nylig præsenteret i [27], betegnet FastCore. Denne algoritme anvender en flertrins tilgang baseret på lineær programmering, men det er begrebsmæssigt ligner MBA, da det også tvinger inddragelse af en kerne af reaktioner. Bortset fra den måde, det håndterer optagelse af reaktioner, som er baseret på en klassifikation tre niveau fra genekspression data, vores algoritme adskiller sig også fra FastCore, at den anvender begrebet reducerede omkostninger fra lineær programmering teori til at guide den iterative løsning proces. Desuden tager vi højde for virkningerne af forskellige støkiometriske repræsentationer [28] ved at formulere problemet med hensyn til den maksimalt tilladte flux gennem hver reaktion som gives af en Flux variabilitetsanalyse (FVA) [29].
Samlet set er vores tilgang er designet med de specifikke behov i denne undersøgelse i tankerne. En forenklet version af vores algoritme er vist nedenfor. Fuldstændige tekniske detaljer vores tilgang kan findes i S1 Text.
Oversigt over vores lineær programmering-baserede algoritme
Overvej en generel metabolisk netværk med
C
forbindelser og
R
reaktioner repræsenteret ved sin støkiometrisk matrix
S
[30]. Vi betegner
Irr
det sæt af irreversible reaktioner. For nemheds skyld, hver reversible reaktion bidrager med to forskellige irreversible reaktioner på det samlede antal
R
. Disse to irreversible reaktioner er betegnet
f
og
b
, frem og tilbage, henholdsvis hver repræsenterer den oprindelige reversibel reaktion i en anden retning [31]. Sættet af frem og tilbage skridt, der opstår fra reversibel reaktion betegnes
Rev
.
flux gennem hver reaktion
i
(
i
= 1 , …,
R
) er repræsenteret ved en kontinuerlig variabel
v
jeg
. Efter opdelingen af reversibel reaktion, kan flusmidler kun tage ikke-negative værdier, afgrænset af en maksimal flux værdi, (ligning 1). Til senere anvende FBA-baserede GEA vi også håndhæve steady state tilstand (ligning 2) og en minimal flux gennem biomassen reaktion (ligning 3). For de forbindelser taget fra eller udskilles til mediet, blev udveksle reaktioner tilføjet korrekt. Hotel (1) (2) (3)
For at kunne definere for hver reaktion, vi udfører en Flux variabilitetsanalyse (FVA) [29 ] under begrænsninger (1) – (3). Optagelsesreaktionen bounds fra væksten-medium under overvejelse indgår i ligning 1.
Vi definerer også en kontinuerlig variabel
z
i
for hver reaktion, der afgrænses mellem 0 og 1 (ligning 4), der kan tvinge et minimum flux gennem dens tilhørende reaktion,
v
i
(ligning 5). δ er en strengt positiv konstant med en maksimal værdi på 1, der løser den nedre grænse på
v
jeg
i forhold til værdien af
z
i
med hensyn til. Inklusionen af i ligning 5 som beregnet af FVA giver os mulighed for at indstille en aktivering tærskel uafhængig af den støkiometriske repræsentation. Vi bemærke, at dette sæt af variabler er kontinuerlig, som i [27], og ikke binær, som i en række tidligere værker [15,17].
(4) (5)
Vores mål er at minimere antallet af reaktioner i
L
samtidig maksimere dem i
H
. Til det, vores mål funktion minimerer summen af flux gennem reaktioner tilhører
L
med en vægt
W
L
, samt flux gennem reaktioner i
M
med en vægt
W
M
, samtidig maksimere antallet af reaktioner i
H
bruge
z
variabler med en vægt
W
H Hotel (ligning 6). Udtrykket δ⋅ i ligning 6 giver os mulighed for at undgå den flux skævhed indført med specifikke støkiometriske repræsentation af reaktioner. Forskellige kriterier for at etablere disse vægte diskuteres i afsnittet Resultater.
(6)
Som nævnt ovenfor, er det almindeligt at sætte
z
jeg
som en binære variable, men afslappende denne begrænsning, som gjort her, opnår den samme “flux diversificering” ønskede effekt [27]. Minimering summen af flusmidler til
L
M
er ikke det samme som at minimere antallet af reaktioner i
L
M
, men det giver os en lineær formulering af problemet uden negativt at påvirke den endelige opløsning med hensyn til kvalitet. Samlet set med disse funktioner, undgår vi en blandet binær formulering, sværere at løse på grund af de fuldstændige begrænsninger på nogle af variablerne [32].
Da vi har delt de reversible reaktioner i to irreversible trin, men har tilføjet nogen begrænsning garanterer, at kun én af dem er aktiv ad gangen, at løse dette problem (Eq 6 underlagt ligning 1-5) vil give os en løsning, hvor alle frem og tilbage skridt fra reversible reaktioner i
H
er aktive, selv om deres netto flux (
v
f
–
v
b
) er nul. Bemærk, at dette ikke sker med reversibel reaktion i
L
eller
M
, fordi minimere summen af flusmidler allerede håndhæver brugen af reversibel reaktion om nødvendigt kun i den ene retning.
Dette problem er illustreret i figur 1. figur 1A viser et eksempel henvisning metaboliske netværk, herunder klassificering af reaktioner som
H
,
M
eller
L
. Fig 1B viser den resulterende opløsning, når den lineære program er defineret af ligning 6 underlagt ligning 1-5 er løst. Det kan observeres, at løsningen sikkert producerer biomasse via reaktioner 2 (
M
), 3 (
H
), 5 (
H
) og 17 (
H
). Desuden aktiverer to cyklusser med net flux lig med nul, nemlig den første, involverer reaktioner 4 (
H
) og 14 (
H
) og den anden en involverer reaktioner 9 (
H
) og 15 (
H
). Tilstedeværelsen af disse falske cykler er en konsekvens af den ikke-binær formulering ovenfor foreslået, hvilket kræver en iterativ procedure, disentangles om (eller ikke) disse reversible reaktioner i
kan H
indgå i genopbygningen i kombination med andre reaktioner.
a) Eksempel henvisning metaboliske netværk med en klassificering af reaktioner 3-niveau. Det indebærer ti reaktioner plus biomassen reaktionen. Vendbare flusmidler er opdelt i to ikke-negative trin. Tilbagestående reaktioner er vist med punkterede linje. Reaktioner 3, 4, 5, 7 og 9 er klassificeret som
H
; reaktioner 2, 8 og 10 som
M
; og reaktioner 1 og 6 som
L
. B) Løsning opnås, når løse lineære program er defineret af ligning 6 underlagt ligning 1-5. Tykkere buer repræsenterer aktive reaktioner, cykler involverer frem og tilbage trin i en reversibel reaktion i
H
er repræsenteret med tyndere linjer og inaktive reaktioner er farvet i lysegrå.
Den iterative procedure, vi anvendes, er beskrevet i detaljer i S1 tekst. Den er baseret på lineær programmering og det gør brug af begrebet reducerede omkostninger (taget fra lineær programmering teoretiske) til at styre og fremskynde den iterative løsning proces.
Reaktion klassificering
Inputtet af genopbygning algoritme er reaktionen klassificering som meget (
H
), medium (
M
) eller ringe (
L
) udtrykt. Denne information fås fra genekspression eksperimenter, i vores tilfælde indsamlet fra GEO databasen [33].
Vi fokuserede på Affymetrix HGU133plus2 arrays, som kan behandles ved hjælp af Barcode [24]. Denne metode er udviklet til at kunne arbejde med kun én prøve og gøre det sammenlignes med andre, i stedet for at skulle flere prøver på samme tid. Vi forbehandles data ved hjælp Stregkode R script, ved hjælp af en prøve ad gangen. Vi hentede z-værdier, der opnås fra denne algoritme, der svarer til behandlingen hver prøve med fRMA [34].
Fordi Z-scores hentet fra Stregkode fik ved sonden indstillede niveau, ved hjælp af gen -probe relationer kommenteret i hgu133plus2.db R pakke, opnåede vi det gen Z-score værdi som medianværdien af de tilsvarende Z-snesevis af associerede probe-sæt. Hvert gen værdi blev omdannet til stede (1) /fraværende (0) opkald ved hjælp Stregkode kriterier. Present gener er klassificeret som høj (1) og fraværende gener så lave (-1).
Endelig reaktioner er klassificeret som meget, medium eller ydmyge udtrykkes ved anvendelse af gen-protein-reaktion regler og klassifikation af genekspression nævnt ovenfor [35] (se S1 Tekst til en mere detaljeret forklaring). Disse reaktioner, som der ikke genekspression er tilgængelig, eller som ikke er relateret til nogen gen (f.eks spontane reaktioner) er klassificeret som medium til udtryk.
Gene Væsentlighed Analyse
Essential gener defineres her som dem, gener, hvis fjernelse gøre cellen ikke i stand til at producere biomasse. Brug af booleske gen-protein-reaktion regler indarbejdet i genom-skala metaboliske netværk såsom Recon2 [12], kan vi vurdere, hvilke reaktioner vil stoppe med at arbejde efter et bestemt gen slettes. Således er et gen knock-out simuleres ved at sætte den øvre og nedre grænser for de tilsvarende reaktioner til nul i en FBA beregning, og kontrollere, om (eller ikke) det resterende netværk er stadig i stand til at producere biomasse.
for at reducere antallet af FBA beregninger, der kræves til at kontrollere væsentlighed hver enkelt gen, vi først beregnes den maksimale biomasse muligt i vildtype netværk og søgte efter et flusmiddel fordeling med minimale sum af flusmidler gennem reaktioner, for hvilke gen-til -reaktion kortlægning defineres. Hvis et bestemt gen knock-out ikke påvirker nogen reaktion i at optimal flux distribution, kan vi være sikre på, at en ny FBA beregning vil give os den samme løsning som i vildtype-netværk, og vi kan derfor springe sådan gen knockout.
Sammenligning med eksperimentelle data
for at vurdere nøjagtigheden af vores tilgang til at forudsige væsentlige gener, brugte vi high-throughput silencing eksperimenter taget fra projektet Achilles [23]. Vi udledt en score for hvert gen i hver cellelinje ved at følge fremgangsmåden indført i [36]. Men vi ganges de opnåede scores ved -1, således at jo lavere score, er det mere afgørende genet formodes at være, som det sker med shRNA fold ændringer i high-throughput lyddæmpning eksperimenter. Vi derefter sammenlignet fordelingen af snesevis af de opnåede væsentlige metaboliske gener versus de uvæsentlige metaboliske gener ved hjælp af en ensidig to stikprøver Kolmogorov-Smirnov test, som foreslået i [10]. Denne test hjælper os til at se, om de opnåede væsentlige gener forudindtaget mod lavere, mere vigtige scoringer. Imidlertid kan forspændingen være betydelig, men ikke tilstrækkelig stor, så der ud målte vi andelen af opnåede essentielle gener med en negativ Aquilles-baseret score i hvert scenario, et punkt, hvor sandsynligheden af genet som essentielle er højere end at være non -væsentlig. Faktisk har vi bemærket, at kun en brøkdel af de metaboliske gener haft en negativ score i Achilles data, så vi ønsker at sikre, at de beregnede væsentlige gener er beriget med dem.
Resultater
den tilgang præsenteret ovenfor først anvendes til at rekonstruere den metaboliske netværk af 174 kræftceller ved hjælp af genekspression data fra kræftcellen Linje Encyclopedia (CCLE) [22]. Valget af denne delmængde af cellelinjer blev foretaget under hensyntagen til de disponible high-throughput gene silencing data fra projekt Achilles [23] (S1 tabel). Den tekniske udførelse af vores tilgang vurderes og sammenlignes med iMAT, den mest lignende tilgang til den indført her (S1 tekst). Dernæst udfører vi FBA-baserede GEA løbet af disse rekonstruerede netværk og vurdere den hyppighed, hvormed hvert væsentligt gen synes i et netværk rekonstrueret fra tilfældige udtryk data. Desuden har vi sammenligne de opnåede resultater til high-throughput gene silencing eksperimentelle resultater [23]. Endelig kontrast vi litteratur om forudsagt væsentlige gener i to GBM-afledte og en NSCLC-afledte cellelinjer.
Til dette formål har vi brugt den oprindelige menneskelige stofskifte netværk Recon2 [12] som referencenet (en lignende analyse for Recon1 kan findes i S1 tekst). Dette netværk giver en biomasse reaktion, som er direkte anvendt i denne undersøgelse. Vækstmediet var RPMI1640, defineret som i [10]. Desuden blev reaktionerne klassificerede som meget, medium eller ringe udtrykkes ved anvendelse af gen-protein-reaktion regler og genekspressionen klassificering beskrevet i Methods sektion.
Algoritmen er implementeret i Matlab ved hjælp CPLEX optimering software til at løse tilsvarende lineære programmer. Beregningen nødvendige tid til at løse et enkelt rekonstruktion problem ved hjælp af strategien beskrevet ovenfor, er i størrelsesordenen sekunder, i par med udførelsen af Fastcore [27]. På forekomsterne vores metode blev anvendt, beregningstid er generelt under 10 sekunder på en 64 bit Intel Xeon E5-1620 v2 på 3,70 GHz (4 kerner) og 16 GB RAM. Dette sætter vores algoritme som væsentligt hurtigere end iMAT, hvor den gennemsnitlige tid for at opnå en løsning var omkring 57 sekunder (stopper med en optimalitet hul 0,5%).
Model parametre og genopbygning
I vores genopbygning algoritme vi har flere parametre, der kræver fastsættes. De mest relevante parametre er vægtene
W
H
,
W
M
W
L
, da der er en modstridende afvejning mellem reaktioner i
H
L
. Især brugen af alle reaktioner i
H
kan involvere et stort antal reaktioner i
L
; på samme måde, et minimum brug af reaktioner i
L
kan indebære en begrænset brug af reaktioner i
H
. For at undersøge denne afvejning mellem reaktion i
H
L
foreslår vi skemaerne i tabel 1, med α = 10
3. Schema 1 giver mere vægt til minimering af reaktioner i
L
over maksimering af reaktioner i
H
; Schema 2 giver lige vægt, mens Schema 3 er det modsatte af Schema 1. Detaljer og følsomhedsanalyse af α og andre parametre, der er fastsat i vores algoritme kan findes i S1 tekst. Hovedkonklusioner opnåede var robust over for ændringer i disse parametre.
Ved klassificering reaktioner fra genekspression data, undgå inddragelse af reaktioner i
L
så meget som muligt kunne være mere meningsfuldt end forsøger at tvinge tilstedeværelsen af alle reaktioner i
H
, som en høj genekspression signalet ikke nødvendigvis fører til en høj enzymatisk aktivitet. Imidlertid identifikation af ikke-udtrykte gener udgør en mere vanskelig opgave [37]. Af denne grund har en tilgang tættere på Schema 3 blevet foretrækkes typisk.
Vi sammenlignede udførelsen af vores rekonstruktion tilgang ved hjælp af de forskellige skemaer med iMAT. Som det kan ses i figur 2, som viser procentdelen af reaktionerne er klassificeret som
H
og
L
der blev medtaget ved hjælp hver genopbygning algoritme, undgåelse af
L
reaktioner i Schema 1 har en indvirkning på antallet af reaktioner i
H
indgår i modellen, hvilket giver en markant anderledes løsning end Schema 3.
Boxplots viser procentdelen af H og L reaktioner indgår i de rekonstrueret kontekst-specifikke netværk af udvalgte kræft cellelinjer ved hjælp af vores algoritme under Schema 1, 2 og 3 og iMAT. Henvisningen netværk anvendte var Recon2.
Som forventet Schema 2 er den mest ligner iMAT, som begge giver lige vægt til reaktioner i
H
L
. Det kan observeres, at antallet af L reaktioner omfattede er meget ens, og antallet af
H
reaktioner omfattede af vores algoritme er noget lavere. Samlet set begge metoder opnå tilsvarende rekonstruktioner med hensyn til antallet af
H
L
reaktioner, de indeholder. Anser vi således vores algoritme et gyldigt værktøj til opgaven ved hånden. Bemærk, at den maksimalt mulige procentdel af
H
reaktioner indgår i genopbygningen ikke nødvendigvis nå 100%, da der kan være reaktioner, der ikke kan fungere i steady state under de pålagte medium betingelser.
Gene væsentlighed analyse
med en hurtig genopbygning algoritme i vores hænder, kan vi behandle spørgsmålet om, i hvilket omfang det sæt af essentielle gener bliver påvirket af kontekst-specifikke udtryk data. For yderligere at undersøge dette spørgsmål, vi ionbyttet den metaboliske genekspression klassificering af hver prøve 10 gange og rekonstrueret de tilsvarende netværk efterfulgt af beregningen af deres tilsvarende væsentlige gener, der fører til en baggrund af næsten 2000 tilfældige resultater.
Fig 3 viser resultaterne af dette eksperiment for Schema 3 (listen af gener og værdier kan findes i S2 tabel). Som delvist forventet, er der nogle gener, som er ret almindelig i enhver rekonstruerede net. De mest ekstreme tilfælde er gener, der vises som afgørende uanset input udtryk er. Disse er en direkte konsekvens af reference-input-netværk, de faste vækstmedium betingelser og den valgte biomasse reaktion. Denne analyse bekræfter, i hvilket omfang disse faktorer kan påvirke resultaterne.
Essential gen frekvens for rekonstruerede kontekst-specifikke netværk af udvalgte cancer cellelinjer ved hjælp af vores algoritme med Schema 3 og Recon2 som base netværket. Den vandrette akse indeholder Entrez Symboler for de vundne essentielle gener. Højden af søjlerne angiver den del af prøver, hvori genet optræder som væsentlige. Højden af den sorte linje angiver den del af tilfældigt rekonstrueret netværk, hvor det tilsvarende gen vises som afgørende.
Bemærk, at der også findes nogle essentielle gener meget hyppige i de enkelte prøver, men mindre hyppige i tilfældige netværk. Disse ville være, a priori, de mest interessante, da de er mere relateret end de andre gener til særligt udtryk af prøverne.
Det mest slående faktum er, at listen over opnåede væsentlige gener eksklusive hver cancer type er temmelig korte. Kun 6 gener optrådte kun i én cancer type, når du bruger vores algoritme med Schema 3, 22 og 21, hvis vi brugte Schema 1 og 2. Vi forventede en mere forskelligartet sæt væsentlige gener for hver kræftform.
Nogle tidligere arbejde udforsket Væsentlighed koncept under meget forskelligartede vækst medium betingelser [38] for nogle bakterielle metaboliske netværk. De konkluderede, at der findes et centralt sæt af reaktioner, der er nødvendige til produktion af biomasse uafhængig af den valgte vækstmedium. Vores undersøgelse fører til meget lignende indsigt for tilfælde af netværket kontekstualisering. Den samme konklusion blev opnået for forskellige parameterindstillinger og scenarier, herunder brug af Recon1 og en generel vækst medium (se tabel B i S1 Text).
Sammenligning med high-throughput gen silencing eksperimenter
En systematisk indsats for at identificere væsentlige gener i forskellige cancer celletyper bliver udført i det såkaldte projekt Achilles [23]. Dækningen af dette projekt er vokset i de seneste år [23,39,40].
Leave a Reply
Du skal være logget ind for at skrive en kommentar.