Abstrakt
Den tidsmæssige rækkefølge af kræft genmutationer i tumorer er afgørende for at forstå og behandling af sygdommen. Eksisterende metoder er i stand til at udlede den rækkefølge af mutationer, der er identificeret på samme tidspunkt i de enkelte tumorprøver, forlader heterogenitet af ordren ukendt. Her viser vi, at gennem et komplekst netværk tilgang, som er baseret på den nyligt definerede statistik –
Carcinogenese information ledningsevne
(CIC), kan den tidsmæssige rækkefølge i individuelle prøver effektivt udledes. Resultaterne antyder, at tumorsuppressorgener måske oftere indlede rækkefølge af mutationer end onkogener, og hver type kræft kan have sin egen unikke rækkefølge af mutationer. De første mutationer synes at være dedikeret til at erhverve den funktion at unddrage apoptose, og nogle ordre begrænsninger kan afspejle mulige regelmæssigheder. Vores tilgang er helt datastyret uden parameterindstillinger og kan forventes at blive mere effektiv som flere data bliver tilgængelige
Henvisning:. Guo J, Guo H, Wang Z (2014) formode Temporal bekendtgørelse af Kræft genmutationer i Individuelle tumorprøver. PLoS ONE 9 (2): e89244. doi: 10,1371 /journal.pone.0089244
Redaktør: Raya Khanin, Memorial Sloan Kettering Cancer Center, USA
Modtaget: 22 oktober, 2013; Accepteret: 20 Jan 2014; Publiceret: 27 feb 2014
Copyright: © 2014 Guo et al. Dette er en åben adgang artiklen distribueres under betingelserne i Creative Commons Attribution License, som tillader ubegrænset brug, distribution og reproduktion i ethvert medie, forudsat den oprindelige forfatter og kilde krediteres
Finansiering:. Naturvidenskab Foundation of China under tilskud nr. 61273217; Chinese 111 program af ‘Advanced Intelligence og netværkstjeneste’ under tilskud nr. B08004. De finansieringskilder havde ingen rolle i studie design, indsamling og analyse af data, beslutning om at offentliggøre, eller forberedelse af manuskriptet
Konkurrerende interesser:. Zhanyi Wang er med Kina mobil forskningsinstitut, men det ændrer ikke forfatternes overholdelse af alle de PLoS ONE politikker om datadeling og materialer.
Introduktion
Kræft er en genetisk sygdom forårsaget af mutation af kræft gener består af onkogener og tumor-suppressor gener. I de fleste tilfælde cancer, forekommer multiple mutationer i en procedure kendt som tumor progression [1], [2]. For at forstå tumorprogression, er blevet udført undersøgelser for at modellere generelle lovmæssigheder om den tidsmæssige rækkefølge af mutationer for en given type af cancer ved anvendelse af både eksperimentelle og beregningsmæssige metoder [3] – [7]. Som en kanonisk model, blev rækkefølgen af mutationer for kolorektal cancer rekonstrueret gennem tumor størrelse og kvalitet [8]. De seneste beregningsmodeller udlede de typiske tidsmæssige rækkefølge begrænsninger for visse typer kræft ved at simulere tumor progression som en stokastisk proces [9] – [11]. Trods disse fremskridt er der stadig ingen veldefineret metode til at udlede rækkefølgen af mutationer identificeret på samme tid i de enkelte prøver, selv om denne slutning er nødvendig for at afsløre heterogenitet i størrelsesordenen mutationer i en cancer. For nylig, da ny generation sekventering bliver udbredt, mutationen landskaber i forskellige kræftformer bliver afsløret en efter en. Resultaterne har vist, at mutationer i en kræft ofte demonstrere statistiske korrelationer med hinanden eller endda forårsage og virkning forbindelser af induktion mellem den tidligere og den sidstnævnte [12] – [18]. Men disse sammenhænge /forbindelser er ikke blevet udnyttet, fuldt ud i at udlede den tidsmæssige rækkefølge af mutationer.
Fra et Informatik perspektiv, denne undersøgelse definerer en statistisk måling for at tildele værdi til de korrelationer eller forbindelser, der er nævnt ovenfor, og modellere mutationerne inden for et komplekst netværk, kan hvorigennem udledes den tidsmæssige rækkefølge af mutationerne i de enkelte prøver. Vi kalder målingen
Carcinogenese information ledningsevne
(CIC), som måler sikre adgang for overførsel af oplysninger af kræft gen har muteret til transkription processen med en given un-muteret kræft-gen til at fremkalde sin mutation. Statistisk set kan sikre adgang estimeres ved de enkelte forekomst frekvenser og den sekventielle samtidig forekomst hyppigheden af de to gener ‘mutationer i prøver kræft. Derudover bør også overvejes konkurrence blandt de oplysninger sendes fra flere muterede gener til den givne un-muterede gen som enhver vellykket afsendelse vil forårsage målgenet til at mutere, og dermed slutter mutationen processen. I denne undersøgelse kalder vi to mutationer findes i de samme cancer prøve co-occurrent mutationer. Mens de fleste genomiske undersøgelser giver denne mængde på en indirekte måde, her sigter vi på udrede rækkefølgen af forekomst af to mutationshændelser fra det enkle samtidig forekomst. Ud fra disse sekvenser af mutation forekomst, kan den sekventielle samtidig forekomst frekvens beregnes (Materialer og fremgangsmåder). Baseret på denne idé har vi defineret CIC fra kræft-gen
jeg
til kræft-gen
j
som: (1), hvor () er forekomsten frekvensen af mutation af genet
jeg
(
j
) i kræft, er den sekventielle samtidig forekomst hyppigheden af mutation af genet
jeg
efterfulgt af mutation af genet
j
, og er prioriteringen af genet
jeg
i forhold til andre mutant gener til at sende oplysningerne til gen
j
. Vi har konstateret, at. I denne ligning er det sæt af prøver kræft med mutant gener
jeg
og
j
, er antallet af prøver i sættet, og er en indikator funktion, der er lig med 1, hvis de muterede gener ,
j
jeg
i prøven. Ellers er lig 0. Derfor den højeste prioritet af en vil blive tildelt, hvis er større end i enhver prøve af sættet, og jo flere gange, jo større værdi. Vi betragter formel (1) som en måling af carcinogenese oplysninger ledningsevne, fordi forholdet er et estimat af den maksimale chance for, at gen
jeg
sender carcinogenese oplysninger til gen
j
og forårsager dens mutation, den ratio er et skøn over den maksimale chance for, at mutation af genet
j
skyldes carcinogenese modtaget fra gen
jeg
, og er prioriteringen af kommunikationsforbindelsen i forhold til andre forbindelser til gen
j
. Værdien af intervaller fra 0 til 1. Ligesom definitionen af
aktivering force
, en måling vi tidligere foreslået til vægtning links til komplekse netværk [19], at definitionen af CIC følger formlen for tyngdekraften, hvis vi forestiller os forholdene og som masser og den prioritet som afstanden. Statistik defineret på denne måde vil sandsynligvis distribuere deres værdier i en magt lov, som er praktisk til at analysere komplekse netværk af indviklede relationer herunder i biologi [20] – [24]
En af udfordringerne ved beregning CICS. er manglen på tumor prøver, der kan bruges som kilde til de sekventielle samtidig forekomst frekvenser af kræft genmutationer fordi mutationer af forskellige gener i en cancer prøve normalt identificeres samtidigt ved sekventering. For at tackle denne udfordring, præsenterer vi en iterativ procedure, at par CIC beregning og slutning af sandsynligheden for hver potentiel rækkefølge af kræft genmutation. (COSMIC) database Anvendelsen af denne procedure til Katalog over somatiske mutationer i Cancer [25], [26] viste, at iteration nåede konvergens inden færre end 10 loops, og de konvergerende resultater tyder væsentlige konklusioner.
Materialer og metoder
iterativ inferens ordning
for at udføre den iterative inferens procedure en stor mængde stikprøver kræft med kræft genmutationer identificeret ved genom-dækkende sekventering er nødvendig. Med datasættet, fastlægge vi de grundlæggende statistik over forekomst og ikke-sekventiel co-forekomst frekvenser af kræft genmutationer. Ud fra disse grundlæggende statistikker, den iterative inferens for antallet af prøver pågældende begynder og CIC resultater og sandsynlige ordrer for kræft genmutation for hver prøve pågældende bestemmes når iteration når konvergens. Fig. 1 illustrerer en oversigt over proceduren.
(a) forekomsten og samtidig forekomst frekvenser af kræft genmutationer og bestemmes ud fra tilgængelige prøver, hvor og er antallet af kræft gener målrettet i undersøgelsen . En forekomst af et gen vil blive talt, hvis den er muteret i en af prøverne, og en samtidig forekomst af et par gener vil blive talt hvis begge er muteret i en af prøverne; derfor, og. (B) På grundlag af princippet om maksimal entropi er de oprindelige værdier for de sekventielle co-forekomst frekvenser sat som. (C) carcinogenese information ledningsevner,, beregnes ud fra vektoren af og matricen af. Det bør bemærkes, at måske ikke være lig med, hvilket indebærer, at matrixen af repræsenterer en rettet netværk. (D) For hver af prøverne pågældende, er sandsynlighederne for hver potentiel rækkefølge af de muterede gener i prøve beregnes i overensstemmelse med CIC for hver ordre (Methods). (E) matrix er genbestemmes af matrixen af og forholdet mellem sandsynligheden vægtede antal ordrer indikerede, at
i
indtræffer før
j
til antallet af samtidig forekomst frekvens er det vigtigt at bemærke, at ikke er lig med i almindelighed. Hvis matrix af ikke har nået kriteriet om konvergens, vil de udledte ordrer ikke betragtes som stabil og en ny løkke af beregningen af, og vil blive udført. Ellers (f), er ordrer med en sandsynlighed større end tilfældig chance og de tilsvarende sandsynligheder og betragtes som de forelagte resultater. For eksempel, på alle 6 potentielle ordrer for en prøve med tre mutant cancer gener
en
,
b
c
, ordrer og er identificeret som de sandsynlige dem på grund af sandsynligheder for 0,7 og 0,2 (højere end en tilfældig chance for 1/6).
Iterativ procedure for CIC beregning og inferens af mutation orden
Efter definition, sekventiel co-forekomst frekvenser er nødvendigt at skønne det CIC værdi. Dog kan dette krav ikke opfyldes af de nuværende databaser, herunder COSMIC. For at overvinde denne vanskelighed, vi vedtager en iterativ procedure at koble slutning af de forekommende mutation ordrer og beregningen af CIC. Først, vi jævnt opdele en ikke-sekventiel samtidig forekomst frekvens i de to mulige sekventiel co-forekomst frekvenser til at beregne de indledende CIC. Vi derefter udlede mutation ordrer med de indledende CIC at repredict de sekventielle co-forekomst frekvenser, gentag CIC beregning og inferens af mutation ordrer indtil en konvergerende resultat er opnået.
Baseret på princippet om maksimal entropi vi først bruge et ensartet forudgående fordeling af forekomsten ordrer, hvilket betyder, at for den ikke-sekventielle samtidig forekomst hyppigheden af mutation af to gener
jeg
og
j
, de to mutation ordrer
i
→
j
j
→
jeg
forekomme med samme sandsynlighed. Derfor er den nødvendige sekventielle samtidig forekomst frekvens indstilles som halvdelen af den tilsvarende ikke-sekventiel frekvens. Med denne indstilling vi beregne den oprindelige CIC mellem hvert par cancer gener.
Vi derefter beregne CIC at en ordre på mere end to mutant gener besidder. I denne beregning, må vi overveje, at hver af de foregående gener kan sende carcinogenese information parallelt med et target-gen i den rækkefølge. Derfor låner vi princippet om computing modstand i et kredsløb, som er en parallel-by-seriel procedure; vi opsummere alle de parallelle CIC fra de foregående gener til et target-gen i for at bestemme
fase CIC
af ordren og derefter formulere
For CIC
ved cascading alle
fase CIC
s. Overvej ordre
APC → ATM → KRAS
som eksempel; denne ordre indeholder to faser af oplysninger sende,
→ ATM
→ KRAS
. I den første fase, kan oplysningerne sendes fra én kilde,
APC
. Derfor ,, CIC fra
APC
til
ATM
, blot bliver CIC af første fase. I anden fase, men både
APC
og
ATM
kan blive informationskilde, der kræver summation af de to parallelle CIC som CIC af anden fase. Efter den parallelle trin i hver fase skal reciprocals af
fase CIC
s, betragtes som modstande, er serielt summeres som den reciprokke af den
orden CIC
. Trinene er opsummeret som følger:
Parallel skridt
:
Serie trin
:.
k
th gen i den rækkefølge er de oplysninger, der modtager genet på
(k-1)
th fase og har
k-1
afsendere af parallel information. En ordre, der består af
n
gener har
n-1
faser af carcinogenese information ledning. Generelt har vi ligningen, hvor er CIC af fase
k
, er CIC fra gen til gen, og er indekset af genet ved position i den rækkefølge.
Baseret om definitionen af CIC, en større CIC værdi af en eventuel ordre indebærer lettere carcinogenese information overledning inden ordren. Blandt alle konkurrerende ordrer, jo større CIC værdien af en ordre, jo større sandsynlighed for forekomst af ordren. Vi derfor formode, at CIC af en ordre er positivt proportional med sandsynligheden for ordren forekommende. Ved beregning af sandsynligheden for hver potentiel ordre ved en lineær afbildning fra CICS alle de potentielle ordrer for et givet sæt af mutante gener, summen af sandsynlighederne for alle de potentielle ordrer er lig med én. Formelt for en prøve med
n
mutant cancer gener, antallet af potentielle ordrer er
n
!; Vi kortlægger CIC af orden
m
(
m
= 1, 2, …,
n
!) i sin sandsynlighed ved hjælp af ligningen
Efter bestemme sandsynlighederne for alle mulige rækkefølge mutationerne, vi redetermine de forudsagte sekventielle co-forekomst frekvenser som følger: hvor er sandsynligheden for orden
m
prøve
l
, og
L
er antallet af prøver pågældende. er en indikator funktion, der er lig med 1, når genet
jeg
indtræffer før gen
j
for
m
prøve
l
og lig 0 i alle andre sager, og er den ikke-sekventielle samtidig forekomst frekvens mellem gen
jeg
og gen
j
. Hvis genbestemmes værdier er næsten identisk med de gamle eller bliver konvergent, de beregnede CIC og dermed de afledte ordens sandsynligheder kan betragtes som pålidelige resultater. Ellers CICS og rækkefølgen sandsynligheder skal genbestemmes i en ny løkke. Den iterative procedure fortsætter på denne måde, indtil konvergens er opnået. I praksis kan kriteriet om konvergens anses for opfyldt, når den absolutte forskel mellem de nye og gamle værdier af monotont reducerer til en tilstrækkelig lille værdi.
Fordi vi begynder den iterative procedure med en indledende forudsigelse af den sekventielle co-forekomst frekvenser fra ikke-sekventielle frekvenser baseret på den maksimale entropi princippet, hvilket giver den maksimale ændring potentiale af de sekventielle co-forekomst frekvenser i første iteration, vil ændringen falde gradvist og endelig bliver ubetydelig. Denne forudsætning blev verificeret i undersøgelsen; en tilfredsstillende konvergens blev nået inden for færre end 10 løkker på inferens procedure ved hjælp af et sæt prøver fra COSMIC database.
iteration baseret på COSMIC data når konvergens inden for 10 loops. Her bruger vi beregningen af CIC fra
KRAS
til
APC
at indføre proceduren i detaljer. I første omgang, vi beregne forekomsten frekvenser = 125 og = 209 og en ikke-sekventiel samtidig forekomst frekvens = 79 fra COSMIC database. Ved at definere halvdelen af den ikke-sekventielle samtidig forekomst frekvens (79) som den sekventielle frekvens, vi fastslå, at = 39,5. Når man sammenligner med de sekventielle co-forekomst frekvenser fra andre end gener
KRAS
til genet
APC
i hver af de 79 prøver, viser sig at have en gennemsnitlig ordre på 1,47. Derfor prioritet = 1,47, og den oprindelige værdi af = (39,5 /125) * (39,5 /209) /1.47
2 = 0,028.
Brug de indledende CIC mellem alle kræft genpar, vi estimerer sandsynligheden for hver potentiel mutation forekomst rækkefølge i hver prøve på den ovenfor beskrevne måde. Ifølge de sandsynligheder, kan de ikke-sekventielle samtidig forekomst frekvenser være ujævnt fordelt på sekventielle frekvenser. For de 79 prøver i dette eksempel, er forholdet mellem
KRAS
→
APC
vs.
APC
→
KRAS
baseret på den tilsvarende samlede sandsynlighed for hver ordre er 0,28: 0,72. Derfor opdaterer vi værdien af = 79 * 0,28 = 22,1, og prioriteten bestemmes derefter med det nye. Med disse nye værdier, vi redetermine.
konvergens og dens modstykke i de gentagelser er vist i fig. 2. Dette eksempel viser, at værdierne nå et tilfredsstillende konvergens efter blot 6 iterationer. Dette eksempel repræsenterer også den almindelige situation, så vi endte beregningen af CIC efter 10 gentagelser i denne undersøgelse.
CICS (a) og dens modstykke (b) hurtigt nå konvergent som gentagelser af beregning udføres . Efter 6 gentagelser, har en tilfredsstillende konvergens er nået.
Kompleksitet af inferens procedure
CIC beregning har en kompleksitet
O Hotel (
n
2), hvis antallet af kræft-gener i undersøgelsen er
n
og inferens af sandsynlighederne for alle potentielle ordrer for en prøve med
m
mutant cancer gener har en kompleksitet
O Hotel (
m! m
2). I vores undersøgelse,
n
er lig med 397 og
m
spænder fra 2 til 8. Derfor kompleksiteten af
O Hotel (
m! M
2) kan variere meget for forskellige prøver. I virkeligheden, i løbet af inferens for de 1.118 prøver rapporteret i undersøgelsen, blev størstedelen af den tid, der forbruges af et par prøver med det maksimale antal mutant cancer gener. Det er værd at bemærke, at under hele proceduren, vi kun skal beregne CICS én gang i hver sløjfe for at udlede den rækkefølge sandsynligheder for alle prøver. Proceduren for følgeslutning med 10 gentagelser for de 1.118 prøver blev afsluttet inden for 10 minutter på en platform, der består af en PC (4 * 2.66 GHz Quad CPU) og Matlab.
Study data
De rapporterede resultater i denne undersøgelse blev opnået fra en nylig KOSMISK database (udstedt den 12. september
th, 2012) om kodning punktmutationer. Det er en tabel fil, der indeholder navnene på de muterede cancer gener i hver kræft samplet. Mutant gener i samme cancer har samme tumor-id (
ID_tumour
), og inden for
genom-wide-screen
primærside
give de nødvendige oplysninger, der anvendes i denne undersøgelse.
Steps til bestemmelse af forekomst og co-forekomst frekvenser af kræft genmutationer i prøverne
forekomsten og samtidig forekomst frekvenser af kræft gener i cancer prøver blev anvendt til estimere CIC i undersøgelsen, og de grundlæggende statistikker blev bestemt ved hjælp af følgende trin:
Download
kilde
fil
CosmicMutantExport_v61_120912.tsv
gennem ftp: //ftp. sanger.ac.uk/pub/CGP/cosmic/data_export/;
Lav en
midlertidig
fil ved at opnå de poster med værdien “
y
‘i’
genom-dækkende screen
‘felt fra
kilde
fil
Lav en
primære
fil ved at opnå registreringer af cancer gener defineret af filen
Table_1_full_2012-03-15.xls
i
Cosmic
hjemmeside fra den
midlertidig
fil og raffinering optegnelserne i sekvenser af
Gene_name
ID_Sample
;
Lav en
mutation_sequence
fil, hvor hver post er en liste over de muterede gener i den samme prøve baseret på
primær
fil , og kassér den post, kun indeholder et gen navn i
mutation_sequence
fil
Tæl forekomst og co-forekomst frekvenser af cancer gener baseret på
mutation_sequence
fil.
Resultater
Funktioner af de estimerede CIC
Vi udførte den følgeslutning på kræft-gen mutation data fra genom-dækkende scannede prøver indsamlet i en nyere version af COSMIC database. I alt 1.212 prøver indeholdende 6.281 mutationer i 397 cancer gener var til rådighed til at bestemme de grundlæggende forekomst og co-forekomst frekvenser. Fra disse, 1.118 prøver, hver huser ikke mere end 8 mutante cancergener, blev anvendt i den iterative procedure af CIC beregning og orden inferens. Tabel S1 angiver de 1.118 prøver. Resultaterne viste sig at konvergere inden for 10 iterationer. Efter konvergens, CIC med en værdi større end 1,0E-6 præsenteret en power lov-lignende fordeling over størrelserne, således at det overvældende flertal har en størrelse mindre end gennemsnittet af 4.0E-4 og en meget lille del har en større end gennemsnitlig størrelsesorden (fig. 3, tabel S2). Denne funktion er også sandt for fordelingen af størrelserne af CIC fra (eller til) et givet gen i de fleste tilfælde, hvilket betyder, at kun et lille antal partnere er betydningsfulde i kraft af carcinogenese information ledning til ethvert givent gen. Med andre ord, CICS identificerer de nærmeste partnere i carcinogenese information ledning. Endvidere rettede netværk af cancer gener forbundet af CICS var asymmetrisk og lille verden-lignende. CIC fra gen
jeg
til gen
j
var normalt ulige til, at der fra gen
j
til gen
jeg
; netværket har en række hub gener med mange flere links end normalt. Denne funktion er overensstemmelse med den opfattelse, at signaleringsnetværket i cancer er analog med internettet, som konstruerer en lille verden med hub knuder [27] – [29]. Fig. 4 viser et CIC forbundet net, der dækker 44 cancer gener, herunder hub generne
APC
,
TP53
MLL3
, og links stærkere end 1,0E-2, der viser asymmetri . Asymmetrien af CIC indebærer eksistensen af en præference for bestemte mutation ordrer. Derudover tre hub gener er alle tumorsuppressorgener, og den stærkeste retningsangivende forbindelse, med en værdi på 0,136, er fra
APC
til
KRAS
, en af de hyppigst muterede onkogener , hvilket tyder på en overlegen informationskanal fra mutation af
APC
til mutation af
KRAS
.
CIC større end 1,0E-6 er til stede i en magt lov-lignende fordeling; specifikt logaritmen af antallet af CICS versus logaritmen af deres størrelsesordener giver en stykvis lineær sammenhæng. Baseret på spørgsmålet om, hvorvidt en magt lov fordeling er hensigtsmæssig til at analysere komplekse netværk og bekymringer om upålidelige undervurderede CIC, der kan være forårsaget af reservedele data, kun de CIC større end 1,0E-6 blev anvendt direkte i følgeslutning i denne undersøgelse . CIC udledes som mindre end 1,0E-6 blev erstattet af tærsklen for udjævning.
Fyrre-fire hyppigt muterede cancer gener (i mere end 20 genom-dækkende scannede prøver i COSMIC database) er illustreret med CICS mellem dem større end 1,0E-2. Tykkelsen af forbindelsen er proportional med styrken af den tilsvarende CIC. Når et par gener har tovejs links, er stærkere link tegnes som en lige linje, og den svagere tegnes som en buet linie (se tilfældet med
APC
← →
TP53
) . Asymmetrien kan iagttages ved, at der ikke tovejs links til lignende styrker eksistere mellem genpar, og
APC
,
TP53
, og
MLL3
hver spiller en hub rolle i netværket.
den følgeslutning af sandsynlige ordrer
de udledte mutation ordrer med en sandsynlighed større end tilfældig chance, i det følgende benævnt
sandsynlige ordrer
, forudsat mere konkrete indsigt i tumorudvikling. Vi analyserede de sandsynlige ordrer udledes for de 1.118 kræft prøver pågældende til at undersøge et maksimum på 8 mutation skridt fra indvielse. De primære steder af prøverne blev hovedsageligt placeret i
æggestok Hotel (256),
large_intestine
(
LI
, 180),
haematopoietic_and_lymphoid_tissue
(
HLT
, 148),
prostata Hotel (100),
bryst Hotel (97),
central_nervous_system
(
CNS
, 86) og
upper_aerodigestive_tract
(
UAT
, 72).
tabel S3 lister alle de sandsynlige ordrer og deres sandsynligheder i de analyserede prøver, og tabel 1 viser et udvalg af dem . Baseres på den forventede ordrer, konkluderede vi, at kun en lille del af alle de potentielle ordrer i en given prøve, og denne sandsynlighed højere end tilfældig chance, og den samlede sum af sandsynlighederne for disse ordrer er tæt på antallet af prøver med et forhold af 1034,4 /1118. Dette indikerer, at slutning identificeret en lille del af alle de potentielle ordrer permuterede af det givne sæt af mutante cancer gener som de sandsynlige ordrer. For en prøve, der huser to mutant cancer-gener, den følgeslutning altid tyder stærkt en af de to potentielle ordrer. Men for prøverne med mere end to mutant kræft gener, kan nogle ordrer har sammenlignelige høje sandsynligheder. Selvom vi ikke kan bedømme de enkelte plausibilities af de udledte sandsynlige ordrer på grund af mangel på jorden sandhed for ordrer i de fleste tilfælde kunne deres betydning være stærkt antydet ved at evaluere følgeslutning med prøver af en bestemt kræftform, der er blevet godt undersøgt med hensyn af orden. For eksempel,
APC, KRAS og TP53
er de tre hyppigst muterede gener i kolon kræft, og deres mutation ordrer er blevet godt modelleret [30], [31]. I vores resultater, prøven med mutant cancer gener
APC
og
KRAS
, gav en afledt sandsynlighed på 0,95 for ordren
APC
→
KRAS
, hvilket var i overensstemmelse med tidligere undersøgelser. For prøven med mutant
APC, KRAS og TP53
cancer gener, tre sandsynlige ordrer af
APC → KRAS → TP53
(0,33),
APC → TP53 → KRAS
( 0,32)
og TP53 → APC → KRAS Hotel (0,19) blev udledt fra 6 potentielle dem, og dette resultat var også i overensstemmelse med tidligere undersøgelser.
BRCA1
germline mutationer giver en høj risiko for bryst- og ovariecancer, men somatisk tab af vildtype
BRCA1
allel har vist sig at normalt opstår
efter
mutation af
TP53
[32]. Efter aftale med denne observation, vi udledte den somatiske mutation orden
TP53 → BRCA1
med en sandsynlighed på mere end 0,99. Disse eksempler giver beviser til støtte for inferens gyldighed.
initiativtagerne sandsynlige mutation ordrer
Identifikation af initiativtagerne til mutation ordrer er blevet betragtet som en af de store udfordringer i studiet af tumor progression [1]. Vores udledes sandsynlige ordrer af mutation forudsat informative hints til at løse denne udfordring. Ved at undersøge de gener, der indleder de sandsynlige ordrer, fandt vi, at initiativtagerne var domineret af tumor-suppressor gener. Et overvældende flertal (mere end 77,5%) af sandsynligheden vægtede antal af de sandsynlige ordrer blev udledt at være indledt, en tumor-suppressor gen i stedet et onkogen. Der var 368 cancer gener i test kræft prøver, blandt dem kun 92 var tumorsuppressorer. Mere specifikt var der 1.858 mutationer af tumorsuppressorer blandt totalt 3.823 mutationer af alle cancer-gener. Derfor den gennemsnitlige chance for tumorsuppressorer at indlede mutation ordrer var 48,6% (1858/3823). Dette viser, at dominans tumorsuppressorer i indledning af mutation ordrer ikke kunne tilskrives tilfældigheder. Derudover forholdene mellem det antal gange et gen var initiatoren til sin mutationsfrekvens var generelt anderledes, hvilket indebærer, at det ikke er sikkert, at der ofte muterede gener muterer tidligt (tabel 2). Betydeligt, sandsynligheden vægtede antal af de sandsynlige ordrer startet af de øverste to tumor-suppressor gen initiativtagerne
TP53
APC
, bestod af procenter som stort som 46,9% og 11,4%, henholdsvis . I modsætning hertil top to onkogen initiativtagere,
PIK3CA
KRAS
, blev fundet i procenter så små som 3,1% og 1,3%, henholdsvis. De øverste initiativtagerne til mutation ved de respektive primære kræft sites foreslog flere detaljer (tabel 3). Generelt var alle cancere hos de store primære steder af prøverne afslørede et tumor-suppressor-gen som deres top initiator. Især
TP53
var en fælles top initiativtager i fire af de tidligere anførte typer kræft,
æggestok
,
UAT
,
bryst
prostata
, med procentdele af 91,5%, 73,4%, 57,6% og 30,4%, henholdsvis. I
LI
kræftformer, den øverste initiativtager var
APC
(57,5%), efterfulgt af
TP53
(29,7%). Begge
CNS
HLT
kræftformer havde nogen åbenbart overlegne initiativtagerne, med
CIC
(13,6%),
PIK3CA
(10,1%) og
TP53
(10,0%) som de tre øverste initiativtagerne til det tidligere, og
TP53
(14,9%),
NPM1
(10,4%) og
MLL2
(9,9%) som de øverste tre initiatorer til sidstnævnte. Set fra initiativtager distribution,
æggestok
,
LI
,
UAT
og
bryst
kræft blev udledt at være domineret af et lille antal tumor -suppressor gener, mens
HLT
,
CNS
prostata
kræftformer blev udledt til at have flere forskellige væsentlige initiativtagere.
Tidligere undersøgelser har foreslået en række kendetegnende funktioner, der skal erhverves for en kræft til at generere, hjælper forskerne med at forstå kompleksiteten i tumor progression i en måde logisk, videnskabelig måde [33], [34]. Vores udledte resultater peger på et forslag, der går et skridt videre. I de fleste kræftformer, kan tidligst erhvervede kendetegnende funktion være
unddrage apoptose
fordi størstedelen af første muterede gener i hver kræftform i tabel 3 (
TP53, APC, KRAS, PIK3CA, NPM1
CIC
) har vist sig at kode for apoptose-regulerende proteiner, og mutationen af alle disse gener er blevet vist at føre til mangelfuld apoptose funktioner. Konkret mutation af
TP53
kan resultere i fjernelse af en vigtig del af DNA-skader sensor, der fungerer til at inducere apoptose [33], [34], mutant former af APC protein kan dæmpe reaktioner på apoptotiske stimuli [35], [36], mutationerne i
KRAS
PIK3CA
kan aktivere veje, der sender antiapoptotiske overlevelse signaler [33], og de proteiner kodet af
NPM1
CIC
har vist sig at fungere i apoptose [37], [38].
Informativ overgange i de sandsynlige ordrer
de overgange i den sandsynlige ordrer yderligere oplysninger om tumor progression.
Leave a Reply
Du skal være logget ind for at skrive en kommentar.