PLoS ONE: Analyse af Matchet Tumor og Normal Profiler afslører fælles Transkriptionelle og Epigenetisk Signaler deles på tværs af cancertyper

Abstrakt

For at identificere de transkriptionelle regulatoriske ændringer, der er mest udbredt i solide tumorer, vi udførte en pan-cancer-analyse ved hjælp af over 600 par af tumorer og tilstødende normale væv profileret i The Cancer Genome Atlas (TCGA) . Hyppighed af opregulering blev beregnet tværs mRNA ekspressionsniveauer, microRNA ekspressionsniveauer og CpG methylering og er forsynet her som en ressource. Hyppige tumorassocierede ændringer blev identificeret under anvendelse af en simpel statistisk metode. Mange af de identificerede ændringer stemte overens med den forhøjede sats af celledeling i cancer, såsom overekspression af cellecyklus gener og hypermethylering af PRC2 bindingssteder. Men vi identificeret også spredningsfølsomme uafhængige ændringer, der fremhæver nye veje er essentielle for tumordannelse. Næsten alle de GABA-receptorer er ofte nedreguleret, med genet, der koder delta-underenheden (GABRD) kraftigt opreguleret som en bemærkelsesværdig undtagelse. Metaboliske gener også hyppigt nedreguleret, især alkoholdehydrogenaser og andre i overensstemmelse med den formindskede rolle oxidativ phosphorylering i kræftceller. Ændringer i sammensætningen af ​​GABA-receptorer og metabolisme kan spille en central rolle i differentieringen af ​​kræftceller, uafhængig af spredning

Henvisning:. Gross AM, Kreisberg JF, Ideker T (2015) Analyse af Matchet Tumor og Normal Profiler afslører fælles Transkriptionelle og Epigenetisk Signaler deles på tværs af kræftformer. PLoS ONE 10 (11): e0142618. doi: 10,1371 /journal.pone.0142618

Redaktør: Jindan Yu, Northwestern University, UNITED STATES

Modtaget: September 2, 2015; Accepteret: 23. oktober 2015; Udgivet: November 10, 2015

Copyright: © 2015 Gross et al. Dette er en åben adgang artiklen distribueres under betingelserne i Creative Commons Attribution License, som tillader ubegrænset brug, distribution og reproduktion i ethvert medie, forudsat den oprindelige forfatter og kilde krediteres

Data Tilgængelighed: Alle data er offentligt tilgængelige fra de overordnede brandslange webportal (https://gdac.broadinstitute.org/). Vi brugte data fra 2. april 2015 standarddata kører i denne analyse. Yderligere data blev taget fra en alternativ behandling rørledning, offentligt tilgængelige i Gene Expression Omnibus på tiltrædelsen GSE62944

Finansiering:. Dette arbejde blev støttet af det amerikanske National Institute of General Medical Sciences, Grant # P50 GM085764 til TI og JFK og det amerikanske National Institute of General Medical Sciences, Grant # P41 GM103504-04 til TI. De finansieringskilder havde ingen rolle i studie design, indsamling og analyse af data, beslutning om at offentliggøre, eller forberedelse af manuskriptet

Konkurrerende interesser:.. Forfatterne har erklæret, at der ikke findes konkurrerende interesser

Introduktion

Kræftceller er kendetegnet ved en lang række ændringer i genomet, epigenome, transkriptom. Mens de fleste tumor-associerede ændringer har ringe funktion, er vigtige gener og veje ofte impliceret ved at se på tværs af patienter inden for en kohorte for begivenheder, der er tilbagevendende [1-3]. Mens sådanne analyser traditionelt udføres på tværs veldefinerede patientgrupper med tumorer af lignende anatomiske placering og histologisk udseende, store datasæt produceret af offentlige indsats som The Cancer Genome Atlas (TCGA) [2, 4] har nu gjort meta-analyse af cancer studier muligt.

Ved at kigge på tværs af mange forskellige undertyper, pan-cancer analyser giver et højt niveau, væv agnostiker syn på kræft. Mange af disse undersøgelser har analyseret koordinerede ændringer på tværs af molekylære fænotyper og kliniske data til at isolere de vigtigste signaler under tumorgenese. Denne indsats har afdækket bevarede mønstre af gen-co-ekspression på tværs af mange typer af tumorer [5, 6] identificere molekylære mønstre forbundet med tumorvækst og proliferation. I en supplerende tilgang, en nylig artikel af Gentles og kolleger [7] identificerede gener, hvis udtryk var forbundet med overlevelse på tværs kohorter spænder mange væv. Disse forfattere fandt, at overekspression af gener nær FOXM1 transkriptionelle netværk og af gener, der driver cellecyklusprogression blev forbundet med uheldige resultater for patienterne. Disse meget konserverede underskrifter celledeling støtte hypotesen om, at en kerne kræft fænotype aktiveres i varierende grad på tværs af forskellige tumortyper.

Indtil nu sådanne pan-cancer studier af transkriptionelle ændringer har primært fokuseret på tumor prøver, uden overvejelse af normalt væv. I modsætning hertil har undersøgelser af mutationer, strukturelle variationer eller DNA kopital ændringer ofte påberåbt subtraktiv analyse af matchede data til at nå magten i detektering tumor-specifikke ændringer. Selv om et par udtryk studier analyserede patient-matchede tumorer og tilstødende normale væv, blev disse undersøgelser begrænset til specifikke væv kohorter [8-13]. De var således i stand til at identificere gener, hvis ekspression i tumor afviger fra normale i et enkelt væv, men var ude af stand til at skelne, hvilke af disse ændringer er specifikke for en given undersøgelse population eller er generelle træk ved cancer som helhed. Til dette formål, en pan-cancer-analyse af forskellen transkriptionelle regulatoriske programmer, hvad enten på niveauet af mRNA-ekspression, miRNA udtryk eller methylering-er endnu ikke udført.

Her udfører vi en sådan analyse ved hjælp af oplysninger let tilgængelig i The Cancer Genome Atlas (TCGA), som har muliggjort standard dataindsamling procedurer og molekylære profilering analyser for mange måling platforme [4]. Ved hjælp af TCGA data, kompilere vi en omfattende liste over tumor-associerede mRNA, miRNA og methylering sites ved at måle den frekvens, som deres niveauer er forhøjede mellem matchede tumor og normale prøver på tværs af alle målte kræft væv. Opregulering frekvenser for disse funktioner leveres som en generel ressource til kræft samfund. Vi finder, at der ud over nærmest universelle overekspression af gener er vigtige for tumor spredning findes der prominente spredningsfølsomme uafhængige signaler, som kunne spille en rolle i væv remodellering.

Resultater

For at identificere allestedsnærværende tumor associeret signaler, vi hentede alle de tilgængelige data fra TCGA som den 2. april 2015 gennem de overordnede instituttets brandslange webportal (metoder) [14]. Denne datasæt bestod af genom-dækkende mRNA-ekspression, microRNA (miRNA) udtryk og CpG methylering for over 9.000 tumorer, hvoraf tilstødende normale væv blev også profilerede for over 600 patienter (S1 Fig).

På baggrund af denne store samling af matchede tumor og normale data, blev vi drevet til at ansætte en forenklet analyse for at identificere molekylære signaler forbundet med tumorer (Metoder, fig 1a og S2 fig). For hver mRNA, miRNA eller CpG markør, vi kvantificeret fraktion opreguleret (

f

op

), den del af patienterne, som markør niveau var højere i tumoren end i matchet normalt væv. Denne metrik er en formulering af sign-teststørrelsen

s

= Pr (x

i y

i), hvor x og y er vektorer af matchede prøver fra tumor og tilstødende normale væv , henholdsvis. Brug denne statistik identificerede vi mRNA, miRNA og CpG’er, der lå fra random (

f

op

= 0,5) til højt differentielt udtrykt eller methylerede (

f

op

nærmer 0 eller 1) (fig 1b og S1 tabel). For at vurdere reproducerbarheden af ​​denne statistik, studerede vi 10 yderligere genekspression microarray datasæt, der spænder over 1012 individer med matchede tumorvæv /normalt data fra Gene Expression Omnibus. Efter beregning

f

op

for alle generne i datasættet, fandt vi en korrelation på 0,84 (

P

10

-16 , 95% konfidensinterval (CI): 0,838-0,847) mellem disse scoringer og

f

op

scoringer identificeret fra TCGA RNA-sekventering data (figur 1c og S2 Table) .

(a) Skematisk af beregningen af ​​fraktion opreguleret (

f

op

) for en enkelt genekspression profil på tværs af TCGA kohorte. Data er filtreret til kun at omfatte matchede prøver, størrelserne af parrede tumor /normale prøver sammenlignes, og en fraktion af hvor ofte genet opreguleres registreres. (B) Massefylde af

f

up

statistik tværs genom-dækkende mRNA, miRNA, og methylering målinger. (C) Sammenligning af mRNA

f

up

statistik beregnet ud fra TCGA mRNASeq målinger versus microarray målinger downloadet fra GEO.

Inspektion af molekylære enheder med ekstreme værdier af

f

op

bekræftede, at tumor spredning spiller en dominerende rolle, som beskrevet af tidligere undersøgelser [5-7, 15-16]. Blandt de mest stærkt tumorassocierede gener var FOXM1, for hvilke mRNA-niveauer opreguleres i 93% af patientens tumorer (95% CI

Bonf: 87% -97%). FOXM1 er et velkendt proliferation-associeret transkriptionsfaktor som spiller en central rolle i reguleringen af ​​progressionen af ​​cellecyklussen [16]. Gene-Set berigelse analyse fremhævet en række funktioner, der er forbundet med spredning, herunder opregulering af cellecyklus gener med særligt store effektstørrelser observeret for cellecyklus gen delmængder “aflejring af CENPA indeholder nukleosomer på centromeren” og “M /G1 overgang” ( figur 2a og S3 Table, Mann-Whitney U test,

P

BH

10

-16). Analyse af methylering markører viste hypermethylering forekommer ved PRC2 bindingssteder som tidligere er blevet knyttet til proliferation i kræft [17] (figur 2b). Tilsammen disse resultater bekræfter, at mange tumor-associerede molekylære ændringer er drevet af spredning.

(a) Violin plots viser fordelingen af ​​mRNA niveau

f

op

statistik (fraktion overudtrykte) på tværs af alle gener sammenlignet med gener kommenteret til cellecyklus og dens undergrupper: “aflejring af CENPA indeholder nukleosomer på centromeren” og “M /G1 overgang” i mSigDB. (B) Density plots af fordelingen af ​​

f

op

(fraktion med øget methylering) på tværs methylering markører kommenteret til funktionelle genomiske sites. (C) Scatter plot sammenligne

f

up

statistik mod gen sammenhæng med spredning for hver genekspressionsprofilen.

For at isolere spredning afhængig og uafhængig komponenter af tumorassocieret signal, tildelt vi en spredning score for hvert mRNA, miRNA og methylering site. Dette blev beregnet ved at vurdere korrelationen tværs TCGA patienter af hver enkelt funktion udtryk niveau med en tidligere publiceret spredning signatur [18] (meta-PCNA, Methods). Faktisk fandt vi, at disse spredning scoringer var stærkt korreleret med

f

op

scoringer på tværs af alle tre datatyper, med Pearsons

r

= 0,63 (95% CI : fra 0,62 til 0,64), 0,62 (0,56-0,67), og 0,674 (fra 0,672 til 0,676) for mRNA, miRNA og methylering henholdsvis (figur 2c, for alle tre statistikker

P

10

– 16). Interessant, observerede vi en tung skævhed i

f

up

statistik for miRNA arter i særdeleshed (figur 1a), som vi tillægger en generel tendens til stigende miRNA udtryk med spredning [19].

for at vurdere tumor-associerede, vækst-uafhængige signaler, vi justeret markør niveauer for at fjerne enhver forbindelse med spredning og omregnet

f

op

(dvs., tegner sig for meta-PCNA signatur, se Methods, S4 tabel). Vi forventede, at funktioner med ekstreme værdier af detrended

f

op

ville blive ændret i overgangen fra normal til tumorceller, men ikke forbundet tumor vækst. Berigelse analyse af denne detrended statistik identificeret overekspression af gener involveret i ribosomale og proteasomalaktivitet processer (S5 Table, Mann-Whitney U test,

P

BH

10

– 16,

P

BH

10

-7, henholdsvis). Interessant, mens telomer vedligeholdelse gener havde en generel stigning i

f

op

, gener involveret med telomer forlængelse havde meget stærkere korrelationer med spredning end gener involveret i pakning af telomer ender (

P

0,001, S3 fig). Det er sandsynligt, at disse og andre veje er vigtige for den indledende omfortrådning af cellen kræves for accelereret vækst, men derefter har ringe indflydelse på tumor vækstrate.

De mest opreguleres, spredningsfølsomme uafhængige gener i tumorer var SEMA5B (detrended

f

op

= 0,82 [0,74-0,88], S4 fig), GABA-receptoren subunit GABRD (detrended

f

op

= 0,82 [0,64-0,80], figur 3), og den velundersøgte tumor suppressor CDKN2A (detrended

f

op

= 0,72 [0,63-0,79 ]). SEMA5B er et gen i semaphorin familie, hvis vigtigste roller er at tjene som vejledning signaler i forskellige stadier af udvikling. Disse gener er for nylig blevet vist at spille en rolle i cancer signalering [20]. Dette GABA

A-underenheden udtrykkes primært i cerebellum, hvor dets receptor ligger extrasynaptically [21-22], men det er også udtrykt i testiklerne (S5 Fig) og CD4 + T-celler [22-23]. I TCGA datasæt, er GABRD overudtrykt i 89% (CI

Bonf 81% -93%) af emner og har en svag negativ sammenhæng med spredning i tumorer (figur 3). I modsætning hertil er de fleste andre GABA subunit gener nedreguleret tværs af mange cancere (Fig 3c, S6 Fig). Vi observerede en særlig stor effekt i renalcellecarcinom, hvor der er en ti-fold gennemsnitlig reduktion i GABRA2 sammen en seks gange forøgelse i ekspression af GABRD (figur 4e). Lignende effekter blev observeret i en parret microarray datasæt (S7 Fig).

(a) Scatter-plot sammenligne GABRD genekspressionsprofiler til spredning scoringer tværs matchede tumor og normale prøver. Linjer indikerer lineær regression figner af tumor (rød) og normale (blå) prøver, skraverede områder angiver 95% konfidensintervaller. (B) Sammenligning af matchede tumor og normale profiler til GABRD udtryk, grupperet efter vævstype. (C) Sammenligning af matchede tumor og normale profiler for alle GABA proteinunderenheder i renalcellecarcinom. Kræft akronymer er defineret som følger: KIRC, nyre renal klar celle karcinom; THCA, skjoldbruskkirtel carcinoma; BRCA, bryst invasiv karcinom; LIHC, lever hepatocellulært carcinom; KICH, nyre kromofobt; STAD, mave-adenocarcinom; LÆS, endetarm adenocarcinom; LUAD, lunge adenocarcinom; COAD, colon-adenocarcinom; UCEC, uterin corpus endometrioide carcinoma; LUSC, lunge pladecellecarcinom; BLCA, blære urothelial carcinoma; HNSC, hoved og hals planocellulært karcinom; Prad, prostata-adenocarcinom; KIRP, nyre renal papillær celle carcinom.

Her vist for TCGA brystkræft datasæt som en repræsentativ kohorte. Også vist er ALDH2 som er den største enzym ansvarlig for at nedbryde acetaldehyd, det primære mellemprodukt af alkohol stofskifte.

Gene sæt med lignende mønstre af differential udtryk som GABRD tariferet «hæmatopoietisk celle afstamning” og ” ‘hjælper-T-celle-polarisering «(Methods). Yderligere inspektion af gener i hjælper-T-celle polarisering pathway viste en præference for gener udtrykt i Th1 i modsætning til Th2-celler. For at afgøre, om dette signal repræsenteret infiltrering af immunceller ind i tumoren, brugte vi CIBERSORT programmet [7] til at forudsige immuncelleundergrupper i tumorprøver, men fandt lidt at ingen sammenhæng med GABRD. Selv om det stadig er vanskeligt helt at udelukke immun infiltration som drivkraft af dette signal, disse resultater tyder på, at forhøjede niveauer af delta-underenheden kunne føre til funktionelle ændringer i GABA

En receptor, som kan spille en rolle i tumor celle differentiering .

Blandt de mest nedreguleret, spredningsfølsomme uafhængige gener vi bemærket udbredt epigenetisk inaktivering i tumorer med stærke berigelser for transkriptionsstartsitet hypermethylering (Methods, S8a fig, Odds-Ratio = 2,

P

10

-16) og gen-krop hypometylering (S8b fig, Odds-ratio = 2,5,

P

10

-16). Mens dækningen af ​​methylering markører på Illumina 450K chip varierede tværs gener, manuel inspektion (Methods) af de mest konsekvent nedreguleret gener identificeret mange gener med i forbindelse med methylering ændringer i deres DNA, herunder GSTM5 (detrended

f

op

= 0,27 [0,19-0,35], S8c fig) og NRXN1 (detrended

f

op

= 0,25 [0,18-0,34], S8d fig) . Mens NRXN1 primært udtrykkes i hjernen, hvor det tjener som et celleoverfladeprotein, har det også vist sig at spille en rolle i omformning af karvæv indikerer det kan spille en mere omfattende rolle i reguleringen af ​​celleadhæsion i periferien [24].

En skærm til gen-sæt beriget til spredningsfølsomme uafhængig nedregulering identificeret transskription og fedtsyre-metabolisme veje (Mann-Whitney U test,

P

BH

10

-8,

P

BH

10

-4, henholdsvis). Blandt fedtsyrestofskiftet gensæt var alkoholdehydrogenase-gener, som var næsten ubikvitært nedreguleret med en særlig stor effekt for klasse I-gener (

f

op

= 0,06 [ ,,,0],0,02-0,10], 0,05 [0,02-0,10] og 0,12 [0,06-0,18] for ADH1-A, -B og -C, henholdsvis) samt ALDH2 (

f

op

= 0,15 [0,09 til 0,22]), som tjener til at nedbryde acetaldehyd (fig 4 og S9 fig). Nedreguleringen af ​​alkohol metabolisme er sandsynligvis en del af alternative pyruvat brug medieret af Warburg effekt, hvor cancerceller øge deres glycolysens ved at skifte til aerob metabolisme [25]. Udforskning af andre glycolyse gener støttet dette skift med opregulering af lactatdehydrogenase gen IdhA (

f

op

= 0,79 [0,71-0,86]) sideløbende nedregulering af mitokondrie pyruvat luftfartsselskab gen MPC1 (

f

op

= 0,11 [0,09-0,22], TCGA symbol BRP44L). Meget gerne ADH generne, er MPC1 nedreguleres i en spredning-uafhængig måde, og er for nylig vist sig at påvirke kræft cellelinje vækst i ikke-klæbende, 3D dyrkningsbetingelser, men ikke i proliferation eller celle-cyklus progression analyser [26].

diskussion

Her har vi givet en ressource til at hjælpe i forståelsen af ​​tumor-associerede molekylære ændringer. Brug den største database af molekylære profiler fra parret tumor og tilstødende normale væv til rådighed, vi bestemt, hvor ofte hver mRNA, miRNA og methylering site er forskelligt udtrykt i kræft.

Vi observerede ændringer i ekspressionsniveauerne af træk forbundet med vækst og spredning, herunder cellecyklus gener, globale miRNA udtryk og methylering af PRC2 bindingssteder. Ud over funktioner i overensstemmelse med hurtig cellulær proliferation, vi også observeret en række spredningsfølsomme uafhængige signaler. Disse gener kan ligge i pathways kræves for celler at bryde fri af de normale mekanismer, der regulerer egenskaber såsom telomer forarbejdning og væv invasionsevne. En sådan spredning-uafhængig mønster kan også opstå i tumorsuppressorer. Mange tumorsuppressorer aktiveres som reaktion på DNA-skade, men kan aktivt undertrykkes af ændret molekylær signalering i tumorer.

En væsentlig konklusion af denne undersøgelse er den spredning-uafhængige opregulering af GABRD i næsten alle tumorer profilerede. Ud over sin velkendte rolle neurologisk signalering, signalering via GABA-underenheder kan også undertrykke proliferationen af ​​både neurale og perifere stamceller. Desuden har dysregulering af GABA signalering blevet impliceret i forskellige cancere, hvor det er antaget at have en rolle i differentieringen og proliferationen af ​​tumor stamceller [27].

Der er en række mulige forklaringer på, hvorfor mange GABA underenheder er nedreguleret, men GABRD især opreguleres, i cancer. En mulighed er, at tumorer udtrykker et hidtil ukendt receptor-konfiguration; en anden er, at ekspressionen af ​​delta-underenheden kunne skabe ikke-funktionelle receptorer med andre underenheder. Mens det er svært at udelukke den tidligere forklaring, ekspressionen af ​​GABRD i testiklerne (S5 Fig), og den observation, at GABA har vist sig at fremme proliferation af Leydig-celler i gnavere testikler [28], giver en vis vægt til ideen at brugen af ​​en alternativ GABA

en receptor kan være vigtigt for tumorigenese.

Yderligere arbejde er klart behov for at forstå de spredningsfølsomme uafhængige gener og udvide deres rolle i cancer. Mens sekundære valideringsmetoder ofte måle ændringen af ​​en cellelinie vækstrate som reaktion på afbrydelse af et mål, fænotyper, såsom dem beskrevet her, vil sandsynligvis ikke åbenbar i sådanne assays. I modsætning hertil kan ikke-traditionelle assays, såsom cellemigration og 3D cellekultur være forpligtet til at validere sådanne fænotyper. Der er for nylig blevet udført 3D celledyrkningsforsøg på pyruvat carrier MPC1 hvor medforfattere viser en klar induktion af vækst, når dette gen er re-udtrykkes i 3D kultur og mus xenograftmodeller, ikke i klassisk (2D) cellekultur [26] .

Endelig vil vi gerne fremhæve nytten af ​​at bruge en stor, varieret kohorte at udlede en robust pan-cancer-signal. Det er vigtigt at bemærke, at vi ikke har til formål at mindske betydningen af, at normale væv funktion, eksponering for kræftfremkaldende stoffer, og cellefornyelsen satser kan have på de fænotyper af forskellige kræft præsentationer. Men signaler, der er robuste over for væv og miljømæssig sammenhæng vil sandsynligvis være meget vigtigt at kerneprocesserne driver et bredt spektrum af cancertyper. Med den seneste opmærksomhed mod præcision medicin, er det så meget mere vigtigt at definere standard molekylær fænotype for kræft i almindelighed: Kun ved først at definere fælles molekylære funktioner kan vi virkelig forstå, hvordan behandlingen kan afholdes til at opdage og angribe specifikke præsentationer af sygdommen .

Metoder

informeret samtykke

informeret samtykke blev opnået for alle patienter som en del af Cancer Genome Atlas konsortier. Alle data, der anvendes i denne undersøgelse blev hentet fra offentlige hjemmesider, efter at data blev givet samtykke til offentlig brug. Ingen håndtering af personlige oplysninger blev udført af forskerne på denne undersøgelse.

Molekylær data hentes og behandles

Alle data blev hentet hjælp de overordnede Instituts firehose_get data-hentning utility. For at bevare sammenhængen i analysen på tværs af forskellige datalag og kræftformer, brugte vi Level 3 normaliserede molekylære data som input til vores analyse og brugte alle tilgængelige som af April 2, 2015 standard data run data. Brugen af ​​TCGA genom Data Analysis Center (GDAC) rørledning til formål at gøre disse resultater let at opdatere så mere bliver tilgængelige TCGA data.

For TCGA genekspression værdier, vi brugte data fra Rahman og kolleger, der oparbejdes RNA-sekvensen baserede udtryk data og viste bedre resultater om kontrol [29]. Mens du bruger disse data i modsætning standard TCGA rørledning gav små ændringer til de resultater, der præsenteres her, er de kvalitativt meget ens for begge rørledninger. For at opretholde konsistens og respekt data versionering vi kun brugte patienter og gener til stede i firehose datasæt.

En markør (gen, miRNA, methylering probe) filter blev anvendt på TCGA data for at sikre, at der var en påviselig ændring i værdi mellem patient matchede tumor og normale profiler i mindst 50% af patienterne. Generelt denne fremgangsmåde fjernede elementer, hvis niveauer var under grænsen for detektion i både tumor og normal, hvilket resulterer i identiske lave værdier. Den resulterende feature sæt bestod af 396,059 methylering sonder, 520 microRNA og 18420 gener.

Microarray data hentes via manuel søgning af Gene Expression Omnibus (GEO) for store molekylære kohorter med parrede tumor /normale udtryk data fra følgende tiltrædelser: GSE25097, GSE14520, GSE62872, GSE44076, GSE53757, GSE39791, GSE5364, GSE41258, GSE39004, GSE68468 og GSE33532. Data blev indhentet fra de forbehandlede serien matrix filer gjort tilgængelige på GEO, og sonder blev midlet på deres kommenterede gener. På grund af den ulige fordeling af væv til rådighed på GEO, fraktion opreguleret (

f

op

) statistik blev beregnet for hver vævstype individuelt, og derefter gennemsnit for at opnå enighed. Da ikke alle microarray platforme havde fuld dækning af de kodende gener, blev statistikker beregnet for tilgængelige data, og gener profileret i færre end 500 matchede prøver blev kasseret. Dette resulterede i 16785 gener for hvilke der forelå både microarray og RNA-sekventering data.

Vurdering af Differential Expression via Fraktion af opreguleret Patienter

Den fraktion opreguleret metrik er en formulering af tegn- teststørrelsen

s

= Pr (x

i y

i), hvor x og y er vektorer for matchede prøver. Denne statistik kan ses som en forenkling af Wilcoxon-test, da den ikke bruger størrelsen af ​​forskellene for en rangfølge, men snarere tæller tegnene på forskellene. Dette er en enkel, antagelse-fri variabel, hvor information om størrelsen af ​​differentiel ekspression eller methylering kasseres. Statistikken viser den del af patienterne, for hvilken en markør tager på en højere værdi i tumoren end den matchede normale prøve og svinger mellem 0 og 1. Statistisk vurdering af

f

op

udføres ved test mod nulhypotesen at

f

op

forudsætter en binomialfordeling med et gennemsnit på 0,5. Konfidensintervaller er vurderet via en gennemgang af en beta fordeling pasform med shape parametre defineret af tegnet testen. Selv om en sådan procedure kan i høj grad begrænse statistisk styrke, når stikprøvestørrelsen er lille, ved store stikprøvestørrelser,

f

op

spor meget godt med parametrisk statistik, såsom en parret t test (S2 fig).

ved at forenkle til et tegn test vi mister statistisk styrke, men vinde robusthed af testen ved at tillade anvendelsen af ​​denne test, uanset fordelingen af ​​data. Dette bruges som erstatning af standard statistiske teknikker, der anvendes som en parret t-test eller specialiserede forskellen udtryk værktøjer som pool varians på tværs markører, der traditionelt anvendes i undersøgelser, der har meget mindre stikprøvestørrelser (generelt

n

= 3 -20), og dermed ikke beføjelse til at anvende en sådan forenklet model. Vi afstå fra at bruge sådanne teknikker som de ville indføre en lang række forstyrrende faktorer, som ville gøre vores analyse meget mindre robust og sværere for læseren at fortolke. For eksempel brugen af ​​en t-test uden modellering tumor renhed som kovariat ville være uhensigtsmæssigt i denne indstilling som mere rene prøver ville have en outsized effekt.

Desuden denne parametrisk eksakte test har en række ønskelige egenskaber til integrativ analyse på tværs datasæt. Statistisk den bygger på ingen antagelser og er robust over for outliers. Desuden gør ikke pool prøver som biologiske replikater og dermed giver alle prøver lige vægte ved beregning af en oversigt værdi. Biologisk den eneste antagelse med prøvningen er at tumoren prøven indeholder flere tumorceller end den normale prøve. På grund af disse egenskaber forventer vi lille bidrag fra ikke-cancer vævsspecifikke udtryk og batch effekter.

spredning Scoring

En patient niveau spredning score blev vedtaget fra meta-PCNA metriske offentliggjort i Venet

et al

. [18]. Denne tidligere undersøgelse minerede normale, ikke-sygdomsramte væv og defineret et sæt af 131 gener associeret med den velundersøgte Prolifererende cellekerneantigen (PCNA) -gen, derefter skabt en meta-gen beregnet som medianen ekspressionsniveau af disse 131 gener. Som i Venet

et al

., Blev medianen af ​​disse gener anvendes til at konstruere proliferationen score i den aktuelle undersøgelse. En markør-niveau associering med denne proliferation score blev derefter beregnet for hvert gen, miRNA eller methylering probe ved at vurdere den Pearson korrelation af ændringen i meta-PCNA med ændringen i markør-niveauer fra tumor til normalt væv for alle individer med matchede prøver.

Vurdering af spredning-uafhængig tumor-associerede funktioner

for at søge efter funktioner, der er tumor-associerede uafhængigt af spredning, sammenslutningen af ​​markør niveauer med spredning (meta-PCNA) blev detrended via en lineær model. Den detrended

f

op

metrisk er meget lig standarden

f

op

beregning med tilføjelse af forbehandling til fjerne tendenser spredning. Yderligere væv og interaktion vilkår tilføjes at modellere til sammenslutning af metaPCNA med væv

detrending trin er implementeret i R ved hjælp af følgende model:. Hvor metaPCNA: væv er et samspil sigt mellem disse to faktorer. Efter denne model er egnet til alle markører opnår vi en matrix af restprodukter fra sættet af markører, og gentag skærmen for konserverede ændringer som tidligere gennemførte for

f

op

. Skærmen resultat giver os p-værdier og konfidensintervaller for alle detrended

f

op

værdier.

Gene Set Berigelse Analyse

Gene sæt blev hentet fra Molecular signaturer Database (mSigDB) [30]. Version 5 af de kanoniske pathwaygen-sæt blev anvendt i denne analyse. Berigelse af

f

op

for gen-sæt blev udført ved at screene alle sæt for en forskel i fordelingen af ​​

f

op

i sættet i forhold til baggrunden gen indstilles via rang-baserede Mann-Whitney U test.

for at forstå, om GABRD havde koordineret differentieret udtryk med eventuelle kommenterede veje, vi foretaget en berigelse test mod co -differential ekspression af GABRD med alle andre gener. For at løse dette, vurderede vi berigelse af co-differentieret udtryk ved følgende metode:

dx: gen x gen sammenhæng på tværs af matrix af differentieret udtryk

dt: gen x gen sammenhæng på tværs af matrix af tumor -Kun genekspression

cx: dx-dt, ændring i korrelation

sti berigelse: ændring i gennemsnit af cx i gener annoteret til en given sti

under foreløbig analyse vi bemærkede, at spredning forbundet veje blev beriget til co-differentieret udtryk med mange gener. Vi formoder, dette er tilfældet skyldes den kraftige spredning komponent af differentielle ekspression signalgivende disse gener mere informationsindhold. At slibe på veje med en specifik berigelse for GABRD vi beregnede pathway berigelser for alle gener, og rangeret GABRD med hensyn til alle andre gener.

Be the first to comment

Leave a Reply