PLoS ONE: Overensstemmelse af genekspression og Funktionelle Korrelationsfaktorer Mønstre tværs af NCI-60 cellelinier og Cancer Genome Atlas glioblastoma Samples

Abstrakt

Baggrund

NCI-60 er et panel af 60 forskellige humane cancer cellelinjer benyttes af det amerikanske National cancer Institute til at screene forbindelser til anticancer aktivitet. Vi har for nylig grupperet gener baseret på korrelation af udtryk profiler på tværs af NCI-60. Mange af de resulterende klynger blev karakteriseret ved cancerassocierede biologiske funktioner. Sættet af kurateret glioblastom (GBM) genekspression data fra initiativet Cancer Genome Atlas (TCGA) er for nylig blevet tilgængelige. Således er vi nu i stand til at afgøre, hvilke af processer er robust deles af både de immortaliserede cellelinjer og kliniske kræftformer.

Resultater

Vores centrale observation er, at nogle sæt af højt korrelerede gener i de NCI-60 udtryk data også højt korreleret i GBM udtryk data. Desuden er en “dobbelt fiskeri” strategi identificeret mange sæt af gener, der viser Pearson korrelation ≥0.60 i både NCI-60 og GBM datasæt i forhold til en given “lokkemad” gen. Antallet af sådanne gen-apparater langt overstiger antallet forventes ved en tilfældighed.

Konklusion

Mange af de gen-gen-korrelationer fundet i NCI-60 afspejler ikke blot betingelserne for cellelinjer i kultur; snarere, de afspejler processer og gen netværk, også fungere

in vivo

. En række af gen netværk korrelationer co-forekomme i NIC-60 og GBM datasæt, men der er andre, der kun forekommer i NCI-60 eller kun i GBM. I summen, denne analyse giver en ekstra perspektiv på både nytte og begrænsningerne i NCI-60 i at fremme vores forståelse af kræft

in vivo

Henvisning:. Zeeberg BR, Kohn KW, Kahn A, Larionov V, Weinstein JN, Reinhold W, et al. (2012) Overensstemmelse af genekspression og Funktionelle Korrelationsfaktorer Mønstre tværs af NCI-60 cellelinier og Cancer Genome Atlas glioblastom prøver. PLoS ONE 7 (7): e40062. doi: 10,1371 /journal.pone.0040062

Redaktør: Javier S. Castresana, Navarra Universitet, Spanien

Modtaget 11. april 2012; Accepteret: 31. maj 2012; Udgivet: 26 juli, 2012 |

Copyright: © Dette er en åben-adgang artiklen, fri for alle ophavsrettigheder, og kan frit gengives, distribueres, overføres, ændres, bygget på, eller på anden måde bruges af alle til enhver lovligt formål. Dette er en åben adgang artiklen distribueres under betingelserne i Creative Commons Attribution License, som tillader ubegrænset brug, distribution og reproduktion i ethvert medie, forudsat den oprindelige forfatter og kilde krediteres

Finansiering:. Denne forskning blev delvist understøttet af den Intramural Research Program for National Institutes of Health, National Cancer Institute, center for Cancer Research. Arbejde JNW blev delvist understøttet af Grant nummer U24CA143883 fra National Cancer Institute (UT-MD Anderson TCGA genom Data Analysis Center), med en gave fra H.A. Mary K. Chapman Foundation, og ved en bevilling fra Michael Susan Dell Foundation ære Lorraine Dell. De finansieringskilder havde ingen rolle i studie design, indsamling og analyse af data, beslutning om at offentliggøre, eller forberedelse af manuskriptet

Konkurrerende interesser:. En forfatter, Dr. Ari Kahn, er tilknyttet en kommerciel virksomhed SRA International Inc . Det ændrer ikke forfatternes tilslutning til alle de PLoS ONE politikker på datadeling og materialer.

Introduktion

NCI-60 [1] er et panel af 60 menneskelige kræftceller bruges af Developmental Therapeutics Program (DTP) af det amerikanske National Cancer Institute til at screene 100.000 forbindelser plus naturlige produkter siden 1990. NCI-60 panel omfatter kræft i tyk- (CO), renal (VE), æggestokkene (OV), prostata (PR), lunge (LC), bryst (BR), og det centrale nervesystem (CNS) oprindelse, samt leukæmier (LE) og melanomer (ME). Vi og vores mange kolleger rundt om i verden har profileret NCI-60 mere omfattende på DNA, RNA, protein, mutation, funktionelle og farmakologiske niveauer end nogen anden panel af forskellige celletyper i eksistens. De NCI-60 data er ofte blevet brugt i kræftforskning og bioinformatik, men de mange datasæt kan være mest informative for anerkendelse af komplekse ‘biosignaturer “(en” biosignatur «indebærer et ensemble af gener, hvis funktioner er forudsigende). Analyse af sådanne biosignaturer har ført til øget forståelse af celle fænotyper og pathway relationer.

Når vi for nylig grupperet gener baseret på korrelation af udtryk profiler på tværs af NCI-60 [2], mange af klyngerne var forbundet med kræft -relaterede biologiske funktioner. Antallet af sådanne klynger langt oversteg, hvad der ville kunne forventes ved en tilfældighed. En af klyngerne, betegnet som “klynge 52 i 160-cut,” var består af væsentlige arter, der generelt reflekterede neuron udvikling, immunrespons, og epitelial til mesenkymale overgang (EMT) foruden cellemigrering. I modsætning hertil blev klynge 68 i 160-cut fokuseret kraftigt på en enkelt biologisk proces, nemlig immunforsvar.

fuld størrelse tal er tilgængelige som figur S1 og S2. Numrene vedføjede efter genet navn henviser til NCI-60 klynge, hvori dette gen optrådte.

En tidligere undersøgelse [3] sammenlignet genekspressionsprofilerne mellem cellelinjer og brysttumor vævsprøver. Forfatterne bemærkede, at: “cellelinjer og tumorer deler mange aspekter af deres genekspression mønstre, der kan relateres til den normale og patologiske fysiologi, der adskiller bryst celletyper

in vivo

. Disse gensæt indbefatter 1) den basale epitel klynge, 2) den luminale epitel /ER + klynge, 3) ErbB2 + amplicon klynge, 4) spredning klyngen, og 5) interferon klynge. “

kræftceller i kultur er genstand for meget forskellige vilkår end tumorceller i værten. De er blevet fjernet fra deres fysiologiske miljø i andre celletyper, væv arkitektur, hormonelle påvirkninger, og autokrine /parakrine signaler. Så spørgsmålet tilbage: “.? Hvad betyder sådan et mønster af forening i cellekultur fortælle os om kræftceller in vivo”

For at udforske dette spørgsmål, vi analyserede den meget kurateret glioblastom (GBM) afskrift udtryk datasæt genereret af initiativet Cancer Genome Atlas (TCGA) [4]. TCGA blev etableret for at opbygge et omfattende katalog af genomiske og fænotypiske abnormiteter, der drev carcinogenese og potentielt påvirke terapi i 20 forskellige tumortyper. Især har TCGA nu givet en detaljeret visning af genomiske afvigelser i en GBM kohorte bestående af 206 patientprøver. Verhaak og Hoadley

et al.

[5] for nylig beskrev en genekspression-baserede molekylære klassificering af GBM i Proneural, Neural, Klassiske og Mesenchymal undertyper og integreret flere typer af genomiske data til at etablere mønstre af somatisk mutation, DNA kopi nummer forandring, og genekspression.

i nærværende analyse, vi testede, om sæt af gener, som vi tidligere har fundet at være (1) meget co-udtrykte over NCI-60, og (2) funktionelt sammenhængende var også meget co-udtrykkes på tværs af GBM prøver. Vi derefter udvidet som grundlæggende analyse af en “dobbelt fiskeri” strategi. Det vil sige, vi identificeret sæt af gener, der viste korrelation ≥0.60 i både GBM data NCI-60 og satte i forhold til en given “lokkemad” gen. Vi fandt, at antallet af sådanne gensæt langt oversteg antallet forventes ved en tilfældighed. Denne analyse betyder ikke, at kræftceller i kultur aksjer alle, eller endda de fleste, af deres egenskaber med celler in vivo, men det indikerer ligheder.

Metoder

datasæt

for GBM udtryk data, filer

unifiedScaled.txt

(som indeholder et komplet sæt udtryk data, der er nævnt som

TCGA.GBM.complete

)

TCGA_unified_CORE_ClaNC840.txt

(som omfatter undertype tags af hver prøve) blev hentet fra TCGA hjemmeside https://tcga-data.nci.nih.gov/docs/publications/gbm_exp/.

Vi brugte alle 202 GBM prøver, der er tilgængelige, der repræsenterer nogenlunde sammenlignelige antal prøver af hver undertype. Da de beregnede korrelationsværdier vil være mere nøjagtig, hvis de kommer fra en mere forskelligartet sampling befolkning, vi ønskede at bevare så meget diversitet som muligt ved at se på alle undertyper sammen, så vi ikke rapportere co-ekspression inden for eller mellem undertyper.

De fuld størrelse tal er tilgængelige som figur S3 og S4. Numrene vedlagt efter genet navn refererer til NCI-60 klynge, hvor dette gen dukkede op.

Den fulde størrelse CIM er tilgængelig som figur S5. Genet navn givet som kolonneoverskriften er repræsentant for en liste af gener. Den fulde liste af gener er tilgængelig i HTGM Hent S1.

NCI-60 udtryk data blev indhentet fra CellMiner [6]. Bestemmelse af sammensatte ekspressionsniveauer for hvert gen blev udført som tidligere beskrevet [7] – [9]. En særlig anmodning blev fremsat til systemadministratoren for det komplette sæt af genekspression profiler (benævnt

NCI-60.complete

). At downloade ville have været for stor til at udføre gennem standard web interface. Yderligere oplysninger findes i [2]). Kort fortalt

NCI-60.complete

blev præ-behandlet ved at vælge kun de gener, der har både en HGNC symbol og annotation i GO biologiske proces ontologi. Hvert gen profil vektor blev skaleret til nul middelværdi og enhed varians. Det reducerede datasæt betegnes her som

NCI-60.BP.

Som nævnt ovenfor for GBM prøver, vi forsøger at opnå så høj en grad af diversitet som muligt i cellen linjer, således at den meget heterogen blanding af cellelinier repræsenteret af NCI-60 er ideel. Til illustration, overveje to gener. Vi søger at se, om ekspressionsniveauerne af disse to gener gå op og ned sammen som vi krydse de 60 cellelinier. Hvis alle cellelinier var i det væsentlige identiske med hinanden, ville der ikke være nogen variation og vi kunne ikke se, hvordan de to gener vedrører forskellige forhold.

For de fleste af undersøgelserne her rapporterede udtrykket data for GBM og til NCI-60 var begrænset til de gener, der var til stede i både

TCGA.GBM.complete

og

NCI-60.BP

.

R sprog

R sprogkode [10] blev udviklet for at læse og integrere data i de to downloadede filer, samt at yde støtte til både grundlæggende og mere komplekse forespørgsler [

f.eks

, automatisk finde sæt af gener, der opfylder visse betingelser med hensyn til både NCI-60 og GBM og derefter generere en relevant række udtryk eller korrelationsmæssige grupperet grafikobjekter (CIM)]. Historisk set blev CIM først introduceret i [11], [12].

Undersøgelser bygger på allerede eksisterende Korrelationer tværs af NCI-60

Det centrale spørgsmål, vi rettet her var, om gener, der co -clustered med hensyn til deres udtryk profiler på tværs af NCI-60 celler også co-klynger med hensyn til deres udtryk profiler på tværs af GBM prøverne. For at lette denne analyse, tog vi fordel af R-sproget funktionen

cutree ()

. En vigtig parameter i

cutree ()

er “k” antallet af klynger, hvori klynge træet skal deles. I klyngen 52 og klynge 68 studier (

dvs..,

Sæt af gener rapporteret i [2]), viste forundersøgelser, at k = 2 var optimal for NCI-60 ekspression klynger. Hver sådan gen sæt var blevet afledt af en clustering forsøg med en absolut korrelation metrisk, og derfor havde to store skillevægge (

f.eks.

, Figurerne 1A, S1). De to skillevægge betegnes som “cluster 1” og “cluster 2” og er afgrænset af det antal vedlagt hvert gen navn på højre af CIM. Generne i en enkelt opdeling er indbyrdes positivt korreleret, og alle gener i klynge 1 er negativt-korreleret med alle gener i klynge 2. Vi daglig tale henvise til den større klynge (i tilfælde af figur 1A, S1, ville dette være klynge 2) som “positivt korrelerede” gener og den mindre klynge som “negativt korrelerede” gener. I modsætning til k = 2 for NCI-60, var der ingen

a priori

grundlag for at vælge en bestemt værdi af k for klyngedannelse tværs GBM, så vi lov k for GBM til at variere fra 2 til 8.

for at bestemme den optimale værdi af k, konstruerede vi en 2 × k kontingenstabel (

f.eks

tabel 1), hver celle

i, j som indeholder antallet af gener, er begge i i

th klynge af NCI-60 klyngedannelse og j

th klynge af GBM klyngedannelse. Vi beregnet en Fishers eksakte p-værdi for nulhypotesen, at en fordeling så ekstreme som den observerede fordeling kunne være opstået ved en tilfældighed. Desuden har vi randomiseret gen navne mellem udføre NCI-60 og GBM clusterings, at bestemme, om den observerede Fishers eksakte p-værdi kunne opnås for en tilfældig gensæt.

De novo Identifikation af sæt af gener med korrelation ≥0.60 Across både NCI-60 og GBM

Uden reference til forudgående clustering analyse, programmet konstrueret

de novo

en liste over alle par af gener med korrelation ≥0.60 med hensyn til både NCI-60 og GBM udtryk profiler. Tærsklen på 0,60 blev valgt til beregningerne, fordi det havde været brugt i en tidligere undersøgelse af gen-gen korrelationer at minimere antallet af falske positiver. Gener blev rangeret med hensyn til hyppigheden af ​​udseende på denne liste. Hvert gen “G” med frekvens ≥5 blev derefter anvendt til “repræsentere” det sæt af gener, der viste korrelation ≥0.60 med G. Den top-ranking G-genet blev WAS (49 gener havde korrelation ≥0.60 med WAS). Mange af genet lister konstrueret ved denne metode var meget overflødig i forhold til hinanden (

dvs..

, Kan par af lister har mange gen til fælles). For at afhjælpe redundans problem, vi beregnet den Jaccard ligheden metriske (den Jaccard koefficienten foranstaltninger lighed mellem prøvesæt, og er defineret som størrelsen af ​​krydset divideret med størrelsen af ​​foreningen af ​​de prøvesæt [13]) vi elimineret meget overflødig (Jaccard værdi ≥0.90; 0,90 blev bestemt til at være optimal i indledende undersøgelser ikke vist her) gen sæt fra yderligere analyse. , Anvendes således vi en mindre-redundant sæt af 68 gensæt (fra en indledende udvælgelse af toppen (eventuelt overflødige) 100 gensæt) til analyse.

Vi ønskede at bestemme, om antallet af par af gener der korrelation ≥0.60 med hensyn til både NIC-60 og GBM udtryk profiler oversteg antallet forventes ved en tilfældighed. Vi udførte derfor et sæt af 10 forsøg, hvor vi randomiserede gen-navne på GBM udtryk profiler. Antallet af sådanne par opnået i den virkelige undersøgelse var 2708. I modsætning hertil antallet i randomiseringen undersøgelserne var lille i sammenligning (193 ± 14).

Funktionel Kategorisering

Funktionel kategorisering af gen lister blev udført ved hjælp af High-Throughput GoMiner (HTGM) programmet [14]. De parametre, der anvendes i køreklar HTGM er opstillet i tabel S1.

Grupperet Billede Maps

Vi brugte enten Genesis klyngedannelse programmet [15], eller vores eget in-house R sprogkode at konstruere CIM præsenteret her.

Resultater og diskussion

Undersøgelser bygger på eksisterende Korrelationer tværs af NCI-60

Vi har for nylig klynge gener baseret på korrelation af udtryk profiler på tværs af NCI-60 [2 ]. Mange af disse klynger var præget af kræft-associerede biologiske funktioner.

Brug af udtryk profiler for klyngen 52 gener på tværs af NCI-60 cellelinjer, og også på tværs af GBM prøverne, var vi i stand til at generere udtryk korrelation CIM tværs begge disse sæt udtryk profiler (figur 1A, S1, 1B, S2). De forskellige mønstre af rød og grøn i NCI-60 korrelation CIM (figur 1A, S1) skyldes, at klyngen 52 var blevet udledt ved klyngedannelse udtrykket profiler i NCI-60 cellelinjer ved hjælp af en absolut korrelation metriske. Således er klynge 52 sammensat af “negativt” og “positivt” korreleret undergrupper. Ikke overraskende mønstre af rød og grøn er mindre tydelig i GBM korrelation CIM (fig 1B, S2), idet klynge 52 var blevet defineret i forhold til NCI-60, ikke GBM, ekspressionsmønstre. Selv mindre tydelig end for NCI-60 er GBM mønster stærkt korreleret med mønster for NCI-60. Dette forhold er indlysende ved visuel inspektion. Den kvantitative analyse nedenfor bekræfter det visuelle indtryk.

I sammenhængen CIM, vi vedlagt et tal (1 eller 2) til gen-navne, der svarer til medlemskab i de to store klynger i NCI-60 CIM. De samme tal blev tilbageholdt i genet navne for GBM CIM at tillade identifikation af klyngen, som denne gen tilhørte i NCI-60 CIM. Mønsteret af klyngedannelse i GBM korrelation CIM (fig 1B, S2) er markant svarer til den i NCI-60 CIM. Denne konstatering viser, at nogle gen co-udtryk mønstre i NCI-60 human tumorcellelinje panel er bevaret i klinisk glioblastom, og understøtter vores formodning, at NCI-60 genekspression korrelationer kan indikere bredt anvendelige gen-gen-relationer.

Mere præcist tabel 1 viser, at der er 15 gener i klynge 1 og 64 gener i klynge 2, i forhold til NCI-60 ekspressionsprofil. Tredive-fire af de 64 cluster 2 gener er de fremherskende medlemmer af GBM klynge 2. Det resterende NCI-60 cluster 2 gener er fordelt på GBM klynger 1 og 3. overensstemmelse mellem de clustering mønstre i NCI-60 og GBM er stærkt signifikant (tabel 2). Den Fishers eksakte p-værdi for k = 3 (0,00039) er markant lavere end for de randomiserede kontrol (0,46 ± 0,28). Desuden det store flertal af de gener, der er blevet gensidigt korrelerede eller anti-korrelerede i NCI-60 bevarede dette forhold i GBM vævsprøver. Identiteten af ​​de relevante gener er vist i tabel 3.

En bemærkelsesværdig opdagelse er, at næsten halvdelen af ​​generne i GBM klynge 2 (figur 1B, S2) er gener, der tidligere blev anset for at være involveret i celleadhæsion /migration og til at danne en gensidigt høj korrelation delmængde af klyngen 52 gener [16]. Endvidere blev de gener sig at fungere ensartet med et særligt aspekt af cellemigrering processen. Med undtagelse af ALCAM og EGFR, celleadhæsions /migration stramme klynge gener falder inden GBM klynge 2. Seksten af ​​fireogtyve gener af denne stramme klynge falder i GBM cluster 2. Således er en række gener tidligere fundet at være nært beslægtet i både genekspression og funktion i NCI-60 cellelinjer [2], er [16] nu fundet at være co-udtrykte også i kliniske glioblastom prøver.

for at undersøge andre potentielle eksempler på sammenhængen mellem genekspression klynger i NCI-60 cellelinier og GBM prøver, gentog vi, at analysen med immunsystemet relaterede cluster 68 gener [2] (tabel 4-6; figur 2A, S3, 2B, S4). Igen, Fishers eksakte p-værdi (0.00001) (tabel 5) validerer det visuelle indtryk af, at der er en betydelig overensstemmelse mellem NIC-60 og GBM klyngedannelse.

De novo Identifikation af sæt af gener med Korrelation ≥0.60 Across både NCI-60 og TCGA GBM

Der var 34,865 genpar med korrelation ≥0.60 i NCI-60 datasæt, men ikke i GBM, 87.556 i GBM, men ikke i NCI-60, og 2708 i både NCI-60 og GBM. Den højest rangerende gen af ​​2708 var BLEV; 49 gener viste korrelation ≥0.60 med WAS. Af de 100 gener (

dvs

, gener med det højeste antal sammenhænge ≥0.60), 68 var ikke-redundant (

dvs

, listerne over korrelerende gener havde Jaccard værdi ≤0.90) . Funktionel kategorisering af disse 68 gen lister ved High-Throughput GoMiner (HTGM) viste et komplekst sæt af væsentlige kategorier (figur 3, S5). Antallet af gener og de generaliserede funktionelle korrelationer for top 68 ikke-redundante gensæt er anført i tabel 7. Som det fremgår af tabel 7, immune kategorier domineret, men tabel 7 og figur S5 afsløre, at der var også kategorier, som repræsenterer

f.eks

apoptose, kemotaksi, DNA-reparation, kromatin forsamling, angiogenese, og vedhæftning.

de gener i klynge 52 eller klynge 68 var opnået ved forudgående gruppering af genekspressionsprofilerne tværs NCI-60 celle linjer, men ikke på tværs TCGA GBM prøver. Vi forventer at finde, at nogle af de

gør novo

gen lister afledt samtidig overvejelse af både NCI-60 cellelinjer og TCGA GBM prøver kan overlappe med gener i genet listerne klynge 52 eller klynge 68. Faktisk Tabel 7 viser, at generne i visse af de

de novo

gen lister overlappede med generne i NCI-60 klynger 52 (celle migration) og 68 (immun). En sådan overlapning er særlig stærk for klynge 68.

Denne analyse viser, hvorledes stærke gen-gen-korrelationer og funktionelle kategorisering (

dvs.,

GO opgaver) opnået for de NCI-60 cellelinjer tværs tumortyper kan afspejle

in vivo

relationer. Den viser også begrænsningerne ved en sådan lighed. De to typer af prøvesæt repræsenterer større initiativer fra National Cancer Institute (NCI), både med hensyn til omkostninger og investeringsanalyser. Derfor en afgrænsning af ligheder og forskelle er fortsat et emne af stor praktisk betydning.

Støtte Information

figur S1.

Fuld version af figur 1A

doi:. 10,1371 /journal.pone.0040062.s001

(PDF)

Figur S2.

Fuld version af figur 1B

doi:. 10,1371 /journal.pone.0040062.s002

(TIF)

Figur S3.

Fuld version af figur 2A

doi:. 10,1371 /journal.pone.0040062.s003

(PDF)

Figur S4.

Fuld version af figur 2B

doi:. 10,1371 /journal.pone.0040062.s004

(PDF)

Figur S5.

HTGM GO kategorier

versus

gen sæt CIM for sæt af gener med korrelation ≥ 0,60 samtidig i både NCI-60 og TCGA GBM

doi:. 10,1371 /journal.pone.0040062.s005

(PNG)

tabel S1. Salg The parametre, der anvendes i køreklar HTGM

doi:. 10,1371 /journal.pone.0040062.s006

(JPG)

Hent S1.

Zip arkiv af HTGM resultater

doi:. 10,1371 /journal.pone.0040062.s007

(ZIP)

Tak

Vi vil gerne takke Dr. Roel GW Verhaak for nyttige diskussioner om TCGA datasæt.

Be the first to comment

Leave a Reply