PLoS ONE: High Resolution Copy Number Variation data i NCI-60 cancercellelinier fra hele genomet Microarrays tilgængelige via CellMiner

Abstrakte

Array-baserede komparativ genomisk hybridisering (aCGH) er en kraftfuld teknik til påvisning af genkopital variation. Det er generelt anses for at være robust og praktisk, da den måler DNA snarere end RNA. I den aktuelle undersøgelse, kombinerer vi kopi nummer anslår fra fire forskellige platforme (Agilent 44 K, NimbleGen 385 K, Affymetrix 500 K og Illumina Human1Mv1_C) til at beregne en pålidelig, høj opløsning, let at forstå output for foranstaltningen af ​​kopi nummerændringer i 60 cancerceller af NIC-DTP (NCI-60). Vi derefter relatere resultaterne til genekspression. Vi forklarer hvordan man får adgang databasen ved hjælp af vores CellMiner web-værktøj og et eksempel på den nemme sammenligning med udskrift udtryk, hele exome sekventering, microRNA ekspression og respons på 20.000 lægemidler og andre kemiske forbindelser. Vi derefter vise, hvordan data kan analyseres integratively med udskrift udtryk data for hele genomet (26,065 gener). Sammenligning af antal kopier og ekspressionsniveauerne viser en samlet medium høj korrelation (median r = 0,247), med væsentligt højere korrelationer (median r = 0,408) for de kendte tumorsuppressorgener. Denne observation er i overensstemmelse med den hypotese, at genet tab er en vigtig mekanisme til tumor suppressor inaktivering. En integreret analyse af samtidig DNA-kopi nummer og genekspression forandring præsenteres. Begrænsning opmærksom på fokale DNA gevinster eller tab, vi identificerer og afslører nye ansøgerlande tumorsuppressorer med matchende ændringer i udskrift niveau

Henvisning:. Varma S, Pommier Y, Sunshine M, Weinstein JN, Reinhold WC (2014) Høj resolution Copy Number variation data i NCI-60 kræftceller fra hele genomet Microarrays tilgængelige via CellMiner. PLoS ONE 9 (3): e92047. doi: 10,1371 /journal.pone.0092047

Redaktør: Kwok-Wai Lo, Den kinesiske University of Hong Kong, Hongkong

Modtaget: Oktober 17, 2013; Accepteret: 18 februar 2014; Udgivet 26. marts, 2014

Dette er en åben-adgang artiklen, fri for alle ophavsrettigheder, og kan frit gengives, distribueres, overføres, ændres, bygget på, eller på anden måde bruges af alle til ethvert lovligt formål. Værket gøres tilgængeligt under Creative Commons CC0 public domain dedikation

Finansiering:. Dette arbejde blev støttet af Center for Cancer Research, Intramural Program af National Cancer Institute. De finansieringskilder havde ingen rolle i studie design, indsamling og analyse af data, beslutning om at offentliggøre, eller forberedelse af manuskriptet

Konkurrerende interesser:. Sudhir Varma er ansat i HiThru Analytics LLC arbejder på kontrakt til NCI leverer bioinformatik og beregningsmæssige tjenester. Han har ingen anden kommerciel interesse i forskning offentliggjort i denne artikel. Margot Sunshine er ansat i Systems Research and Applications (SRA), der arbejder på kontrakt til NCI, giver beregningsmæssige og webudvikling tjenester. Hun har ingen anden kommerciel interesse i forskning offentliggjort i denne artikel. Dette ændrer ikke forfatternes tilslutning til alle PLoS ONE politikker om datadeling og materialer.

Introduktion

NCI-60 er et sæt af 60 udbredte kræft cellelinjer afledt af 9 væv af oprindelse, herunder bryst-, centralnervesystemet, colon, lunge, prostata, ovarie og nyre samt leukæmi og melanomer [1]. Vi, og andre, der tidligere har gjort tilgængelige molekylære data på flere platforme til NCI-60 [2] – [7], hvilket gør det en unik ressource for både farmakogenomik [8], [9] og systembiologi [10], [ ,,,0],11]. Disse cellelinier bevarer genekspression mønstre fra deres oprindelige kræft væv-of-oprindelse, som det fremgår af co-clustering [4], og sammenlignet med kliniske prøver [12]. Evnen til at sammenligne lægemiddelrespons og genomiske data for disse cellelinier er uovertruffen ved enhver anden klinisk eller cancercellelinjer databaser [8], [11], [13], [14].

Tidligere undersøgelser af DNA-kopi nummer ved hjælp aCGH fra flere kræft cellelinjer og kliniske prøver har øget forståelse af DNA variabilitet på celleniveau [15], samt hvilket giver translationelle indsigt [16]. aCGH tilvejebringer en måling af genomisk ustabilitet [17], et kendetegn for carcinogenese [18]. Foreninger mellem genkopitallet og udtryk er også blevet studeret i nogle tilfælde der giver implikationer vedrørende mekanismer i kræft progression [19], [20].

Data på flere platforme profilering NCI-60 er tilgængelige via vores CellMiner webapplikation [21]. Vi har for nylig indført web-baserede værktøjer, der giver den ikke-bioinformatician at vurdere og tværs sammenligne databaser [8]. I den aktuelle undersøgelse, vi udvide denne integrativ kapacitet ved at præsentere de højopløselige DNA-kopi nummer data for NCI-60 syntetiseret fra kombinationen af ​​data fra fire platforme (tabel S1), og placeret det i et format, stereotype til de andre former af data. Vi introducerer den “Gene DNA-kopien nummer” web-værktøj, der er designet til at tillade ikke-bioinformatician, at forespørge, visualisere og hente relative DNA kopital data. Outputtet fra dette værktøj letter integrationen af ​​DNA kopiere data med vores andre databaser, øge deres integrativ kapacitet.

Analytisk, vi giver målinger af relativ DNA-kopi nummer variation inden for og mellem cellelinjer, beregne en række foranstaltninger af genomisk ustabilitet og korrelerer relative DNA kopital med genekspressionsniveauer. Fortsætter under den hypotese, at kræft fokale gevinster og tab er resultatet af selektivt pres baseret på deres regulerende effekt på genekspression, vi korrelere resultaterne af fokal DNA-kopi nummer forandring, og genekspression at identificere formodede tumorsuppressorer.

Materialer og metoder

DNA Isolation

DNA blev isoleret som tidligere [22] beskrevet. Kort fortalt blev genomisk DNA oprenset fra celler under anvendelse af QIAamp DNA Blood Cell Culture Maxi Kit, (Qiagen Inc., Valencia, CA) ifølge producentens instruktioner. Kvalitet blev vurderet ved optisk tæthed 260/280 forholdet anvendelse af et spektrofotometer (Beckman-Coulter, Fullerton, CA) og med 0,8% agarose (SeaKem GTG, FMC BioProducts, Rockland, ME) gelelektroforese i 1x TAE (Roche, Indianapolis, IN) .

DNA Copy antal i NCI-60 Brug fire Microarray platforme

DNA kopi numre for alle gener blev bestemt ved integration af sonder fra i) det menneskelige genom CGH Microarray 44A (Agilent Technologies , Inc., GEO tiltrædelse GPL11068) med 44 k sonder, ii) H19 CGH 385K WG Tiling v2.0 array (Roche NimbleGen Systems, Inc., GEO tiltrædelse GPL13786,), med 385 k sonder, iii) GeneChip Menneskelig Mapping 500 k Array Set (Affymetrix Technologies, Inc., GEO tiltrædelse GPL3812) med 500 k sonder, og iv) human Human1 Mv1_C Beadchip array (Illumina, GPL6983) med 1.100 k sonder. Data for disse microarrays kan tilgås på CellMiner [21]. Desuden er rådata blevet deponeret i Gene Expression Omnibus (GEO) under følgende numre tiltrædelse Agilent 44 k (GSE48568) Affymetrix 500 k (GSE32264), NimbleGen 385 K (GSE30291), Illumina 1 M (GSE47620).

Probe Kortlægning og intensiteter

Sonder til Agilent, NimbleGen og Illumina arrays blev re-mappet til den nyeste HG19 henvisningen hjælp BLAST + (Version 2.2.25) [23]. For Affymetrix array, brugte vi den nyeste annotation downloades fra Affymetrix NetAffx hjemmeside [24]. For hver platform, vi i gennemsnit de udtages (hvis tilgængelig, se tabel S1). Probe intensiteter blev bestemt efter fabrikantens anbefalinger som tidligere beskrevet for Agilent [25], NimbleGen Roche [26], Affymetrix [27], og Illumina [28] mikroarrays.

Til alle platforme, log probe intensiteter for hver prøve blev normaliseret ved middelværdi-centrering, før alle efterfølgende analyse. Gennemsnittet af log sonde intensiteter blev trukket fra alle probe intensiteter for at prøve.

Segmentering af Regioner med Konsekvent Copy Number

Segmentering refererer til opdelingen af ​​hvert kromosom i tilgrænsende segmenter, således at den kopiantal er det samme inden for et segment, og der er en væsentlig forskel i kopiantallet mellem hosliggende segmenter. I vores analyse, vi brugte cirkulære Binary Segmentering (CBS) [29]. CBS returnerer middelværdien sonde intensitet inden for hvert segment som et estimat af log

2 af antal kopier inden for dette segment. Således en gennemsnitlig probe intensitet på nul ville svare til en målt kopital 2N (dvs. diploid), en værdi på -1 svarer til kopiantallet 1N og 1 svarer til 4N.

Bemærk at Affymetrix 500 k data er blevet brugt før til at detektere regioner af LOH (Tab af heterozygositet), men den algoritme, der anvendes til at detektere kopi nummer variationer var

pennCNV

som er uegnet til genom-dækkende kopi nummer estimering for prøver kræft [30] . Vi har derfor, re-analyseret data ved hjælp af cirkulære Binary Segmentering (CBS).

Kombination af Copy Number Skøn fra fire platforme

Vi brugte en roman algoritme til at kombinere de segmenterede kopi nummer estimater fra de fire platforme for hver cellelinie. Vi brugte segmentering af kopien for at definere

breakpoints

ved krydset af to sammenhængende segmenter. På et breakpoint, en diskret spring (stigning eller fald) i kopi nummer opstår. Disse punkter svarer til placeringer af kromosomale pauser

Vi justere breakpoints fra de fire platforme for den samme cellelinje ved hjælp af følgende metode:. Brudpunkter fra forskellige platforme, der er inden for 100.000 basepar fra hinanden og har samme retning af kopiantal ændring bliver matchet med hinanden. Denne gruppe sammen breakpoints fra forskellige platforme, der formodentlig henviser til samme kromosomale pause. Breakpoints, der ikke matches med nogen breakpoint fra en anden platform kasseres. Derefter beregner vi en gennemsnitlig stoppunktssted fra hver gruppe af matchede breakpoints som gennemsnittet af placeringerne af breakpoints fra forskellige platforme. Vi beregner

gennemsnitlige segment kopi nummer

ved at midle de segmenterede værdier mellem to tilstødende gennemsnit breakpoints over fire platforme.

For hvert gen, finder vi det segment, hvor den ligger. Det antal kopier for genet er

gennemsnitlige segment kopi nummer

for dette segment. Dette tildeler kopi nummer anslår til 41 eller flere cellelinier til 23.413 gener.

Det eksemplar nummer estimater for generne blev sammenlignet at kopiere nummer anslår fra Cancer Cell Linje Encyclopedia (CCLE) [13] ved hjælp af 44 cellelinjer fælles for begge datasæt. Vi beregnet den Pearson korrelation mellem vores måling af kopi nummer og CCLE kopi nummer på tværs af de 44 cellelinjer for hvert gen.

Fremtrædende og Focal gevinst og tab

For at identificere regioner med det største , mest visuelt slående gevinster og tab, vi har sat en vilkårlig grænse på 1,5 på den absolutte log

2 kopiantals og sluttede segmenter, der var mindre end 500 kilobaser væk fra hinanden (herunder eventuelle segmenter mellem dem).

for en systematisk identifikation af alle omdrejningspunkt kopi nummer gevinster (eller tab) for hver prøve, brugte vi de (segmenteret) data CBS at finde dele af genomet, der er højere (eller lavere) end både deres venstre og højre naboer . Vi brugte tre kriterier til at kalde en gevinst eller et tab omdrejningspunkt: i) segmentet skal have en forskel i log

2 kopi antal på mindst 0,3 fra både dens venstre og højre naboer begge forskelle er enten positiv eller negativ; ii) bredde af segmentet skal være mindre end 5 Mb; og iii) der bør være mere end 10 sonder kortlægning inden for segmentet. Enhver gen, der har (hel eller delvis) overlapning med segmentet kaldes fokalt vundet eller tabt

genomisk instabilitet Parametre

Brug de segmenterede kopi nummer data, vi beregnet to former for genomisk ustabilitet.; i) den del af genomet, der er nået eller tabt, og ii) antallet af gevinster og tab. Andelen af ​​genomet, der er opnået eller tabt blev beregnet på grundlag af de segmenterede værdier af arrayet CGH. Vi skønnede dette ved at tage den del af sonderne, der henhører under segmenter med absolutte gennemsnitlige intensiteter større end 0,3 (en DNA-kopi nummer gevinst eller tab på 0,46). Antallet af gevinster og tab blev beregnet som det samlede antal (af gevinst /tab regioner) med absolutte gennemsnitlige intensiteter større end 0,3 med mere end 10 sonder kortlægning til regionen.

Gene Expression Bestemmelse og dens Sammenhæng til DNA Kopiér nummer

udtryk for 26,065 gener blev taget som en integreret z-score på målinger fra fem genekspression platforme, som tidligere [31] beskrevet. Gener med udtryk z-scores blev matchet med gener med kopital. Dette resulterede i 18.504 gener med både udtryk og kopiere nummer skøn. Kopiantal for disse 18.504 gener blev sammenlignet med genekspression under anvendelse Pearsons korrelation (tabel S3). Histogrammet af disse korrelationer blev plottet bruge

R

(version 2.15.2). De mediane korrelationer for alle de gener, såvel som for sæt af kendte onkogener og tumor undertrykkere, blev beregnet.

Vurdering af kendte og Formodede Tumor Suppressors

Vi valgte gener baseret på deres møde fire kriterier; i) statistisk signifikant sammenhæng mellem antal kopier og udtryk (False Discovery Rate FDR 0,05), ii) det gen bliver fokalt vundet eller tabt i mindst 3 prøver (fokale gevinster og tab, som defineret i Segmentering afsnit), iii) antal cellelinier med fokale tab er mindst 3 gange større end antallet af cellelinier med fokale gevinster, iv) generne var mere end 2 millioner basepar afstand fra kendte tumorsuppressorer. Kriterium 4 blev anvendt til at fjerne “passager” gener, hvis valg kan skyldes genomisk nærhed.

Resultater

Array CGH Data kan tilgås og visualiseres Brug af CellMiner “Gene DNA Copy Number” web Analysis Tool

for at lette minedrift af NCI-60 DNA kopi nummer data introducerer vi et intuitivt værktøj til at forespørge og visualisere datasættet. Dette værktøj er tilgængelig på vores CellMiner hjemmeside [21] inden for de “NCI-60 analyseværktøjer” fanen (figur 1A). Som vist i figur 1A, brugerne først vælge “Cellelinie signatur” i trin 1, og derefter “Gene DNA kopiantal”. I trin 2 kan op til 150 gener af interesse være input ved enten at skrive i de gen-navne i “Input identifikationen” boksen, eller uploade dem som en tekst eller Excel-fil ved hjælp af “Upload fil” radio -knappen. I trin 3 brugere indtaste deres e-mail-adresse, og klik på “Hent data”. Resultaterne vil blive sendt via e-mail for hvert gen, med et link til download en Excel-fil. Denne fil indeholder fire regneark: i) “DNA-kopi nummer” indeholder tabelform betyder intensitet nøgletal (i test-DNA i forhold til formodet normal) og estimerede DNA kopi tal og en bar plot af de estimerede DNA kopi numre (Figur 1B), ii ) “Grafisk Output” indeholdende scatter-plots af de enkelte probe intensiteter for genet af interesse samt 2MB flankerende region for hver cellelinje (figur 1C), iii) “input”, der indeholder de normaliserede data for disse prober, der falder inden for en gen af ​​interesse (fremhævet med gult) samt 2 × 10

6 nukleotider af flankerende region i hver ende, og iv) “Fodnoter”. Figur 1 viser et eksempel på 3 cancer-relevant gener (figur 1A), CDKN2A koder for cyclinafhængige kinaseinhibitor 2A (p16

INK4a, p19

ARF), som er almindeligt slettes i cancere, CCNE1 koder cyclin E , som er almindeligt forstærket i kræft, og KRAS koder Kirsten Rat sarkom Viral Oncogene, som aktiveres i kræft ved mutationer og mere sjældent forstærkning. Paneler B og C (figur 1) viser, at mange cellelinier udviser nedbrydning af CDKN2A locus (venstre paneler), mens ovariecancerceller OVCAR3 og OVCAR5 viser fokal amplifikation af CCNE1 og KRAS henholdsvis.

A. Værktøjet kan tilgås på CellMiner hjemmeside ved at klikke på “NCI-60 Analyseværktøjer” fanen (boxed i rødt). I dette eksempel er 3 cancerassocierede gener forespørges samtidigt: CDKN2A, CCNE1 og KRAS. B. Outputtet omfatter en bar plot af det anslåede kopital for hver cellelinie. X-aksen er DNA kopital. Y-aksen viser cellelinjer, med barer farvede baseret på væv af oprindelse. Barer til venstre for 2N indikerer tab mens søjler til højre indikerer genomisk gevinst. Stiplede linjer angiver cellelinjer med kopi nummer gevinster i CCNE1 og KRAS C. En scatter plot er også fastsat hver cellelinje. X-aksen viser den kromosomale placering. Y-aksen viser de log2 intensitetsværdier til venstre. De røde prikker indikerer sonder, der falder inden for genet. De blå prikker indikerer de flankerende regioner. Dataene modtages som Excel-filer. Se tekst for detaljer.

En unik funktion af CellMiner hjemmeside er, at kopien nummer mønstret fra CellMiner for et gen kan anvendes som input til Pattern Sammenligning værktøj til at finde korreleret gener udtryk og narkotika aktivitet. Figur 2 viser kopitallet for CDKN2A (p16), det gen, der har den højeste-korreleret ekspression (CDKN2A), og lægemidlet, hvis respons er det mest negativt korreleret (NSC-301.739). Den robuste korrelation mellem DNA kopital og transkript ekspression identificerer den robuste påvirke denne DNA kopital ændring har på transkript ekspression i dette gen. Den negative korrelation af DNA-kopital til lægemiddelaktivitet identificerer FDA-godkendt lægemiddel mitoxantron (NSC-301.739) som værende mere aktive i flere forekomster af cancerceller med CDKN2A deletion (Figur 2, højre panel og stiplede linjer).

Den længst til venstre plot viser en barplot af kopi talværdier for CDKN2A opnået ved at forespørge CellMiner. Den midterste plot viser genekspression og længst til højre plot viser responset til en Mitoxantron, et lægemiddel med signifikant negativ korrelation med kopiantallet status CDKN2A. Stiplede linjer angiver nogle af de cellelinier, hvor retningen af ​​kopiantal ændring også i samme retning som genekspression og i den modsatte retning som lægemiddelaktivitet.

Korrelation med den cancercellelinie Encyclopedia

Der er 44 cellelinjer fælles mellem NCI-60 og CCLE. Især det kombineret kopi nummer anslår i NCI-60 korrelerer godt med kopi nummer estimater i CCLE med en median korrelation på 0,833. Dette er højere end korrelationen til at kopiere numre fra en individuel platform (Agilent: Agilent: 0.660, NimbleGen: 0,448, Affymetrix: 0,821, Illumina: 0,804), hvilket indebærer, at kombinere platformene sammen forbedrer skøn. Jo højere korrelation med Affymetrix platform kan skyldes det faktum, CCLE data blev også genereret på Affymetrix arrays (Affymetrix SNP 6,0).

Udbredt Ændringer i DNA-kopi Sammensætning forekommer i NCI-60 cellelinier

En global udsigt over NCI-60 genomisk sammensætning blev genereret ved hjælp af CBS segmenterede aCGH resultater. Figur 3 viser repræsentative eksempler på flere genom variation typer. Den komplette version til NCI-60 er tilgængelig i figur S1 og på vores hjemmeside [21]. Disse skærme viser, at de fleste cellelinjer udviser genomiske forandringer, herunder hyppige genomiske tab og gevinster, samt ændret ploidi. De typer af variation i genomerne varierer dog meget inden for NCI-60. Kun nogle cellelinjer viser normal (2N) antal kopier med få ændret segmenter såsom CO: HCT_15. Nogle har flere ændrede genomiske segmenter med ca. 2 N samlede kopi nummer (fx RE: CAKI_1). Alligevel andre har mange ændret segmenter i over at blive flyttet fra 2N, herunder BR: MCF7, CNS: SF_268, LE: RPMI_8226, ME: MALME_3M, OV: NCI_ADR_RES, og PR: PC_3. Dataene viser den markante variation findes i de abnormiteter af NIC-60 genomer.

X-aksen er den kromosomale placering af proberne, farvet af kromosom nummer og bestilt af genomisk position. Y-aksen er log-forhold af sonden intensiteter. De sorte vandrette mærker angiver den gennemsnitlige log

2 kopiantal i hvert segment, som beregnet af Circular Binary segmentering (se materialer og metoder). Mængden af ​​scatter over og under segmenternes sorte mærker angiver niveauet af sonden variabilitet. Placeringen af ​​nogle cancer-relaterede gener, der har fokale gevinster eller tab er også angivet. Høj opløsning billeder for alle de NCI-60 cellelinjer er tilgængelige i figur S1 og på vores hjemmeside [21].

Den høje intensitet (absolut log

2 værdier større end 1,5, dvs. DNA-kopier, større end 5,60 eller mindre end 0,71) amplifikationer (gevinster) og deletioner (tab), synliggjort i figur 3 og figur S1, er opført med deres placeringer i tabel S2 cellelinie, på grund af deres potentielle betydning. Disse store gevinster og tab har kromosom afvigelser, med tre kromosomer (9, 3 og 6) har flere ændringer i flere cellelinjer, og én (kromosom 21) uden afmærkede gevinster eller tab. Disse data identificerer chromosome- og celle-specifikke fokale amplifikationer og sletninger.

Global DNA Copy Number Ændring i NCI-60

For yderligere at kategorisere de genomiske kopi nummer variationer på tværs af NCI-60, to parametre var afledt af aCGH data (tabel 1). Den “Andelen af ​​genom vundet eller tabt” er den overordnede del af genomet, der er opnået eller mistet (sammenlignet med 2 N); “antallet af vundne eller tabte regioner” pr genom repræsenterer det samlede antal af ændrede segmenter (vundet eller tabt i forhold til 2 N).

Sammenligning af de to parametre (andel og antal af gevinster og tab) viste en statistisk højsignifikant positiv korrelation (Pearsons r = 0,76, p-værdi = 1,2 × 10

-12), knytte frekvens til kumulativ brøkdel af genomiske forandringer. De cellelinjer med de mindst hyppige genomiske forandringer i henhold til den første foranstaltning (andel af genom vundet eller tabt) er CO: HCC_2998 og OV: IGROV1, og dem med de fleste er RE: A498 og BR: T47D. For den anden foranstaltning (antal regioner med gevinster /tab), cellerne med de mindst ændringer er CO: HCC_2998 og CNS: SNB_75, og de cellelinjer med flest ændringer er BR: MCF7 og RE:. SN12C

Fremtrædende områder af genomet med Focal Copy Number ændringer, og deres forhold til kendte og potentielle Tumor Suppressors

Næste vi søgt efter genomiske kopi nummer ændringer, der var “repræsentation” i naturen. Vores tilgang var at kigge efter genomiske segmenter med: i) en forskel i log

2 kopi antal på mindst 0,3 fra både dens venstre og højre naboer (der er enten både positiv eller begge negativ); ii) en bredde på mindre end 5 Mb; og iii) mindst 10 (aCGH) prober. Tabel 2 opsummerer disse fokale forandringer for kendte onkogener og tumor undertrykkere. Tabel S3 giver omdrejningspunktet ændring status for alle (18.504) gener med både antal kopier og genekspression (se kolonne S), og deres genomiske positioner (kolonner Q og R).

De mest almindeligt fokalt udgår segment forekommer i 24 cellelinier og indeholder CDKN2A tumorsuppressorgen (p16

INK4a og p14

ARF) på chromosom 9 (figur 1B, 2 og 4A). De CDKN2A sletninger forekommer i de fleste af de vævstyper NCI-60, med den højeste forekomst i renal (6 ud af 8 linjer) og CNS-celler (4 ud af 6 poster). CDKN2A sletninger er mindre hyppige i bryst (1 ud af 5), og æggestokkene (2 af 7) og fraværende i tyktarmen og prostata linjer. Den detaljerede data for CDKN2A findes i tabel S3 (kolonne Q). Det næste mest almindeligt slettet tumorsuppressorgen er PTEN på kromosom 10 (tabel 2 og tabel S3), hvilket er markant underrepræsenteret i 4 cellelinjer: CNS: SF_539, LE: CCRF_CEM, PR: PC_3 og RE: RXF_393. Det er også fokalt opnået i OV: OVCAR_4. Især TP53, som er inaktiveret ved mutationer i 47 af NIC-60 [3], [32] (vores indsendte resultater) har omdrejningspunkt tab på kun to cellelinjer LE: HL_60, RE: TK_10 (tabel S3), demonstrerer specificitet i mekanisme af funktion knockdown af tumorsuppressorer.

A. CDKN2A og flankerende sekvens på kromosom ni i seks cellelinier. Den centrale lodrette lilla region afgrænser genet placering. B. MYC og flankerende sekvens på kromosom otte for fem cellelinier. Den centrale lodrette lilla region afgrænser genet placering. C. ABCB1 (MDR1), ABCB4 og flankerende sekvens på kromosom 7 for forældrenes OVCAR_8 og dens resistente afledte NCI_ADR_RES. De grønne og lyserøde centrale lodrette regioner afgrænse locus ABCB1 og ABCC4 hhv. I A, B, og C x-aksen er nukleotidet placering. Y-aksen værdier til venstre er de gennemsnitlige log intensitet nøgletal, og til højre er estimeret DNA-kopier numre. De sorte vandrette linjer viser den gennemsnitlige log intensitet forholdet i hvert segment, mens de brune punkter viser forholdene log intensitet for hver probe.

For de kendte onkogener, den hyppigste omdrejningspunkt gevinst sker i CCND1 ( cyclin D1) genet på kromosom 11, og i MYC, på kromosom 8. CCND1 har fokale gevinster i 4 cellelinier (CNS: SF_295, ME: SK_MEL_28, ME: SK_MEL_5, RE: TK_10), herunder 2 melanomer. MYC forstærkes i fire cellelinjer CO: SW_620, LE: HL_60, LE: RPMI_8226 og PR:. PC_3 (figur 4B)

Udover kendte onkogener og tumor undertrykkere, en af ​​de mest intense amplifikationer blev fundet i OV: NCI_ADR_RES cellelinie på kromosom 7q21.12 (figur 3, nederste venstre panel og figur 4C). Denne amplifikation omfatter to efflux pump ABC transporter-gener, ABCB1 og ABCB4 (figur 4C), og er i overensstemmelse med den høje doxorubicin (adriamycin) modstand på denne cellelinie [33], [34]. Andre end dette kromosom 7 omdrejningspunkt forstærkning, OV: NCI_ADR_RES cellelinje viser en aCGH profil kan sammenlignes med sin forældrenes linie OV:. OVCAR_8 (figur S1)

Sammenhæng mellem Gene Expression og DNA Copy Number

for at bestemme forholdet mellem DNA kopi nummer og afskrift ekspressionsniveauerne, vi beregnet korrelationerne mellem de to parametre for alle (18.504) gener med både antal kopier og genekspression. Tabel 2 og Tabel S3 give disse korrelationsværdier, samt den tilsvarende p-værdi og FDR for tumorsuppressorer og alle gener hhv. Histogrammet i figur 5 viser, at den mediane Pearsons korrelation er r = 0,247, hvilket giver en samlet indikator af indflydelsen af ​​genkopital på ekspression.

Histogram af Pearsons korrelationer mellem kopital og genekspression for hele sæt af 18.504 gener med begge værdier til rådighed. De nedre og øvre sæt af aksemærker over x-aksen viser korrelationerne for de enkelte onkogener (i rødt) og tumor-undertrykkere (i blåt), hhv.

Den mediane korrelation af den kombinerede data er højere end nogen enkelt platform (Agilent: 0,212, NimbleGen: 0,149, Affymetrix: 0,242, Illumina: 0,226)., igen antyder, at den kombinerede data forbedrer kopi nummer estimering ved at benytte en individuel platform

delmængde af 101 kendte tumorsuppressorer havde en signifikant højere gennemsnitlig korrelation (r = 0,408, figur 5) end hele genomet (r = 0,247, figur 5). Delmængden af ​​96 kendte onkogener viste kun lidt højere korrelation sammenlignet den samlede genom (median r = 0,255, figur 5). Disse resultater viser, at gen-tab påvirker ekspressionen af ​​kendte tumorsuppressorer i højere grad end enten “alle gener” eller onkogener grupper.

Identifikation af Novel Formodede tumorsuppressorgener

Da fokale forandringer i DNA-kopi antal kendte tumorsuppressorgener (figur 1B og C, figur 3, tabel 2) viste stærkt signifikant korrelation til deres udskrift ekspressionsniveauerne (Figur 5, tabel 2), brugte vi denne egenskab for at søge efter og identificere yderligere gener med potentiale relation til cancer. Vores tilgang er baseret på resultaterne for den kendte tumorsuppressorer CDKN2A og PTEN (tabel 3). Kriterierne for nye gener udvælgelse kræves: i) korrelationer mellem DNA kopital og transkriptniveauer betydning for en FDR på 0,05, ii) fokale gevinster eller tab i at-mindst tre cellelinjer [fokale ændringer blev defineret som gevinster eller tab er mindre end 5 mb der overlapper genet] og iii) en 3:01 eller større ratio for antallet af cellelinier med tab i forhold til gevinster. Desuden krævede vi, at generne passere et fjerde kriterium, at der ikke bør være nogen kendte tumorsuppressorer inden for 2 MB (for at undgå at afsløre “naboer” af kendte driver tumorsuppressorer).

Vi vurderede alle 18.504 gener, der har både genekspression og kopiere nummer anslår at identificere dem, der gik ovennævnte kriterier. Tredive én gener bestået kriterier 1-3 (tabel S4), og 22 tilfredse alle fire kriterier (angivet i kolonne U og fremhævet i grøn). De, der er gener gruppe i 12 “genklynger”, således at gener i den samme klynge grænser op til hinanden og har kopiantal der er stærkt korrelerede (til hinanden) på tværs NCI-60 (Pearson korrelation 0,8), hvilket indikerer, at de er stort set tabt eller vundet som en gruppe. De 22 nye tumor suppressor klynger er på cytobands 11q13.4, 17p12, 17p11.2, 17q23.1, 21q11.2, 21q21.1, 22q11.21, 22q12.2, 22q13.1 og Xp22.31. Tabel 3 lister ti af de gener, der falder inden for disse klynger og er blevet rapporteret til at udstille tumor suppressor karakteristika.

Diskussion

I den aktuelle undersøgelse vi kombineret data om NCI-60-cellelinje panel fra fire høj opløsning array-CGH platforme. Kombinere de fire platforme giver et datasæt med i) øget probe dækning, ii) højere korrelation til kopiantallet anslår fra CCLE (cancercellelinie Encyclopedia), og iii) højere korrelation til genekspression, hvilket indikerer bedre skøn at nogen platform alene .

datasæt tilføjer til den vifte af molekylære data til rådighed for NCI-60, letter integrativ ( “integromic”) [4], [8], [32], [35] undersøgelser af kræft biologi og molekylær farmakologi. De data og analyseværktøjer til at lette brugen er offentligt tilgængelige på vores NIH CellMiner web suite [21] (figur 1A). Vi giver også et eksempel på den form for integrativ analyse, der kan gøres. Sammenligning af DNA kopital for CDKN2A, en kendt tumor suppressor til dets mRNA-ekspression viser den robuste måde, hvorpå denne molekylære ændring er associeret med gener ekspression, og dets hyppige inaktivering i NCI-60 (se figur 1 og tabel S3). Sammenligning af DNA-kopien nummer for CDKN2A til forbindelsen database afslører FDA-godkendt lægemiddel mitoxantron (NSC301739) som værende mere aktiv i cellelinjer med CDKN2A knockout (figur 2).

De mønstre af gevinster og tab i cellelinier omfatter et bredt spektrum, med forskellige mønstre af variation sandsynligvis repræsenterer forskelle i de molekylære funktionsfejl i cellerne (figur 3, figur S1 og hjemmeside [21]).

Be the first to comment

Leave a Reply