Abstrakt
Kopiér nummer variation (CNV) spiller en rolle i patogenesen af mange humane sygdomme, især kræft. Adskillige hele genom CNV foreningens undersøgelser er blevet udført med det formål at identificere kræft forbundet CNVs. Her foretog vi en ny tilgang til hele genomet CNV analyse, med det mål at være identifikation af forbindelser mellem CNV af forskellige gener (CNV-CNV) tværs 60 menneskelige kræftceller. Vi hypotesen, at disse foreninger peger på de roller de tilknyttede gener i kræft, og kan være indikatorer for deres position i gen netværk af kræft-kørsel processer. Nylige undersøgelser viser, at gen-foreninger er ofte ikke-lineære og ikke-monoton. For at få et mere komplet billede af alle CNV foreninger, vi udførte omnibus univariat analyse ved at bruge dCov, MIC, og HHG foreningens tests, som er i stand til at detektere enhver type forening, herunder ikke-monotone relationer. Til sammenligning anvendte vi Spearman og Pearson forening tests, som detekterer kun lineære eller monotone relationer. Anvendelse af dCov, MIC og HHG test resulterede i identifikation af dobbelt så mange foreninger i forhold til dem, der findes af Spearman og Pearson alene. Interessant, de fleste af de nye foreninger blev påvist ved den HHG testen. Dernæst vi udnyttet dCov s og HHG evne til at udføre multivariat analyse. Vi testet for association mellem gener af ukendt funktion og kendte cancer-relaterede veje. Vores resultater indikerer, at multivariat analyse er meget mere effektiv end univariat analyse med det formål at tilskrive biologiske roller for gener af ukendt funktion. Vi konkluderer, at en kombination af multivariate og univariate omnibus forening test kan afsløre vigtige oplysninger om gen netværk af sygdomsfremkaldende kørsel processer. Disse metoder kan anvendes på enhver store gen eller pathway datasæt, tillader mere omfattende analyse af biologiske processer
Henvisning:. Gorfine M, Goldstein B, Fishman A, Heller R, Heller Y, Lamm AT (2015) Funktion af Cancer associerede Gener afsløret af Modern Univariate og Multivariate Association Tests. PLoS ONE 10 (5): e0126544. doi: 10,1371 /journal.pone.0126544
Academic Redaktør: Lin Chen, The University of Chicago, USA
Modtaget: 27. september 2014 Accepteret: April 3, 2015; Udgivet: 12. maj 2015
Copyright: © 2015 Gorfine et al. Dette er en åben adgang artiklen distribueres under betingelserne i Creative Commons Attribution License, som tillader ubegrænset brug, distribution og reproduktion i ethvert medie, forudsat den oprindelige forfatter og kilde krediteres
Data Tilgængelighed: Alle relevante data er inden for papir og dens Støtte Information filer
Finansiering:. Dette arbejde blev finansieret af National Institutes of Health (tilskud P01CA53996 til MG), de israelske Centers of Research Excellence (i-CORE) program, (center Intet . 1796/12 til ATL), The Israel Science Foundation (tilskud nr 644/13 til ATL). ATL er en Taub fyr – støttet af Taub Foundation. De finansieringskilder havde ingen rolle i studie design, indsamling og analyse af data, beslutning om at offentliggøre, eller forberedelse af manuskriptet
Konkurrerende interesser:.. Forfatterne har erklæret, at der ikke findes konkurrerende interesser
Introduktion
Kopiér nummer variationer (CNV) er en del af den normale menneskelige genetiske variabilitet. Titusinder af CNVs er blevet rapporteret i databasen af Genomisk varianter (DGV) baseret på sunde kontrolprøver [1,2]. Men CNVs er også en væsentlig del af variation i sygdomsrisiko og forekomsten af mange sygdomme og lidelser, herunder kræft, HIV-infektion, autisme, og psykiatriske sygdomme [3-5]. Ved cancer, CNV er en af de vigtigste somatiske aberrationer fundet [6]. I dag CNV-analyse er blevet en central del af kræftforskning og mange undersøgelser koncentrere sig om at afsløre CNVs i det humane genom i normale og syge væv og celler. ([7,8], DGV (https://projects.tcag.ca/variation)). I klinikker bruges et stigende antal CNV for diagnostik og personlig behandling.
Mens kan påvises individuelle CNVs ved fluorescerende in situ hybridisering (FISH), hele genomet CNV afsløring kræver microarray-baserede komparativ genomisk hybridisering (array CGH ) eller næste generation sekventering (NGS) platforme [6]. Disse platforme genererer meget store mængder data, hvilket gør analysen meget udfordrende. En vigtig opgave for CNV dataanalyse er at identificere og karakterisere sammenhænge mellem CNVs og sygdomme, der potentielt kan drives af biologisk relevante mekanismer [9-11].
Der er ikke udført Adskillige associationsstudier med henblik på at knytte CNVs til sygdomme [7,8,12]. For eksempel Stamoulis et al. [11] fokuserede på monotone relationer mellem CNV inden for og på tværs af kromosomer; Bussey et al. [12] så på Pearsons korrelation mellem CNV og genekspressionsniveauer. Mens de fleste undersøgelser forbundet CNV med genekspressionsprofil, meget få, om nogen, der er gjort forsøg på at knytte mellem CNVs af forskellige gener påvist i sygt væv, selv om identifikationen af associationer mellem gener er yderst vigtige for forståelsen af grundlæggende biologiske processer og modellering gen regulatoriske netværk. I dette arbejde foretog vi en sådan fremgangsmåde til at analysere kræftrelaterede CNV data. Rationalet var, at da CNV dannelse er en del af carcinogenese, ville associationer mellem CNVs af gener være tegn på deres roller i carcinogenese. Derudover kan identifikation af disse foreninger muliggøre opbygningen af et gen netværk af sygdom drivende processer.
Til dato, de mest almindeligt anvendte foreningen tests er baseret på Pearsons eller Spearmans korrelationskoefficient. Pearsons test er følsom over for den lineære komponent i et forhold mellem to variable, mens Spearman test detekterer monotone forhold, såsom en sigmoid. Derfor begge test er ikke i stand til at detektere ikke-monotone forhold såsom U-formet, ellipse, sinusoid osv Nylige undersøgelser viser, at gen-foreninger er ofte ikke-lineære og ikke-monotone [13-15]; derfor for at opnå et fuldstændigt unbiased billede af alle gen sammenslutninger må man anvende andre statistiske metoder.
For nylig flere statistiske test til påvisning enhver type af relationer, herunder ikke-monotone dem, blev foreslået. Især Szekely et al. [16,17] foreslog en test, opkaldt dCov, baseret på afstand kovarians og afstand korrelation; Reshef et al. [18] præsenteret en test baseret på en hidtil ukendt grad af afhængighed-the maksimal information koefficient (MIC); og Heller et al. [19] foreslog en test baseret på rækker af afstande, opkaldt HHG. Omfattende simulation undersøgelser, der sammenligner mellem HHG, dCov, MIC, Spearman og Pearson er udført [13,19]. Deres vigtigste konklusioner var, at HHG er typisk mere kraftfuld end dCov og dCov er som regel mere magtfulde end MIC i ikke-monotone indstillinger.
Ud over at de er univariate analyseværktøjer, der kan identificere en bred vifte af foreningens typer , dCov og HHG gælder også for multivariat analyse, dvs at teste for afhængighed mellem de variable X og Y, hvor X og Y er vektorer snarere end enkelte variabler. Således kan bruges disse tests til at identificere forbindelser mellem veje eller mellem et gen og en sti, selv når stikprøvestørrelsen er meget mindre end dimensionen af enten X eller Y.
Det andet formål med dette arbejde var at demonstrere effektiviteten af foreningen tests, som også er i stand til at detektere ikke-monotone forhold, såsom dCov, MIC og HHG til analyse hele genomet association data. Til dette formål udnyttede vi disse tests sammen standard Spearman og Pearson test i analysen af CNV data fra 60 menneskelige kræftceller (NIC-60) [12]. Vi har fundet, at anvendelsen af prøver, som kan detektere enhver type af relationer, såsom dCov og HHG, for univariat analyse, resulterer i identificering af dobbelt så mange sammenslutninger sammenlignet med dem, der findes ved Spearman og Pearson alene. De fleste af de nye foreninger blev påvist ved den HHG testen. Desuden multivariat analyse ved hjælp af dCov og HHG var i stand til at associere mellem gener af ukendt funktion fra vores datasæt og basale biologiske veje, der giver et fingerpeg om mulige biologiske funktioner af disse gener.
De metoder, der præsenteres her, kan være nyttige i mange andre indstillinger, som kræver påvisning af sammenslutninger af gener og veje, såsom genopbygning af netværk og veje-en vigtig opgave i systembiologi [20]. Denne undersøgelse viser, at ved hjælp af disse metoder forskere kan afdække flere foreninger af forskellige typer, og har dermed et bredere billede til deres rådighed, når de forsøger at studere biologiske fænomener.
Resultater
Identifikation af gene- biprodukter fra Gene foreninger
for at finde sammenhænge mellem kræft-relaterede CNVs, vi brugte CNV data opnået ved et array CGH fra 60 menneskelige kræftceller (NCI-60; [12]). Inden for CGH-array vi valgte kloner, der har kendt gen symboler og, for konsistens, ingen manglende værdier i enhver cellelinie. Resultatet indeholdt 99 gener. Ud over de traditionelle forening tests, Spearman og Pearson, vi anvendte tre tests, dCov, MIC og HHG, som også er i stand til at detektere ikke-monotone forhold. En forening blev betragtet som signifikant, hvis FDR-justeret p-værdien var mindre end 0,05 ved hjælp af Benjamini-Hochberg procedure [21]. Ud af 4851 parvise sammenligninger, Pearson eller Spearman opdaget 254 signifikante sammenhænge, dCov opdaget 256, MIC opdaget 157 og HHG opdaget 400 signifikante sammenhænge (se figur 1, tabel 1, S1 Fig, og S1 tabel for detaljerede resultater). Sammenligning af de tre prøver, som kan detektere nogen form for relationer, nemlig dCov, MIC og HHG, afslørede, at de deler 139 fælles signifikante resultater. Desuden blev 44 foreninger fundet signifikant kun af dCov; 11 kun ved MIC og 183 kun af HHG (S1 Fig, øverst til højre). Sammenligning Pearson og Spearman med dCov og HHG afslørede, at 29 signifikante sammenhænge udelukkende blev opdaget af Pearson eller Spearman, kun 10 alene ved dCov mens 184 alene blev opdaget af HHG (figur 1).
MIC blev udelukket på grund af den lille antal væsentlige resultater, som denne metode. Arealet af hver oval repræsenterer antallet af betydende tests af hver metode, og kryds (fremhævet af forskellige farver) repræsenterer fælles opdagelser. Åbenbart, Pearson eller Spearman, dCov og HHG aksjer 185 opdagelser; 184 tests var signifikante ved HHG men ikke af Pearson, Spearman eller dCov; 10 tests var signifikante ved dCov og ikke af Pearson, Spearman eller HHG; 29 tests var signifikant af Pearson eller Spearman, men ikke af dCov eller HHG; dCov og HHG deler 26 opdagelser; Pearson eller Spearman og dCov deler 35 opdagelser; og Pearson eller Spearman og HHG deler kun 5 opdagelser.
Af antallet af betydelige statistiske associationer fundet af dCov, MIC eller HHG, men ikke af Pearson eller Spearman, antallet fundet af HHG var usædvanligt store. Konkret, mens antallet af signifikante sammenhænge deles af Pearson eller Spearman og HHG er 190, Pearson og Spearman savnet 210 foreninger fundet af HHG, mens HHG savnede kun 64 foreninger fundet af Pearson eller Spearman. I ovenstående analyse, vi kombineret Pearson ‘s og Spearman resultater, der havde justeret p-værdi mindre end 0,05, som om de var en enkelt metode, selvom det giver så en fordel i forhold til andre metoder. På denne baggrund er det endnu mere interessant, at HHG fundet 57% flere foreninger derefter Pearson og Spearman. Vi konkluderer derfor, at analyse baseret på de traditionelle Pearson og Spearman forening test kunne gå glip af en betydelig del af alle mulige associationer mellem gener.
For at demonstrere den biologiske relevans af de opdaget af HHG foreninger vi tog et nærmere kig på de detekterede forbundet genpar. Et eksempel på en forening kun findes ved HHG er sammenhængen mellem generne LYN og CTSB (figur 2). LYN koder for en ikke-receptortyrosinkinase-proteinkinase, en regulator af mange signaltransduktionsveje, mens CTSB koder cathepsin B, en thiol protease deltager i intracellulær nedbrydning og omsætning af proteiner. Ingen direkte biologiske interaktioner mellem disse to proteiner er kendte, men de begge interagere direkte med en tredje protein, sphingosinkinase en (SPHK1). SPHK1 katalyserer phosphorylering af sphingosin til dannelse sphingosin-1-phosphat (S1P), en central sphingolipid signaleringsmolekyle involveret i cellevækst, overlevelse, differentiering og motilitet. Interaktion mellem LYN og SPHK1 er afgørende for aktiveringen af SPHK1 [22]. På den anden side har interaktion mellem Cathespin B og SPHK1 blevet vist at nedregulere SPHK1 niveauer
in vivo
[23] og til at spalte det
in vitro
[24]. Denne eksperimentelle data viser, at sammenhængen mellem LYN og CTSB identificeret af HHG er faktisk biologisk relevant. Desuden til eksistensen af sammenhængen mellem CNV af Lyn og CTSB punkter LYN- SPHK1 og CTSB- SPHK1 interaktioner som værende vigtige for carcinogenese
Første linje består af tre resultater opdaget kun af Spearman eller Pearson.; sekunder, kun ved HHG; tredje, kun af dCov; og for det fjerde kun af MIC. P-værdier (efter justering for multiple test) er angivet i hver parcel.
Et andet eksempel for en forening kun findes ved HHG er sammenhængen mellem generne CDKN1A og TKT (figur 2). CDKN1A koder for CDK-interagerende protein 1 (p21), en potent cyclin-afhængig kinase inhibitor, der regulerer cellecyklusprogression via G1 /S checkpoint. TKT koder for transketolase et centralt enzym i pentosephosphatvejen. Sammenhængen mellem CDKN1A og TKT opdaget af HHG afspejler i virkeligheden en relation mellem de veje disse to gener tilhører. Efter cellecyklusprogression fra G1 mod S-fasen, er der en opregulering af pentosephosphatvejen, som er ansvarlig for produktion af ribose-5-phosphat (R5P), er nødvendig for syntesen af nukleotider og nukleinsyrer [25] . Alle generne i eksemplerne ovenfor er placeret på forskellige kromosomer eller langt væk fra hinanden på det samme kromosom; dermed fysisk nærhed kan ikke forklare CNV-baserede foreninger.
Identifikation af gen-funktion ved hjælp af flerdimensionale foreningens test
Påvisning af associationer mellem par af gener ved univariat analyse er en god start mod udledning biologiske oplysninger CNV data, som vist ovenfor. Men når det drejer sig et stort antal gener, funktionen og en forbindelse med biologiske veje af mange gener er ofte ukendt. Finde foreninger med kendte gener kan kaste lys over deres mulige funktion, men multivariat analyse kunne give yderligere vigtige oplysninger. Derfor har vi anvendt de multivariate test for afhængighed mellem flere gener af ukendt funktion i vores datasæt og kendte veje, hjælp dCov og HHG multivariate tests. Specifikt af de 99 gener i vores datasæt, tolv gener har ingen kendt funktion eller relation til en biologisk vej (figur 3), som bestemt ved hjælp Kegg pathway ([26,27]; https://www.genome.jp/Kegg /værktøj /map_pathway1.html). For at detektere deres associationer med kendte veje, vi først tildelt resten af generne til veje baseret på Kegg pathway Mapper (S2 tabel), og derefter udvalgt otte eksperimentelt bevist biologiske veje, der indeholder mindst fem gener fra vores datasæt (fig 3). Hertil kommer, at apoptose pathway, er en af de grundlæggende kræftrelaterede mekanismer, blev medtaget i vores undersøgelse, selvom kun to gener fra vores datasæt er blevet tildelt. Dernæst testede vi for associationer mellem hvert gen-pathway par blandt de tolv gener og ni veje. Vi anvendte dCov og HHG der var, af de prøver vi brugte ovenfor, de eneste to prøver, som kan multivariat analyse, dvs. teste for association mellem vektorer (flere detaljer er tilgængelige i materialer og metoder afsnit). I alt blev 108 prøver udført med hver metode og et testresultat blev betragtet som signifikant, hvis dets FDR-justeret p-værdien var mindre end 0,05 ved anvendelse af Benjamini-Hochberg procedure [21]. Af de tolv gener, viste seks gener signifikante sammenhænge til veje (Fig 3A og S3 tabel).
I panel A og B, gener (til venstre) og veje (til højre) blev analyseret for association med HHG og dCov. Væsentlige foreninger (efter justering for multiple test) er forbundet med linjer: stiplet for HHG, oversået for dCov, og solid for begge. A) Væsentlige sammenhænge mellem gener med ukendt funktion og kræftrelaterede veje. Foreninger fundet af dCov og HHG er markeret. B) Væsentlige sammenhænge mellem gener med kendt funktion og kræftrelaterede veje. Kun foreninger fundet af dCov vises som ingen signifikante associationer blev fundet af HHG.
To gener, LRRC32 og SPI1, viste sig at være forbundet med de fleste af de veje, hvilket tyder på at de kunne være signal transduktion mellemprodukter , regulering downstream mål tilhører disse veje. Disse resultater er i overensstemmelse med resultaterne af den univariate analyse, som i væsentlig grad er forbundet begge gener med serin /threonin kinase PAK1 og SPI1 gen også med HRAS, en GTPase af RAS familien. Faktisk ifølge Kegg pathway mapper PAK1 og HRAS hører til de fleste af de veje, som LRRC32 og SPI1 blev fundet at være forbundet. Desuden er både PAK1 og HRAS er involveret i transduktion af sprednings- signaler og deres miss-regulering fører til unormal signaltransduktion og cancer [28,29]. Mens en univariat analyse kunne finde sammenhæng mellem gener af ukendt funktion og individuelle gener med kendt funktion, kunne ovenstående multivariate analyse påpege deres foreninger med biologiske processer.
De fire tilbageværende associerede gener, AFF2, CLCN5, MitCN, og TCL1A, viste sig at være associeret hver til en eller to specifikke pathways tyder de udgør nedstrømseffektorer i disse veje (se eksempler nedenfor). Ingen foreninger blev fundet mellem de øvrige seks gener og nogen af veje.
I den multivariate analyse anvendt ovenfor til gener af ukendt funktion, dCov og HHG opdagede tilsvarende antal væsentlige multivariate sammenhænge, 15 af dCov, og 13 ved HHG, mens 8 blev påvist ved begge metoder. vores analyse har således ikke afsløre nogen klare beviser for overlegenhed ene metode frem for den anden i denne specifikke anvendelse.
Ud over den multivariate analyse anvendes på gener af ukendt rolle i cancer, vi plukket to gener fra datasættet , PIK3CA og MSH2, der har etableret biologisk funktion og ikke hører til nogen af de otte veje i henhold til Kegg, og udførte gen-pathway multivariate test af association af dCov og HHG, svarende til dem, der udføres over for gener af ukendt funktion. Mens dCov fandt 13 signifikante resultater, HHG fandt ingen (Fig 3B og S4 tabel).
De foreninger, der detekteres af dCov, mellem MSH2 og cellecyklus, apoptose, fokal vedhæftning, RAS, WNT og aktin veje er i overensstemmelse med dens funktion i DNA mismatch reparation og dets forbindelse til celledeling [31]. Tilsvarende, associationer mellem PIK3CA og følgende veje: apoptose, actin, Focal vedhæftning, FoxO signalering, T-celle-receptor signalering, Axon vejledning og Wnt (Fig 3B og S4 tabel) er understøttet af store biologiske data [32-35]. Forholdet mellem PIK3CA til disse veje, såvel som dets centrale rolle i humane cancere, er en konsekvens af det er en vigtig aktør i aktivering af signalering kaskader involveret i cellevækst, overlevelse, proliferation, motilitet og morfologi [36]. Uoverensstemmelsen i de aktuelle resultater af dCov og HHG (Fig 3B) skyldes den lineære karakter af forholdet mellem disse gener og de veje, og det faktum, at styrken af HHG er at finde ikke-monotone forhold. For eksempel opdagede dCov signifikant sammenhæng mellem PIK3CA og Axon vejledning pathway. Ser tilbage på den univariate analyse (S1 Table) ser vi, at PIK3CA viste sig at være signifikant associeret med HRAS, som hører til Axon vejledning vej, og denne forening blev også fundet af Pearson eller Spearman. Sådanne resultater viser stærk lineær sammenhæng mellem PIK3CA og HRAS (figur 4). Tilsvarende foreningen fundet af dCov, men ikke af HHG, mellem MSH2 og de Ras-signalvejen kan forklares ved den signifikant association fundet af Pearson eller Spearman mellem MSH2 og gen REL, som tilhører denne vej (S1 tabel, og fig 4 ). Det forventes, at kendte relationer mellem gener opdaget af laboratoriemetoder (såsom co-IP) eller ved bioinformatisk analyse af high-throughput data baseret på klassiske lineære eller monotone orienterede metoder vil blive stærkt forudindtaget mod lineære eller monotone relationer.
Scatter plot af PIK3CA versus HRAS (venstre panel) og MSH2 versus REL (højre panel).
Kollektivt, disse resultater giver et proof of concept for evnen af flerdimensional analyse at afsløre biologisk relevant gen -pathway foreninger.
diskussion
i dette arbejde vi foretog en ny tilgang til hele genomet CNV analyse, med det mål at være identifikation af forbindelser mellem CNV af forskellige gener (CNV-CNV) tværs 60 humane cancercellelinjer. Vi brugte moderne forening tests, der kan afsløre ikke-lineære og ikke-monotone foreninger og anvendt dem i univariate indstillinger, i forsøg på at identificere gen-gen-foreninger. Vi brugte også dem i multivariate indstillinger, i forsøg på at identificere sammenslutninger af gener af ukendt funktion med etablerede kræftrelaterede veje.
Kollektivt, vores univariat analyse viser, at associationer mellem CNV af gener fundet af HHG afspejler sande biologiske processer . Dette antyder, at univariat analyse ved hjælp af statistiske tests, der er rettet mod kun lineære eller monotone foreninger kan resultere i mange biologisk vigtige fund resterende unrevealed. Derudover er der i dette datasæt, overlegenhed HHG test over de andre prøver, som kan detektere ikke-monotone forhold er indlysende.
I den multivariate indstilling, forskellen mellem de stærkt forbundne gener (LLRC32 og SPI1) og de andre fire associerede gener er et eksempel på, hvordan multivariat analyse kan antyde ved positionen af et gen i en reaktionsvej. Anvendes på flere datasæt og kombineret med univariat analyse, ville denne analyse giver mulighed for endnu mere raffineret positionering af et gen i en reaktionsvej.
Seks gener ikke forbinder med nogen af veje. Dette kan skyldes flere årsager; en af dem er begrænset antal biologiske veje, som de gener af ukendt funktion var forbundet, som følge af et begrænset antal gener (99) med komplette CNV data i databasen anvendt til denne undersøgelse. En anden årsag kan være de begrænsede biologiske data rapporteret i Kegg, men denne situation forventes at dramatisk forbedre i den nærmeste fremtid på grund af kontinuerlig akkumulering af data fra systemer biologiske undersøgelser.
I tilfælde af LRRC32 og SPI1 diskuteret ovenfor, de univariate og multivariate resultater supplerer hinanden som disse gener viste sig at være forbundet med veje, ad den multivariate analyse og til de specifikke medlemmer af disse veje ved univariate analyse. Det er dog vigtigt at bemærke, at dette ikke er en generel regel. Som en multivariat uafhængighedsprøven identificerer afhængighed mellem to vektorer, mens en univariat metode kun sløjfer i par af komponenter og test for afhængighed mellem hvert par af variable. Derfor er det muligt at opnå ikke-signifikante univariate test, men en betydelig flerdimensional test for samme datasæt. Faktisk er der en mulighed for ingen sammenhæng mellem to individuelle gener og alligevel af en multivariat associering med fuld pathway. Dette kan forekomme på grund af de kombinerede virkninger af variablerne i flerdimensional test. For eksempel blev AFF2 fundet at være signifikant associeret med Axon vejledning pathway (justeret p-værdi = 0,022) ved multivariat analyse, mens ingen signifikante associationer mellem AFF2 og enhver af de gener, der udgør Axon vejledning pathway blev fundet ved den univariate analyse. Dette kan være resultatet af svage associationer mellem AFF2 og pathway medlemmer, eller alternativt på grund af en stærk forbindelse med en sti medlem, der ikke var medtaget i dataene. Under alle omstændigheder, det opdagede flerdimensional analyse gen-pathway forening ikke kunne udledes ud fra de univariate analyseresultater.
I det modsatte tilfælde, to gener, A og B, kan være forbundet med univariat analyse, mens ingen sammenhæng mellem gen A og pathwaygen-B tilhører findes ved multivariat analyse. For eksempel CLCN5 blev fundet af den univariate analyse at være forbundet med MET og BCL2, som begge tilhører den Focal vedhæftning vej, som ikke var forbundet med CLCN5 ved flerdimensionale tests. En multivariat analyse afslørede dog, associationer mellem CLCN5 og Axon vejledning og RAS veje (Fig 3). Begge disse veje indeholder MET, det eneste pathway medlem fundet at være forbundet med CLCN5 af univariate analyse. Sådanne resultater forventes da MET er en receptortyrosinkinase, transduktion af signaler fra uden for cellen, og er således i starten af mange veje, hvorimod BCL2 er en terminal protein i mange veje. Det betyder, at en univariat association med dem er ikke stærk nok til at detektere en pathway forening. Bekræftelse at CLCN5 CNVs er forbundet med Axon vejledning sti kommer fra den iagttagelse, at 65,9% af centralnervesystemet kræftformer har et tab af en eller to kopier af CLCN5 genet (COSMOS, [30]).
Disse eksempler viser den mulige fordel ved flerdimensionale test for uafhængighed i univariate tests, når målet er at finde en sammenhæng mellem et gen og en gruppe af gener, såsom en vej, eller finde en associering mellem to grupper af gener (f.eks to veje). Generelt for at få et fuldstændigt billede, både foreningen tester typer bør anvendes.
dCov og HHG test er permutation tests, og beregningen af mange sådanne tests kan være beregningsmæssigt udfordrende. Distribution-fri univariate test af en smag ligner HHG blev for nylig introduceret i [37]. Disse tests kan være nyttige alternativer til den HHG prøve, når et stort antal univariate test samtidigt undersøges
Sammenfattende vores resultater tyder:. (1) Multivariat analyse er et meget nyttigt værktøj til at tilskrive biologiske roller til gener med ukendt funktion; (2) univariat omnibus-analyse, dvs. ved hjælp af test, der registrerer alle typer af relationer, kunne afdække mange nye vigtige foreninger, som ikke kan påvises ved de fælles lineære og monoton forening tests; (3) HHG test udkonkurrerede alle andre prøver at finde univariate foreninger; Og vigtigst af alt, (4) Ved hjælp af en kombination af multivariate og univariate foreninger test kan afsløre vigtige oplysninger om gen-netværk, og i den aktuelle kontekst, om kræft-kørsel processer.
Materialer og metoder
CNV databaser
Sammenlignende genomisk hybridisering (CGH) data af et panel af 60 menneskelige kræftceller (NCI-60) blev opnået fra [12,38]. CGH indeholder 349 kloner. Efter at have udelukket kloner med manglende værdier og kloner med ukendt gen symboler, blev vores analyse udført på et sæt af 99 CGH-kloner, som repræsenterer 99 gener. S5 Table indeholder aCGH rådata fra NCI-60.
univariat analyse
Association analyse blev udført på de 99 kloner baseret på deres kopiantal i hver af de 60 cellelinier fra NCI-60. Vi testede alle mulige parvise foreninger blandt de 99 kloner, genererer 4851 par. Vi brugte følgende test af uafhængighed: (i) test baseret på Pearson korrelationskoefficient [39] (ii) test baseret på Spearman rank korrelationskoefficient [40] (iii) afstand kovarians (dCov) [16,17]; (Iv) maksimal information koefficient (MIC) [18]; og (v) en test baseret på rækker af afstande (HHG) [19]. For hver metode justeret vi for flere sammenligninger ved FDR af Benjamini og Hochberg [21], og et testresultat blev betragtet som væsentlig, hvis den justerede p-værdien var mindre end eller lig 0,05.
I det følgende giver vi et resumé af testene. Antag vi har
N
uafhængige observationer (
X
jeg
,
Y
i
),
jeg
= 1, …,
N
, fra den fælles distribution af (
X
,
Y
),
X
,
Y
∈
R
og vores mål er at teste, om der er en sammenhæng mellem
X
og
Y
.
jeg. Pearson korrelationskoefficient.
Prøven Pearson korrelationskoefficient, angivet med
r
s
, er givenwhere og defineres på samme måde baseret på
Y
1, …,
Y
N
. Værdien af
r
s
er mellem -1 og 1.
r
s
lig 1 eller -1 svarer til datapunkter ligger nøjagtigt på en linje. En værdi på 0 betyder, at der ikke er lineær sammenhæng mellem
X
og
Y
. Hvis (
X
,
Y
) følger bivariate normale fordeling, under nulhypotesen ingen lineær sammenhæng mellem
X
og
Y Hotel (dvs. den sande korrelationskoefficient er lig 0), følger en Students
t
fordeling med
N
– 2 frihedsgrader [39]. Denne Studerendes
t
fordeling gælder også omtrent, hvis fordelingen af (
X
,
Y
) er ikke normalt, men prøvens størrelse er stor nok. Vi anvendte denne test ved hjælp af funktionen cor.test med parameter metode = ‘Pearson’ i pakken
statistik
af R (https://www.r-project.org).
ii. Spearman korrelationskoefficienten.
Spearman korrelationskoefficient, angivet med
r
s
, defineres på samme måde som
r
s
men i stedet for at bruge de fundne værdier er anvendt deres rækker [40]. I tilfælde af tilknyttede værdier, er en rang svarende til gennemsnittet af deres positioner i opstigende rækkefølge af værdierne tildelt. En værdi på 1 eller -1 for
r
s
svarer til det tilfælde, hvor
X
og
Y
er perfekte monotone funktioner af hinanden. Under nulhypotesen ingen monoton sammenhæng mellem variablerne og stor stikprøvestørrelse, følger en Students
t
fordeling med
N
– 2 frihedsgrader [40]. Vi anvendte denne test ved hjælp af funktionen cor.test med parameter metode = ‘spearman «i pakken
statistik
af R (https://www.r-project.org).
iii. . Den dCov test
Afstanden kovarians test [16,17] bruger alle parvise euklidisk afstande
en
ij
= |
X
Leave a Reply
Du skal være logget ind for at skrive en kommentar.