Abstrakt
Baggrund
Vi analyserede sammenhængen mellem 53 gener relateret til DNA-reparation og p53-medieret skade responset og serøs æggestokkene kræftrisiko ved brug case-kontrol data fra North Carolina kræft i æggestokkene Study (NCOCS), en befolkning-baseret, case-kontrol undersøgelse.
Metoder /vigtigste resultater
analyse var begrænset til 364 invasive serøse sager ovariecancer og 761 kontroller af hvid, ikke-spansktalende løb. Statistisk analyse var to iscenesat: en skærm ved hjælp af marginale Bayes faktorer (BFS) til 484 SNP’er og en modellering fase, hvor vi beregnede multivariate justeret posteriore sandsynligheder for forening for 77 SNPs, der passerede skærmen. Disse sandsynligheder var betinget af emne alder ved diagnose /interview, batch, en DNA-kvalitet metrisk og genotyper af andre SNP’er og tilladt for usikkerhed i de genetiske parameterizations af SNP’er og antallet af tilhørende SNPs. Seks SNPs havde Bayes faktorer større end 10 til fordel for en forening med invasiv serøs kræft i æggestokkene. Disse omfattede rs5762746 (median OR (odds ratio)
pr allel = 0,66; 95% troværdig interval (CI) = 0,44-1,00) og rs6005835 (
median
ELLER
pr allel
= 0,69; 95% CI = 0,53-0,91
) i
CHEK2
, rs2078486 (median ELLER
pr allel = 1,65; 95% CI = 1,21-2,25) og rs12951053 (median ELLER
pr allel = 1,65; 95% CI = 1,20-2,26) i
TP53
, rs411697 (median ELLER
sjælden homozygot = 0,53; 95% CI = 0,35-0,79) i
BACH1
og rs10131 (
median ELLER
sjælden homozygot =
ikke agtværdig) i
LIG4
. De seks mest associerede SNP’er er enten forudsiges at være funktionelt signifikant eller er i LD med en sådan variant. Varianterne i TP53 blev bekræftet at være forbundet i et stort opfølgende undersøgelse.
Konklusioner /Betydning
Baseret på vores resultater, yderligere opfølgning af de DNA-reparation og respons veje i en større datasæt er berettiget til at bekræfte disse resultater
Henvisning:. Schildkraut JM, Iversen ES, Wilson MA, Clyde MA, Moorman PG, Palmieri RT, et al. (2010) associering mellem DNA skade responset og reparation Gener og risiko for invasiv serøs kræft i æggestokkene. PLoS ONE 5 (4): e10061. doi: 10,1371 /journal.pone.0010061
Redaktør: Marie-Pierre Dubé, Université de Montreal, Canada
Modtaget: December 2, 2009; Accepteret: 5 marts 2010; Udgivet: April 8, 2010
Copyright: © 2010 Schildkraut et al. Dette er en åben adgang artiklen distribueres under betingelserne i Creative Commons Attribution License, som tillader ubegrænset brug, distribution og reproduktion i ethvert medie, forudsat den oprindelige forfatter og kilde krediteres
Finansiering:. Dette håndskrift blev støttet af tilskud fra National Institutes of Health 1-R01-CA76016 og 1-R01-HL090559. De finansieringskilder havde ingen rolle i studie design, indsamling og analyse af data, beslutning om at offentliggøre, eller forberedelse af manuscipt
Konkurrerende interesser:.. Forfatterne har erklæret, at der ikke findes konkurrerende interesser
Introduktion
kræft i æggestokkene er den hyppigste årsag til dødelighed blandt gynækologiske kræftformer [1]. Den meget dødelige serøs histologisk type omfatter omkring to tredjedele af tilfældene og forårsager de fleste sygdomsrelaterede dødsfald. Reproduktive faktorer som høj paritet, oral prævention, amning, hysterektomi, og aflukning af æggelederne beskytte mod kræft i æggestokkene [2], mens infertilitet og endometriose øget risiko [3], [4]. De biologiske mekanismer, der ligger til grund for disse risikofaktorer er ikke godt forstået, men inflammation-relaterede oxidativt stress er blevet foreslået som en samlende teori, hvormed disse risikofaktorer kan forårsage genomisk skader, der fører til udvikling af kræft [5], [6], [ ,,,0],7], [8], [9]. Hvis denne teori er korrekt, er det sandsynligt, at risikoen for ovariecancer ville blive modificeret ved almindelige genetiske varianter, der påvirker effektiviteten af DNA reparation gener [10], [11].
Adskillige former for evidens tyder på, at DNA reparation baner spiller en vigtig rolle i æggestokkene carcinogenese. Først bliver alle de høje penetrans ovariecancer modtagelighed gener der er blevet identificeret hidtil spille en rolle i DNA-reparation. I denne henseende skadelige mutationer i
BRCA1
BRCA2
gener reducerer reparation af dobbeltstrengede DNA pauser. Derudover germlinie mutationer i DNA mismatch reparation gener, der forårsager arvelig nonpolyposis Colon Cancer (HNPCC) syndrom også slående øge ovariecancer risiko [12], [13]. For det andet, somatiske mutationer i
TP53
gen er de mest almindeligt erhvervede molekylære ændringer, der er beskrevet hidtil i høj kvalitet serøse ovariecancer [14], [15], [16].
TP53
er involveret i vedligeholdelse af genomisk integritet via flere mekanismer, herunder induktion af cellecyklus arrest i respons på DNA-skade, DNA-reparation og regulering af apoptose.
Ovenstående observationer førte os til hypotesen, at fælles polymorfier i gener, der er forbundet med DNA respons og reparation eller p53-DNA skader checkpoint kan øge ovariecancer risiko. Vi fokuserede på 477 tagging enkelt nukleotid polymorfier (SNP) og yderligere syv aminosyre skiftende SNPs i 53 gener i DNA-skade responset og reparation veje. Vi brugte en Bayesian model søgestrategi kaldet Multi-level inferens for SNP Association (MISA) [17] for at analysere disse SNPs for tegn på association med æggestokkræft ved hjælp af data fra befolkningen-baserede North Carolina kræft i æggestokkene Study (NCOCS).
Bayesianske metoder bliver en langt mere fælles valg til analyse af genetiske associationsstudier ([18] og referencer deri). Dette kan tilskrives flere faktorer, herunder flere vigtige fordele Bayesian paradigme har over frequentist paradigme og den øgede tilgængelighed af software specielt designet til Bayesiansk analyse af genetiske foreningens data såsom MISA pakke ansat her. Nøglen mangel på test i frequentist paradigme er i sin manglende eksplicit redegøre for sandsynligheden for foreningen følger af den alternative hypotese, nemlig at redegøre for magten – data, der genererer en lille p-værdi under nul kan også være meget usandsynligt under den alternative hypotese [18]. I modsætning hertil Bayesianske metoder giver mål for foreningen – Bayes faktorer (BFS) og posteriore sandsynligheder – der udtrykkeligt udgør sandsynligheden af data i henhold til de konkurrerende hypoteser. Dette kommer på bekostning af yderligere modelantagelser; nemlig specifikation af forudgående sandsynligheder for hver hypotese og tidligere fordelinger end parametre model betinget af hypoteserne.
MISA [17] forbedrer SNP-på-en-time (marginale) metoder ved modellering fænotype som en funktion af en multivariat genetiske profil og, som et resultat, giver foranstaltninger vedtægter korrigeret for de resterende markører. MISA beskæftiger Bayesian Model Midlings- [19], [20] for at tage højde for usikkerheden i specifikationen af den sande model foreningsfrihed, noget der trinvis logistisk regression og andre model udvælgelse tilgange såsom lasso ikke gør. Dette har stor betydning: metoder, der identificerer en enkelt model kan gå glip af vigtige SNPs grund LD struktur. Desuden MISA indeholder resuméer af i hvilken grad dataene understøtter en forening på de enkelte varianter, gener og veje samtidig med at følgeslutning om genetiske parametrisering (log-additiv, dominant eller recessiv) for hver SNP. Den forudgående fordeling ansat af MISA blev omhyggeligt valgt til mangfoldighed korrektion det fremkalder.
Materialer og metoder
Undersøgelse emner
Cases og kontroller blev deltagere i NCOCS, gennemført i en 48-county regionen North Carolina. En detaljeret beskrivelse af undersøgelsen er tidligere blevet offentliggjort [2], [21]. Kort fortalt blev sager identificeret gennem North Carolina Central Cancerregisteret hjælp hurtig sag konstatering. Støtteberettigede tilfælde, mellem 20 og 74 blev diagnosticeret med epitelial kræft i æggestokkene mellem 1999 og 2007. Histologiske slides blev opnået, og alle tilfælde gennemgik standardiseret histopatologisk gennemgang af undersøgelsen patolog (RCB) for at bekræfte diagnosen. Svarprocenten blandt støtteberettigede tilfælde var 70%. Vi fandt lidt forskel i demografiske og kliniske karakteristika blandt sager, der deltog i denne undersøgelse i forhold til dem, der faldt. Kontrol kvinder blev identificeret fra samme region brug af vilkårlig cifret opkald og blev frekvens matches til sager efter alder (femårige kategorier) og race (sort eller ikke-sort). Halvfjerds-tre procent af potentielle kontroller, der har bestået den støtteberettigede screening enige om at blive sendt yderligere undersøgelse oplysninger. Blandt dem, sendt studieinformation, svarprocenten var 64 procent. Selv om kontrol svarprocent er noget lav, har dette ikke påvirket foreninger med etablerede epidemiologiske risikofaktorer [2], [21]. Desuden er det usandsynligt, at deltagelse ville have været påvirket af genotype. Protokollen blev godkendt af Duke University Board Medical Center Institutional Review og de menneskelige emner udvalg på den centrale Cancerregisteret og hver hospital, hvor sager blev identificeret.
Vi begrænsede den nuværende analyser til hvid, ikke-spansktalende invasiv serøs æggestokkene kræfttilfælde (n = 364) og hvide ikke-spansktalende kontroller (n = 761) med kvaliteten kontrolkrav genotype data møde. Deltagerne havde blod trukket under deres in-person interview med undersøgelsen sygeplejerske. Germlinie DNA blev ekstraheret fra perifere blodlymfocytter under anvendelse Puregene DNA-isolering reagenser ifølge producentens instruktioner (Gentra Systems, Minneapolis, MN).
genotypebestemmelsesmetoder Salg
Vi valgte en bred gruppe af kandidatgener i DNA reparation og respons veje (tabel S1), der sandsynligvis interagerer med
BRCA1
eller
BRCA2
eller er involveret i dobbelt tråd pause, mismatch reparation, nukleotid excision reparation, eller base excision reparation. Vi mærkede disse 53 kandidatgener bruger release 19 i den internationale HapMap Projects (www.hapmap.org) [22] CEU grundlægger befolkning og ldSelect programmet [23]. Vi mærkede regionen begynder 10.000 basepar opstrøms og slutter 10.000 basepar nedstrøms for hvert gen til også at omfatte kodning, ikke-kodning og regulatoriske regioner. ldSelect identificerede placeringer af SNPs med mindre allel frekvens (MAF) ≥0.05 ved hjælp af en parvis koblingsuligevægt (LD) grænse på
r
2≥0.8. Vi valgte at genotype to tags i spande, hvor alle SNPs havde lave Illumina design scores at forbedre forventet dækning. Med henblik på analyse, vi beholdt tag med de mere præcise genotype opkald målt ved opkald frekvens og konkordans rate i CEPH trioer. Af de 671 tagging SNPs genotypede, 61 var ikke-synonyme; yderligere 14 ikke-tagging aminosyre skiftende SNPs blev også genotypebestemmes da tag, der blev valgt var også ikke-synonyme. Alle ikke-synonyme SNPs, der opfyldte kriterierne for Illumina Golden Gate analyser blev inkluderet. Prøverne blev genotype ved hjælp af en Illumina Golden Gate Assay ™ på Duke Institut for Genome Sciences og politik (IgSP), med cases og kontroller tilfældigt blandet på hver af 21 plader. Seks CEPH-Utah trioer (Coriell Institute, Camden, NJ) blev distribueret på tværs af seks plader. Pladerne blev behandlet i fire portioner ved genotypebestemmelse facilitet. SNPs, der ikke kunne kaldes ved hjælp af Illumina BeadStudio softwaren på mere end 1% af prøverne inden for en batch blev behandlet som mangler for dette parti. Vi brugte logistisk regressionsanalyse at bestemme, om batch og DNA kvalitet målinger var forbundet med case-kontrol status.
Vi evaluerede nøjagtigheden af de genetiske data ved hjælp SNP- og fagspecifikke kvalitetskontrol analyser. Først fjernede vi fra alle association analyser SNPs med en eller flere CEPH genotyper i uenighed med deres offentliggjorte værdier, dvs. dem, der havde en anslået fejlprocent større end eller lig med 1/18 antager de offentliggjorte genotyper er korrekte. For det andet, vi udnyttet X2 goodness of fit test med kontinuitet korrektion 0,25 at teste for afgange fra Hardy-Weinberg-ligevægt (HWE) blandt kontroller [24], og blandt de 60 CEPH forældrene bruger deres offentliggjorte genotyper ved loci af interesse. Vi fjernede en delmængde af prøver på basis af en analyse af den venstre hale af fordelingen af p-værdier for HWE. Denne delmængde tegnede sig for den Illumina GenCall 50-percentilen score (GC50PCT) af hver prøve og brugte den tilsvarende fordeling estimeres ud fra HapMap CEPH prøver til sammenligning. Rapporterede estimater af mindre allel frekvens (MAF) er den mindste af de observerede allelfrekvenserne blandt kontroller.
Tyve-to af de 685 DNA reparation SNPs på analysen havde takster under 99% på alle fire partier og var fjernet fra videre behandling. Tredive-syv af de resterende 663 SNPs havde mindre end 95% konkordans i CEPH prøverne mellem vores genotype opkald og dem, der offentliggøres af HapMap og blev fjernet fra yderligere overvejelser. Af de tilbageværende, 484 var ikke-redundant og inkluderet i alle efterfølgende analyser. En QQ plot af HWE p-værdi fordeling over disse SNPs bruger alle 787 hvide ikke-spansktalende kontroller viste tegn på en overflod af små p-værdier i forhold til, hvad der forventes under den ensartede fordeling. Den tilsvarende plot baseret på HapMap genotyper af de 60 CEPH forældre havde ikke denne egenskab
Antallet af SNPs med en HWE p-værdi mindre end 0,01 beregnet ved hjælp af alle 787 hvide ikke-spansktalende kontroller var 17.; ved hjælp af HapMap prøve, det var 5. Antages p-værdierne er uafhængige og jævnt fordelt det forventede antal mindre end 0,01 er 4.84, den 2.5
percentil af denne fordeling er 1, og 97,5
percentilen er 10 .
dette tyder på, at i stedet for at have en befolkning genetisk forklaring, denne afgang skyldes sandsynligvis genotypebestemmelse fejl. For at kontrollere dette, overvejede vi at fjerne prøver med en Illumina GC50PCT mindre end en tærskel større end den sædvanlige 0,7. Vi systematisk øget tærsklen op til 0,8 og fundet, at fordelingen af HWE p-værdier dramatisk blev forbedret ved en tærskel på 0,789. Dette valg efterlod 364 (af 390) tilfælde og 761 kontroller. Ved hjælp af denne tærskel, der var 9 SNPs med et HWE p-værdi mindre end 0,01. Alle yderligere analyser blev udført ved hjælp af disse prøver og deres genotype data om de 484 ikke-redundante SNPs passerer vores kvalitetskontrol analyse.
Statistiske Metoder
MISA Analysis.
Vi brugte MISA at identificere sandsynlige foreninger og de genetiske parameterizations af associerede SNP’er. MISA implementerer en model søgning i logistiske regressionsmodeller for case-kontrol status givet de SNP variabler og et sæt af design og potentielle forstyrrende variabler. I den nuværende analyser, alder ved diagnose /interview, batch, DNA kvalitet metriske GC50PCT, og interaktion vilkår mellem parti og GC50PCT er de ‘design’ variabler i alle modeller. Vi henviser til modellen med kun design variabler som model af ‘ingen genetisk forening, “eller” null “model for korte. Det iswhere D
i er indikator for, om emnet
jeg
er et tilfælde, M er en model-id, α
0 er skæringspunktet, Z
i er vektor af design variabler for emne
jeg
, og β
0 er vektor af koefficienter af variablerne i Z
jeg under nul model. Tilføjelse vigtigste virkninger for enhver kombination af de SNPs til null model vil definere en model for foreningen. MISA tillader hver inkluderet SNP at have en log-additiv, dominant eller recessiv parametrering. MISA anvender en evolutionær Monte Carlo algoritme til prøve modeller i denne klasse efter deres posteriore sandsynligheder. Denne stokastisk søgning udføres i stedet for en opregning af de modeller på grund af deres enorme antal.
På grund af det astronomiske antal statistiske modeller af ovenstående formular, MISA inkorporerer en eftergivende enkelt SNP-at-a -tid (marginal) Bayes Factor (BF) skærmen ved hjælp af hele sættet af ikke-redundante SNPs at fjerne SNPs usandsynligt at være forbundet i multivariat logistisk regressionsmodel. Wilson et al. [17] viser, at skærmen efterfulgt af den multivariate justerede analyse fra MISA giver øget magt til at opdage foreninger i den marginale analyse alene, med minimal stigning i falsk positive satser. De viser, at MISA har også meget bedre effekt end standard flere justeringsmuligheder sammenligning metoder og falske opdagelse sats procedurer, trinvis logistisk regression eller lassoen.
MISA udnytter en forudgående fordeling over modelparametre kalibreret for små til beskedne effekt størrelser og en beta-binomial forudgående fordeling af antallet af SNP’er indgår i en model. Sidstnævnte fordeling inducerer en mangfoldighed korrektion ved at angive en global forudgående odds for forening, der er uafhængig af antallet af SNP’er eller gener i analysen. Dens parametre,
a = 1/8
b = S
(antallet af SNP’er i modellen søgningen fase), blev udvalgt på grundlag af resultaterne af en simulering eksperiment for at opnå en ønskede balance mellem falsk positive og falsk negative. Flere detaljer om de statistiske metoder, der anvendes i denne analyse kan findes i Wilson et al. [17] (Tekst S1).
Bayesiansk Statistik.
Både den marginale og multivariate analyser bruge Bayes faktorer (BFS) til at måle beviser til fordel (eller imod) en forening. BF er tilsvarende en generaliseret sandsynlighedsforholdstal og en odds-ratio. I førstnævnte karakteristik er det forholdet af sandsynligheden af dataene under en model (for eksempel en model af genetisk association) til en anden (for eksempel en model af noget genetisk association). I stedet for at tage forholdet mellem prøvetagning modeller under hver hypotese evalueret på det mest sandsynlige parameterværdi (MLE) for hver som i Frequentist paradigme, BF er forholdet prøveudtagningen modeller gennemsnit over deres respektive tidligere fordelinger på modellens parametre. I sidstnævnte karakterisering, er BFS defineres som forholdet mellem de posteriore odds for en hypotese (eller model) for sammenslutning med de kendte odds (π /(1- Tr)) af denne hypotese og dermed måle graden til hvilken data
opdatering
oddsene for denne hypotese foreningsfrihed [25], [26], [27]; med en BF på 10, de bageste odds en forening er 10 gange større end de tidligere odds. Under et almindeligt anvendt skala af beviser [28], BFS mellem 1,0 og 3,2 er “svagt støttende ‘, dem mellem 3,2 og 10 er’ støttende ‘, dem mellem 10 og 30 er” stærkt støttende’, dem mellem 30 og 100 er ‘ meget stærk “, og dem over 100 er» afgørende «for støtte til forening (vi har ændret navnene på flere af disse kategorier, men ikke deres fortolkning). En BF for ingen sammenhæng er simpelthen det reciprokke af BF for en forening, og dermed i modsætning til p-værdier BFS kan give et mål for støtte til fordel for en nul hypotese. BFS kan konverteres til posteriore odds (PO = BF x π /(1- π)), og til posteriore sandsynligheder for foreningen (PPA = PO /(1 + PO)) for at give en “absolut” mål for beviser for forening [ ,,,0],18]. De posteriore sandsynligheder kan anvendes som del af en beslutning analyse for at bestemme hvilke SNPs at undersøge nærmere. En tærskel på 0,5 for PPA, forudsætter, at falske positiver har samme omkostninger som falsk negative. For indledende undersøgelser, kan en lavere tærskel være mere passende.
mangler data.
Der var ingen manglende design variabler. Vi brugte fastPHASE [26] til at generere 100 beskyldninger af de manglende genotypedata givet de observerede, unphased genotypedata. Skærmen er marginale BFS blev beregnet som det simple gennemsnit af de BFS for hver af de 100 imputerede datasæt. Vi sammenlignede disse BFS til dem, der beregnes med et enkelt datasæt, hvor de manglende genotyper blev erstattet af deres modal værdi bestemmes ud fra de 100 beskyldninger. De to sæt BFS havde korrelation 0,998. Af denne grund, og fordi beregninger er stærkt strømlinet, vi brugte de enkelte datasæt med ‘modal fill-ins «for MISA analyse.
Vores imputering procedure forudsætter, at der mangler SNP genotyper er ignorable, dvs. enten mangler helt random (MCAR) eller mangler tilfældigt (MAR). Vi brugte den marginale BF software til at kontrollere denne antagelse ved at undersøge, om en SNP mønster af missingness var betinget uafhængig af case-control status givet den observerede data, vi har til at forklare missingness. Designet variabler i denne analyse var de samme som anvendt i skærmen og i MISA. I forbindelse med denne beregning, brugte vi 0-1 indikator for en SNP’er missingness i stedet for dens genotype data og beregnet BFS til association af denne indikator til case-control status i henhold til log-additive model for SNPs med fem eller flere manglende værdier (60 SNP’er)
Design variabler
Logistisk regressionsanalyse af case-control status på parti og GC50PCT indikerede en stærk batch effekt (p 10e
-7).., i høj grad drevet ved en ujævn fordeling af sager og kontroller i batch fire og en batch-GC50PCT interaktion (p = 0,02). På grundlag af denne analyse, inkluderer vi parti, GC50PCT, samspillet mellem parti og GC50PCT i alle foreningens modeller sammen med alderen.
haplotypeanalyse.
Foreninger med en eller flere SNPs i en gen kan forekomme, når de varianter tagge en risiko haplotype. Vi brugte Haploview 4.1 til at udføre haplotype association test for at fastslå, om dette kunne være tilfældet i generne, der indeholder den mest tilhørende SNPs.
Resultater
NCOCS Candidate DNA Repair Gene Analysis
i den marginale SNP-at-a-time analyse af de 484 ikke-redundante SNPs passerer kvalitetskontrol, S = 77 SNPs passerede den marginale skærm (maksimal marginal BF 1,0). (Resultaterne af screeningen fase af analysen, herunder median ulige ratio (OR), 95% troværdige intervaller (CIS) og MAFs for alle 484 SNP’er er vist i tabel S2). Vi kørte MISA ved hjælp af de 77 SNPs, der passerede skærmen med parametre
a = 1/8
og
S = 77
, hvilket fører til marginale forudgående odds forening i denne delmængde af 1 /AXS = 0,0016. Tabel 1 viser de SNP-specifikke BFS for de 41 SNPs i 25 gener, der havde en MISA BF 1.0. Tabellen rapporterer også den mest sandsynlige genetiske model for hver SNP, den bageste sandsynligheden af denne model og median periferi og 95% CI skøn.
Af disse 41 SNPs, seks SNPs i fire gener (
CHEK2
,
TP53
,
BACH1
LIG4
) har MISA BF 10 som bevis for en sammenhæng mellem disse SNPs og kræft i æggestokkene. Disse er rs5762746 (BF = 28,940) og rs6005835 (BF = 28,028) i
CHEK2
, rs2078486 (BF = 19,604) og rs12951053 (BF = 14,062) i
TP53
, rs411697 (BF = 15,909) i
BACH1
og rs10131 (BF = 10,864) i
LIG4
. Fjorten SNP’er i syv gener, herunder
GADD45B
,
MSH3-
,
MSH6
,
NBS1
,
RAD52
,
TP53
,
og XRCC5
havde BFS spænder fra 3,39 til 9,09, med bageste odds, der er 3,39-9,09 gange større end de tidligere odds. De SNP-specifikke Bayes Faktorer er sammensatte foranstaltninger, gennemsnit statistiske modeller for forening, der omfatter, at SNP mens justering for andre potentielt associeret SNP’er og deres genetiske parameterizations. Derfor har de udtrykkeligt højde for usikkerheden i specifikationen af den statistiske model foreningsfrihed
Figur 1 opsummerer sammenslutninger af de 20 SNPs med MISA BF . 3.2. Dette plot opsummerer de 100 modeller er udvalgt på grundlag af deres bageste model sandsynligheder. Modellerne er bestilt på x-aksen i faldende sandsynlighed og bredden af kolonnen er forbundet med en model er proportional med denne sandsynlighed. SNP’er er repræsenteret på y-aksen. Tilstedeværelse af en SNP i en model er angivet med en farvet blok i skæringspunktet af modellens søjlen, og SNP’er række. Farven på blokken angiver den genetiske parametrering af SNP i den givne model: lilla for log-additiv, blå for recessiv og rød for dominerende. En skakbrætmønster i modsætning til et mønster af stærke lodrette bånd indikerer betydelig model usikkerhed. Otteoghalvfjerds af de 100 modeller afbildet i figur 1, herunder de øverste 48 modeller, omfatter kun en enkelt SNP foruden de design variabler. Kun 22 af de 100 modeller omfattede to SNP’er og ingen af dem omfattede mere end to. Den øverste model indeholder kun log-additive genetiske parametrering af rs6005835 i
CHEK2
med Maximum A Priori (MAP) skøn over OR på 0,70. Den anden rangeret samplet model består af log-additive genetiske parametrering af rs5762746 i
CHEK2
med en MAP OR på 0,73. SNPs rs6005835 og rs5762746 i
CHEK2
har en beskeden LD, målt som r
2 på 0,5.
Individuel SNP’er er på y-aksen er repræsenteret med etiketter giver genet og RS nummer til SNP og bestilles på grundlag af Bayes Factor til fordel for SNP forening, som er angivet på y-aksen på højre side af plottet. Tilstedeværelsen af en SNP i en model er angivet med en farvet blok i skæringspunktet af modellens søjlen, og SNP’er række, mens farven af blokken angiver parametrering af SNP: lilla for log-additiv, blå for recessive og rød for dominerende.
modeller, der inkorporerer flere SNPs repræsenterer 22 af de 100 modeller af nummer, men kun 7,8% af deres samlede bageste masse. Den lave relative vægtning af denne klasse af modeller er stort set et resultat af den stærke MISA mangfoldighed korrektion, der styrer falsk positiv rate i forbindelse med opkald foretaget på baggrund af SNP-specifikke BFS. Den højest rangerende multi-SNP model (rang = 49) omfatter CHEK2 rs5762746 og TP53 rs2078486. Disse varianter er komplementære prædiktorer, hver forklarer så meget variation i case-kontrol-status, når modelleret alene som når modelleret i overværelse af den anden. Dette antyder, at SNPs fra flere gener relateret til DNA-skader reparation giver supplerende oplysninger til karakterisering æggestokkene kræftrisiko.
haplotypeanalyse.
En Haploview [29] analyse af CHEK2, TP53, BACH1 og LIG4 , som indeholder de øverste seks SNPs, viste ingen tegn for multi-SNP (haplotype-baserede) risiko genotyper.
Analyse af manglende data.
af de 60 SNPs med mere end 4 mangler SNP genotyper , kun seks havde BFS 1,0 for betinget afhængighed af case-control status på missingness givet de design variabler. Fire af disse BFS var i intervallet fra 1,01 til 1,49 og er ikke anledning til bekymring. De resterende to, rs11571789 i BRCA2 (BF = 3.80) og rs1805794 i NBS1 (BF = 4,60), var ‘støttende’ foreningsfrihed. Disse kan enten skyldes tilfældighed eller til tilstedeværelsen af en ikke målt confounder og afspejler et mønster af ikke-ignorable missingness. Manglende data imputeringer der ignorerer muligheden for lavfrekvente polymorfier, der interfererer med evnen til at analysere en sonde vil ikke redegøre for LD mellem den sjældne tilhørende variant og SNP med manglende værdier. Den ultimative effekt ved montering foreningen modeller for denne SNP vil være for SNPs tilsyneladende virkning at være forudindtaget. BRCA2 rs11571789 maksimale marginale BF for association med kræft i æggestokkene var 0,26 ( ‘støttende’ af ingen sammenhæng) og blev ikke medtaget i MISA analysen. NBS1 rs1805794 maksimale marginale BF var 1,76, og dens MISA BF var 3,82. Denne beskedne beviser til fordel for foreningen skal fortolkes i lyset af potentialet for denne effekt at have været forvirret.
Diskussion
Resultaterne af denne undersøgelse giver evidens for en sammenhæng mellem flere gener i DNA reparation og respons veje og risiko for invasiv serøs kræft i æggestokkene. Der var stor opbakning til sammenhænge mellem kræft og æggestokkene to SNPs i
CHEK2
, to SNPs i
TP53
,
og
en SNP hver i
BACH1
,
og LIG4
. Vores analyser er også støtter associationer mellem fire SNPs i
NBS1
, tre SNPs i
MSH3-
, tre SNPs i
RAD52
, og én SNP hver i
GADD45B
,
MSH6
,
TP53
,
og XRCC5
invasiv serøs kræft i æggestokkene. Til vores viden, dette er den første undersøgelse tyder sammenhænge mellem kræft og SNPs æggestokkene i
CHEK2
,
BACH1
,
XRCC5
,
NBS1
,
MSH6
,
RAD52
,
og GADD45B
. . Som omtalt nedenfor, er der tegn på, at flere af de mest forbundet SNPs kan have funktionelle betydning
Vi brugte SNPInfo analyse [30] for at afgøre, om nogen af de seks SNPs med MISA BF 10 var i LD med en formodet funktionel variant eller forudsiges at have funktionel signifikans. Vi undersøgte hver HapMap SNP med LD på 0,5 eller højere for at en af de seks øverste SNPs. Tabel S3 angiver, om varianten forudsiges at påvirke en transskriptionsfaktor-bindingssted, et splejsning site, en miRNA-bindingssted eller ændre strukturen af et protein produkt. Desuden angiver, om SNP er en ikke-synonym eller nonsens variant og rapporterer dets regulatoriske potentiale og sekvens bevarelse scores. Baseret på denne analyse, både rs10131 i
LIG4
rs9587535 i ABHD13, en SNP i høj LD med rs10131 (LD = 0822) er forudsagt af MIRANDA [31] for at påvirke en miRNA bindingssted. Derudover rs10131 har en høj forudsagt sekvenskonservering score (for en ikke-kodende variant). To andre
LIG4
LD SNP’er (rs1931336 og rs9587535 med LD 0,59 og 0,82 med rs10131 henholdsvis) har også denne egenskab. Flere varianter i svag LD (0,5 LD 0,7) med
TP53
rs12951053 forventes at påvirke en transskription faktor bindingssted; en af disse (rs17882227) er i perfekt LD med
TP53
rs2078486, en af de mest tilhørende SNPs. Desuden rs2287498 i
WDR79
(i perfekt LD med rs2078486 og LD (R
2 = 0,62) med rs12951053) forventes at påvirke funktion på en splejsning websted og en ikke-synonym variant (rs2287499 ) i
WDR79
i svag LD med de to mest forbundet
TP53
SNPs er forudsagt af PolyPhen [32] at være godartet. Flere af den ikke-kodende
TP53
varianter har høj regulatorisk potentiale og /eller bevarelse sekvens scores; af disse rs17882227 er i højeste LD (1.0) med en top kandidat (rs2078486). SNP rs388707 i LD med
BACH1
rs411697 forudsiges at påvirke splejsning, mens en anden SNP (rs425989) i LD med rs411697 er forudsagt af Miranda til at påvirke en miRNA bindingssted. Desuden tre intron SNPs i LD med vores
BACH1
kandidat har bevarelse sekvens scoringer større end 0,1, hvilket tyder på, at de kan være funktionelt interessant. Flere varianter i og nær
CHEK2
demonstrerer potentiale til at påvirke funktionen.
Leave a Reply
Du skal være logget ind for at skrive en kommentar.