PLoS ONE: europæiske amerikanske Stratificering i kræft i æggestokkene Case Control Data: The Utility of Genome Wide Data til at formode Ancestry

Abstrakt

Vi undersøgte muligheden af ​​flere principal komponenter analyse (PCA) -baserede strategier for afdækning og kontrol til befolkningen lagdeling ved hjælp af data fra et multicenter studie af epitelial æggestokkræft blandt kvinder i europæisk-amerikanske etnicitet. Disse omfatter en korrektion baseret på en herkomst informative markører (AIMS) panel designet til at fange europæisk forfædres variation og rettelser udnytte un-tyndet genom-dækkende SNP data case-kontrol-prøver blev trukket fra fire geografisk adskilte nordamerikanske sites. Målene-only og genom-dækkende første hovedkomponenter (PC1) begge svarede til den tidligere beskrevne nord eller nordvest-sydøstlige akse europæiske variation. Vi fandt, at hele genomet PCA fanget denne primære dimension variation mere præcist og identificeret yderligere akser hele genomet variation af relevans for epitelovariecancer. Foreninger tydelige mellem genom-dækkende pc’er og undersøgelse websted bekræfter nordamerikanske indvandring historie og antyder, at uopdagede dimensioner af variation ligger inden Nordeuropa. Strukturen fanget af genomet hele PCA blev også fundet inden for kontrol individer og afspejlede ikke case-kontrol variation til stede i data. Genomet-dækkende PCA fremhævede tre regioner af lokal LD, svarende til lactase (LCT) genet på kromosom 2, det humane leukocyt antigen-system (HLA) på kromosom 6 og til en fælles inversion polymorfi på kromosom 8. Disse funktioner ikke kompromis effekten af ​​pc’er fra denne analyse for afstamning kontrol. Denne undersøgelse konkluderer, at selv om AIMS paneler er en omkostningseffektiv måde at fange befolkningens struktur, genom-dækkende data bør fortrinsvis anvendes, når de foreligger

Henvisning:. Raska P, Iversen E, Chen A, Chen Z, Fridley BL, Permuth-Wey J, et al. (2012) europæiske amerikanske Stratificering i kræft i æggestokkene Case Control Data: Den Utility af genom-dækkende data for at formode Stamtræ. PLoS ONE 7 (5): e35235. doi: 10,1371 /journal.pone.0035235

Redaktør: Manfred Kayser, Erasmus University Medical Center, Holland

Modtaget: Juni 28, 2011; Accepteret: 13 mar 2012; Udgivet: 9. maj 2012 |

Copyright: © 2012 Raska et al. Dette er en åben adgang artiklen distribueres under betingelserne i Creative Commons Attribution License, som tillader ubegrænset brug, distribution og reproduktion i ethvert medie, forudsat den oprindelige forfatter og kilde krediteres

Finansiering:. Det genotypebestemmelse for fase 1 blev støttet af R01-CA-114.343 og R01-CA114343-S1. Den MAY0 undersøgelse understøttes af R01-CA-122.443 og P50-CA-136.393 og finansiering fra Mayo Foundation. NCO undersøgelse understøttes af R01-CA-76016. Den TBO undersøgelse understøttes af R01-CA-106.414, American Cancer Society (CRTG-00-196-01-CCE), og Advanced Cancer Detection center Grant, Department of Defense (DAMD-17-98-1-8659) . Den TOR Undersøgelsen er støttet af tilskud fra den canadiske Cancer Society og National Institutes of Health (R01-CA-63.682 og R01-CA-63.678). Mayo Clinic Genotypning Shared Resource er støttet af National Cancer Institute (P30-CA-15083). De finansieringskilder havde ingen rolle i studie design, indsamling og analyse af data, beslutning om at offentliggøre, eller forberedelse af manuskriptet

Konkurrerende interesser:.. Forfatterne har erklæret, at der ikke findes konkurrerende interesser

Introduktion

genom-dækkende forening undersøgelser (GWAS) er blevet et vigtigt værktøj for at opdage genetisk disposition for kompleks sygdom [1] – [4]. Gyldigheden af ​​GWAS kan påvirkes af forkert kontrol for arvelig baggrund variation sygdom-associeret genom-dækkende. Populationsstratificering (PS) henviser til genom-dækkende mønstre af bindingsuligevægt (LD), at når associeret med sygdommen, kan tilsløre det signal (til stede eller fraværende) af individuelle SNP’er [5] -. [9]

Selv om confounding effekt af befolkningen lagdeling er blevet anerkendt, er det blevet anset for at være af praktisk bekymring primært i iblandede eller blandede populationer med afstamning fra forskellige kontinenter [10], [11]. På trods af dette, har nogle forfattere vist, at selv inden for relativt mere homogen befolkning i de europæiske amerikanere, kan genom-dækkende struktur stadig være et problem for associationsstudier [12] – [15].

Paneler af SNPs har været designet til specifikt at detektere og kontrol for populationsstratificering i europæiske amerikanere [14] – [17]. Selvom disse undersøgelser har involveret en række datasæt, de har alle beskrevet en fælles storakse variation for europæisk herkomst, der består af en nord eller nordvest – sydøstlige tilbagegang. Men disse undersøgelser er forskellige, i antallet af betydelige dimensioner variation i de udvalgte som herkomst informative markører (mål) SNP’er, og i antallet af mål, som de stammer. Derfor træffes beslutning om den optimale panel for et bestemt sæt af data er ikke ligetil.

Disse europæiske AIM paneler blev designet med det formål at give en omkostningseffektiv måde at kontrollere for lagdeling gennem reduktion af genotypebestemmelse omkostninger i kandidat gen undersøgelser og valideringsundersøgelser [12], [17]. Trods dette kan de også anvendes i genom-dækkende forbindelsesundersøgelser (GWAS). Selv om der kan gennemføres en principal komponent analyse (PCA) på hele GWAS datasættet for at styre for herkomst [18], der begrænser analysen til mål kan give en måde at undgå virkningerne af lokale LD mønstre på PCA resultater og en måde at forhindre at fange og styre væk case-kontrol variation af interesse.

Denne undersøgelse sammenligner effektiviteten af ​​styring for PS gennem PCA ved hjælp af Paschou et al. Sigter panel [17] data (Paschou PCA) og bruge genom-dækkende data (GWAS PCA) på en æggestokkene kræft tilfælde kontrol datasæt af europæiske amerikanere fra fire forskellige nordamerikanske steder. Især vi undersøge virkningerne af opfange case-kontrol variation og regioner med høj lokal LD ​​på GWAS PCA baseret PS tilpasningsstrategi.

Metoder

Nærmere oplysninger om kræft i æggestokkene GWAS offentliggøres [ ,,,0],19]. Kort fortalt den GWAS fase I data, vi udnytter her stammer fra fire case-kontrol studier af epitelial kræft i æggestokkene: Mayo Clinic kræft i æggestokkene Study (Mayo, n = 877) (Rochester, MN), som omfatter beboere i de seks-state omgiver region (MN, IA, WI, IL, ND, SD), Duke University North Carolina kræft i æggestokkene Study (NCO, n = 1147) (Durham, NC), som omfatter beboere i en omgivende 48 amt region, University of Toronto familiær Ovarian Tumor Study (TOR, n = 1275) (Ontario, Canada), og H. Lee Moffitt Cancer center og Research Institute Tampa Bay kræft i æggestokkene Study (TBO, n = 396) (Tampa, FL), som omfatter beboere fra de omkringliggende 2 amt region. Alle deltagere selvrapporterede at være af europæisk ikke-jødisk herkomst. For at øge ætiologiske homogenitet, vi udelukkede tilfælde med ikke-epiteliale eller grænsetilfælde tumorer, kendt

BRCA1

BRCA2

mutationsbærere og kvinder med en forhistorie med æggestokkene, bryst, endometrie, eller tidligt- debut kolorektal cancer. Alle kontroller havde mindst én æggestok intakt på referencedatoen og blev frekvens-matchede til sager om aldersgruppe. Undersøgelsen protokol Den blev godkendt af den institutionelle gennemgang bord på hvert center (af interne metoder på Mayo Clinic, ved Duke University, ved University of Toronto, og på Lee Moffitt Cancer Center), og alle undersøgelsens deltagere forudsat skriftligt informeret samtykke.

Blood tjente som kilde for genomisk DNA. Alle prøver blev genotypebestemmes hjælp af Illumina Infinium 610K Array og Illumina genom Studio ™ software blev anvendt til at udføre automatiserede genotype clustering og kald. Efter kvalitetskontrollen beskrevet i Permuth Wey et al [19], en stikprøve på 3.715 personer (1.815 sager og 1.900 kontroller) med 559,179 markører var til rådighed til analyse.

Principal Component Analyser (PCA)

PCA blev udført på 4 sæt af markører: (1) Paschou europæiske AIMS panel (Paschou PCA), (2) alle tilgængelige GWAS markører fra Illumina 610K vifte genotype i denne undersøgelse (GWAS PCA), (3) alle tilgængelige markører ved hjælp af kontrollerne kun (GWAS kontrol PCA) og (4) alle tilgængelige markører med fjernelse af markører i høj LD regioner (GWAS LD PCA), ved hjælp af snpMatrix pakken i F-software [20].

Givet en datamatrix X med N individer i rækkerne og P SNPs i kolonnerne, vi beregnet egenværdi af N ved N matrix, XX

T. De egenvektorer svarer til pc scores (S), som derefter kan anvendes til beregning af belastning (B) af SNPs for hver pc gennem multiplikation med den diagonale matrix med egenværdier (V):

For GWAS kontrol PCA, kontrollerne kun blev brugt til at opnå B og derefter opnås PC scoringer gennem multiplicere hele datasættet til disse belastninger (X

TB). Kun de første 10 egenværdier bevares hele disse beregninger.

Fjernelse af Outliers

19 kontroller, der var mere end seks standardafvigelser væk fra middelværdien score for pc’en for nogen af ​​de første 10 pc’er blev identificeret som outliers i GWAS kontrol PCA. En yderligere tilfælde individ blev identificeret som en outlier i GWAS PCA. Alle 20 personer blev fjernet fra alle PSA baseret på genom-dækkende data. 1881 kontroller og 1814 sager blev efterladt fra den oprindelige datasæt af 1900 kontroller og 1815 sager, i alt 3695 personer.

Fjernelse af LD Regioner

LD regioner blev defineret ved visuelt at inspicere de belastninger grunde til de enkelte pc’er og identificere to SNPs der parentes toppen i sin helhed. Alle SNPs i denne region blev fjernet med undtagelse en central SNP med en ekstrem belastning, også identificeret gennem plottet. Ud af de 559,179 SNPs rådighed i GWAS data 553.601 blev bevaret for GWAS LD PCA.

Association Tests

De test af sammenslutning af hver enkelt SNP til kræft i æggestokkene blev udført ved hjælp af en generaliseret lineære model, der omfattede pc’er som kovariater med SNP effekten modelleret som et ordenstal (log-additiv) genotypisk effekt. De inflation faktorer blev estimeret ved forholdet mellem den observerede trimmet betyder for dens forventede værdi under chi-squared antagelse. Association test af pc’er til stedet og sygdom blev udført via multipel lineær regression implementeret i R. Hver PC blev regresseret på sygdomsstatus og sted.

MLE og Pris et al. Målsætninger Panel

I additon, var maksimal sandsynlighed estimering bruges til at bestemme estimater for Northwestern europæisk, det sydøstlige Europa og Ashkenazi jødiske herkomst baseret på en igennem en yderligere europæisk AIM panel efter Pris et al [16].

Resultater

Principal Components |

vi sammenlignede GWAS og Paschou pc’er på grundlag af deres korrelationer til hinanden, deres foreninger med sygdom kontrollerende for webstedet og deres indvirkning på inflationen faktor, hvor vi påberåbt deres tilknytning til stedet som proxy for deres relevans for afstamning. Sammenhængen mellem de første pc’er (dvs. PC1) af Paschou PCA og GWAS PCA var 0,79. Denne første pc svarede til Northwest-Southeast akse variation, den Paschou et al panel udelukkende er designet til at fange. En separat analyse ved hjælp Pris m.fl. panel bekræftede dette (se figur 1) [16]. Selv om begge PC1s er knyttet til stedet, GWAS PC1 havde mere signifikante p-værdier (se tabel 1), og korrigeret for inflation faktor bedre end Paschou PC1 (se tabel 2). Ligeledes når webstedet forskelle blev taget i betragtning, kun GWAS PC1 fremlagt dokumentation for en sammenhæng mellem den første akse europæiske amerikanske forfædres variation og kræft i æggestokkene.

Blå, grønne og røde punkter repræsenterer personer med de højeste skøn over nordvestlige, sydøstlige og Ashkenazi jødiske herkomst taget, respektivt, fra MLE analyse med Price et al. Sigter panel. Vejviser

GWAS PCA også fanget yderligere fædrene struktur. GWAS PC2 i figur 1 viser strukturen inden for personer med Northwestern afstamning, der ikke fremgår i Paschou PC2. De screeplots for både PSA (se figur S1) viste, at i modsætning til Paschou PCA hvor kun PC1 klart ligger foran albuen i plottet, et kriterium ofte bruges til at udlede, at variansen forklares ved PC er større end den, der forventes ved en tilfældighed de GWAS pc’er kun begyndte at flade ud på omkring 20

th PC. Denne igennem en yderligere struktur blev bekræftet ved at udforske de første 100 pc’er og deres tilknytning til stedet. Herunder alle parvise websted sammenligninger, blev den største betydning begrænset til de første 20 pc’er (se figur S2). Indsnævring analysen til de første 10 pc’er, kun pc’er 1,3 og 4 var signifikant associeret til både hjemmeside og ovariecancer (se figur 2), mens PC2 ikke var forbundet med stedet eller kræft i æggestokkene. Dette antyder, at pc’er 1, 3 og 4 kan alle konto for dimensioner af fædrene variation, der har potentiale for confounding ovariecancer tilfælde kontrol association test. Effekten af ​​at fastholde de første 4 pc’er på inflation faktor understøtter også dette fund, da inflationen faktor var betydeligt lavere end ved brug af kun GWAS PC1 eller endda de første 10 pc’er (se figur 3).

P-værdier for alle parvise sammenligninger mellem fire steder er givet.

De første 10 pc’er opnået gennem Paschou PCA, GWAS kontrol PCA, GWAS PCA og GWAS LD PCA anvendes som kovariater i test genom-dækkende forening til ovariecancer. Bemærk at Paschou panelet er designet til at fange kun én væsentlig pc.

GWAS Kontrol

Det faktum, at GWAS PC1 er mere stærkt forbundet til kræft i æggestokkene end Paschou PC1, og at den producerer en mere effektiv reduktion i inflationen faktor kan føre en til at tro, at GWAS PC1 kan opfange tilfælde kontrol variation og reducere magt GWAS. Det samme kan hævdes for de yderligere pc’er forbundet til kræft i æggestokkene. For at teste dette, gennemførte vi en PCA hjælp af kun de kontrolpersoner (GWAS kontrol PCA), hvor værdier af case pc’er blev opnået som beskrevet i Metoder.

Selvom pc’er 1 og 2 i GWAS kontrol PCA var meget højt korreleret til deres kolleger i GWAS PCA (ρ 0,9), blev pC’er 3 og 4 også korreleret, om end i mindre grad (ρ 0,6, se tabel 3). En lineær kombination af GWAS kontrol pc’er 3 og 4 forklarede 68,9% af variationen i GWAS PC 3 og 68,7% af variationen i GWAS PC 4, derfor var der en omfordeling af variansen af ​​GWAS pc’er 3 og 4 på tværs af flere af GWAS kontrol s pC’er.

Figur 3 viser, at inflationen faktorer opnået, når der justeres for GWAS kontrol pc’er viser samme mønster som dem, der opnås, når der korrigeres for GWAS pc’er, men er systematisk lavere, hvilket indikerer, at den tidligere give en mindre effektiv korrektion for PS. I begge tilfælde inflation faktor var betydeligt reduceret med pc’er 1, 3 og 4. Hvis sidstnævnte opnået dette ved at erobre tilfælde kontrol variation, disse akser variation ville ikke er blevet identificeret i PCA kun bruger kontrollerne. De mindre reduktioner til inflation faktor observeret for GWAS kontrol justeringer skyldes sandsynligvis GWAS kontrol PCA er den mindre stikprøvestørrelse (n = 1814 vs. n = 3695). Reduktionen af ​​inflationen faktor opnås ved at tilsætte GWAS kontrol PC5 kan forklares ved dets korrelation (ρ = 0,3) til GWAS PCA PC3.

Dernæst vi sammenlignede virkningen af ​​tilpasningen til de første 4 pc’er i de to genom-dækkende PSA på p-værdier for SNP associationer til kræft i æggestokkene. Hvis GWAS PCA var opfange case-kontrol variation, styrken af ​​sammenslutningen af ​​de højest rangerede SNPs fra GWAS kontrol justeret analyse ville blive reduceret eller kontrolleres væk af GWAS PCA justeret analyse. I stedet har vi observeret, at de væsentligste SNPs i GWAS kontrol PC justeret analyse forblev de væsentligste SNPs i GWAS PC justeret analyse (se højre panel i figur 4).

Negativ log p-værdier af top hits for æggestokkene forening kræft efter kontrol for herkomst hjælp første 4 pc’er af GWAS kontrol PCA i forhold til ikke bestemmende for herkomst (venstre panel) og styring til herkomst hjælp første 4 pc’er af GWAS PCA (højre panel).

Figur 4 viser også, at GWAS korrigeret for de øverste hits i

samme måde

som GWAS kontrol. SNP’eme hvis p-værdien ændres mest, når sammenlignet med en ukorrigeret association test er fremhævet med rødt. De SNPs, der krydser identitet linje fra venstre panel til højre panel er dem, hvis styrke foreningen er rettet i den samme retning, som de to sæt af pc’er og hvis korrektion er stærkere ved hjælp af GWAS pc’er. SNPs, der er længere væk fra identiteten linje i højre panel end den venstre, der ikke krydser det er dem, hvis styrke foreningen skifter i et forskellige retninger, når adusting for et sæt af pc’er versus den anden. Tre ud af de seks SNPs, der ændrede den mest, når der korrigeres for GWAS kontrol pc’er blev mere effektivt korrigeret af GWAS pc’er. En SNP modtaget omtrent det samme niveau af korrektion og to blev rettet i den samme retning, men ikke med så meget i GWAS justeret analyse som i GWAS kontrol justeret analyse. Ingen af ​​SNP’er blev korrigeret i forskellige retninger mellem de to sæt analyser.

Foruden virkningen på p-værdier for den øverste ramte SNP’er, en sammenligning af hele genomet korrektion for de to PSA kan også foretages. Sammenhængen mellem de p-værdier for alle de SNPs mellem de ukorrigerede foreningens tests og dem korrigeret gennem GWAS PCA var 0,922, mellem ukorrigerede og GWAS kontrol var 0,958 og mellem GWAS og GWAS kontrollere PSA var 0,983. Hvis GWAS PCA optagning på genom-dækkende tilfælde kontrol variation, og dermed korrigere i en kvalitativt anderledes måde at GWAS kontrol, dens resulterende p-værdier ville have været mere tæt korreleret til den ukorrigerede analyse snarere end til de af GWAS kontrol.

Linkage Desequilibrium

Plots af de enkelte SNP belastninger for GWAS pc’er 1 til 4 highlight tre regioner med høj lokal LD. Disse vises som toppe på kromosomerne 2, 6 og 8 (se figur 5). Disse samme regioner var tilsyneladende for GWAS kontrol pc’er. Disse plots viser, at akserne for variation er defineret af pc’er 3 og 4 i GWAS og GWAS kontrol PSA byttes, med GWAS kontrol PC3 viser den markante højdepunkt på kromosom 8, som er tydeligt i plot af GWAS PC4.

GWAS PCA (venstre panel) og GWAS kontrol PCA (højre panel) loadings er plottet viser toppe på kromosom 2, 6 og 8.

GWAS PC1 belastninger peak på begge kromosomer 2 og 6. peak på kromosom 2 svarer til en region, der indeholder SNP rs4988235. Denne SNP er en kendt polymorfi i genet LCT, der er forbundet med laktase persistens. Denne SNP T-allelen er forbundet med nord-syd Cline i Europa med en frekvens på 5-10% i det sydlige Europa og 70-80% i det nordlige Europa [21]. Toppen på kromosom 6 svarer til den dominerende histokompatibilitetskompleks region (HLA), en velkendt region med høj LD [22]. GWAS PC2 loadings har også en udtalt top i HLA-regionen. PC3 og pC4 belastninger har toppe på kromosom 8 i en region med en polymorf inversion tidligere dokumenteret i de europæiske amerikanere ,, [23-25]. Selv HLA og inversion regioner synes at være tættere samplet i Illumina hele genomet SNP panel end andre regioner i disse kromosomer, betyder dette alene ikke højde for størrelsen af ​​toppene (se tabel 4). Især kromosom 8 indeholder 7 andre regioner af samme størrelse eller mindre end inversion region, der er tilsvarende eller mere tæt samplet af SNP’er i panelet, mens de første 1 k SNPs der udgør top i HLA-regionen har samme gennemsnitlige tæthed som resten af ​​kromosom 6.

Mens der var tegn på kræft i æggestokkene relevant struktur i data i GWAS pc’er 1 til 4, viste deres loadings plots, at lokal LD ​​kan ligge til grund denne struktur. Vi har udført et yderligere PCA (GWAS LD PCA), hvor kun SNP med den højeste belastning blev tilbageholdt for at repræsentere hver af LD område (se tabel 4) for at bestemme, om disse regioner påvirker evnen af ​​disse pc’er at korrigere for sygdom relevante PS .

GWAS PC1, PC3 og en brøkdel af GWAS PC4 akser variation blev stort set tilbageholdes af GWAS LD PCA, mens PC2 akse variation tabt (se tabel 3). GWAS LD PC2 indfanger variation beskrevet af begge GWAS pc’er 3 og 4. Derfor kromosom 2 LCT gen og kromosom 8 inversion regioner synes at være korreleret til forfædres dele af den europæiske amerikanske befolkning repræsenteret ved GWAS pc’er 1, 3 og 4. I modsætning den GWAS LD PCA bevis for, at HLA-regionen ikke er signifikant associeret med genom-dækkende europæisk afstamning PS. En stor del af variationen beskrevet af GWAS PC2 kan derfor være lokal snarere end hele genomet, nedarvet variation. Dette kan forklare dens manglende association til stedet.

Udtynding GWAS PCA LD regioner resulterede i mindre effektiv kontrol med inflation faktor (se figur 3). Kun de første 2 pc’er i GWAS LD, hvilket nogenlunde svarer til GWAS pc’er 1, 3 og 4, sænkede inflation faktor. PC1 reducerede inflation faktor i samme omfang med og uden udtynding af SNPs i LCT LD-regionen, mens du justerer til pc’er 3 og 4 reducerede inflation faktor mere, når kromosomet 8 LD region ikke blev fortyndet.

Ancestral GWAS pc’er og Foreningen til Uddannelse site

GWAS pc’er 1, 3 og 4 hver yderst signifikant associeret med undersøgelsen stedet efter justering for case-kontrol status (se tabel 5). Hver PC identificerer en tydelig kontrast mellem stederne. Mayo websted (MAYO) har de laveste PC1 værdier og Tampa (TBO) den højeste i gennemsnit; Toronto (TOR) og North Carolina (NCO) er mellemliggende og ikke discernably anderledes. De steder har forskellige middelværdier for PC3 efter justering for case-kontrol status, og er bestilt (fra mindste til største værdi) NCO, TOR, TBO derefter MAJ. PC4 kontraster MAJ og de resterende arealer, som ikke er discernably forskellige fra hinanden.

Et plot af PC1 mod PC3 viser, at variation repræsenteret ved PC 3 var inden individer af Northwestern europæisk herkomst (se figur S3) . Det viser også, at PC 3 klart varierer på tværs af websteder. Ikke alene har MAYO viser en tendens til mere positive PC 3 værdier i forhold til de andre steder, men NCO viste en snævrere område variation for denne pc i forhold til de andre sites. PC 1 viste TBO at være stedet med mere af en repræsentation af Southeastern europæere mens MAYO havde mindst.

Diskussion

Selvom de oplysninger, som alle de SNPs genotypebestemmes på en genom-dækkende panelet kan bruges til at styre til befolkningen struktur via PCA, med en mindre foruddefineret panel mål kan tænkes at give visse fordele. Første, styring til stratificering hjælp af GWAS data kan uønsket reducere case-control variation at undersøgelsen søger at identificere, medens chancen for, at en AIMS panel vil omfatte sygdom forbundet SNP’er er fjern. For det andet kan korrektioner baseret på un-tyndet GWAS data fremhæve lokal struktur i stedet for genom-dækkende, fædrene variation og dermed skade effektiviteten af ​​kontrol for PS. Sigter paneler bevidst udelukke afskedigelser mellem SNP’er og dermed undgå dette problem. Disse potentielle ulemper ved GWAS-baserede korrektioner kan sammensættes i populationer med mere subtile genom-dækkende struktur og stærkere mønstre af lokale LD såsom den europæiske amerikanske befolkning.

Vi fandt, at disse ulemper ikke er realiseret i vores analyse de ovariecancer GWAS data. I særdeleshed fandt vi, at en fuld GWAS PCA gengivet struktur til stede inden for de kontrolpersoner og blev derfor ikke opfange en betydelig mængde af case-kontrol variation. Dette er ikke overraskende, da case-kontrol variation, både genom-dækkende og lokalt, vil sjældent være store nok til at overhale genom-dækkende kilder til variation befolkningen i en PCA. Dette og de væsentligt reducerede inflation faktorer sammenlignet med dem, der opnås ved hjælp af Paschou panelet tyder på, at foreningen til kræft i æggestokkene fundet for GWAS pc’er 1, 3 og 4 repræsenterer en reel korrektion for PS, selv efter der tegner sig for stedet, en, der er sandsynligvis på grund af den større præcision gives ved at bruge hele GWAS datasæt. Bemærk, at kun 460 af Paschou panelets 500 markører var til rådighed for os i kræft i æggestokkene GWAS datasæt, og dermed reducere sin magt noget. Dette vil dog ofte være tilfældet, når der anvendes et panel pre-designede mål for befolkningens struktur kontrol i et GWAS analyse.

Potentielle faldgruber ikke at tage hensyn til virkningen af ​​regioner med høj lokal LD ​​om at kontrollere for PS hjælp PCA kan inddeles i to case scenarier: (1) den funktionelle variant ligger uden for disse regioner; i dette tilfælde pc’er, der kun repræsenterer variationen i disse regioner vil ikke effektivt at kontrollere for PS, dvs. inflation faktor ikke er tilstrækkeligt sænket, og (2) den funktionelle variant ligger inden for en sådan region; i dette tilfælde pc’er, der strengt repræsenterer den lokale struktur af denne region kan styre væk foreningen, er dvs. inflation faktor sænket for meget. Selv i denne undersøgelse regionerne høj lokal LD ​​ændret resultatet af GWAS PCA, de praktiske konsekvenser af denne på test SNP association til kræft i æggestokkene var tvivlsom.

Kun GWAS PC2 kvalificeret som et eksempel på denne første fænomen . Dens forsvinden i GWAS LD PCA og dens mangel på indflydelse på inflationen faktor og forening for sygdomme viser, at det først og fremmest repræsenterer den lokale struktur i HLA-regionen og foreslår, at funktionelle varianter er usandsynligt at ligge inden for denne region. Selvom HLA LD regionen indeholdt nok variation til fuldt ud at tage højde for en høj placering pc, effekten af ​​at inkludere denne pc, når de kontrollerer for lagdeling er ikke meget forskellig fra herunder antal ikke-informative pc’er når rutinemæssigt tage de første 10 pc’er som kovariater (se figur 3). Hvilke af de højtstående pc’er at inkludere som kovariater i foreningen analyse, og hvor mange af dem til at omfatte, kan have større indflydelse på inflationen faktor kontrol end at fjerne virkningerne af LD regioner på PCA.

Vi gjorde ikke observere et eksempel på den anden fænomen bemærket i dette datasæt. I stedet for at akserne for variation beskrevet af pc’er, der blev fundet at være forbundet med sygdom (GWAS pc’er 1, 3 og 4) blev tilbageholdt i betydeligt omfang, når de regioner med høj lokal LD ​​blev fortyndet. Dette antyder, at selv om disse pc’er viser høj korrelation til lokale LD regioner, og disse regioner kan potentielt havnen funktionelle varianter, pc’erne repræsenterer reelle, fædrene, genom-dækkende struktur og ikke bare variation i LD-regionen.

Brug skizofreni GWAS data om europæiske amerikanere, Zou et al. fundet de samme LD regioner som den aktuelle undersøgelse, og en ekstra top på kromosom 17. Ved hjælp af en krympning metode til kontrol af LD effekter i PCA, fandt de, at alle toppe forsvinder med undtagelse af top LCT region. De konkluderer, at det er vigtigt at tage højde for LD, når du bruger PCA at kontrollere for PS [25]. De indeholdt ikke de sammenhænge mellem pc’er med og uden deres svind metode. Det er sandsynligt, at som i den aktuelle undersøgelse, er de to sæt pc’er 3 og 4 højt korreleret, og at den polymorfe inversion region ikke har en praktisk virkning på afstamning kontrol.

populationsstratificering vil variere fra undersøgelse at studere afhængigt af de egenskaber af den undersøgte population og sygdommen, og den kan derfor argumenteres, at resultaterne præsenteret her, er specifikke for denne undersøgelse. Men bestande af europæisk herkomst som den studerede her er særligt homogene og case-kontrol eller lokal LD ​​variation vil være

mindre

tilbøjelige til at overskygge forfædres befolkning variation ved brug af un-tyndet GWAS data for PCA, i undersøgelser af mindre homogene befolkninger, som dem, der samler emner fra forskellige kontinentale ophav og /eller at fokusere på iblandede befolkninger. Afslutningsvis anbefaler vi, at der gennemføres en grundig analyse ved hjælp PCA af det fulde datasæt forud for beslutningen, hvordan man styrer for PS. Anvendelse af pc’er fra en fuld GWAS PCA kan give bedre kontrol for PS og resultere i en lavere inflation faktor. En yderligere fordel er, at en sådan analyse kan støtte opdagelse og fjernelse af outliers og eller beslægtede individer, der kan blive savnet gennem andre vurderingsprocedurer /kvalitet kvalitetskontrol. I denne undersøgelse, at outliers vi fjernede væsentligt påvirket pc’erne fra den originale GWAS kontrol analyse og viste sig at indeholde relaterede personer savnet af tidligere QC filtre.

Det skal understreges, at Paschou panelet gjorde bemærkelsesværdigt godt at fange en stor del af PS for sådan et lille antal SNPs. Faktisk i en nyere papir undersøgerne bag Paschou panel viser, at det er muligt at forudsige individuel afstamning i Europa ned til nogle få hundrede kilometer fra oprindelse, ved anvendelse af paneler af 500 eller 1000 SNP’er [26]. Disse paneler er et fantastisk værktøj for omkostningseffektivt genotypebestemmelse personer med henblik på PS kontrol. Hvad denne undersøgelse ønsker at understrege, er, at på trods af denne effektivitet, i overværelse af fuld GWAS data, vi skal ikke blive fristet til udelukkende at stole på sådan et reduceret antal SNPs, når der udføres PCA.

Det er interessant at bemærke at sammenhængen mellem GWAS pc’er 1,3 og 4 og sygdom fortsætter selv når der tages højde websted forskelle (se tabel 5). Under hensyntagen til disse websted forskelle fjerner den del af falske association mellem sygdom og herkomst, der skyldes forskelle i de relative antal sager og kontroller, der blev rekrutteret på tværs af websteder kombineret med selv små forskelle i afstamning på tværs sites. Hvilke rester skal derefter være forårsaget af inden stedet forskelle i forfædres make-up mellem cases og kontroller på grund af variation sampling. Hvad er bemærkelsesværdigt her er, at dette inden websted forskel i herkomst mellem tilfælde og kontrol resulterer i en vedvarende betydelig signal, når alle de steder samles sammen. Det betyder, at enten forskellen i herkomst mellem tilfælde og kontroller fandt sted i samme retning tilfældigt på hvert websted, eller at denne forskel i afstamning blev så udtalt i et af de steder, at det druknede hvad der skete i de resterende arealer. En anden mulighed er, at sammenhængen mellem sygdom og herkomst er ikke falsk, men reel, og dermed forklarer sin konsekvente retning i alle steder.

Be the first to comment

Leave a Reply