PLoS ONE: Effekter af Miljø, Genetik og dataanalyse Faldgruber i en Esophageal Cancer Genome Wide Association Study

Abstrakt

Baggrund

Udvikling af nye high-throughput genotype teknologier har tilladt hurtig evaluering af enkelte nukleotid polymorfier (SNP) på en genom-plan. Adskillige seneste genom-dækkende forening undersøgelser under anvendelse af disse teknologier tyder på, at paneler af SNP’er kan være et nyttigt redskab til at forudsige kræft modtagelighed og opdagelsen af ​​potentielt vigtig ny sygdom loci.

Metodologi /vigtigste resultater

I nærværende dokument vi foretage en omhyggelig undersøgelse af den relative betydning af genetik, miljømæssige faktorer og fordomme af dataanalyse protokol, der blev brugt i en tidligere publiceret genom-dækkende forening undersøgelse. Det forudgående undersøgelse rapporteret en næsten perfekt diskrimination af esophageal kræftpatienter og raske kontrolpersoner på grundlag af kun genetisk information. På den anden side, vores resultater tyder på, at SNP’er i dette datasæt ikke er statistisk knyttet til fænotype, mens flere miljøfaktorer og især familie historie af kræft i spiserøret (fuldmagt til både miljømæssige og genetiske faktorer) har kun en beskeden sammenhæng med sygdom.

konklusioner /betydning

den vigtigste komponent i den tidligere hævdede stærkt diskriminerende signal skyldes flere dataanalyse faldgruber, som i kombination førte til stærkt optimistiske resultater. Sådanne faldgruber kan forebygges og bør undgås i fremtidige undersøgelser, da de skaber vildledende konklusioner og generere mange falske kundeemner til efterfølgende forskning

Citation:. Statnikov A, Li C, Aliferis CF (2007) Virkninger af miljø, Genetik og Dataanalyse Faldgruber i en Esophageal Cancer Genome Wide Association Study. PLoS ONE 2 (9): E958. doi: 10,1371 /journal.pone.0000958

Academic Redaktør: Enrico Scalas, University of East Piemonte, Italien

Modtaget: 30 juli, 2007; Accepteret: August 30, 2007; Udgivet: 26 September, 2007

Copyright: © 2007 Statnikov et al. Dette er en åben adgang artiklen distribueres under betingelserne i Creative Commons Attribution License, som tillader ubegrænset brug, distribution og reproduktion i ethvert medie, forudsat den oprindelige forfatter og kilde krediteres

Finansiering:. Arbejdet blev delvist støttet af tilskud R01 LM007948-01. De finansieringsorganer havde ingen rolle i studie design, indsamling og analyse af data, beslutning om at offentliggøre, eller forberedelse af manuskriptet

Konkurrerende interesser:.. Forfatterne har erklæret, at der ikke findes konkurrerende interesser

Indledning

En af de lovende fremgangsmåder til analyse af det humane genom og identifikation af gener og genomiske regioner bidrager til fænotyper er anvendelsen af ​​enkelt nukleotid-polymorfier (SNP). SNPs udgør mere end 90% af al menneskelig genetisk variation og er blevet grundigt undersøgt for funktionelle relationer mellem genotype og fænotype. Fremkomsten af ​​high-throughput genotypebestemmelse teknologier har gjort det muligt hurtigt evaluering af SNP’er på en genom-plan ved en relativt lav omkostning [1] – [3]

I de sidste to år flere grupper rapporteret succes med at bruge. SNP genotypebestemmelse assays i forbindelsesundersøgelser for kræft [1], [4] – [8]. Især undersøgelsen af ​​Hu et al. rapporterede en næsten perfekt klassificering af esophageal kræfttilfælde og kontrol på grundlag af kun SNP data fra en case-kontrol genom-dækkende forening undersøgelse [8]. Taget for pålydende, dette resultat antyder, at kræft i spiserøret er en udelukkende genetisk sygdom. Dette er i modstrid med anden litteratur på området, der lægger vægt betydning miljø for kræft modtagelighed [9], [10]. For at belyse dette emne, vi re-analyseret data fra [8]

Vi identificerede to dataanalyse faldgruber i [8], der forårsagede over-optimistiske konklusioner i den oprindelige papir:. Først SNP udvælgelsesmetode blev alvorligt forspændt mod hævder betydning for SNP’er, der ikke rigtig forbundet med sygdommen. For det andet, var begge SNP udvælgelse og opbygning af klassificeringen model udført på de samme emner, som anvendes til beregning af nøjagtighed klassificering. Da hverken krydsvalidering eller uafhængig prøve validering blev udført, den resulterende klassifikation ydeevne estimat var optimistiske.

Vi har udført en re-analyse af SNP og miljødata, som korrigerer de ovennævnte problemer og fandt, at SNPs i dette datasæt er ikke statistisk knyttet til kræft i spiserøret, mens flere miljømæssige faktorer, især familie historie af kræft i spiserøret (der potentielt udgør mange miljømæssige og genetiske faktorer), har en beskeden tilknytning til sygdommen. Vi kvantificeret bidraget fra hver af de faktorer, klassificering kræft og forudsat uvildige skøn klassificering ydeevne ved hjælp etablerede upartiske data analyse protokoller. I betragtning af den ubetydelige bidrag SNPs til klassificering af kræft, vores resultater tyder på, at SNPs identificeret i [8] mangler statistiske beviser for at blive involveret i kræft i spiserøret.

Materialer og metoder

I alle data analyser ud over at replikere metoder til [8], vi brugte upartiske alternativer, så virkningerne af fordomme (om nogen) i analysen af ​​[8] kunne kvantificeres. Berettigelsen af ​​unbiasedness af alternative metoder er fastsat i de relevante underafsnit nedenfor.

Study Datasæt

De data, der anvendes i den foreliggende undersøgelse er den samme som i den oprindelige papir [8]. Dataene bestod af 50 esophageal pladecellecarcinom patienter og 50 kontroller. Patienterne blev diagnosticeret med kræft i spiserøret mellem 1998 og 2000 i Shanxi Cancer Hospital i Taiyuan, Folkerepublikken Kina. Femogtyve patienter og ni kontroller haft en positiv familie historie af sygdommen. Kontrollerne blev modsvaret af alder, køn og bopæl

genotypebestemmelse af venøse prøver for alle fag i undersøgelsen blev udført på National Cancer Institute (Bethesda, Maryland) blod som opsummeret nedenfor:. Kimen line DNA blev ekstraheret og oprenset. DNA-prøver blev derefter fremstillet og undersøgt ifølge Affymetrix GeneChip Mapping Assay protokol. De 10K SNP arrays med 11,555 SNPs fordelt i hele humane genom blev scannet og genotype opkald blev tildelt automatisk af Affymetrix GeneChip DNA Analysis software. Fire genotype opkald blev defineret i data: AA, AB, BB, eller “ingen opkald”. Flere detaljer om biologisk prøvetagning og behandling, target forberedelse, scanning og genotype generation findes i [8]

For hvert emne, blev følgende fem variabler også indspillet:. Alder ved interview (år), tobak bruge (ja /nej), alkoholforbrug (ja /nej), familie historie af kræft i spiserøret (ja /nej), og forbruget af syltede grøntsager (ja /nej).

SNP Array data Forberedelse

Før dataanalyser, vi præprocesseret SNP array-data ifølge fremgangsmåden i den oprindelige papir [8]. Først ud af 11.542 SNPs i den oprindelige datasæt, blev 105 SNP’er fjernet, fordi de ikke kunne knyttes til menneskelige genom med NCBI bygge 36. For det andet, at minimere mulige genotype fejl, blev 946 SNP’er fjernet, fordi de var homozygot i enten tilfælde eller kontroller . Tredje, af samme grund, 482 SNP’er blev fjernet, fordi de ikke opfyldte Hardy-Weinberg ligevægt i kontrolgruppen ved α = 0.01 plan [11]. For det fjerde var “recessive A” kodning af SNP’er (AA = 1, AB = 0, BB = 0) gennemføres. Efter disse trin, datasættet bestod af 10,009 SNPs.

Da nogle af de data, analysemetoder (f.eks Principal Component Analysis eller support vektormaskine beskrevet nedenfor) kræver ingen manglende data, vi tilregnes mangler genotyper i SNP datasæt og brugte det, når disse metoder blev anvendt. Konkret brugte vi den multivariate parametrisk nærmeste nabo imputering teknik [12], [13]

SNP Selection

Først, vi beskæftigede SNP udvælgelsesmetode er beskrevet i [8]:. For hver SNP, en generaliseret lineær model (GLM) af sandsynligheden for kræft var egnet bruge som prediktorvariabler SNP og to andre variabler: familie historie af kræft i spiserøret og alkoholforbrug. Den GLM var egnet til alle 100 emner uden at forlade en uafhængig test prøve. Derefter en p-værdi blev opnået på grundlag af forskellen mellem den afvigelse

D

0

af null model uden forudsigelsesvariable og afvigelse

D

1

af udstyret model. Forskellen

D

0-D

1

følger en chi-squared fordeling med 3 frihedsgrader. Da den ovennævnte procedure gælder for hver SNP i datasættet, er det nødvendigt at korrigere for multiple sammenligninger for at sikre, at den ønskede andel af falsk positive (0,05) bevares. Til dette formål blev Bonferroni justering udført for at signifikansniveauet 0,05 af testen (dvs. stedet for at bruge signifikansniveauet 0,05, niveauet 0,05 /antal SNP’er blev anvendt i stedet). Vi henviser til ovenstående metode som “GLM1”. Endelig bemærker vi, at Bonferroni justering ofte giver en konservativ vurdering af den statistiske signifikans, og antager, at alle SNPs er uafhængige, mens der findes metoder, der er mindre konservativ og kan være gældende, da SNPs er afhængige, f.eks [14] – [16]

Da p-værdi på GLM1 afspejler den kombinerede virkning af de tre prediktorvariabler, det har en tendens til at være lille, selv om SNP ikke har nogen virkning på kræft i spiserøret overhovedet. . For at løse dette problem med den oprindelige analyse, vi anvendte også følgende saglig SNP udvælgelsesmetode: vi går på samme måde som i GLM1 bortset fra at p-værdien er baseret på forskellen mellem den afvigelse

D

0

af modellen, herunder arvelig kræft i spiserøret og alkoholforbrug og afvigelse

D

1

. Den resulterende statistik

D

0-D

1

følger en chi-squared fordeling med en grad af frihed, og det afspejler effekten af ​​SNP, der er ved at blive analyseret. Vi henviser til denne metode som “GLM2”, og viser, at det faktisk er upartisk i Resultater og Diskussion sektion og i Støtte Information File S1.

Endelig, når montering support vektormaskine (se næste afsnit) til data, vi anvendte også den rekursive Feature Elimination (RFE) teknik, der er blandt de bedst præsterende variable metoder til microarray genekspression data og andre molekylære datasæt high-throughput [17] valg. Kort fortalt involverer denne metode iterativt montering support vektormaskine cancer klassifikationsmodeller ved at kassere den SNP’er med den mindste indvirkning på klassificering og udvælgelse af de SNPs, der deltager i den bedste model udfører klassifikation. I modsætning til de ovennævnte GLM-baserede metoder, vi anvendte RFE kun træningssættet af patienter og kontroller i løbet af cross-validering.

Cancer klassifikation Modeller

Først, vi brugte klassifikationen beskrevet i [ ,,,0],8]. Det vil sige, principal komponent analyse (PCA) blev udført på de udvalgte SNP’er, og derefter den første hovedkomponent blev ekstraheret og anvendt til at forudsige kræft status.

Som en state-of-the-art alternativ til PCA -baseret klassificering procedure, vi anvendte support vektormaskine (SVM) klassificører [18]. Den underliggende idé om SVM klassificører er at beregne en maksimal margen hyperplan adskiller de tilfælde og kontroller. At opnå ikke-lineære separation, er dataene implicit kortlagt til et højere dimensionelle rum ved hjælp af en kerne funktion, hvor en adskillelse hyperplan er fundet. Emner er klassificeret efter den side af hyperplan de tilhører. Disse klassifikation metoder er almindeligt anvendt til analyse af molekylære data high-throughput [4], [19] – [21] og har mange attraktive teoretiske og empiriske egenskaber. For eksempel, de ofte udkonkurrerer andre klassifikationssystemer metoder til en bemærkelsesværdig grad; de er også forholdsvis ufølsomme over for den store variable-til-prøve-forhold; og de kan lære meget komplekse klassificering funktioner [18], [22]. Vi brugte libSVM gennemførelse af de lineære SVM klassificører (www.csie.ntu.edu.tw/~cjlin/libsvm/). Vi har også eksperimenteret med de ikke-lineære SVM klassificører men de resulterede i mere komplekse modeller med lignende ydeevne klassificering.

For at vurdere den samlede præstation i SNP’er og miljømæssige faktorer (og /eller familie historie), vi brugte ensemble klassificering metoder baseret på SVM klassifikatorer. Vi præsenterer i dette papir kun resulterer for det bedste ensembling teknik, som gennemsnit forudsigelser af de to SVM klassificører for hvert fag: en baseret på SNP data og en anden baseret på miljømæssige faktorer (og /eller familie historie). Beskrivelsen og resultater for de andre ensembling teknikker findes i Støtte Information File S2.

Evaluering af Classification Resultat

I modsætning til den oprindelige undersøgelse [8], der brugte andel af korrekte klassifikationer som forestillingen metrisk anvendte vi arealet under ROC-kurven (AUC), der har mere magt at detektere forudsigelsessignal af SNP’er [23] – [25]. ROC-kurven er afbildningen af ​​følsomhed versus 1-specificitet for en række klassifikation tærskelværdier. AUC-værdier fra 0 til 1, med en AUC lig med 0 angiver den værste mulige klassificeringen, 0,5 repræsenterer en tilfældig (dvs. uninformative) klassificeringen, og 1 repræsenterer perfekt klassificering. En fremragende introduktion til ROC-analyse for klassificering er fastsat i [25].

For at opnå upartiske AUC estimater blev kræft klassifikationsmodeller bygget og evalueret ved gentagne tværs valideringsprocedure 10 gange [26]. Den gentagne 10-fold krydsvalidering estimatoren for ydeevne klassifikation kan opnås ved at køre regelmæssig 10-fold cross-valideringsprocedure 100 gange med forskellige opdelinger af data i træning og test sæt og rapportering den gennemsnitlige estimat løbet alle 100 kørsler. Denne estimator er asymptotisk saglig, fordi test prøver aldrig bruges til at træne klassificeringen. Desuden gentages 10 gange krydsvalidering har meget mindre varians end almindelige krydsvalidering der kan blive påvirket af en ikke-repræsentativ opdeling af data [26].

Resultater og Diskussion

Mens tidligere arbejde rapporteret 37 betydelige SNPs under anvendelse af metode GLM1 til kræft i spiserøret SNP-array datasæt [8], vores udførelse af den offentliggjorte protokol i [8] fører til 226 betydelige SNPs. Forskellen fra det rapporterede antal 37 SNPs skyldes yderligere filtrering skridt, blev udført for at det sæt af SNPs signifikante ved Bonferroni justeres 0,05 α-niveau, der ikke blev rapporteret i den oprindelige offentliggørelse (Dr. Maxwell Lee, personlig kommunikation). Da, som vi viser nedenfor, en uvildig metode til SNP effekt vurdering (f.eks GLM2) giver nul betydelige SNPs, yderligere filtrering skridt er overflødig, derfor mener vi ikke, sådan filtrering i det foreliggende arbejde.

Ikke desto mindre anvendelsen af ​​PSA-baserede klassifikator til dataene af 226 signifikant SNP’er gengiver klassificering ydeevne af den oprindelige undersøgelse [8]. Nemlig, den første principale komponent giver en næsten perfekt klassificering af patienter og kontroller med 0,98 AUC og 0,93 andel af korrekte klassifikationer (figur 1). Men dette resultat er over-optimistisk primært på grund af følgende årsager.

Den første principale komponent giver en næsten perfekt adskillelse af sager fra kontroller.

Først beregningen af ​​p -værdi i SNP udvælgelsesmetode GLM1 afspejler ikke betydningen af ​​SNP under overvejelse, men betydningen af ​​tre variabler tilsammen (SNP, slægtshistoriske for kræft i spiserøret, og alkoholforbrug). Fordi familiens historie og alkoholforbrug er stærke risikofaktorer for kræft i spiserøret, vil denne p-værdi være forudindtaget mod nul, selv når SNP har intet at gøre med kræft i spiserøret. Denne skævhed kan påvises som følger: Det er rimeligt at antage, at størstedelen af ​​SNPs ikke har nogen virkning på esophageal kræftrisiko. For disse SNP’er, bør p-værdierne følge en ensartet fordeling mellem 0 og 1. Men en langt størstedelen af ​​deres p-værdier var 10

-3 (figur 2), hvilket stemmer overens med det faktum, at deres p-værdi afspejler den kombinerede effekt af arvelig kræft i spiserøret, alkoholforbrug og SNP stedet for SNP selv. På den anden side, den procedure GLM2 afspejler virkningerne af kun SNP’er og ikke lider under ovennævnte mangel (figur 2). En mere omfattende empirisk permutation-baserede demonstration af hvorfor GLM1 er partisk mens GLM2 ikke findes i underbyggende oplysninger File S1. Anvendelsen af ​​proceduren GLM2 medførte ingen væsentlige SNPs efter Bonferroni justering (figur 2). Derfor SNP’er rapporteret i [8] som statistisk signifikant er ikke statistisk signifikant på Bonferroni justeres 0,05 α-niveau.

Figuren er vist i logaritmisk skala for nemheds skyld. Den lodrette linje er Bonferroni justeret α-niveau (0,05 /10.009). Mens der er SNPs, der er væsentlige i henhold til GLM1 metode, ingen SNP er signifikant ved GLM2. Fordelingen af ​​p-værdier for GLM2 er ensartet, men fordelingen for GLM1 ikke.

For det andet, både SNP udvælgelse af GLM1 og opbygning af PCA-baserede klassificeringen model blev udført i [8] om de samme 100 emner, som anvendes til beregning af den endelige klassificering nøjagtighed. Da hverken krydsvalidering eller uafhængig prøve validering blev udført, den resulterende klassifikation ydeevne skøn er overoptimistisk som forklaret i [27], [28]. For at opnå en objektiv estimat præstation for SNP udvælgelsesmetode og klassificeringen af ​​[8], blev de ovennævnte metoder anvendes ved gentagen 10-fold krydsvalidering. Den resulterende klassifikation ydeevne estimat var 0,68 AUC, mens den oprindelige procedure i [8] førte til 0,98 AUC, hvilket indikerer en 0,30 AUC overvurdering.

For at vurdere bidraget af SNPs og andre variabler til klassificering kræft i spiserøret, udførte vi adskillige analyser, er opsummeret i tabel 1. vi bruges SNP selektionsteknikken RFE [17] og de SVM klassifikatorer [18] beskrevet i materialer og fremgangsmåder. Når SNP data anvendes alene, udførelsen er 0.51 AUC, som er statistisk ikke skelnes fra udførelsen af ​​en uninformative klassifikator (0,50 AUC). På den anden side, kan fire miljøvariabler alene (alder ved interview, rygning, alkoholforbrug, og forbruget af syltede grøntsager) klassificere kræft med 0,60 AUC angiver en beskeden sammenhæng med kræft. Når disse fire miljømæssige variabler er kombineret med SNP data, den resulterende ydeevne lidt stiger til 0,62 AUC. En endnu mere overraskende resultat var, at en enkelt variabel (dvs. familie historie af kræft i spiserøret) kan klassificere sygdommen med 0,66 AUC, som er mere præcis end at bruge SNP data og de fire andre miljømæssige variabler. Vi hypotesen, at dette sker, fordi familiens historie indeholder oplysninger om andre miljømæssige og genetiske faktorer, som ikke var målt i undersøgelsen data. Det er klart, der er meget mere end fire miljømæssige variabler, der påvirker esophageal cancer. Ligeledes Affymetrix 10k SNP-array er en tidlig genotype teknologi, der ikke giver så tæt genomisk dækning som nyere arrays med 500k SNPs [29], [30]. Når familien historie kombineres med andre fire miljøvariabler, kan kræft klassificeres med 0,73 AUC, som er mere præcis end at bruge enten sæt variabler alene. På den anden side, når familien historie er kombineret med SNP data, den resulterende klassifikator med 0,64 AUC er ikke så nøjagtig som ved hjælp af den tidligere variabel alene. Endelig, når SNPs og alle andre variabler kombineres, kræft kan klassificeres med 0,73 AUC.

Forsøgene i dette papir involveret SVM klassificører. Som vi nævnte, var valget af klassificeringen baseret på empiriske beviser tyder på, at SVMs har overlegen præstation i forskellige high-dimensionelle “omik” datasæt [19] – [21] såvel som i SNP data [4], og de helt sikkert bedre end uovervågede klassifikation metoder såsom PCA [27], [28]. Men man kan ikke udelukke, at der ikke findes nogle klassifikationssystemer metoder, der udkonkurrerer SVMs i SNP array-datasæt. Fremtidig forskning vil besvare dette spørgsmål.

Som konklusion, vores resultater tyder på, at flere dataanalyse faldgruber [8] fået forskerne til at identificere SNPs, som ikke er statistisk signifikant, og at udlede et alvorligt forudindtaget skøn over klassificering udførelsen af ​​esophageal cancer patienter og raske kontroller på grundlag af disse SNPs. Vi viste også, at miljøfaktorer og især familie historie af kræft (sidstnævnte kan tjene som fuldmagt til både genetiske og miljømæssige faktorer) har en beskeden tilknytning til sygdommen. Det er således tænkeligt, at andre SNPs, ikke medtaget i analysen anvendte, kan være impliceret i sygdommen. Disse resultater er i overensstemmelse med den tidligere litteratur, der understreger vigtigheden af ​​miljøfaktorer på årsagssammenhæng af denne komplekse sygdom [9], [10]. Resultaterne understreger også vigtigheden af ​​analysen lyddata i genom-dækkende forbindelsesundersøgelser.

Støtte Information

File S1.

Demonstration af Bias i Beregning af P-værdier

Doi: 10,1371 /journal.pone.0000958.s001

(0,08 MB DOC)

File S2.

Integreret analyse af flere datatyper

doi: 10,1371 /journal.pone.0000958.s002

(0,09 MB DOC)

Tak

Forfatterne vil gerne anerkende Dr. Maxwell Lee og hans medarbejdere for at give datasættet for den nuværende undersøgelse og for omfattende kommentarer til dette manuskript.

Be the first to comment

Leave a Reply