Abstrakt
Gennem Genome Wide Association Studies (GWAS) mange Single (SNP ) -kompleks sygdom relationer kan undersøges. Udgangssignalet fra GWAS kan være høj i mængde og høj dimensionelle, også forbindelserne mellem SNP’er fænotyper og sygdomme er mest sandsynligt at være ikke-lineær. For at kunne håndtere høje dimensionelle data volumen-høj, og at være i stand til at finde de ikke-lineære relationer, vi har brugt data mining metoder og en hybrid-funktion udvalg model for støtte vektor maskine og beslutningstræ er konstrueret til. Det designede model er testet på prostatakræft data og for første gang anvendes kombineret genotype og fænotype information for at øge den diagnostiske ydeevne. Vi var i stand til at vælge fænotypiske funktioner såsom etnicitet og body mass index, og SNPs dem kort til specifikke gener såsom
CRR9
,
TERT
. De resultater af den foreslåede hybrid model, om prostatakræft datasæt, med 90,92% af følsomhed og 0,91 af arealet under ROC-kurve, viser potentialet i tilgangen til forudsigelse og tidlig påvisning af prostatakræft.
Henvisning : Yücebaş SC, Aydın Son Y (2014) en prostatakræft Model Byg en Novel SVM-ID3 Hybrid Feature Selection Metode Brug Både Genotypning og Fænotype data fra dbGaP. PLoS ONE 9 (3): e91404. doi: 10,1371 /journal.pone.0091404
Redaktør: Georgios Gakis, Eberhard-Karls Universitet, Tyskland
Modtaget: 16. juli 2013; Accepteret: 12. februar 2014 Udgivet: Marts 20, 2014
Copyright: © 2014 Yücebaş, Aydın Son. Dette er en åben adgang artiklen distribueres under betingelserne i Creative Commons Attribution License, som tillader ubegrænset brug, distribution og reproduktion i ethvert medie, forudsat den oprindelige forfatter og kilde krediteres
Finansiering:. Disse forfattere har ingen støtte eller finansiering til at rapportere
konkurrerende interesser:.. forfatterne har erklæret, at der ikke findes konkurrerende interesser
Introduktion
I Genome Wide Association Studies (GWAS) enkelt nukleotid polymorfier (SNP) -kompleks sygdomstilstande foreninger søges såsom alder maculadegeneration [1], hjertesygdomme [2], diabetes [3], rheumatoid arthritis [4], Crohns sygdom [5], hypertension [6], Multiple sclerose [7] og cancertyper [8] – [9] – [10] neurodegenerative sygdomme [11] og psykiatriske sygdomme, såsom bipolar lidelse [12]. Nuværende GWAS af SNP profiler med sådanne kroniske og komplekse sygdomme fører til opdagelsen af forskellige genetiske loci og individuelle SNPs forbindelse med de betingelser, men association af kun SNP genotype-profiler er ikke stærk nok til forudsigelse af sygdomstilstanden. Så er denne undersøgelse designet til at teste hypotesen om og i hvilken grad integrerer genotype profiler og de fænotypiske træk; herunder demografiske informationer, miljømæssige faktorer, vil livsstilsvaner sammen med kliniske fund hos en patient styrke prsedikativ udførelsen af sygdomsmodeller. Indtil videre er der ikke nogen publikation, der kombinerer flere genotypiske og flere fænotypiske træk, hvilket ville kræve anvendelsen af nye strategier data mining, der kan håndtere data med så forskellige egenskaber og endnu højere dimensionalitet.
Metoder i GWAS kan inddeles i to hovedkategorier, som er parametrisk og ikke-parametrisk [13]. Ikke-parametriske metoder kræver ikke en genetisk model på forhånd givet; i stedet de bygge deres egne modeller baseret på givne data ved hjælp af data mining og machine learning [13]. Ikke-parametriske metoder foretrækkes på grund af den høje dimensionalitet af de genetiske data, hvor de traditionelle statistiske metoder ikke er tilstrækkelige nok til analyse [14]. Næsten alle kendte machine learning algoritmer er blevet brugt i GWAS, nogle af de fremmeste metoder er Decision Trees [15] – [16], kunstige neurale netværk [16], Bayesian Belief Networks [17], Support Vector Machines [18] – [ ,,,0],19] – [20] og genetiske algoritmer [21]. Til analysen af genotypebestemmelse data, som observeret fra forskellige anvendelser af data mining, er der ingen klare beviser for, at en hvilken som helst af de metoder, præsterer bedre end andre [13]. Alle metoder har deres egne fordele og ulemper, og valget af den relevante metode er hovedsageligt baseret på det givne problem, datatype, studiedesign og formålet med arbejdet. Der er også nogle eksempler på anvendelse af forskellige hybrid data mining tilgange med GWAS data til at øge prsedikativ præstation, hvor den ene vigtigste metode er valgt og genetiske baserede algoritmer, der bruges som andet skridt for optimering af den vigtigste metode [22 ].
Her for første gang introducerer vi en hybrid funktion valg model kombinerer to ikke-parametriske data mining metoder, SVM og ID3, til bestemmelse af mest prædiktive fænotypiske og genotypiske funktioner i forbindelse med en kompleks sygdom. Til forskel fra mange værker i litteraturen, i denne undersøgelse har vi brugt begge metoder enkeltvis i stedet for blot at optimere den vigtigste metode. Den prostatacancer data anvendes som case, og vi har vist, at kombinere genotypeinformation med fænotyper har bedre prædiktiv ydelse end kun at bruge genotyper eller kun Fænotypers i sygdomsdiagnose, mens overskridelse udførelsen af prostataspecifikt antigen (PSA) screening test [23 ].
Materialer og Metoder
Prostata Cancer datasæt
datasæt, “Multi Etnisk genom Wide Scan af prostatakræft”, der anvendes i dette arbejde er downloadet fra NCBI s dbGaP database og tildeles et nummer phs000306 udgave 2. Disse data består af 4650 tilfælde og 4795 kontroller med tre forskellige etniciteter, afrikanske amerikanere, latinoer og japanske. Hver enkelt i undersøgelsen har 600.000 SNPs og 20 fænotyper, og antallet af emner, der indeholder både fænotypiske og genotypiske attributter er 9130.
Data Forbehandling
Data forbehandling bestod af tre trin. I det første trin blev gennemført Plink analyse for at finde den statistiske styrke af forbindelserne mellem genotype og given sygdom. Tærsklen for foreningen af SNPs med prostatakræft blev bestemt som p 0,005 efter GWAS og 22,848 SNPs opfylder denne betingelse dannede den første repræsentative delmængde. På andet trin METU-SNP s AHP (Analytical Hierarkisk Process) funktion blev brugt til at prioritere SNPs baseret på den biologiske og den statistiske signifikans, som filtreres den tilknyttede SNPs ned til 2710 SNPs.
Data matching, rengøring og transformation var gjort i det sidste trin af data forbehandling. Den genotypiske og fænotypiske egenskaber fagene kombineres i datamatchning trin baseret på emnet ID’er og emne id konverteringer givet i åbenbare data. I det manglende værdier forårsaget af fænotypiske egenskaber rengøring fase blev erstattet af klassen gennemsnitlig beregning og attributten blev slettet, hvor klasse middelværdi ikke kan beregnes. Data transformation var nødvendig til at kode allelerne fordi SVMs bruge numeriske værdier i stedet for kategoriske dem. I litteraturen allel kombinationer er kodet af tre numeriske værdier baseret på de heterozygote og homozygote større alleler [18]. Ulempen ved disse ordninger er, at “
allelerne ikke behandles symmetrisk
[
18
]”. Som forælder til oprindelsen ikke var angivet i vores data har vi brugt en alternativ kodning ordning, hvor symmetriske alleler behandles på samme måde. Denne kodning ordning er vist i tabel 1.
Analyse
Ifølge litteraturen de mest anvendte algoritmer til påvisning forholdet mellem genotype information og sygdommen er ANN, SVM og beslutning træer. Der er også eksempler på anvendelser af forskellige data mining tilgange i en hybrid måde at øge prsedikativ forestilling, hvor én vigtigste metode er valgt, og genetiske baserede algoritmer anvendes som det andet trin til optimering af den vigtigste metode [15] – [22].
i vores model har vi kombineret to forskellige metoder, SVM og ID3, og for hver af disse metoder en passende optimering blev påført i stedet at kombinere en vigtigste metode med en avanceret optimering som anført ovenfor. Ved denne måde i stedet for at nyde godt af en stærk metode, har vi kombineret de stærke sider ved forskellige metoder; ID3 robusthed over for støj og outliers [24] samt dens magt til at håndtere ikke-lineære problemer og SVM forudsigelse ydeevne over ikke-lineære binære problemer klassificering. Også begge metoder er mere tolkes i forhold til andre metoder.
Vores SVM-ID3 Hybrid model blev bygget i RapidMiner 5.0, som er et gratis open source software-værktøj til data mining-applikationer og foretrak i forskellige applikationer i litteraturen, såsom som [25]. For SVM fase er valgt RBF kerne. Denne kerne er meget udbredt i GWAS [19] og foretrukket i vores undersøgelse for dets hurtigere indlæring hastighed og dets fordel af at blive brugt som både lineære kerne og sigmoid kerne i nogle særlige betingelser [26]. Udover kernen funktionen SVM har to vigtige parametre (C, y), hvis ikke justeret rigtigt, kan forårsage overfitting eller underfitting af tilstanden.
C
konstant bruges til at justere margenen af hyperplan der adskiller klasserne og gamma parameter giver sin form til beslutning grænse. Optimering af disse parametre er blevet rapporteret tidligere [27], og vi har valgt at anvende nettet søgning tilgang til optimering, som tidligere [28] er blevet beskrevet. Værdien intervaller for C og gamma, der anvendes under gitteret søgningen er besluttet baseret på litteratur [27] sammen med vores egne erfaringer med dataene. For gamma værdien interval er valgt i mellem [0,0001, 100] med beføjelser ti og værdien interval for C er valgt i mellem [0-10] med fem lineære trin. Gitteret søgen efter SVM optimering har varet omkring ti timer at gennemføre i et system med en 16 GB hukommelse og 3,4 GHz Intel Core i7 processor, afslører 42 kombinationer.
I litteraturen er der forskellige undersøgelser, der kombinerer SVMs og beslutning træer. Selvom tidligere offentliggjorte hybrid modeller af SVM og beslutning træer (SVM-DT) er generelt bruges til problemer multi-klassificering og multi-clustering, er der også eksempler på de SVM-DT-kombinationer bruges til problemer binære klassificering [29]. I alle de tilfælde SVM-DT modeller, er SVM anvendes først for at optimere parametrene og de datasæt, der skal anvendes næste i beslutningstræet. I vores undersøgelse har vi også anvendt SVM i første trin, men i stedet for at rangordne de attributter og vælge de øverste opført dem i henhold til SVM vægte, som udgør en risiko for tab af information, har vi brugt hele SVM vægte som vægten funktionen i ID3. Disse vægte for ID3 attributter beregnes efter formlen givet below.The ID3 Tree er implementeret på RapidMiner med vægtning strategi forklaret ovenfor. En anden gitter søgning blev kørt for at finde den optimale værdi for vægtet information gain ratio. Intervallet for denne værdi blev sat i intervallet [10
-3, 10], og søgte med 50 logaritmiske trin, der resulterede i 51 kombinationer og afsluttede i 11 timer.
Den overordnede arbejdsgang for data pre -forarbejdning, der også omfatter GWAS og integration af fænotype og genotype-data, og den Hybrid SVM-Tree model beskrevet her er sammenfattet i figur 1.
samlede arbejdsgang starter med data forbehandling, hvor repræsentative SNP delmængde er dannet af Plink og METU-SNP-analyse, fænotype og genotype data integreres og manglende værdier afskaffes eller manuelt fyldt med klasse betyder beregning. Efter data forbehandling, er integreret datasæt fødes ind hybrid model, hvor SVM model giver vægtene attribut, som anvendes i ID3.
Resultater
I den første fase kun SVM model blev kørt at præsentere klassificeringen udførelsen af enkeltstående metode på tre forskellige datasæt. Først og det andet sæt var enten kun genotype eller fænotype data og den tredje datasæt indeholdt både genotype og fænotype data. Resultaterne af den enkeltstående SVM-modellen er givet i tabel 2.
Disse resultater i tabel 2 viser tydeligt, at kombinere fænotypisk information med genotypedata let forøget beslutningen præstationer i alle aspekter af nøjagtighed, præcision, huske og AUC. Den hybride SVM-ID3-modellen er derefter anvendt på de samme tre datasæt og sammenligningen ydeevne er præsenteret i tabel 3.
Ifølge SVM ID3 hybrid model struktur, givet i Tree S1, den vigtigste attribut er etnicitet. Vores model lavet en streng skelnen på etnicitet attribut, som fører forskellige beslutningsveje for African American, Latino og japanske personer. For alle etniske grupper body mass index (BMI) egenskab er den anden beskrivende træk ved afgørelse sti. For African American population beskrivende fænotyper på forskellige niveauer af træ er de attributter, der angiver rygning og alkoholvaner forbrug. Overraskende kun fænotypisk egenskab fundet til japanske befolkning er BMI. Attributter angiver familie historie, fysisk aktivitet, lycopen indtag og rygevaner er observeret for latin befolkning. Den overordnede træstruktur hybridmodellen er præsenteret i figur 2.
Den vigtigste træ findes i træet S1 materiale, fordi strukturen er for stor. Dette tal er en lille repræsentation af vigtigste træ. Afgørelse starter med etnicitet og afrikanske amerikanere er repræsenteret ved AA, japansk af JAP og Latinoer af LAT. For alle etniske grupper den mest beskrivende fænotypiske egenskab er body mass index (BMI). Andre fænotypiske egenskaber, der er i øverste niveauer i træet er rygevaner, familie historie, lycopen indtag og fysisk aktivitet. Antallet af SNPs i knuderne angiver det samlede antal SNPs findes i forskellige niveauer på denne særlige vej af træet.
Nogle af de fremtrædende beslutningsveje udvundet af træ er hovedsagelig baseret på etnicitet. For eksempel, hvis motivets etnicitet er African American og dens BMI er i første kategori, som er BMI 22,5, ved at se på rsid 11.729.739 vores hybrid-system kan beslutte, om motivet er en sag eller kontrol. Hvis allel profil for denne SNP er TT så emnet er indkaldt som en sag, men hvis motivet er heterozygot regnskabsmæssige CT, end motivet er indkaldt som en kontrol. Når resultaterne af hybrid system for japanske befolkning undersøges, BMI var også i det første niveau af beslutning sti. Hvis emnerne er i fjerde afdeling af BMI, som er = 30, så disse emner er direkte klassificeret som tilfældet. Hvis emnerne er i første afdeling af BMI så Afgørelsen træffes på grundlag af de SNP rs2442602; fagene homozygote for størstedelen allel (med AA-genotype) er indkaldt som sager, men de beslutninger for de emner, der transporterer andre alleler kræver undersøgelse af yderligere SNPs.
Træstrukturen viser, at beslutningen vej for latinsk befolkning er mere kompleks end de japanske eller African American befolkninger. Hvis emnerne er i første kategori af BMI så fagene heterozygote for SNP rs17799219, transporterer AG, kaldes sund. Hvis emnerne er i tredje kategori af BMI, som er 29,9, derefter en anden fænotypisk egenskab, familie historie skal undersøges. Hvis disse emner har første slægtninge med prostatakræft, så SNP rs6475584 undersøges, for at kalde, hvis motivet er en sag eller ej. Mange regler, ligesom givet ovenfor, kan udvindes fra træstruktur givet i Tree S1.
Samlet vores hybrid model identificeret 28 SNPs for African American, 22 SNPs for japanske og 65 SNPs for Latino befolkninger. Vi har undersøgt SNPs mapping til gener i SNPNexus databasen [30], og de ikke-kodende SNP’er gennem RegulomeDB [31] med henblik på at se, om de har været forbundet med prostatakræft eller enhver anden betingelse, før.
Når SNPs fundet af hybrid model søges gennem SNPnexus, 107 unikke rsIDs matchet med 62 unikke Entrez GeneID og 42 af dem blev tidligere fundet at være forbundet med en tilstand der er anført i Genetic Association of Komplekse sygdomme og lidelser (GAD) database. Et repræsentativt sæt af gener- fænotyper og sygdom klasser er givet i tabel 4 og hele listen kan findes i tabel S1 materiale.
De ikke-kodende SNP’er i vores endelige sygdomsmodel undersøges gennem RegulomeDB, som viste, at de SNPs fundet af vores hybrid model har regulative effekter. Tabel 5 nedenfor viser de SNPs med score lavere end 4 fra RegulomeDB. Hele liste findes i tabellen S2 materiale.
Diskussion
Her har vi præsenteret en diagnostisk sygdom model udnytte data mining metoder, baseret på fænotype og genotype data for prostata kræft. Samlet vores resultater viste, at hybrid model udviklet ved at integrere SVM og ID3 metoder kan anvende både genotype og fænotype information som input, og har den bedste ydeevne til forudsigelse tilfældet vs. kontroller.
SVM er valgt som det første skridt i vores hybrid model, som det er kendt for sin høje ydeevne i GWAS [26], og evne til at klassificere ikke-adskillelige problemer. Beslutningen logik bag ANNs, som også kan anvendes til GWAS, er ikke særlig klar på grund af sin sorte boks struktur. Også ANNs har mange parametre at justere såsom antallet af lag, antallet af knuder i lag, antal epoker og læring sats, og vigtigst ANNs har den ulempe, at sidde fast på lokalt minima. På den anden side SVMs har klar logik beslutning [20], har mindre antal parametre og på grund af den kvadratiske problem struktur det giver kun en løsning, som er til stede ved den globale minima. Som det andet skridt i vores hybrid-model, er ID3 beslutningstræ valgt for sin stærke præstation på at klassificere de diskrete værdsat datasæt som i GWAS. ID3 er let at konstruere og arbejder med gode resultater på støjende data med manglende værdier, og let at fortolke med sine visuelle funktioner [24]. ID3 er også fordelagtigt i C4.5 og CART træer, fordi disse metoder konstruere træer ved beskæring, som ville skjule nogle beslutningsveje for sygdommen, og ID3 er også mere velegnet til kategoriske data.
Så vidt vi ved er der ingen tilsvarende hybrid eller enkeltstående data mining metode etableret som en gold standard for tidlig diagnosticering af prostatakræft. Så de resultater af hybridmodellen skulle sammenlignes med den enkeltstående SVM og ID3-modeller. Den foreslåede Hybrid Model havde bedre klassifikation magt over den enkeltstående SVM og ID3 model med alle tre datasæt, hvor der anvendes enten kun genotypebestemmelse eller fænotype data og for den integrerede genotype-fænotype datasæt. I den integrerede genotype-fænotype datasæt hybrid SVM-ID3 model med 90,92% følsomhed og 0.910 AUC udkonkurrerede den enkeltstående SVM, og stand-alone beslutning træ, der har 71,34% følsomhed og 0,829 AUC og 81,33% følsomhed og 0,732 AUC hhv. Derudover en tre lags feed forward tilbage formering ANN struktur blev bygget i Rapid Miner og modtog den samme kombinerede genotype-fænotype datasæt til sammenligning af forestillinger. Udførelsen køre i 3 dage til at færdiggøre og resultater i form af nøjagtighed, præcision, og tilbagekaldelse var alle under 55%. Udførelse af ANN kunne øges ved at optimere de anvendte parametre, men dette ville medføre udførelse tid til at stige endnu højere. Selv om ANN kunne nå den samme ydelse som den hybride model, vil den lange gennemførelsestid stå som en anden stor ulempe Udover at det er en sort boks algoritme.
Generelt vores hybrid model var i stand til effektivt at bruge høje -VOLUME, høj-dimensional integreret genotypebestemmelse og fænotype data som input. I øjeblikket er der mange offentliggjorte undersøgelser fokuseret på analyse af genotypebestemmelse data, men ingen eksempel på at kombinere fænotype med genotype profil er blevet præsenteret endnu. Infilling dette hul, for første gang genotypebestemmelse og fænotype data er integreret sammen om at bygge en diagnostisk sygdom model for prostatakræft. Som vi har vist i tabel 3, integrere fænotype og genotype data steg beslutningen ydeevne ved hensyn til følsomhed og AUC. Følsomhed af den foreslåede hybrid model på et datasæt med kun genotyper er 68,69%, med kun fænotyper er 83,78%, når følsomheden øges til 90,92%, når genotypebestemmelse er integreret med fænotype data. Parallelt med følsomhed AUC-værdi øger også; AUC for kun genotyping data data og kun fænotype er 0,674 og 0,857 henholdsvis men når der anvendes både data AUC stiger til 0,910
Ud over sin bedre klassifikation præstationer, viste vores resultater, at den foreslåede SVM -. ID3 Hybrid-model var også i stand til at identificere de funktionelle og lovgivningsmæssige SNPs relateret med prostatakræft. De valgte SNP’er og deres gen-sygdom relationer kontrolleres ved hjælp af databaser, såsom SNPnexus og RegulomeDB, der integrerer tredjeparts information fra forskellige databaser og studier i SNP-centreret format. Det betyder, at SNPs valgt til at opføre den diagnostiske sygdomsmodel med den foreslåede hybrid metode er også kandidater til yderligere biologisk undersøgelse af molekylær ætiologi prostatacancer.
Den foreslåede hybrid metode har identificeret 107 unikke SNPs for den diagnostiske model ud af 2710 særdeles tilknyttede SNPs valgt efter GWAS. Når disse 107 SNP’er søges i SNPnexus og RegulomeDB nogle af dem viser sig at være forbundet med specifikke gener og andre påvirker regulering og bindende. For eksempel er rs2853668 kendt for at være forbundet med
CRR9, TERT
som spiller en vigtig rolle i reguleringen af telomerase-aktivitet. Den rs11790106 påvirker reguleringen af
ATP2B2
gen, som er vigtigt for energiproduktion og calcium transport af cellerne. rs12644498 påvirker reguleringen af
ARL9
gen og rs6887293 påvirker reguleringen af
AGBL4
der er også vigtige for ATP /GTP cyklus i celler. Disse gener er tæt knyttet til
IGF1
gen, som spiller en vigtig rolle i insulinmetabolisme. Mange af de gener, de 107 SNP’er i sygdomsmodel kortet til, er relateret med vækst- og energi processer. Disse molekylære funktioner er faktisk relateret til BMI, hvoraf de vigtigste fænotypiske attribut for alle etniske grupper findes ved vores hybrid model.
Resulterende feature sæt af vores hybrid model blev undersøgt og fænotypisk attribut etnicitet viste sig at være den mest beslægtet attribut med prostatacancer. Dette resultat var ikke overraskende, da flere værker i litteraturen allerede viste, at der er en relation med etniske træk og prostatakræft sygdom. Kleinmann arbejde viser, at den etniske baggrund af patienterne spiller en vigtig rolle i prostatacancer livskvalitet [32]. Ifølge Hoffman, er ætiologien af prostatakræft stærkt afhængig af etnicitet og African American s har den højeste risiko for at have prostatakræft [33]. Som et understøttende resultat, vores hybrid model strengt opdeler prostata datasæt efter etnicitet og for hver etnicitet forskellige veje blev observeret.
Selvom beslutningsveje for etniske grupper er alle forskellige, på det andet niveau alle beslutningsveje angiver BMI attribut. BMI er allerede kendt for sine forbindelser med forskellige typer af kræft som brystkræft [34] og spiserør [35], og er også en stærk fænotypisk attribut for prostatakræft [36]. I litteraturen sammen med BMI, alder og familiens historie, som også er blandt de udvalgte attributter fra vores hybrid-model, er blevet vist at være så vigtige funktioner til diagnosticering af prostatacancer [36]. Den forebyggende effekt af høje BMI-værdier over 30 kg /m
2 blevet tidligere nævnt [36], og interessant for japanske befolkning, vi også har observeret den samme forebyggende effekt af BMI for morbid fede sager på de lavere niveauer i beslutningen sti . Derudover blev andre mest almindelige fænotypiske egenskaber i beslutningsveje såsom familie historie, rygevaner, fysisk aktivitet og lycopen indtag også forbundet med prostatakræft tidligere [37]. Samlet set vores resultater viser, at den foreslåede hybrid model omfattede den tidligere fastsatte fænotypiske attributter for prostatakræft.
I øjeblikket blod prostataspecifikt antigen (PSA) niveauer er den gyldne standard for tidlig påvisning af prostatakræft tilstand før biopsi, med maksimal følsomhed rapporteret som 86%, og en specificitet på 33% med AUC 0,67 [23] – [42]. PSA niveauer under 4 ng /ml, anses for normal, niveauer mellem 4 ng /ml-10 ng /ml er kendt som mistænkelige og niveauer over 10 ng /ml, der vides at være forbundet med høj risiko [38]. Problemet med PSA-test er bestemmelse af tærskler. Rækkevidden mellem 4 ng /ml-10 ng /ml er en gråzone for afgørelsen, og mens nogle fag under 4 ng /ml kan have prostatakræft, men nogle over 10 ng /ml kan stadig være sund [39]. Desuden er de afskårne værdier også ændre sig med hensyn til individets alder [40]. Dette indfører et alvorligt problem, og som de forskellige litteratur tilstand PSA ikke bør anvendes som en tidlig diagnose værktøj i prostatacancer [41], indtil dens ydelse øges med hensyn til sensitivitet og specificitet [42]. Når de diagnostiske resultater af den foreslåede hybrid model med 90,92% følsomhed og 0,91 AUC betragtes, det præsenterer et potentielt godt redskab til tidlig påvisning af prostatakræft. Efter validering med pilotundersøgelser, vil den foreslåede model, som kun kræver en buccal swap stå som et godt alternativ til blod PSA-test.
Her for første gang, vi har foreslået en prsedikativ sygdom model integrerer genotype og fænotype data igennem en hybrid træk udvalg, som kombinerer to ikke-parametriske data mining metoder, SVM og ID3. Til forskel fra mange værker i litteraturen, i denne undersøgelse har vi brugt begge metoder enkeltvis i stedet for blot at optimere den vigtigste metode. Den prostatacancer data anvendes som case og vi har vist, at modellen kombinere genotypeinformation med fænotyper giver en bedre ydelse end kun at bruge genotype eller fænotype data i sygdomsdiagnose samtidig overstiger ydeevnen af prostataspecifikt antigen (PSA) screeningstest [23].
konklusioner
i denne undersøgelse for første gang genotypebestemmelse og fænotype data er integreret og en hybrid model af SVM-ID3 for prostatakræft er bygget. Et vigtigt bidrag til dette arbejde var at integrere genotypning med fænotype data. Effekt af denne integration testes i både stand-alone SVM og SVM-ID3 hybrid model. Med hensyn til ydeevne foranstaltninger såsom følsomhed og AUC den integrerede datasæt udkonkurrerede de datasæt med kun genotype og med kun fænotype i begge modeller. Følsomhed og AUC af integrerede datasæt til stand-alone SVM var 71,34% og 0,829 henholdsvis. Når det samme integrerede datasæt anvendes i hybridmodellen følsomheden øges til 90,92% og AUC steg til 0,91, også udkonkurrerer blodet PSA-testen. Modellen var i stand til at identificere prostatakræft tilknyttede SNPs at enten kort til en kræft specifikke gener såsom
CRR9, TERT
,
ATP2B2
,
ARL9, og AGBL4
og /eller med regulatoriske virkninger. Eksperimentel og klinisk validering af de beskrevne foreninger for prostatakræft kan føre os til bedre at forstå udviklingen af sygdommen på det molekylære niveau. Derudover beskrivende fænotyper udvalgt af hybridmodellen blev også tidligere identificeret funktioner til deres forbindelser med prostatakræft i tidligere undersøgelser. Etnicitet blev observeret at være roden til beslutningen træstrukturen, mens BMI, slægtshistorie og rygning var de andre fænotyper, der er på de øverste niveauer i beslutningen model. Samlet set vores undersøgelse viste, at den prædiktive sygdomsmodel bygge med den hybride SVM-ID3 tilgang baseret på genotype og fænotype data giver et lovende redskab til tidlig opdagelse af prostatakræft. Efter validering af den foreslåede model med pilotundersøgelser, kan det implementeres som en klinisk beslutningsstøtte modul til at vurdere risikoen patienter til at udvikle prostatakræft, og fænotyper relateret til livsstil (BMI, motion, rygning, osv ..), der har høj indflydelse på risiko patienter kan identificeres for den enkelte at blive overvåget i de kommende besøg.
Yderligere undersøgelser af den foreslåede hybrid SVM-ID3-metoden og andre data mining tilgange til integrativ analyse af GWAS resultater og fænotypisk information ville hjælpe med udviklingen af andre succesfulde sygdomsmodeller, som ville udmærke oversættelse af foreningens variant-sygdom fund i den kliniske omgivelser for udvikling af nye beslutningsstøtteværktøjer og skræddersyet medicin tilgange.
støtte Information
tabel S1.
Hele liste over SNPnexus resultater
doi:. 10,1371 /journal.pone.0091404.s001
(DOCX)
tabel S2.
Hele liste over RegulomeDB resultater
doi:. 10,1371 /journal.pone.0091404.s002
(DOCX)
Tree S1.
Tekst repræsentation af træstrukturen. Træstrukturen af SVM-ID3 hybrid model
doi:. 10,1371 /journal.pone.0091404.s003
(DOCX)
Tak
Vi udtrykker oprigtig påskønnelse til Prof . Dr. Nazife Baykal, Prof. Dr. Hayri Sever, Assoc. Prof. Dr. Hasan Ogul, Assist. Prof. Dr. Aybar C. Acar for deres vejledning og indsigt i hele undersøgelsen. Værdifuld bidrag Remzi Çelebi er taknemmeligt anerkendt.
Leave a Reply
Du skal være logget ind for at skrive en kommentar.