PLoS ONE: Forbedret Klassifikation af lungekræft tumorer baseret på strukturelle og fysisk-kemiske egenskaber af proteiner Brug Data Mining Models

Abstrakt

Afsløring divergens mellem onkogene tumorer spiller en central rolle i cancer diagnose og terapi. Denne forskning var fokuseret på at designe en beregningsmæssige strategi til at forudsige klassen af ​​lungekræft tumorer fra de strukturelle og fysisk-kemiske egenskaber (1497 attributter) protein sekvenser opnået fra gener defineret af microarray analyse. Den foreslåede metode indebar brug af hybride træk udvælgelsesteknikker (gain ratio og korrelation baseret subset bedømmeres med Incremental Feature Selection) efterfulgt af Bayesian Network forudsigelse at skelne lungekræft tumorer småcellet lungekræft (SCLC), ikke-småcellet lungekræft ( NSCLC) og de fælles klasser. Desuden denne metode fjernet behovet for omfattende data udrensning strategier for protein egenskaber og afslørede den optimale og minimalt sæt af funktioner, der bidrog til lungekræft tumor klassificering med en forbedret nøjagtighed i forhold til tidligere arbejde. Vi forsøgte også at forudsige via overvåget klyngedannelse de mulige klynger i lunge tumor data. Vores resultater viste, at overvågede klyngedannelse algoritmer udstillet dårlige resultater i differentiere lunge tumor klasser. Hybrid funktion valg identificeret fordelingen af ​​opløsningsmiddel tilgængelighed, polariserbarhed og hydrofobicitet som højest rangerende funktioner med Incremental træk udvælgelse og Bayesian Network forudsigelse genererer den optimale Jack-knife krydsvalidering nøjagtighed på 87,6%. Præcis kategorisering af onkogene gener forårsager SCLC og NSCLC baseret på de strukturelle og fysisk-kemiske egenskaber deres proteinsekvenser forventes at optrævle funktionaliteten af ​​proteiner, der er afgørende for at opretholde den genomiske integritet af en celle, og også fungerer som en informativ kilde for udviklingen af ​​lægemidler, målrette essentielle protein egenskaber og deres sammensætning, der findes til at eksistere i lungekræft tumorer

Henvisning:. Ramani RG, Jacob SG (2013) Forbedret Klassificering af lungekræft tumorer baseret på strukturelle og fysisk-kemiske egenskaber Proteiner Brug af data Mining modeller. PLoS ONE 8 (3): e58772. doi: 10,1371 /journal.pone.0058772

Redaktør: Vladimir N. Uversky, University of South Florida College of Medicine, USA

Modtaget: December 22, 2012; Accepteret: 6 februar 2013; Udgivet: Marts 7, 2013 |

Copyright: © 2013 Ramani, Jacob. Dette er en åben adgang artiklen distribueres under betingelserne i Creative Commons Attribution License, som tillader ubegrænset brug, distribution og reproduktion i ethvert medie, forudsat den oprindelige forfatter og kilde krediteres

Finansiering:. Denne forskning arbejde er en del af All India Rådet for Teknisk Uddannelse (AICTE), Indien-finansierede forskning Promotion Scheme projekt med titlen “Effektiv Classifier til kliniske liv data (Parkinson, Breast Cancer og P53 mutanter) gennem funktionen relevans analyse og klassifikation” med Referencenumre 8023 /RID /RPS-56 /2010-11 og 200-62 /FIN /04/05/1624. De finansieringskilder havde ingen rolle i studie design, indsamling og analyse af data, beslutning om at offentliggøre, eller forberedelse af manuskriptet

Konkurrerende interesser:.. Forfatterne har erklæret, at der ikke findes konkurrerende interesser

Introduktion

Onkogene tumorer er den hyppigste dødsårsag i hele verden med lungekræft bærer større vejafgift af maligne dødsfald [1] – [3]. Rygning og brug af tobak sammen med forskellige miljømæssige carcinogener øget menneskelig følsomhed over for denne dødelige sygdom [4] – [5]. beskæftiger sig med afgiftning af kræftfremkaldende stoffer Gene Polymorphisms har været forbundet med dannelse af lunge tumorer. Lungetumorer er blevet bredt kategoriseret som ikke-småcellet lungekræft (NSCLC), der påvirker næsten to tredjedele af patienter med en lav overlevelsesrate og småcellet lungecancer (SCLC), som begge reagerer på forskellige former for terapi [6] – [10]. Dette driver behovet for præcist at identificere patologiske forskelle mellem disse to typer af tumorer.

Gene ekspressionsmønstre fra microarray analyse aktiveret sub-kategorisering af lungekræft typer, der relateret til graden af ​​tumor afgrænsning, natur terapi og offer overlevelsesrate [11] – [14]. Det var en fastslået kendsgerning, at Lung carcinogenese var en proces, der involverede gradvise fænotypiske ændringer, der skete som følge af kræftpsykologisk gen aktivering og deaktivering af tumorsuppressorgener [8]. Rapporter hidtil i litteraturen har undladt at identificere eventuelle pålidelige biomarkører for denne tilstand, da wet-lab forsøg ofte forbruges mere tid, ekspertise og kapital med usikre afkast [1], [4] – [6]. Microarray teknologi er blevet brugt i den seneste tid til at opdage relevante biomarkører, men nuværende metoder var mere modtagelige for overse potentielle faktiske forhold i patientens vævsprøver [14]. Derfor bestemmelse af potentielle og informative markører (diagnostiske og prognostiske) fra både den biologiske og molekylære perspektiv er meget vigtigt at undersøge og vurdere den genetiske og molekylære særpræg som kendetegnede tumorer og Tumor Node metastase (TNM) iscenesættelse i lunge carcinogenese for at muliggøre effektiv diagnose og underbygge terapeutiske strategier.

i de seneste forskningsresultater virksomheder, flere klassificører og data mining modeller er blevet brugt som målrettet den passende kategorisering af lungekræft tumorer. Fyrre-on prøver karakteriseret ved 26 attributter regnet fra masse-til-ladningsforhold (m /z) og tophøjden for proteiner identificeret ved massespektroskopi af blod serumprøver fra lungekræft påvirkes og ikke-ramte patienter blev anvendt til at træne en klassifikation og regression træ (CART) model [13]. Molekylær klassifikation af NSCLC baseret på en procentdel tog-test fremgangsmåde blev anvendt til at evaluere pålideligheden af ​​cDNA microarray-baserede klassifikationer af reseceret humane ikke-småcellet lungekræft (NSCLCs) [14]. I yderligere forskning Linear Discriminant Analyse og kunstigt neuralt netværk klassifikation af individuelle lungekræft cellelinier (SCLC og NSCLC) blev udført på grundlag af DNA methylering markører [13]. Resultaterne rapporteret, at kunstigt neuralt netværk analyse af DNA methylering data var en potentiel teknik til at udvikle automatiserede metoder til klassificering lungekræft. I en anden undersøgelse Support Vector Machine [14] blev anvendt i lungekræft genekspression database analyse og resultaterne foreslog, at inkorporeret forudgående viden til klassificering cancer baseret på genekspression data var væsentligt at forbedre klassifikationen nøjagtighed. Automatisk klassifikation af lunge TNM kræft stadier fra fritekst patologi rapporter ved hjælp af symbolske regelbaseret klassifikation blev forsøgt [15]. Metoden blev vurderet på grundlag af nøjagtighed parametre og forvirring matricer mod en database over tværfagligt team iscenesættelse af beslutninger, og en maskine learning-baserede klassificering tekst system ved hjælp af support vektormaskine.

Den nuværende undersøgelse blev fokuseret på en meget nylig artikel af Hosseinzadeh et.al [1] som sigter på at klassificere lungekræft tumorer baseret på strukturelle og fysisk-kemiske egenskaber af proteiner ved hjælp Bioinformatik modeller. Vi valgte denne papir til tre hovedårsager. (I) Arbejdet er den seneste og data er offentligt tilgængelige. (Ii) forskning involveret masser af data rengøring og forbehandling strategier, der kunne undgås. (Iii) Deres arbejde involveret nogle antagelser om den opnåede data, som ikke er vedtaget i dette arbejde. Desuden foreslås i dette papir metode var i stand til at generere højere klassifikation nøjagtighed i at skelne mellem lungekræft tumorer baseret på protein egenskaber og samtidig bevare de oprindelige data og eliminere antagelser. Netop dette papir gør følgende bidrag: (a) Design af en ny metode med hybrid-funktion udvælgelsesteknikker at identificere de optimale protein funktioner, der adskiller mellem lungekræft tumorer med større nøjagtighed. (B) Slået behovet for data rengøring og forudsætninger, attribut betydning. (C) at bidrage funktioner identificerede menes at påvirke drug design, der kunne målrette proteinet ejendom fører til lungekræft tumorer.

Materialer og metoder

Datasæt

Gene Set berigelse Analyse database (GSEA db) [16] blev anvendt til at opnå de gen-apparater, der har bidraget til udviklingen af ​​NSCLC og SCLC. Den blev opnået fra Kyoto Encyclopaedia of Gener og genomer (Kegg) [17] gen sæt. I alt 84 gener [17] var til stede i SCLC gen sæt, mens 54 gener [17] blev fundet at bidrage til NSCLC. For præcist diskriminere mellem de to klasser af tumorer, blev generne almindeligt forekommende i begge tumorer placeret i en anden klasse kaldet Common. Styrken af ​​genet sat for SCLC var 59, NSCLC inkluderet 29 medens den fælles gensæt opsummeres til 25. Proteiner for hver gruppe af gener blev opnået fra Gene Card databasen [18] og de tilsvarende proteinsekvenser ekstraheret fra UniProt vidensbase database [19]. Disse sekvenser blev gemt som tekstfil og fyldt på PROFEAT webserver [20] – [21] til at beregne de strukturelle og fysisk-kemiske egenskaber, der er forbundet med proteinet. I alt 1400 og halvfems syv attributter blev beregnet og repræsenteret som Fi.jkl hvor »l« repræsenterede deskriptor værdi og »k« betegnede den deskriptor mens “j” angivet funktionen og ‘jeg’ betød funktionen gruppen [ ,,,0],20] – [21]. De funktioner og deres kommentarer er stillet til File S1. Det fuldstændige datasæt bestående af 1497 funktioner og 113 tumorprøver [17] blev lagt i til WEKA 3.7.7 machine learning software [22] og tumortype blev sat til at være mål klassen. Den komplette forbehandlede datasæt tilvejebringes som File S2. Variationen i stikprøvestørrelsen i forhold til tidligere arbejde tilskrives mulige updations i databasen. Den metode, der foreslås i denne forskning er beskrevet i det følgende afsnit

Foreslået Computational Metode

Den foreslåede metode består af to faser:. Uddannelsen fase og forudsigelse fase. Uddannelsen fase indarbejdet forberedelse data, feature udvælgelse og klassificering processen, mens de involverede forudsigelse fase vurdering af klassificeringen model ved hjælp af Jack-knife krydsvalidering test baseret på de parametre, ydeevne [23] – [24]: Matthews Korrelation Koefficient ( MCC) og nøjagtighed. Den skematisk fremstilling af den foreslåede metode er givet i figur 1. forberedelse af data fase indarbejdet kategorisering af de input gen-apparater som SCLC, NSCLC og de fælles klasser. Dette blev efterfulgt af Hybrid funktion udvælgelse med Incremental Feature Selection. De klassifikationsmodeller blev derefter bygget og sammenlignet for at identificere den mest effektive beregningsmæssige forudsigelse teknik på lunge tumor klassificering ved hjælp protein strukturelle og fysisk-kemiske egenskaber.

Hybrid Feature Selection.

Feature ranking præsenteret betydelig funktioner i den rækkefølge af deres bidrag til at kategorisere prøverne under de forskellige mål klasser [25] – [28]. Da de fleste træk udvælgelse algoritmer fokuseret på ranking attributterne efter deres betydning værdi, ansvar at vælge den begrænsende begrænsning hvilede med brugeren [29] – [31]. Derfor for at automatisere processen med at finde den minimale endnu optimale sæt af funktioner, blev ranking har valg algoritmer efterfulgt af Korrelationsfaktorer delmængde Evaluators [32], der omfattede funktioner stærkt korreleret til klassen og mindst korreleret til hinanden. Da både ranking og subset evaluatorer blev udnyttet til at opnå den optimale feature sæt, blev dette kaldt Hybrid Feature Selection strategi. Beskrivelsen af ​​de metoder, der anvendes i denne forskning er beskrevet nedenfor

Gain Ratio Kriterium

Gain kriterium forhold [33] -.. [34], afslørede sammenhængen mellem en attribut og klassen værdi , der primært beregnes ud fra Information Gain ved hjælp af de oplysninger entropi (InfoE) værdier [35]. Efter at have fået værdien af ​​entropi H (S

R), og under forudsætning af ‘F’ til at være mængden af ​​alle funktioner, og S

R at være mængden af ​​alle poster, værdi (r, f) antages at være værdien af ​​en bestemt instans ‘r $ \\ raster = “RG1” $ S “for funktionen” f $ \\ raster = “RG1” $ F ‘. Information Gain for attributten blev beregnet ved hjælp af ligning (1) som følger [35] 🙁 1)

For at beregne den indre værdi for en test, blev følgende formel vedtaget: (2)

Information Gain Ratio [33] – [35] blev beregnet som forholdet mellem Information Gain og Indre værdi, i henhold til ligning (3)

de attributter blev således rangeret (3) i henhold til deres rang i den prioriterede rækkefølge af Gain Ratio score og blev anvendt til CFS undersæt evalueringsværktøj metode beskrevet nedenfor.

Correlation Feature Selection (CFS) Subset evalueringsværktøj.

CFS hypotese [36] foreslog, at de mest prædiktive funktioner er nødvendige for at være yderst korreleret til målet klasse og mindst relevant for andre prædiktor attributter. Følgende ligning [36] – [37] indspillede værdien af ​​en funktion delmængde S, der bestod af ‘K’ funktioner (4), hvor, var den gennemsnitlige værdi af alle korrelationer feature-klassificering, og var den gennemsnitlige værdi af alle feature har korrelationer. CFS kriterium [36] blev defineret som følger:

(5) Hvor og variabler blev omtalt som korrelationer. De egenskaber, der afbildede en høj korrelation til målet klasse og mindst relevans til hinanden blev valgt som den bedste undergruppe af attributter.

Attributterne filtreret af CFS Subset Evaluator metode blev tilsat i en trinvis måde for at identificere optimal sæt af funktioner, der bidrog til lunge tumor kategorisering. Denne metode er rapporteret nedenfor.

Trinvis Feature Selection.

prædiktor attributter genereret af Gain Ratio og CFS Subset Attribut Evaluator (Hybrid Feature Selection) metode blev senere brugt til Incremental Feature Selection (IFS ) [38] – [39] til at bestemme den minimale og optimale sæt af funktioner. Ved tilsætning af hver funktion, blev en ny funktion sæt opnået, og k

th feature sæt kunne angives som (6)

Hvor M betegnede det samlede antal prædiktor delmængder. Ved at konstruere hver feature sæt, blev prædiktor model konstrueret og testet gennem Jack-knife krydsvalidering metode. MCC og nøjagtighed krydsvalidering blev målt, hvilket fører til dannelsen af ​​IFS bordet med antallet af funktioner og klassificeringen nøjagtighed de var i stand til at generere. »AT

o ‘var den minimale og optimale funktioner, der opnåede den højeste MCC og nøjagtighed.

For at bestemme den bedste klassificering model for lunge tumor klassifikation [40], i alt fem benchmark forudsigelse teknikker nemlig, Support Vector Machine [29], Random Forest [1], Nærmeste nabo algoritme [39], Bayesian Network Learning [22] og Random Udvalg (Ensemble sorterer) [22] blev analyseret og sammenlignet. Vores resultater bekræftede, at Bayesian Network tilgang genereret højere nøjagtighed i tumor klassificering med den optimale funktioner.

Bayesian Network Learning.

Den lærende fase i denne tilgang indarbejdet processen med at finde en passende Bayesian netværk [41] givet et datasæt D løbet R, hvor R = {r

1, r

n}, n ≥1 var sættet af indgangsvariable. Klassificeringen Opgaven bestod i at klassificere en variabel V = v

0 kaldes klasse variabel (NSCLC /SCLC /FÆLLES) givet et sæt variabler R = r

1. . . r

n. En klassificeringen C: r → v var en funktion, der kortlagt en forekomst af »r« til en værdi af ‘v’. Klassificeringen blev lært af et datasæt D, der bestod af prøver i løbet af (r, v) [42]. En Bayesian netværk via en række variabler R var en netværksstruktur B

s, en rettet acyklisk graf (DAG) over sæt variabler R og et sæt sandsynlighedstabeller [43] blev givet ved (7)

Hvor pa (r) var det sæt af forældre til ri B

S og netværket repræsenterede en sandsynlighedsfordeling givet af Eq. (8) (8)

følgeslutning lavet af Bayesian netværk [41] – [43] var at tildele den kategori med den maksimale sandsynlighed [44]. Den simple Estimator med K2 lokale søgemetode ved hjælp Bayes Score blev udnyttet (default parametre) for udførelsen af ​​algoritmen i WEKA 3.7.7 [22]. De klyngedannelse metoder er orienteret om, i det følgende afsnit

Overvåget Clustering

Overvåget klyngedannelse [45] -. [47]. Afveget fra uovervåget klyngedannelse i, at det blev anvendt på allerede kategoriseret eksempler med den prime mål at fastslå, klynger, der havde høje sandsynlighedstæthed i forhold til en enkelt klasse. Overvåget klyngedannelse krævede antal klynger skal holdes på et minimum, og genstande blev tildelt klynger ved hjælp af begrebet nærhed i forhold til en given afstand funktion [48] – [49]. Overvåget klyngedannelse evalueret en clustering teknik baseret på følgende to kriterier [47] – [49]:

Klasse urenhed, Urenhed (X):

Det blev målt ved procentdelen af ​​marginale eksempler i de forskellige klynger af en klyngedannelse X. en marginal eksempel var et eksempel, der tilhørte en anden klasse end den hyppigste klasse i sin klynge.

Antal klynger, k.

i denne forskning har vi sammenlignet klasserne at klynge evaluering nøjagtighed på syv klyngedannelse algoritmer [22] nemlig Forventning-Maximization (EM) Algoritme, spindelvæv [22], hierarkisk klyngedannelse, K-midler klyngedannelse, Længst First clustering, Density-Based klyngedannelse og filtreret Clustering. Antallet af klynger blev automatisk tildelt i spindelvæv algoritme mens de resterende algoritmer tillod brugeren at vælge det ønskede antal klynger [22]. Nogle algoritmer udstillet bedre ydelse på inddragelse af alle de attributter for klyngedannelse, mens forestillingen forværret på den hybride funktion valg datasæt. Evalueringen af ​​ydeevnen metoder og parametre orienteres om i de efterfølgende afsnit.

Jack-knife krydsvalidering Test.

statistiske forudsigelse metoder [50] blev anvendt til at måle prædiktor præstationer med henblik på at vurdere deres effektivitet i praktiske anvendelser. I denne undersøgelse, jack-kniv krydsvalidering metode [50] – [51] blev brugt til kontrol og validering af klassificeringen nøjagtighed, da tidligere rapporter har sagt, at det er mindst vilkårlig karakter, og meget roste af forskere og praktikere på at vurdere ydeevnen af prædiktorer. I jack-kniv krydsvalidering [38] – [39], [52], hver enkelt af de statistiske oplysninger i uddannelsen datasættet blev igen fremhævet som en prøve og forudsigelse blev trænet af de resterende prøver. Under jack-knifing proces [23] – [24], [39], både træning datasæt og afprøvning datasæt var faktisk åbne, og en statistisk stikprøve flyttes fra den ene gruppe til den anden. I denne forskning, følgende indekser [50] – [52] blev vedtaget for at teste den foreslåede metode (9) (10), hvor afspejlede Mathews korrelationskoefficienten.; afspejlede nøjagtighed, dvs. antallet af korrekt forudsagt lungekræft tumor klasse; TP, TN, FP og FN betegnes antallet af sande positive, sande negative, falsk positive og falsk negative hhv.

Eksperimentelle Resultater og Diskussion

De eksperimentelle resultater er diskuteret i tre sektioner. Den forreste beskriver rækkefølgen af ​​de strukturelle og fysisk-kemiske egenskaber i henhold til deres gevinst ratio. Hele listen over attributter blev rangeret og filen er tilvejebragt som tabel S1. Det andet afsnit omhandler resultaterne af Incremental Feature Selection, mens det sidste afsnit skildrer den sammenlignende ydeevne modeller de toneangivende klassificering på protein sekvens ejendomme i kategorisere lunge tumorer.

Hybrid Feature Selection

A alt 1497 attributter blev oprindeligt indlæses som uddannelsen data med 113 tilfælde [17] – [18]. Ingen optegnelser blev duplikeret og der var ingen manglende værdier. På ranking attributterne ved Gain Ratio kriteriet, blev i alt 134 attributter tildelt en gevinst forhold større end nul. CFS delmængde evaluator returneres 39 funktioner som den mest optimale delmængde, der var stærkt korreleret til destinationsklassen men mindst korreleret til hinanden. Disse funktioner blev derefter anvendt til Incremental funktionen udvælgelsesprocessen. Resultaterne af de Hybrid Feature Selection teknikker er givet som tabel S1.

Trinvis Feature Selection

De klassificeret attributter fra CFS delmængde evaluator blev derefter input i den prioriterede rækkefølge, deres rang til klassificeringen . Ved hver post attribut blev MCC og nøjagtigheden af ​​klassificeringen på Jack-kniv test beregnet. Bayesian Network Learning blev fundet at give den højeste forudsigelse MCC på 0,812 og nøjagtigheden af ​​87,6% med 36 funktioner. De IFS kurver genereret på klassificeringen nøjagtighed og den tilsvarende MCC er repræsenteret i figur 2. Den optimale forudsigelse nøjagtighed med den foreslåede metode for hver funktion delmængde er givet i tabel 1. De fuldstændige resultater af Incremental Feature Selection processen på alle de tre Hybrid Feature Selection datasæt er angivet i tabel S2.

(A) IFS kurve genereret under anvendelse Klassifikation Nøjagtighed i lungetumor kategorisering. X-aksen repræsenterede antallet af funktioner, mens y-aksen repræsenterede jack-kniv krydsvalidering nøjagtighed. Toppen af ​​nøjagtighed klassifikation nået var 87,6% med 36 funktioner. De øverste 36 funktioner afledt af Hybrid Feature Selection (Gain Ratio + CFS Subset) tilgang danner den optimale funktioner. (B) IFS kurve dannet ved anvendelse MCC værdier opnået fra algoritmer klassifikation. Toppen af ​​MCC er 0,812 med 36 funktioner. De øverste 36 funktioner afledt af Hybrid Feature Selection tilgang (Gain Ratio + CFS Subset) dannet den optimale funktioner.

Classifier Modeller

Benchmark klassifikationsmodeller, der har været rapporteret [14], [38] – [39] [53] – [54] til at generere høj nøjagtighed i klassificering af biologiske data blev sammenlignet for at bestemme den optimale forudsigelse teknik, der genererede højeste nøjagtighed i forudsigelse. Den komparative ydeevne modeller klassificeringskriterier med funktionen sæt genereret af Hybrid Feature Selection teknik er afbildet i tabel 2. Forestillingen sammenlignes baseret på MCC og forudsigelse nøjagtighed.

Clustering Modeller

Denne undersøgelse udnyttet syv klyngedannelse algoritmer [22] med henblik på at sammenligne deres præstationer i kategorisere klasser af lungetumorer baseret på attributværdierne. Resultaterne af generere clustering algoritmer på datasættet før og efter udførelse af hybrid funktion udvælgelse præsenteres. Klasserne at klynge evalueringsresultaterne er portrætteret i tabel 3. Det fremgår tydeligt af tabulerede resultater, klyngedannelse algoritmer ikke var nyttige i at give nogen ny idé på attribut betydning at opdage klynger siden deres præstationer nøjagtighed var væsentligt lav. Drøftelserne om de data og resultaterne præsenteres i den efterfølgende sektion.

Diskussion

Indflydelse af struktur- og fysisk-kemiske egenskaber

Der har været flere undersøgelser på lunge klassificering cancer [55] – [65], men det eneste tidligere beregningsmæssige undersøgelse af indflydelsen af ​​proteinsekvensen baseret strukturelle og fysisk-kemiske egenskaber i kategoriseringen af ​​lungetumorer blev gjort ved Hosseinzadeh et.al [1], der udnyttede beslutningstræet genereres af Random Forest klassifikator at identificere de medvirkende attributter. I denne undersøgelse, vi udnyttet den mindste træet blandt de 10 Beslutningstræ modeller genereret af Random Forest klassificeringen [66] om uddannelse datasæt med henblik på at identificere de mest medvirkende attributter til lunge tumor klassificering. Omend Random Udvalg algoritmen også afbildet 100% nøjagtighed og en høj MCC af 1 i uddannelsen fase, de opnåede på Jack-knife krydsvalidering resultaterne ikke var så høj som Random Forest Model. Beslutningen træ model med det mindste antal knuder genereret af Random Forest om uddannelse datasæt er portrætteret i figur 3. visualisering af dette træ gjort det lettere at identificere sammensætningen af ​​hvert protein ejendom i de forskellige typer af lungekræft tumorer, hvilket giver en kilde for udviklingen af ​​lægemidler rettet mod det protein sammensætning.

følgende nye indsigt på protein egenskaber blev opnået fra Random Forest Model med et nyt sæt af diskriminerende funktioner bliver rapporteret for første gang i diskriminere lunge tumor klasser.

Dipeptid sammensætning var den mest kræsne træk blandt klasserne. F1.2 [Dipeptid Sammensætning], F5.3 [Distribution Descriptor], F4.1 [Geary Auto-korrelation] og F6.1 [Sequence ordre kobling nummer] var de efterfølgende væsentlige protein egenskaber anvendes af Random Forest Model at skelne den lunge tumor klasser.

En lav værdi af F5.3.2 [Normalized VDW volumener] og F [7.1] pseudo aminosyre sammensætning flyttede optegnelserne i FÆLLES klasse. En høj F5.3.1 [fordeling af hydrofobicitet] og F5.3.3 [fordeling af polaritet] blev fundet blandt de gener, der er almindelige i begge klasser af tumorer hvorimod en lavere koncentration af samme blev fundet blandt de NSCLC tumor gener. Dette dirigerer molekylær forskning til at designe lægemidler, der ville sænke fordelingen af ​​hydrofobicitet og polaritet samtidig øge de normaliserede VDW mængder og pseudo aminosyre sammensætning til at målrette den fælles klasser af tumorer.

En høj dipeptid sammensætning var karakteristisk for NSCLC gener og en relativt lav værdi repræsenterede de SCLC tumorer. En høj koncentration af F5.3.1 [Fordeling af hydrofobicitet] og F5.3.7 [distribution af Solvent Accessibility] var tydelig i den fælles klasser af tumorer. Disse resultater tyder designe lægemidler, der øger dipeptid sammensætning til støtte i helbredelse af SCLC tumorer og lægemidler, der sænker dipeptid sammensætning til at helbrede NSCLC tumorer. Desuden design af lægemidler, der sænker fordelingen af ​​hydrofobicitet og solvens tilgængelighed kunne hjælpe med at kurere tumorer i begge former.

Det blev klart, at en streng afgrænsning blandt tumor kategorier var en kompliceret opgave, da mange egenskaber var sig at udvise lignende sammensætning i både tumor klasser. Men den foreslåede metode viste sig at skelne mellem tumor klasser med en høj MCC på 0,812 og klassificering nøjagtighed på 87,6%, den højeste rapporterede hidtil i protein -Ejendom baseret lunge tumor kategorisering.

Sammenligning med tidligere arbejde

som nævnt tidligere, den eneste tidligere beregningsmæssige undersøgelse af lungetumor kategorisering baseret på proteinsekvensen-baserede strukturelle og fysisk-kemiske egenskaber blev rapporteret af Hosseinzadeh et.al [1], der foretaget en sammenligning af ti forskellige træk udvælgelsesteknikker og rapporterede funktionen sæt genereret af Gain Ratio kriteriet for at generere optimale 10-fold krydsvalidering nøjagtighed på 86% med Random Forest klassificeringen. Deres metode indarbejdet 114 sekvenser med 30 gener i NSCLC klassen, 59 i SCLC og 25 i FÆLLES klasse af tumorer. Desuden deres metode er involveret også omfattende data rengøring og forbehandling. Her gjorde vi brug af de 113 sekvenser [16] – [18] fra Kegg gen sæt svarende til NSCLC og SCLC tumor klasser og adskilt generne under de tre klasser nemlig, NSCLC, SCLC og FÆLLES. Antallet af registreringer summeres op til 113 med 29 gener [16] – [17] i NSCLC klassen. Denne undersøgelse havde til formål at identificere det minimale og optimale sæt af funktioner til at kategorisere lunge tumor klasser til brug i diagnostisk praksis og drug design. Derfor brugte vi Gain Ratio kriterium, Information Gain kriterium og symmetrisk Usikkerhed at rangere de funktioner og derefter anvendt den Correlation Feature Undersæt evaluator [22] med en søgning opsigelse tærskel på 5 og Best First Søg tilgang til at identificere den mindste delmængde af funktioner med en høj korrelation til målet klasse og mindst korrelation til hinanden. Dette resulterede i en funktion delmængde med 39 funktioner. Ved sammenligning af jack-kniv krydsvalidering nøjagtighed på fem modeller benchmark klassificering blev Bayesian Network Learning algoritme fundet at generere den højeste MCC på 0,77 med en nøjagtighed på 85% med alle de tre hybrid funktion valg delmængder. Ved at anvende Incremental Feature Selection opnåede vi den mest optimale træk sæt af 36 funktioner (funktion delmængde af Gain Ratio + CFS) generere en nøjagtighed på 87,6%.

Den tidligere arbejde ved Hosseinzadeh et.al rapporteret en høj nøjagtighed 86% kun på de rengjorte data efter fjernelse af dubletter, korrelerede optegnelser og på grundlag af de standardafvigelsesværdier. Når man overvejer de samme data, har vores foreslåede arbejde opnået en højere nøjagtighed med de oprindelige, ikke-modificerede data og dermed spare beregningsmæssige tid ved eliminering af data renseprocessen. For at bringe ud sammenligningen mere tydeligt har vi identificeret nøjagtigheden af ​​Random Forest med Gain Ratio (tidligere foreslået klassifikatør model) på den originale data, som var i stand til at generere en optimal nøjagtighed på kun 79,6% med 26 funktioner fra Gain Ratio – CFS features i forhold til vores foreslåede metode, der producerede 87,6% træfsikkerhed med 36 funktioner fra den samme funktion delmængde. Vi mener, at vores foreslåede metode kan let udvides til at klassificere og skelne mellem andre onkogene tumorer siden den oprindelige data blev bevaret for beregningsmæssige analyse. Men den tidligere metode synes at have skabt en høj nøjagtighed (86%) kun på den rensede data, som gør det til en begrænsning, når udvide metoden til andre kræft datasæt. Desuden den tidligere foreslåede model vil medføre yderligere data forbehandling tid, når den anvendes til nye kræft datasæt.

Sammenligning med andre metoder

Vi sammenlignede tre funktion udvælgelsesmetoder [22] nemlig Information Gain, Symmetric Usikkerhed og Gain Ratio. Vi anvendte CFS Subset evaluator på alle indslag apparater klassificeret efter de tre algoritmer. Alle fem toneangivende klassificering algoritmer [67] – [68] er blevet anvendt på de reducerede funktionen datasæt. Resultaterne er opstillet i tabel 2. Alle tre prædiktor metoder viste konsekvent høj nøjagtighed med Bayesian Network forudsigelse teknik. Den optimale nøjagtighed blev opnået kun under processen med Incremental Feature Selection med Gain Ratio og CFS delmængde evaluator kombination, som opnåede en forbedret nøjagtighed på 87,6% med 36 funktioner.

Be the first to comment

Leave a Reply