Abstrakt
Hurtig skelnen mellem småcellet lungekræft (SCLC) og ikke-småcellet lungekræft (NSCLC) tumorer er meget vigtigt i diagnose af sygdommen. Endvidere sekvensspecifikke afledt strukturelle og fysisk-kemiske deskriptorer er meget nyttige for machine learning forudsigelse af protein strukturelle og funktionelle grupper, som klassificerer proteiner og forudsigelse ydeevne. Heri, i denne undersøgelse er klassificeringen af lungetumorer baseret på 1497 attributter stammer fra strukturelle og fysisk-kemiske egenskaber proteinsekvenser (baseret på gener defineret af microarray-analyse) undersøgte gennem en kombination af attribut vægtning, overvåges og ukontrollerede klyngedannelse algoritmer. Firs procent af vægtningsmetoder udvalgte funktioner såsom autokorrelation, dipeptid sammensætning og fordeling af hydrofobicitet som den vigtigste protein attributter i klassificering af SCLC, NSCLC og FÆLLES klasser af lunge tumorer. De samme resultater blev observeret af de fleste træ induktion algoritmer mens deskriptorer for hydrofobicitet fordeling var høj i proteinsekvenser FÆLLES i begge grupper og distribution af ladning i disse proteiner var meget lav; viser almindelige proteiner var meget hydrofobe. Desuden sammensætninger af polar dipeptid i SCLC proteiner var højere end NSCLC proteiner. Nogle klyngedannelse modeller (alene eller i kombination med attribut vægtning algoritmer) var i stand til næsten klassificere SCLC og NSCLC proteiner. Random Forest træ induktion algoritme, beregnet på blade én-out og 10 gange krydsvalidering) viser mere end 86% nøjagtighed i clustering og forudsige tre forskellige lungekræft tumorer. Her for første gang anvendelsen af data mining-værktøjer til effektivt at klassificere tre klasser af lungekræft tumorer om betydningen af dipeptid sammensætning, autokorrelation og distribution deskriptor er blevet rapporteret
Henvisning:. Hosseinzadeh F, Ebrahimi M, Goliaei B, Shamabadi N (2012) Klassificering af lungekræft tumorer baseret på strukturelle og fysisk-kemiske egenskaber af proteiner ved Bioinformatik Models. PLoS ONE 7 (7): e40017. doi: 10,1371 /journal.pone.0040017
Redaktør: Hassan Ashktorab, Howard University, USA
Modtaget: Marts 27, 2012; Accepteret: 30. maj 2012; Publiceret: 19 jul 2012
Copyright: © 2012 Hosseinzadeh et al. Dette er en åben adgang artiklen distribueres under betingelserne i Creative Commons Attribution License, som tillader ubegrænset brug, distribution og reproduktion i ethvert medie, forudsat den oprindelige forfatter og kilde krediteres
Finansiering:. Forfatterne har ingen støtte eller finansiering til at rapportere
konkurrerende interesser:. forfatterne har erklæret, at der ikke findes konkurrerende interesser
Introduktion
Lungekræft er en førende årsag til kræftdødsfald. verdensplan. Blandt lungekræft, ikke-småcellet lungekræft (NSCLC) påvirker ca. 80% af patienterne, og når diagnosticeret på en lokaliseret stadium 5 års overlevelse er omkring 50%, mens den falder til 8% og 3% for af lymfeknudeinvolvering eller metastase, henholdsvis [1]. Indånding af tobaksrøg og andre miljømæssige kræftfremkaldende stoffer betragtes som en væsentlig ætiologisk faktor [2]. Epidemiologiske undersøgelser fortsat dokumentere, at den genetiske variation i det individuelle respons for kræftfremkaldende stoffer kan ændre modtagelighed for kræft. Polymorfier af gener involveret i afgiftning af kræftfremkaldende stoffer, og dem, der modulerer og reparation DNA-skader efter kræftfremkaldende eksponering, har været forbundet med risikoen for lungekræft [3].
Patienter med ikke-småcellet tumorer (skællede , AC, og store celle) behandles anderledes end dem med små celletumorer derfor patologisk skelnen mellem disse to typer af lunge tumor er meget vigtigt. De genekspressionsmønstre muliggjort sub klassificering af adenocarcinom i undergrupper, der korrelerede med graden af tumor differentiering samt patientens overlevelse. Genanalyse lover derfor at udvide og forfine standard patologisk analyse [4]. Det er blevet almindeligt accepteret, at lunge carcinogenese er en flertrinsproces og fænotypiske ændringer førte fra aktivering af onkogener og inaktivering af tumorsuppressorgener [5]. Ikke-småcellet lungekræft (NSCLC) er den førende årsag til dødelighed kræft verdensplan. På nuværende er til rådighed til at vejlede forvaltningen af denne betingelse ikke pålidelige biomarkører. Microarray teknologi kan tillade passende biomarkører, der skal identificeres, men nuværende platforme mangler sygdom fokus og er derfor tilbøjelige til at gå glip af potentielt afgørende oplysninger i patientens vævsprøver. En kombination af store in-house-sekventering, genekspression profilering og offentlig sekvens og genekspression data mining blev anvendt til at karakterisere transkriptomet af NSCLC [6]. Identifikation af en egnet prognostisk biologisk og molekylær markør er derfor vigtigt at vurdere de biologiske og molekylære karakteristika, der afveg fra tumor, lymfeknude, metastase TNM staging i ikke-småcellet lungekræft (NSCLC) med henblik på at forudsige prognose og etablere forebyggende metoder [7 ]. En bedre forståelse af den molekylære patogenese SCLC ville sandsynligvis foreslå strategier for tidligere diagnose og nye molekylære-rettede laegemidler [8].
I de seneste undersøgelser, er nogle klassificører anvendt til klassificering af kræft gener eller proteiner, for eksempel KNN klassificeringen kan have nogle nytte for nogle problemer microarray klassificering, der handler på hele ikke-dimension reduceret datasæt. De viser, at øget dimensionalitet af disse sæt (overvejer par, tripler eller fire-tupler, snarere end individuelle udskrift sekvenser én efter én) kan føre til betydelige forbedringer med hver dimension vundet [9]. I anden undersøgelse, funktioner af proteiner udtrykt i ondartet, godartede og begge kræftformer blev sammenlignet ved hjælp af forskellige screening teknikker, klyngedannelse metoder beslutning træ modeller og generaliseret regel induktion (GRI) algoritmer til at lede efter mønstre af lighed i to godartede og ondartede brystkræft grupper [10], eller at udvikle og afprøve en naiv Bayes klassifikatør baseret på sekvens egenskaber af gener og molekylære funktion og biologiske processer, som de er involveret i for at afsløre deres unikke funktioner, der kan hjælpe mod identifikation af nye kandidat cancer gener [11 ] eller gennemføre en systematisk metode, der forudsiger kræft inddragelse af gener ved at integrere heterogene datasæt ved at stole på: (i) protein-protein interaktioner; (Ii) differentiel ekspression data; og (iii) strukturelle og funktionelle egenskaber af cancer gener [12].
Også i klassificeringen af lungekræft, i flere undersøgelser, data mining modeller er blevet brugt. For eksempel en klassifikation og regression træ (CART) model blev uddannet til at klassificere 41 kliniske prøver som sygdom /nondisease baseret på 26 variabler regnet fra masse-til-ladningsforhold (m /z) og tophøjder af proteiner identificeret ved massespektroskopi af blod serumprøver fra mennesker med og uden lungecancer [13], eller en trænings-test tilgang til den molekylære klassificering af opereret ikke-småcellet lungekræft, som i denne undersøgelse, har en uddannelse-test metode blevet anvendt til at teste pålideligheden af cDNA microarray-baserede klassifikationer af reseceret humane ikke-småcellet lungekræft (NSCLCs) analyseret af cDNA microarray [14]. I den anden undersøgelse har klassifikation af individuelt lung cancer cellelinjer (SCLC og NSCLC) er udført på grundlag af DNA-methylering markører ved hjælp af lineær diskriminant analyse og kunstige neurale netværk, og i resultatet, dette arbejde støtter løftet om ANN analyse af DNA methylering data som en kraftfuld fremgangsmåde til udvikling af automatiserede metoder til klassificering lungecancer [15]. I en anden undersøgelse lungekræft genekspression database analyse indarbejdet forudgående kendskab med klassificering metode support vektormaskine-baseret, sammen med anvendelsen af støtte vektor maskine som diskriminant tilgang, og en metode foreslået, at indarbejdet forudgående viden til klassificering kræft baseret på genekspression data at forbedre nøjagtigheden [16]. Hvis du automatisk klassificere lunge tumor-node-metastaser (TNM) kræft stadier fra fritekst patologi rapporter ved hjælp af symbolske regelbaseret klassificering. Nøjagtigheden måle og forvirring matricer blev brugt til at evaluere de TNM etaper klassificeret af den symbolske regelbaseret system. Systemet blev evalueret over en database over tværfagligt team iscenesættelse af beslutninger, og en maskine learning-baserede klassificering tekst system ved hjælp af support vektormaskine [17]. Sequence-afledte strukturelle og fysisk-kemiske egenskaber er ofte blevet anvendt i udviklingen af statistiske læring modeller til forudsigelse af proteiner og peptider i forskellige strukturelle, funktionelle og interaktion profiler.
PROFEAT (Protein Features) er en webserver for computing almindeligt -anvendte strukturelle og fysisk-kemiske træk af proteiner og peptider fra aminosyresekvensen [18]. Sekvens-afledte strukturelle og fysisk-kemiske egenskaber er ofte blevet brugt til at forudsige protein strukturelle og funktionelle grupper [19], [20], [21], [22], [23], protein-protein interaktioner [24], [25], [26], subcellulære placeringer [27], [28] og peptider af specifikke egenskaber [29] fra deres sekvens. Disse funktioner er meget nyttig for at repræsentere og skelne proteiner eller peptider af forskellige strukturelle, funktionelle og interaktion profiler, som er afgørende for en vellykket gennemførelse af statistiske læringsmetoder til at forudsige de strukturelle, funktionelle og interaktion profiler af proteiner og peptider uanset sekvens lighed [ ,,,0],30].
i denne undersøgelse med fokus på vigtigheden af klassificering af lungetumorer i diagnosticering og behandling af denne sygdom og anvendelsen og nytten af sekvens-afledte strukturelle og fysisk-kemiske egenskaber af proteiner, klassifikation af 2 typer af lungetumorer baseret på de strukturelle og fysisk-kemiske egenskaber undersøgt ved hjælp af bioinformatik og data mining-værktøjer proteiner.
Materialer og Metoder
data Forberedelse
Microarray analyse på GSEA db ( Gene Set Berigelse Analyse database), der anvendes til at udvinde gener involveret i begge typer af lungetumorer (SCLC eller NSCLC). Nogle gener var almindelige i begge tumorer så navngivet som fælles sæt. Proteiner for hver gruppe af gener (SCLC = 59, NSCLC = 30 eller FÆLLES = 25), der udvindes af DAVID server (https://david.abcc.ncifcrf.gov) og protein-sekvenser udvundet UniProt Knowledgebase (Swiss-Prot og skælve) database. Én tusinder og halvfems syv protein funktioner eller egenskaber, beregnet af PROFEAT web (https://jing.cz3.nus.edu.sg/cgi-bin/prof/prof.cgi), herunder strukturelle og fysisk-kemiske protein. Et indeks Fi.jkl bruges til at repræsentere den l
th deskriptor værdien af k
th deskriptor af j
th funktion i I
th funktionen gruppe, der tjener som en nem reference til den PROFEAT manual leveres i serveren hjemmeside og en liste over disse har grupper viste i tabel S1 (detaljer er præsenteret i appendiks S1) [18]. En datasæt af disse protein funktioner blev importeret til Rapid Miner (Rapid Miner 5.0.001, Rapid-I GmbH, Stochumer Str. 475, 44227 Dortmund, Tyskland) software, og typen af tumor (SCLC, NSCLC eller FÆLLES) blev oprettet som målet eller etiket attribut.
data Rengøring
Duplicate funktioner fjernet ved at sammenligne alle eksempler med hinanden på grundlag af den angivne udvælgelse af attributter (to eksempler antages ens hvis alle værdier af alle valgte attributter ens). Så ubrugelige attributter fjernet fra datasættet. Numeriske egenskaber, som besad standardafvigelser er mindre end eller lig med en given afvigelse tærskel (0,1) antages at være nytteløst og fjernes. Endelig korreleret funktioner (med Pearson korrelation større end 0,9) udeladt. Efter rengøring, antallet af attributter og optegnelser faldet, og denne database mærket som Final Renset database (FCdb).
Attribut Vægtning
For at identificere de vigtigste funktioner, og at finde de mulige mønstre i træk at bidrage til lungekræft tumorer blev 10 forskellige algoritmer af attribut justeringskoefficienten på den rensede datasæt (FCdb) som beskrevet nedenfor.
Vægt med oplysninger gevinst.
Denne operator beregnet relevansen af en funktion ved at beregne de oplysninger gevinst i klassen distribution.
Vægt med oplysninger gain ratio.
Denne operator beregnet relevansen af en funktion ved at beregne de oplysninger gevinst forholdet til distribution klassen.
Vægt af reglen.
Denne operator beregnet relevansen af en funktion ved at beregne fejlprocenten af en Oner Model på det eksempel, uden denne funktion.
Vægt afvigelse.
denne operator skabte vægte fra standardafvigelser af alle attributter. Værdierne blev normaliseret ved gennemsnittet, er det mindste, eller den maksimale af attributten.
Vægt ved chi kvadreret statistik.
Denne operator beregnet relevansen af en funktion af computing, for hver egenskab af input eksempel sæt, værdien af chi-squared statistik i forhold til klassen attribut.
Vægt ved Gini-indekset.
Denne operator beregnet relevansen af en attribut ved at beregne Gini-indekset af fordelingen klassen, hvis det givne eksempel sæt ville have været opdelt i henhold til den funktion.
Vægt af usikkerhed.
Denne operator beregnet relevansen af en attribut ved at måle den symmetriske usikkerhed med hensyn til klassen.
Vægt af lettelse.
Denne operator målte relevansen af funktioner ved stikprøver eksempler og sammenligne værdien af den aktuelle funktion for den nærmeste eksempel på den samme med en anden klasse. Denne version arbejdede også for flere klasser og regression datasæt. De resulterende vægte blev normaliseret i intervallet mellem 0 og 1.
Vægt af SVM (Support Vector Machine).
Denne operator brugt koefficienterne i den normale vektor af en lineær SVM som har vægte.
Vægt ved PCA (principal komponent analyse).
Denne operator brugt de faktorer i den første af de vigtigste komponenter som har vægte.
attribut Selection
Efter attribut vægtning modeller kørte på FCdb, hvert protein attribut (funktion) fik en værdi mellem 0 og 1, som afslørede betydningen af denne attribut med hensyn til en målattributten (type tumorer). Alle variable med vægte højere end 0,50 blev udvalgt og 10 nye datasæt oprettet. Disse nydannede datasæt blev navngivet efter deres attribut vægtning modeller (Information gain, Information gain ratio, Regel, afvigelse Chi Squared, Gini indeks, Usikkerhed, Relief, SVM og PCA) og blev brugt til at slutte med senere modeller (overvåget og opsyn ). Hver model af overvåget eller uovervåget klyngedannelse blev udført 11 gange; første gang det blev kørt på de vigtigste datasæt (FCdb) og derefter på de 10 nydannede datasæt (resultaterne af attribut vægtning).
Unsupervised Clustering Algoritmer
De klyngedannelse algoritmer nedenfor var anvendt på de 10 nyoprettede datasæt (genereret som resultaterne af 10 forskellige attribut vægtning algoritmer (såvel som den vigtigste datasæt (FCdb).
K-midler.
Denne operator bruger kerner til estimere afstanden mellem objekter og klynger. på grund af karakteren af kerner, er det nødvendigt at sammenfatte i alle elementer i en klynge til at beregne en afstand.
K-Medoids.
Denne operator repræsenterer en implementering af k-Medoids. Denne operatør vil skabe en klynge attribut, hvis det endnu ikke er til stede.
Tree induktion modeller
DecisionTrees.
Fem træ induktion modeller, herunder afgørelse Tree, beslutning Tree parallel, afgørelse Stump, Random Tree og Random Forest kørte på de vigtigste datasæt (FCdb). en vægtbaserede parallel beslutningstræ model, som lærer et beskåret beslutningstræ baseret på en vilkårlig funktion relevans test (attribut vægtning ordningen som indre operatør), anvendt på 10 forskellige datasæt oprettet fra attribut vægtning valg (SVM, Gini Index, Usikkerhed, PCA, Chi Squared, regel, Relief, Information Gain, Information Gain Ratio og afvigelse).
Machine Baseret Prediction af Leave One-out 10 gange Cross Validation
beslutning Tree.
Seksten maskine learning modeller køre på fire beslutning træ algoritmer (
beslutningstræ, afgørelse Tree Parallel, afgørelse Stump
og
Random Forest
) med fire forskellige kriterier (
Gain Ratio, Information Gain, Gini Index
Nøjagtighed
) på alle 11 datasæt for at finde en egnet model (r ) at forudsige nøjagtighed og klassificering fejl klasser baseret på protein attributter. For at beregne nøjagtigheden af hver model, er 10-fold krydsvalidering [14] bruges til at træne og testmodeller på alle mønstre. For at udføre cross validering blev alle poster tilfældigt opdelt i 10 dele, blev 9 sæt brugt til træning og den 10. én til test (forlade en-out). Processen blev gentaget 10 gange, og nøjagtigheden for sandt, falsk og total præcision beregnet. Den endelige nøjagtighed rapporteret som gennemsnittet af nøjagtighed i alle ti tests.
Resultater
Data Rengøring
Den oprindelige datasæt indeholdt 114 poster (protein sekvenser) med 1497 protein funktioner . Af disse optegnelser, blev 59 poster klassificeret som SCLC klasse, 30 poster tilhørte NSCLC klasse og 25 poster blev klassificeret som FÆLLES klasse. Efter fjernelse af dubletter, ubrugelige attributter og korrelerede egenskaber (data rengøring) antallet af protein funktioner faldt til 1089 funktioner
Attribut Vægtning
Data blev normaliseret før du kører modellerne.; Det var forventet, at alle vægte ville være mellem 0 og 1. Funktioner tog på i vægt værdier højere end 0,50 med mindst 50% af vægtning algoritmer betragtes som vigtige protein funktioner (Tabel S2).
uden opsyn Clustering Algoritmer
To forskellige ukontrollerede klyngedannelse algoritmer (K-midler og K-Medoids) blev anvendt på FCdb og ti datasæt skabt ved hjælp af valg attribut (vægtning) algoritmer. Ingen af klyngedannelse algoritmer kunne skelne fuldt de proteiner, der er involveret i alle typer af lunge tumor (tabel S3).
Tree Induktion Modeller
Fem træ induktion modeller (beslutning Tree, afgørelse Tree Parallel beslutning Stump, Random Tree og Random Forest) modtog FCdb og 10 datasæt, der genereres efter udførelse 10 attribut vægtning algoritmer. I alt 151 træer genereret (Random Forest model inkluderet selv 10 modeller)
Flere modeller inducerede enkle træer, mens andre var kompliceret.; 9 Afgørelse Tree og 35 Random Forest modeller var de bedste træer til klart at skelne mellem to kræftformer.
Fordeling af hydrofobicitet var den vigtigste egenskab bruges til at bygge træet når beslutningen Tree anvendte model til oplysninger Gain datasæt ( Figur 1). Når værdien for denne funktion var mere end 30,628, proteiner faldt i FÆLLES klasse. Autokorrelationen deskriptorer og dipeptid sammensætninger var de andre faktorer, der benyttes til at bygge resten af træet. Hvis sammensætningen af cystein-Glutaminsyre ([F1.2.1.24]: polar dipeptid) var mere end 0,087, proteinet tilhørte SCLC tumor og ellers faldt i NSCLC klasse. Sammensætning af polære dipeptider i NSCLC proteiner var mere end SCLC proteiner ([F1.2.1.218]: Met-Val) og overhånd, dipeptid sammensætninger af SCLC proteiner er mere polære end NSCLC proteiner ([F1.2.1.326]: Thr- Gly, [F1.2.1.98]: Phe-Val). . Detaljerne i denne model er blevet på nedenstående
Efter vigtige punkter kan udvindes fra tress generelt har disse resultater rapporteret for første gang:
F1.2 (dipeptid sammensætning), F3.1 (Moran autokorrelation) og F5.3 (distribution deskriptor) var de vigtigste protein, der anvendes af beslutningstræ modeller til at klassificere tre lungekræft klasser (SCLC, NSCLC, FÆLLES).
fordeling af hydrofobicitet (F5.3.1) i FÆLLES klasse var meget høj, mens fordelingen af afgifter (F5.3.5) var meget lav (figur 2).
Generelt sammensætningen af ikke-polære dipeptider i SCLC klasse blev mindre end FÆLLES proteiner og sammensætningen af polar dipeptid i SCLC associerede proteiner var højere end NSCLC klasse (figur 1).
i det første trin, hvis fordeling af afgift var lig med eller lavere end 22.703 proteiner faldt i FÆLLES klasse; dipeptid sammensætning var andre vigtige funktion til at tegne dette træ.
Machine Baseret Forudsigelse af Leave One-out 10 gange Cross Validation
nøjagtighed i alle inducerede forudsigelse algoritmer er præsenteret i tabel S4. Næsten de gennemsnitlige nøjagtighed i alle modeller viste nøjagtigheder højere end 60%. De laveste nøjagtigheder vundet når Stump afgørelse Tree model modtog Relief datasæt med Gini Index kriterier (41,89%). Det bedste forudsagt nøjagtighed opnås, når Random Forest afgørelse Tree model modtog Rule datasæt med Gain Ratio (86,00%)
Diskussion
Lungekræft kan groft inddeles i to grupper efter patologi:. Non -lille celle lungecancer (NSCLC) (80,4%) og småcellet lungecancer (16,8%) [31]. Patienter med ikke-småcellet tumor behandles anderledes end dem med små celle tumorer. Den patologiske sondring mellem småcellet lungecancer (SCLC) og ikke-småcellet lungekræft er derfor meget vigtigt [4]. Mange undersøgelser har anset for at klassifikation af lungecancer [16], [32], [33], [34], [35], [36], [37], [38], [39]. For eksempel har RNA ekspressionsmønstre forbundet med ikke-småcellet lungekræft sub klassifikation blevet rapporteret, men der er væsentlige forskelle i de vigtigste gener og kliniske funktioner i disse delmængder rejser tvivl om deres biologiske betydning. I denne undersøgelse for nylig, har en trænings-test tilgang, der anvendes til at teste pålideligheden af cDNA microarray-baserede klassifikationer af reseceret humane ikke-småcellet lungekræft (NSCLCs) analyseret af cDNA microarray. Disse resultater viste, at genekspression profilering kan identificere molekylære klasser af resektion NSCLCs der korrekt klassificerer en blindet test kohorte, og korrelerer med og supplerer standard histologisk evaluering [14]. Sammenfattende har omfattende og detaljeret støtte til tanken om, at genekspression-baserede klassifikation af tumorer snart vil blive klinisk nyttigt for lungekræft forudsat [4]. Molekylær klassifikation af NSCLC efter en objektiv kvantitativ test kan være meget præcise og kunne oversættes til en diagnostisk platform for en bred klinisk anvendelse [40].
Sequence-afledte strukturelle og fysisk-kemiske deskriptorer er ofte blevet brugt i machine learning forudsigelse af protein strukturelle og funktionelle grupper [19], [20], [21], [22], [23], [24], protein-protein interaktioner [24], [25], [26], [41], subcellulære steder [27], [28], [42], [43], peptider, der indeholder specifikke egenskaber [29], [44], microarray data [45] og protein sekundær struktur forudsigelse [46]. Disse beskrivende tjener til at repræsentere og skelne proteiner eller peptider af forskellige strukturelle, funktionelle og interaktion profiler ved at udforske deres fremtrædende funktioner i kompositioner, korrelationer, og fordelinger af de konstituerende aminosyrer og deres strukturelle og fysisk-kemiske egenskaber [18], [20], [ ,,,0],26], [30], og det viste sig, at i øjeblikket anvendes deskriptor-sæt er generelt nyttige til klassificering proteiner og forudsigelsen ydeevne kan forbedres ved at udforske kombinationer af deskriptorer [47].
i nærværende undersøgelse, vi brugte strukturelle og fysisk-kemiske egenskaber af proteiner, der involverer i alle typer af lungetumorer for klassificering af dem og detektering vigtigste proteinegenskaber som har deltaget i skelne af lungetumorer. Forskellige modelleringsteknikker blev anvendt til at studere 1497 attributter af proteiner, der er involveret i to og fire typer (upublicerede data) for lungekræft. Når antallet af variabler eller attributter er tilstrækkelig stor, er evnen til at behandle enheder væsentligt reduceret. Datarensning algoritmer blev anvendt til at fjerne korrelerede, ubrugelige eller duplikerede egenskaber, som resulterer i en mindre database [48], [49]. Ca. 15% af de attributter kasseret, når disse algoritmer er blevet anvendt på de oprindelige datasæt
Ti forskellige attribut vægtning anvendte modeller på endelige rengjort datasæt.; som hver algoritme anvender et bestemt mønster for at definere de vigtigste funktioner, således kan resultaterne være forskellige [50]. De har grupper af F5.3 (distributions- deskriptorer), F1.2 (dipeptid sammensætning) og F3.1 (autokorrelation) var de vigtigste attributter udvalgt af attribut vægtning modeller til at skelne mellem SCLC, NSCLC og FÆLLES klasser af lunge tumor typer, som defineret ved 80% af attribut vægtning algoritmer (tabel S2).
Desuden i de relevante beslutningsprocesser træer, kompatible resultater med attribut vægtning algoritmer blev vist, og det samme protein attribut grupper (F2.1, F3.1 , F5.3 og F1.2) valgt som de vigtigste egenskaber i klassifikation af lunge tumor proteiner. Desuden viste mest inducerede træer F5.3 attributter, distribution af hydrofobicitet tilfælles proteiner var meget høj og distribution af ladede rester i disse proteiner var meget lav, derfor resultaterne bekræftede proteiner fra FÆLLES klasse var meget hydrofobe.
betydningen af hydrofobicitet er blevet fremhævet i nogle undersøgelser [51], [52], [53]. Det er velkendt, at hydrofobicitet spiller en væsentlig rolle for egenskaberne af aminosyrer, peptider og proteiner. I en anden undersøgelse hydrofobe rester var dominerende i langsom vifte af foldning, og hydrofile rester ofte forekom i hurtig interval. Generelt det omgivende miljø af proteiner er vand. Typisk er sidekæderne af hydrofobe rester begravet i det indre af proteiner til dannelse af hydrofobe kerne, som er bortset fra vand, mens sidekæderne af hydrofile rester er udsat til overfladen af proteiner, som er tæt på vand molekylære [ ,,,0],54]. Derfor er resultaterne af vores undersøgelse, der for første gang, bekræfter, at det er vigtigt at hydrofobicitet ved at tillade hurtig foldning af den fælles proteiner mellem to typer af lunge tumorer og øge deres kapacitet til tumorigen ejendom.
Dipeptid sammensætning var andre vigtige protein har grupper valgt som en vigtig i nærværende undersøgelse. I vores seneste undersøgelser, vi viste, at specifikke dipeptider spille den centrale rolle i klassifikation af brystkræft og protein glorie stabilitet og termo stabilitet [10], [55], [56]. Betydningen af sekvens-baseret klassificering i detektion af forskellige proteiner udtrykt i brystkræft og betydningen af Ile-Ile dipeptid i klyngedannelse af proteiner, blev rapporteret der [10]. I dette papir, de fleste af beslutningstræ modeller viste, at sammensætningen af polar dipeptid i SCLC proteiner var mere end NSCLC proteiner og vice versa, hvilket resulterer NSCLC proteiner til at vise mere hydrofobicitet. Disse resultater har rapporteret for første gang, og kan være en af de vigtigste faktorer for at lette SCLC tumorer distribution.
I nærværende undersøgelse, autokorrelation deskriptor var en anden vigtig funktion gruppe for klassificering af lungetumorer. Autokorrelation deskriptorer er en klasse af topologiske deskriptorer, også kendt som molekylære tilslutningsmuligheder indekser, beskrive graden af korrelation mellem to objekter (protein eller peptid sekvenser) med hensyn til deres særlige strukturelle eller fysisk-kemisk egenskab [57], som er defineret på grundlag af fordelingen aminosyre egenskaber langs sekvensen [58]. Otte aminosyre egenskaber bruges til at udlede autokorrelationsfunktioner deskriptorer: hydrofobicitet skala [59]; gennemsnitlige fleksibilitetsindeks [60]; polariserbarhed parameter [61]; fri energi af aminosyreopløsning i vand [61]; restkoncentrationer tilgængelige arealer [62]; volumener amino syrerest [63]; steriske parametre [64]; og relativ foranderlighed [65]. En af nyere undersøgelse beviste, at Aasa (aminosyresekvens autokorrelation) information er meget effektiv til at repræsentere forholdet mellem proteinsekvensen og tilsvarende folde satser [54]. Så autokorrelationsegenskaber kan spille en vigtig rolle i foldning af tre lungekræft tumorer undersøgt her, og denne funktion er blevet rapporteret for første gang i denne undersøgelse. Autokorrelation tilgang havde succesfuld brug for modellering af molekylære egenskaber, biologiske aktiviteter [66], [67] og forudsigelse af protein helix indhold [68]. I en nylig undersøgelse, en metode til rekonstruktion af stammen fordeling ved at ændre autokorrelation teknik, “kombineret autokorrelation metode” foreslået. I forsøgene ved anvendelse af en tumor fantom og en ekstraheret brystvæv herunder en cancertumor, hver elasticitetsmodul billede opnået ved den kombinerede autokorrelation fremgangsmåden og 3-D finite element vævsmodel vises tydeligt regionen hårdere end omgivende bløde materiale eller væv. Disse resultater viser, at den kombinerede autokorrelation metoden er en lovende middel til diagnosticering af tumorer [69] som vist i dette dokument.
uden opsyn klyngedannelse algoritmer er ofte blevet anvendt i en række forskellige områder i de biologiske videnskaber, herunder diagnostik og billedbehandling [70], EST [71], kræft afsløring [72], promoter analyse [71], gen og protein bioinformatik [56], [73], [74], [75], [76]. Her har vi brugt to forskellige opsyn klyngedannelse metoder (K-midler og K-Medoids) på FCdb og 10 datasæt skabt af protein attributter, som blev tildelt høje vægte. Forestillingerne af disse algoritmer varierede betydeligt. Nogle metoder var i stand til næsten at tildele NSCLC protein i den korrekte klasse (for eksempel K-Medoids algoritme, når den anvendes til FCdb og afvigelse, Gini Index, Information Gain, PCA og usikkerhed datasæt). Resultaterne viste, at K-Medoids algoritme var næsten kunne klassificere SCLC proteiner i den korrekte klasse, når kører på Chi Squared datasæt. Men ingen af clustering algoritme var i stand til at klassificere FÆLLES proteiner i respektive klasse (tabel S3) korrekt. For mere nøjagtig gruppering af proteiner, der tilhørte alle typer af lungetumorer, andre klyngedannelse modeller som EM anvendt på data med højere nøjagtighed (upublicerede data).
Som vist i tabel S4, de overordnede nøjagtigheder for træ induktion
Leave a Reply
Du skal være logget ind for at skrive en kommentar.