Abstrakt
Nylige undersøgelser tyder på, at deregulering af veje, i stedet for enkelte gener, kan være kritisk i at udløse carcinogenese. Den vej deregulering er ofte forårsaget af den samtidige deregulering af mere end ét gen i reaktionsvejen. Dette antyder, at robust gen par kombinationer kan udnytte de underliggende bio-molekylære reaktioner, der er relevante for vejen deregulering og dermed de kunne give bedre biomarkører for kræft, i forhold til de enkelte gener. For at validere denne hypotese, i dette papir, vi brugte gen par kombinationer, kaldet dubletter, som input til algoritmer de kræft klassificering, i stedet for de oprindelige udtryk værdier, og vi viste, at klassificeringen nøjagtighed konsekvent blev forbedret på tværs af forskellige datasæt og klassifikation algoritmer. Vi godkendt det foreslåede tilgang med ni kræft datasæt og fem klassificering algoritmer herunder Prediction Analyse for Microarrays (PAM), C4.5 afgørelse Træer (DT), Naive Bayes (NB), Support Vector Machine (SVM), og k-Nærmeste nabo (
k-
NN)
Henvisning:. Chopra P, Lee J, Kang J, Lee S (2010) Forbedring Cancer Klassifikation Nøjagtighed Brug genpar. PLoS ONE 5 (12): e14305. doi: 10,1371 /journal.pone.0014305
Redaktør: Joel S. Bader, Johns Hopkins University, USA
Modtaget: Februar 2, 2010; Accepteret: November 18, 2010; Udgivet: December 21, 2010
Copyright: © 2010 Chopra et al. Dette er en åben adgang artiklen distribueres under betingelserne i Creative Commons Attribution License, som tillader ubegrænset brug, distribution og reproduktion i ethvert medie, forudsat den oprindelige forfatter og kilde krediteres
Finansiering:. Dette arbejde blev støttet af Second Brain Sydkorea 21 Project Grant, en Microsoft Research Asia Grant, en Grundforskningsfonden Korea (NRF) tilskud finansieret af den koreanske regering (MEST) (2010 til 0.015.713, 2009 til 0.086.140), og en Korea Science and Engineering Foundation (KOSEF) tilskud finansieret af den koreanske regering (MEST) (R01-2008-000-20564-0). De finansieringskilder havde ingen rolle i studie design, indsamling og analyse af data, beslutning om at offentliggøre, eller forberedelse af manuskriptet
Konkurrerende interesser:.. Forfatterne har erklæret, at der ikke findes konkurrerende interesser
Introduktion
brugen af mikromatrice har resulteret i identifikation og overvågning af talrige kræft markørgener. Disse gener er ofte blevet brugt til at differentiere ikke kun cancrøse vævsprøver fra normale sunde dem, men også mellem forskellige undertyper af kræft [1] – [3]. Fra et diagnostisk synspunkt er det vigtigt at identificere korrekt kræft væv, så der kan gives så tidligt som muligt den mest hensigtsmæssige behandling.
Talrige klassificører er blevet foreslået og evalueret for deres komparative nøjagtighed i korrekt at identificere kræft tumorer [4] – [7]. Den mest fremtrædende af disse klassificører er PAM [8], SVM [9], [10],
k-
NN [11], DT [12], Top Scoring Pair (TSP) [13], og
k-
Top Scoring Pair (
k-
TSP) [6]. Resultaterne fra disse undersøgelser indikerer, at der ikke findes én klassifikator, der har den højeste nøjagtighed for alle microarray ekspressions datasæt. I dette papir, introducerer vi en ny metode, der bruger genpar at forbedre den samlede nøjagtighed eksisterende metoder klassificeringsreglerne uden at ændre de underliggende algoritmer.
Nyere forskning har vist, at biomolekylære veje kan være stærkere biomarkører for kræft, som sammenlignet med dereguleringen af enkelte gener [14]. Dereguleringen af en anden undergruppe af gener, der er forbundet med den samme vej, kan resultere i deregulering af omsætningsvejen. Inspektion gen kombinationer kan således være mere effektiv for klassificering kræft i forhold til selvstændigt at inspicere de enkelte gener. Motiveret af, at den foreslåede metode anvender informationen afledt af kombinationerne genpar, i stedet for de oprindelige udtryk værdier af generne. Vi bruger den afledte oplysninger som input til de eksisterende metoder klassificering. Vi viser, at disse gen par kombinationer, kaldet dubletter, konsekvent forbedre klassificeringen nøjagtigheden af eksisterende algoritmer klassificering.
Betydningen af den foreslåede metode er, at vi uden at ændre de underliggende klassificering algoritmer kan forbedre ydelsen af den markant algoritmer ved blot at konstruere dubletter og ved at bruge dem som input i stedet for de rå genekspression værdier. De dubletter kan konstrueres på forskellige måder. I dette papir, vi eksperimenterede med tre forskellige typer af dubletter:
sumdiff
,
mul
tilmelde
dubletter.
sumdiff
dubletter konstrueres ved at tage summen og differencen af alle par af genet ekspressionsvektorer, således at en dublet er repræsenteret som en vektor sum eller en forskel i to genvektorer.
mul
dubletter er ligeledes konstrueret ved at tage multiplikation, og
tilmelder
dubletter er konstrueret ved at tage tegnene på forskellene i de to gen-vektorer. Se afsnittet “Materialer og metoder” for flere detaljer.
Resultater
LOOCV Hotel (
Lad One Out Cross Validering
) blev udført for at måle nøjagtigheden af dublet-baserede klassificering. For at teste en prøve, alle prøver, men det prøvede, anvendes til at beregne den af gener, og generne er arrangeret i overensstemmelse med de nedstigende absolutte værdier af scorerne. Formlen bruges til at beregne denne score er (1), hvor repræsenterer klassen betyder; repræsenterer afvigelser; og repræsenterer antallet af prøver til de to klasser og Hhv.
Vi udvælger derefter den øverste 0,2%, 0,4%, 0,6%, 0,8%, 1%, 2%, 4%, 10% af samlede antal gener i datasættet for at gøre dubletter. Vi beskære yderligere dubletter, så ingen gen forekommer mere end én gang i det sidste sæt af dubletter. Algoritmen vi bruger til at formulere disse unikke dubletter fra den oprindelige microarray udtryk datasæt er skitseret som nedenfor
Input
:. Gene Expression Matrix med gener og prøver, klasse vektor for prøverne og for antal af de gener, der er nødvendige for analyse
Output
:.. Unikke dubletter
1. Beregn t-scorer for matrix ved hjælp af klasse vektor
2. Lav en ordnet liste over alle de gener, i faldende værdi af deres absolutte t-score.
3. Tag de øverste gener fra ordnet liste, og udtrække deres udtryk værdier fra. Den nye udtryk matrix har rækker og kolonner.
4. Gør dubletter fra at få en ny matrix, med rækker og kolonner.
5. Beregn t-scorer for matrix ved hjælp af klasse vektor.
6. Lav en ordnet liste over alle dubletter i, i faldende værdi af deres absolutte t-score.
7. Initialiser som en tom liste.
8. forall
dubletter
i
do (i faldende absolut t-score rækkefølge); Hvis ingen af generne i dublet er i, derefter tilføje dublet til
9. Retur
Nøjagtigheden af de oprindelige algoritmer måles ved hjælp af alle de rå udtryk værdier af generne som input. Vi skal henvise til nøjagtigheden af den oprindelige algoritme, for eksempel til PAM, som PAM, og nøjagtigheden opnået ved hjælp af
sumdiff /mul /tilmelde
dubletter som input til PAM som
sumdiff /mul /tegn-
PAM henholdsvis. Figur 1 sammenligner nøjagtigheden af standard PAM klassificeringen til den for
sumdiff /mul /tegn-
PAM, opnås ved at tage de bedste% gener, for de ni datasæt er anført i tabel 1. Det kan ses, at selv tager en lille procentdel af de øverste gener og gøre dubletter kunne forbedre effektiviteten af PAM.
sumdiff /mul /tegn-
PAM klassificeringen udkonkurrerer standard PAM klassificeringen i mange datasæt.
For de to datasæt, CNS og DLBCL, denne gevinst er betydelig. For eksempel, med
tegn-
PAM hjælp top 2% gener, nøjagtigheden er steget fra 82,4% til 91,2% for CNS datasættet; og for DLBCL datasæt, er nøjagtigheden steget fra 85,5% til 97,4%. Den gennemsnitlige nøjagtighed PAM klassificeringen for de ni datasæt er steget fra 88,7% til 90,6%, 89,3% og 91,7% med
sumdiff
,
mul
tegn-
PAM med top 2% gener, henholdsvis.
Vi kan gøre to observationer fra dette resultat. Kun et lille antal af de øverste gener er nødvendige for at opnå forbedringer, og at forbedringerne er ret konsekvent på tværs af datasæt. For at vise, om disse observationer er stadig gyldige for andre metoder klassificering, vi udførte de samme eksperimenter ved hjælp af forskellige klassifikationssystemer metoder, herunder DT, NB, SVM og
k-
NN klassificører.
Figur 2 viser sammenligning resultater med DT. Nøjagtigheden af DT konsekvent forbedret på tværs af de ni datasæt. I nogle tilfælde forbedringerne var signifikante. For eksempel,
sumdiff-
DT forbedret nøjagtigheden af DT fra 64,8% til 77,3% i Pros.2 datasæt ved hjælp af de øverste 4% gener; fra 73,6% til 93,1% i leukæmi datasæt med kun de øverste 0,2% gener; og fra 80,5% til 98,7% i DLBCL datasæt med kun de øverste 0,2% gener. Tilsvarende
multi-
DT forbedret nøjagtigheden af DT fra 64,8% til 84,1% i Pros.2 datasæt ved hjælp af de øverste 0,4% gener; fra 84,9% til 100% i Pros.3 datasæt med de øverste 0,4% gener; og fra 80,5% til 97,4% i DLBCL datasæt med de øverste 1% gener. Endelig
tegn-
DT forbedret nøjagtigheden af DT fra 84,9% til 97,0% i Pros.3 datasæt ved hjælp af de øverste 0,2% gener; fra 73,6% til 95,8% i leukæmi datasæt med de øverste 0,6% gener; og fra 77,4% til 93,6% i Colon datasæt med de øverste 0,6% gener. I gennemsnit over ni datasæt blev nøjagtigheden af DT forbedret fra 78,9% til 85,2%, 84,2% og 89,1% ved hjælp af
sumdiff
,
mul
tilmelde
dubletter med de øverste 0,8% gener henholdsvis.
Tilsvarende for NB, nøjagtigheden blev væsentligt forbedret med
sumdiff
og
mul
dubletter. Resultatet er vist i figur 3. En interessant observation vi gjort, er, at for NB
sign
dubletter har konsekvent klaret sig dårligere end de andre uafhængige af antallet af de øverste gener anvendes til dublet generation. Dette skyldes, at
sign
dubletter omdanne udtrykket værdier til binære variable angiver rækkefølgen af ekspressionsniveauet mellem generne i genpar og de transformerede binære værdier ikke beholder nok information til at beregne klasse sandsynlighed der anvendes til klassificering . Således
tilmelder
dubletter er ikke egnede til de NB klassificører. Ikke desto mindre ydeevne gevinster med
sumdiff
mul
dubletter var betydelig. I Pros.1 datasæt, både
sumdiff /multi-
NB forbedret nøjagtigheden fra 62,8% til 91,2% med de øverste 0,2% gener; i Colon datasæt blev nøjagtigheden forbedret fra 56,5% til 87,1% og 88,7% med de øverste 1% gener, hhv. Endelig i DLBCL datasættet blev nøjagtigheden forbedret fra 80,5% til 96,1% og 92,2% med de øverste 0,2% gener, hhv. I gennemsnit blev nøjagtigheden forbedret fra 81% til 90,7% og 89,5% med
sumdiff
og
mul
dubletter med de øverste 0,2% gener, henholdsvis.
SVM er kendt for at være en af de mest robuste klassifikatorer på mange områder. Selv om dens præstation var overbevisende i sig selv, bemærkede vi, at vores dublet tilgang i nogle tilfælde forbedret sine resultater markant. Resultatet er vist i figur 4. I Colon datasæt, udførelsen gain var mest slående. Nøjagtigheden blev forbedret fra 82,3% til 87,1%, 87,1% og 93,6% med
sumdiff /mul /tegn
dubletter med de øverste 1% gener, hhv. I Pros.2 datasæt blev nøjagtigheden forbedret fra 76,1% til 80,7%, 84,1% og 85,2% med top 8%, 0,2% og 1% generne. I gennemsnit blev nøjagtigheden forbedret fra 91,2% til 92%, 91,9%, og 89,4% med
sumdiff /mul /tilmelde
dubletter med de øverste 4% gener, henholdsvis.
Endelig for
k-
NN, det samme blev observeret, som er vist i figur 5. for
k-
NN, ydeevne gevinst var betydelig i næsten alle datasæt. For eksempel, i leukæmi datasættet blev nøjagtigheden forbedret fra 84,7% til 98,6%, 98,6% og 100% med
sumdiff /mul /tegn
dubletter med top 2%, 0,8% og 0,2% gener , henholdsvis. I gennemsnit blev nøjagtigheden forbedret fra 84,3% til 91%, 90,1% og 90,7% med
sumdiff /mul /tilmelde
dubletter med de øverste 4% gener, henholdsvis.
Andre end den
tilmelder
dubletter i NB klassificeringen, brug af tre dubletter førte til forbedret ydeevne af baseline klassificører. Baseline classifiers gennemsnitlige nøjagtighed satser i de ni datasæt varierede fra 79% til 91% (dvs. DT = 79%, KNN = 84%, NB = 81%, SVM = 91%, og PAM = 89%). På den anden side, deres gennemsnitlige priser med dubletter svævede på et højere interval, eller fra 89% til 92% (dvs.
tegn-
DT = 89%,
sumdiff-
KNN = 91 %,
sumdiff-
NB = 89%,
sumdiff-
SVM = 92%, og
multi-
PAM = 90%; alle tal med top 4% gener ). Baseline klassifikatorer viste en betydelig forskel i ydelse mellem dem. Når det kommer til dubletter, blev imidlertid forskellen minimeret og ydeevnen blev forbedret. Alle de tre dublet typer næsten lige bidraget til forbedret ydeevne på tværs af forskellige datasæt (undtagen
tilmelde
dubletter i NB).
sumdiff /mul /tilmelde
dubletter med de øverste 4% gener markeret gennemsnitlige nøjagtighed over fem klassificører på 88,7% (std. 3,4), 88,5% (std. 3.8), og 85,4% (std. 9.9 ), henholdsvis.
sumdiff
dubletter viste en lidt bedre ydeevne end de andre gjorde. Dette resultat er muligvis henføres til følgende forhold:
sumdiff
dubletter fange begge opad og nedad relationer (dvs. op-op, ned og ned, og op-ned) og de ordre forbindelser udtryk værdier for hvert gen par. Tværtimod
mul
dubletter fange den tidligere alene, og
tilmelde
dubletter fange sidstnævnte alene. (Se afsnittet Materialer for flere detaljer.)
Diskussion
En nylig undersøgelse foreslået, at vejen niveau deregulering er vigtigere for carcinogenese end dereguleringen af enkelte gener [14]. En pathway typisk dereguleret i deregulering af mere end et gen, der er associeret med denne vej. Dette understøtter vores motivation for at bruge dubletter som funktioner for klassificering, som de dubletter kunne erobre potentielt mere information om vejen niveau deregulering end de enkelte gener. I denne undersøgelse imidlertid dubletter blev samlet fra forskellige veje; nemlig ikke begrænset til dem af genpar tilhørende samme veje. Ved at lade alle mulige genkombinationer, vi har forsøgt at indfange ikke kun de direkte intra-pathway interaktioner, men også nogle af de mulige indirekte inter-pathway sammenslutninger. Vi planlægger at forfølge i vores fremtidige arbejde, de tilfælde, hvor der anvendes kun de intra-pathway dubletter.
En række uafhængige undersøgelser har bekræftet effektiviteten af at kombinere genpar. Zhou og hendes kolleger har indført en teknik kaldet
anden ordens korrelationsanalyse
hvor parvise korrelationer af gener er brugt til den funktionelle klassificering af gener [15]. Deres tilgang fungerer, som følger: Første beregnet er alle parvise korrelationer af gener inden for hver dataset (1. orden korrelationer); så er de korrelation mønstre analyseres på tværs af flere datasæt (2. ordens korrelationer). Udvælgelse er lavet af genpar, der viser høje korrelationer i flere datasæt, og de udvalgte danner dubletter. En dublet er repræsenteret som en vektor, således at dens dimension og værdi henholdsvis svarer til et dataset og korrelationen værdi genparret i den tilsvarende datasæt. De dubletter sættes derefter under anvendelse korrelationen som lighed metric. De dubletter grupperet sammen anses for at dele lignende funktioner, fordi de er slået-og slukkes kollektivt tværs datasæt.
Vi har også udviklet microarray dataintegration teknikker, der udnytter inter-gen relationer, såsom
korrelation signatur
[16] og
signatur terning
[17].
korrelation signatur
projekter heterogene microarray udtryk data på en sammenhængende information rum, hvor et gen er repræsenteret af vektor af sine korrelationer mod en række skelsættende gener. Hvis der anvendes det samme sæt af vartegn, heterogene microarray datasæt, som ikke kunne have været direkte kombineret, kan integreres, fordi korrelation underskrifter af generne har kompatible dimensioner.
signatur terning
generaliserer principperne i sammenhængen signatur ved at give en heterogen microarray data mining rammer, hvor data er repræsenteret i relative termer (dvs. inter-gen relationer). Således minedrift algoritme er sammenhængende anvendelig hele datasæt. Udover integration af microarray data, vi også har anvendt princippet til klyngedannelse problemet og har indført en ny klyngedannelse ramme,
SignatureClust
[18].
SignatureClust
klynger microarray data efter projicere det ind i en signatur rum defineret ved et sæt skelsættende gener valgt af brugeren, så biologer at få forskellige perspektiver af de samme underliggende data blot ved at ændre skelsættende gener.
det er også blevet bevist, at den inter-genet oplysninger er nyttige med henblik kræft klassificering.
k-
TSP udnytter ændringer i ekspressionsniveauerne af genpar for at forbedre klassificeringen nøjagtighed [6].
k-
TSP klassificeringen bruger genpar, der ligner vores
sign
dubletter.
k-
TSP klassificeringen identificerer genpar, hvis udtryk ordrer konsekvent vendt på tværs af klasser; dvs. hvis i de fleste af kontrolprøver og i de fleste af kræft prøver, derefter på
k-
TSP klassificeringen vidt genparret og som en god indikator for klasserne.
k-
TSP klassificeringen finder de top-par, der er nævnt som TSP (Top Scoring Pairs), og det bruger dem til at bestemme klasserne.
k-
TSP klassificeringen kombinerer forudsigelsen af hver TSP hjælp afstemningen uvægtede flertal for at bestemme den endelige klasse af en prøve. For nylig,
k-
TSP algoritme er også blevet anvendt til at forbedre klassificeringen nøjagtigheden af SVM klassificeringen [19].
Vores metode er forskellig fra den
k-
TSP klassificeringen i tre vigtige aspekter. Først -TSP designet til at arbejde med kun én type gen parring (svarende til vores
tilmelder
dubletter), mens vores metode ikke er begrænset til bestemte typer af parring. I dette papir, har vi defineret tre dubletter, dvs.
sumdiff
,
mul
tilmelde
, men forskellige andre dubletter kan også bruges med den foreslåede ramme. For det andet, vores metode bruger eksisterende veletablerede klassificører i stedet for at udtænke nye klassifikationsmodeller. Dette blev gjort muligt, fordi vores metode adskiller gen parring trin (dvs. feature extraction trin) fra klassificeringen model byggeri. Endelig
k-
TSP klassificeringen bruger frekvens som en parameter for at tildele score til deres genpar, mens vi bruger pålidelig
t-scoringer
. Tabel 2 opsummerer nøjagtighed resultaterne af dubletter og baseline klassificører samt nøjagtigheden af TSP og
k-
TSP. TSP refererer til det tilfælde, hvor kun den mest indflydelsesrige TSP blev brugt til klassificering. Den TSP og
k-
TSP klassificører rapporterede en robust ydeevne, bedre end de fleste af de baseline klassificører. Stadig, de to klassificører falder kort i forbindelse med vores undersøgelse. Denne undersøgelse er vigtig, idet det blev påvist, at en simpel dublet-baserede feature extraction metode bemærkelsesværdigt forbedrer nøjagtigheden af konventionelle klassificører hele vejen op til det niveau af algoritmer specialiserede klassificering som TSP og
k-
TSP.
de øverste 15 dubletter og deres tilknyttede Kegg veje for CNS datasæt er vist i tabel 3. En mulig forklaring på, hvorfor dublet nøjagtighed er højere end de grundlæggende klassificører kunne være, at de veje der er forbundet med hvert element af dubletten eller anden måde er låst sammen med hinanden, og derfor udgør en mere robust biomarkør i forhold til hver af de veje, der er truffet individuelt. Men en mere robust undersøgelse, før nogen hypotese kan valideres. I vores fremtidige arbejde, vi har til hensigt at gennemføre en systematisk analyse af disse top dubletter, deres tilknyttede veje og deres mulige forbindelser til kræft.
Vi har vist, at kombinere udtryk data fra genpar øger nøjagtigheden af klassificører. Vi har også vist, at forøgelse af antallet af gener til fremstilling af dubletter ikke nødvendigvis resultere i en tilsvarende forøgelse af nøjagtighed. Dette er vigtigt, fordi vi kan få en meget høj nøjagtighed, selv om vi bruger en meget lille delmængde af det samlede antal gener. Således den beregningsmæssige kompleksitet computing dubletter, som potentielt kan være kvadratisk til det samlede antal gener i datasættet, er ikke kritisk, da der kun anvendes en meget lille delmængde af generne.
Generne omfatter toppen dubletter giver også let fortolkelige resultater i forhold til andre metoder såsom SVM. Selv SVM kan give en højere nøjagtighed end andre, det er hovedsagelig en sort boks og ingen indsigt kan opnås med hensyn til biomarkør gener. Dubletter, på den anden side, er let fortolkelige. Doublets identificere, hvilke gener, og som genpar kan tjene som biomarkører for tumor klassificering.
I fremtiden planlægger vi at analysere disse dubletter tværs datasæt og kræft typer at vælge mere robuste kræft biomarkør genpar. Især undersøger vi, hvordan de enkelte dubletter kort til reelle geners forbindelser, såsom undertrykkelse eller stimulering, og hvordan relationerne funktion med hensyn til carcinogenese. Det er endvidere hensigten at eksamen effektiviteten af dubletter ved klassificering multi-class kræft datasæt.
Konklusion
bidrag dette papir er dobbelt. For det første har det indført dubletter, en hidtil ukendt fremgangsmåde til at kombinere udtryk data fra genpar. Genpar er mere robuste biomarkører i forhold til individuelle gener, måske afspejler, at gener interagerer at udføre en molekylær funktion og dereguleringen af generne i interaktionen, snarere end uafhængige gener, kan være ansvarlige for deregulering de kritiske veje. For det andet har vi kombineret dubletter med konventionelle klassifikatorer at producere klassificører hvis nøjagtighed er større end den af de originale. Vi valideret rammerne hjælp fem kendte klassifikatorer herunder PAM, DT, NB, SVM, og KNN. Vi viste, at dubletter let kan integreres i de eksisterende klassificører uden at skulle ændre de underliggende algoritmer, og at brug af dubletter kan konsekvent forbedre klassificeringen nøjagtighed af de oprindelige algoritmer på tværs af forskellige datasæt.
Materialer og metoder
Gene Doublets
Lad der være
N
gener i en vævsprøve, og lad der være
M
sådanne vævsprøver. Kræft datasæt kunne så være repræsenteret som matrix af dimension. Så ville betegne udtrykket værdien af
jeg
th gen, i
j
th prøve,. Genet vektor = ville betegne udtrykket værdien af
jeg
th gen på tværs af de
M
vævsprøver, og kolonnen vektor = ville repræsentere
j
th vævsprøve tværs af
N
gener. Klassen etiketter til vævsprøverne er repræsenteret af vektor =, hvor, det sæt af alle klasse etiketter. Til vores binære problem klassificering, hvor betegner kræft og betegner normale vævsprøver.
For hvert par af gener i et datasæt, definerer vi en positiv dublet vektor og en negativ dublet vektor som (2) (3)
således vores datasæt med gener, har vi positive dubletter og negative dubletter, og vores oprindelige microarray datasæt for dimension er omdannet til en matrix. Hver række i denne nye matrix repræsenterer en dublet (positiv eller negativ). Vi betegner denne matrix som, med dimension, hvor; Således er de definerede dubletter kendt som
sumdiff
dubletter. I en anden variation af at gøre dubletter, vi definerer
mul
dubletter som: (4) og
melde
dubletter som: (5)
sumdiff
dubletter fange up-op, ned-ned (dvs. positive dubletter) og op-ned (dvs. negativ dubletter) relationer af udtrykket værdier genpar. Endvidere er de negative dubletter fange rækkefølgen af udtryk værdier mellem generne i genparret. Venligst bemærkes, at de datasæt blev bearbejdet til at have en værdi på mindst 10 og højst 16.000. Derefter blev de værdier omregnes igennem. Derefter blev alle prøverne standardiseret til nul middelværdi og enhed varians.
mul
dubletter ikke kun fange de up-op, ned-ned, og op-ned relationer genpar, men også forstærke relationerne gennem multiplikation. Men den
mul
dubletter ikke fange udtrykket ordrer mellem gener. På den anden side,
underskrive
dubletter fange de inter-genekspression ordrer alene.
microarraydata og klassifikation Metoder
microarray data er taget fra flere undersøgelser, som er vist i tabel 1. det er de samme datasæt, der blev anvendt i [6] til sammenligning TSP og
k-
TSP med forskellige klassifikatorer. Mikroarrayene består af udtryk data for vævene forbundet med colon, blod, lunge, bryst, prostata, og cancer i centralnervesystemet. Antallet af prøver og antallet af gener i hver undersøgelse er også vist i tabel 1. For de grundlæggende klassificører, vi brugte de implementeringer tilgængelige i BioConductor (for PAM) [20] og Weka (for DT, NB, SVM og KNN) [21].
Klassifikation nøjagtighed
Vi bruger
LOOCV Hotel (
Lad One Out Cross Validering
) metode til at estimere klassificeringen nøjagtighed. For hver prøve i datasættet, bruger vi resten af prøverne i datasættet til at forudsige klassen af prøven. Klassificeringen nøjagtighed hvert datasæt er forholdet mellem antallet af de klassificeres korrekt prøver (Ægte positiver + Ægte negativer) til det samlede antal prøver i datasættet.
Tak
Dette papir er en væsentligt udvidet version af vores indledende arbejde præsenteres i IEEE International Conference 2009 om Bioinformatik og biomedicin [22]. Papiret præsenteret i konferencen introducerede de foreløbige resultater kun begrænset til en bestemt klassificering algoritme, PAM. I denne udvidede papir, vi generaliserede resultater ved at vise, at den afledte oplysninger fra robuste genpar kunne forbedre nøjagtigheden af klassificering kræft uafhængig af algoritmer de underliggende klassificering. Vi drøftede også fortolkningen af genpar i de meget vejledende dubletter og deres forbindelse med kræft.
Leave a Reply
Du skal være logget ind for at skrive en kommentar.