PLoS ONE: Risikovurdering af gastrisk kræft forårsaget af Helicobacter pylori hjælp CagA Sequence Markers

Abstrakt

Baggrund

Som en markør for

Helicobacter pylori

, Cytotoksin-associeret gen A (CagA) er blevet afsløret for at være den vigtigste virulens faktor, der forårsager gastroduodenale sygdomme. Imidlertid er de molekylære mekanismer, der ligger til grund for udviklingen af ​​forskellige gastroduodenale sygdomme forårsaget af CagA-positive

H. pylori

infektion fortsat ukendt. Aktuelle undersøgelser er begrænset til evalueringen af ​​korrelationen mellem sygdomme og antallet af Glu-Pro-Ile-Tyr-Ala (EPIYA) motiver i CagA stamme. For yderligere at forstå forholdet mellem CagA sekvens og dens virulens til mavekræft, foreslog vi en systematisk entropi tilgang til at identificere de kræftrelaterede rester i de mellemliggende regioner CagA og ansat en overvåget maskine indlæringsmetode for kræft og ikke-kræfttilfælde klassificering.

Metode

En entropi-baserede beregning blev anvendt til at påvise vigtige rester af CagA mellemliggende sekvenser som mavekræft biomarkør. For hver rest, blev både kombinatorisk entropi og baggrund entropi beregnes, og entropien forskel blev anvendt som kriterium for udvælgelse funktion rest. De har værdier blev derefter ført ind Support Vector Machines (SVM) med Radial Basis Function (RBF) kerne, og to parametre blev tunet til at opnå den optimale F-værdi ved hjælp af gitter søgning. To andre populære klassificering sekvens metoder, BLAST og HMMER, blev også anvendt til de samme data til sammenligning.

Konklusion

Vores metode opnåede 76% og 71% klassificering nøjagtighed for vestlige og østasiatiske undertyper, henholdsvis som udføres betydeligt bedre end BLAST og HMMER. Denne forskning viser, at små variationer af aminosyrer i disse vigtige rester kan føre til virulens variansen af ​​CagA stammer resulterer i forskellige gastroduodenale sygdomme. Denne undersøgelse giver ikke kun et nyttigt redskab til at forudsige sammenhængen mellem romanen CagA stamme og sygdomme, men også en generel ny ramme til påvisning af biologiske sekvens biomarkører i befolkningsundersøgelser

Henvisning:. Zhang C, Xu S, Xu D (2012) risikovurdering af gastrisk kræft forårsaget af

Helicobacter pylori

Brug CagA Sequence Markers. PLoS ONE 7 (5): e36844. doi: 10,1371 /journal.pone.0036844

Redaktør: Niyaz Ahmed, University of Hyderabad, Indien

Modtaget: November 13, 2011; Accepteret 11. april 2012; Udgivet: 15. maj 2012 |

Copyright: © 2012 Zhang et al. Dette er en åben adgang artiklen distribueres under betingelserne i Creative Commons Attribution License, som tillader ubegrænset brug, distribution og reproduktion i ethvert medie, forudsat den oprindelige forfatter og kilde krediteres

Finansiering:. Dette arbejde blev delvist støttet af US National Institute of Health [tilskud nummer R21 /R33 GM078601] og internationale udveksling og samarbejde Office of Nanjing Medical University, Kina. De finansieringskilder havde ingen rolle i studie design, indsamling og analyse af data, beslutning om at offentliggøre, eller forberedelse af manuskriptet

Konkurrerende interesser:.. Forfatterne har erklæret, at der ikke findes konkurrerende interesser

Introduktion

Helicobacter pylori (H. pylori)

er en Gram-negativ spiral-formet bakterie bebor den menneskelige mave og inficerer mere end halvdelen af ​​verdens befolkning [1], [2], [ ,,,0],3]. Nylige undersøgelser har vist, at det er forbundet med gastroduodenale sygdomme, herunder sår på tolvfingertarmen [4], mavesår [5] og kronisk gastritis. Endnu vigtigere er det en væsentlig risikofaktor for at udvikle kræft gastrisk [6], [7], [8]. Det er blevet klassificeret som et klasse 1 kræftfremkaldende for mennesker af WHO siden 1994 [1].

Som en markør for

H. pylori

, cytotoksinet-associeret gen A (CagA) er blevet afsløret ved yderligere analyse for at være den største virulensfaktor.

H. pylori

stammer, der bærer den CagA genet øger risikoen faktor gastroduodenale sygdomme ved tre folder løbet CagA-negative stammer [6], [9], [10]. CagA, der kodes af CagA-genet, er et 125-140 kDa protein. Det indeholder 1142-1320 aminosyrer og har en variabel region ved den C-terminale region, hvor forskellige korte sekvenser (såsom EPIYA motiv) gentages 1-7 gange. Efter

H. pylori

koloniserer på overfladen af ​​den gastriske epitel, kan CagA translokeres ind i gastriske epitelceller gennem en type IV sekretion system. Når injiceret i værtscellen, CagA lokaliseres til plasmamembranen og kan phosphoryleres af Src-familien tyrosinkinaser om de specifikke tyrosinrester af en fem-aminosyre (EPIYA) motiv [11], [12], [13] , [14]. Tyrosin-phosphoryleret CagA binder derefter specifikt til SHP-2-phosphatase 11,15 for at aktivere en phosphorylase, som forårsager kaskade virkning som forstyrrer signaltransduktionsvejen af ​​værtscellen, hvilket fører til en omstrukturering af værtscellen cytoskelet og dannelse af kolibri fænotype [11], [16]. Samtidig gennem aktivering mitogenaktiveret proteinkinase (MAPK), ekstracellulær signal-reguleret kinase (ERK) [17] og fokal adhæsionkinase (FAK), CagA også kan forårsage celle dissociation og infiltrativ tumorvækst [18], [19 ], [20], [21]. En sådan proces gør CagA en vigtigste virulensfaktor hos

H. pylori

[22].

Inden den variable region af CagA, der er nogle forskellige mellemliggende sekvenser mellem disse EPIYA motiver. Et eksemplar af EPIYA plus mellemliggende sekvens er identificeret som en EPIYA segment. Fire unikke typer EPIYA segmenter er blevet fundet i CagA, defineret som EPIYA-A, -B, -C og -D [11]. Den CagA isoleret fra østasiatiske lande, der er udpeget som Østasiatisk CagA, indeholder EPIYA-A, EPIYA-B og EPIYA-D motiver. Den CagA fra vestlige lande, EPIYA-D, erstattes med EPIYA-C. Stærkere phosphorylering motiv bindingsaktivitet EPIYA-D-motivet medfører større morfologiske ændringer end hvad EPIYA-C-motivet kan forårsage i inficerede celler [11]. Det er denne EPIYA-D motiv øgede bindende aktivitet og deraf følgende morfologiske ændringer, der identificerer den som en potentiel faktor til at forklare den højere forekomst af mavekræft i østasiatiske lande [23], [24].

Tidligere undersøgelser viste en variation i antallet af EPIYA motiv gentagelser for både øst asiatiske og vestlige CagA, hvilket kan påvirke biologiske aktiviteter. Yamaoka et al. [25] fandt, at i Columbia og USA, evne CagA-positive

H. pylori

at forårsage gastrisk mucosal atrofi og tarm metaplasi kan være relateret til antallet af EPIYA motiver i CagA stamme. Argent et al. [16] kom til den samme konklusion senere. Imidlertid blev strid udtalelser udgivet af Lai et al. [26] baseret på resultaterne af ingen relation mellem antallet af EPIYA motiver i CagA stamme og klinisk sygdom inden 58 isolater fra Taiwan. I betragtning af størrelsen og den geografiske begrænsning af disse undersøgelser, gyldigheden af ​​denne konklusion er tvivlsom. Bortset fra antallet af EPIYA motiv gentagelser, sekvensen forskel på stammer i variable regioner også kan forårsage en væsentlig forskel på virulens, som kunne vedrøre de forskellige patogene evner

H. pylori

[27].

På grund af de komplekse og varierende sekvenser i CagA, forholdet mellem polymorfi af CagA og kliniske sygdomme bliver en meget interessant problemstilling. Imidlertid er de molekylære mekanismer, der ligger bag forskellige gastroduodenale sygdomme forårsaget af CagA-positive

H. pylori

infektion fortsat ukendt. Indtil nu de fleste undersøgelser stadig er begrænset til opdagelsen eller evaluering af sammenhængen mellem antallet af CagA EPIYA motiver og sygdomme [28].

I dette papir, foreslår vi en systematisk metode til at analysere ikke blot antallet af EPIYA motiver i CagA sekvenser, men også den specifikke sekvens mønstre af mellemliggende regioner. Først introducerer vi entropi beregning at detektere rester i den variable region af CagA som gastrisk cancer biomarkører. Så vi ansætte et overvåget læring procedure at klassificere kræft og ikke-kræft ved hjælp af oplysningerne af fundne rester i CagA som funktionerne. Vi vælger support vector maskiner (SVM) som et binært sorterer og sammenligne vores metode med andre. Vores tilgang viser sig ikke kun vores hypotese om, at sekvensen af ​​variable region af CagA indeholder information til at skelne forskellige sygdomme, men tilvejebringer også et nyttigt redskab til at forudsige sammenhængen mellem de hidtil ukendte CagA stammer og sygdomme og til påvisning af biomarkør samt.

Metoder

data forbehandling

Baseret på den tidligere beskrivelse i Ref. [15], vi navngivet EPIYA motiv og de følgende mellemliggende områder R1, R2, R3, R3 ‘, R4 og R4’ (figur 1). Figur 2 viser positionen relation mellem EPIYA motiv (R1) og andre intervenerende regioner ved hjælp af CagA type A-B-D (Østasiatisk subtype) og A-B-C (Western subtype) som eksempler. R2 er relativt bevaret på begge undertyper, men der er betydelige forskelle mellem de mellemliggende regioner R3 og R3 ‘, såvel som mellem R4 og R4’. Den østasiatiske undertype og den vestlige undertype blev behandlet som to selvstændige grupper. Deres data blev derefter behandlet og resultaterne blev analyseret inden for hver gruppe individuelt.

Alle mellemliggende områder blev ekstraheret fra CagA sekvenser og sættes i de tilsvarende undertype grupper, og derefter de multiple alignments blev anvendt for hver gruppe individuelt ved hjælp af Clustal X version 2.0.3 [29]. Sekvenserne profiler (Figur 1) blev bygget ved hjælp af Weblogo 3 [30].

Rest Detection

Da CagA er relateret til næsten alle gastroduodenale sygdomme og simpel analyse af EPIYA motiv gentagelserne ikke giver nogen statistisk signifikante forskelle mellem disse sygdomme, de oplysninger, der viser en specifik sygdom kan være skjult i de mellemliggende regioner. Denne forskning forudsætter, at der er et sæt af rester eller kombinationer rest, der kan være nyttige som en markør for en specifik sygdom. Denne undersøgelse fokuserer på gastrisk cancer og anvender cancer /non-cancer grupper som eksempel.

Baseret på de opstillede sekvenser for hver mellemliggende region, blev specifikke rester identificeret ved sammenligning af forskellen af ​​kombinatorisk entropi [31] mellem kræft og ikke-kræft grupper. Denne procedure omfatter følgende trin:

Først og fremmest, vi deler de givne multiple alignments for alle mellemliggende regioner i to grupper: mavekræft gruppe og ikke-cancer gruppe. For hver kolonne af multiple alignments, vi beregne baggrunden entropi (. Ligning 1), og det kombinatoriske entropi (. Ligning 2), beskrives som følger: (1) hvor er antallet af sekvenser i gruppe

k

. angiver antallet af rester af type i kolonnen

jeg

gruppe

k

. er antallet af rester af type i kolonnen

jeg

. repræsenterer det samlede antal sekvenser i alignment (2), hvor

Så entropien forskellen mellem den kombinatoriske entropi og baggrunden entropi beregnes:.. (3)

Figur 3 illustrerer entropi koncept anvendelse af tre ekstreme tilfælde. I tilfælde P1, er de aminosyrer, “tilfældigt og jævnt fordelt” over alle grupper, og der er ingen signifikant bevaret mønster for denne position. Case P2 betegner en “globalt konserveret” mønster og alle aminosyrerne er de samme på tværs af begge grupper. I tilfælde P3, er nogle specifikke aminosyrer kun bevaret i bestemte grupper, og forskellige grupper har forskellige aminosyrer. Vi kalder dette tilfælde “lokalt bevares«.

Ifølge beregningsresultater af entropi forskel for de ovennævnte tre sager, den kombinatoriske entropi er for både ‘globalt konserverede “og” lokalt bevaret’ tilfælde. For ’tilfældigt og jævnt fordelt’ tilfælde, får den maksimale værdi. Vi kan skelne de “konserverede ‘og’ tilfældigt og jævnt fordelt ’tilfælde baseret på den kombinatoriske entropi, men det hjælper ikke plukke” lokalt bevaret “sag fra alle” konserveret “sager. Når vi betragter baggrunden entropi samtidig, får den maksimale værdi, 0 og mellemlang værdi for “tilfældigt og jævnt fordelt” tilfælde, “globalt bevares” tilfælde, “lokalt bevares ’tilfælde, henholdsvis. Endelig forskellene for de ovennævnte tre tilfælde er :, og får den mindste værdi. Derfor entropi forskel er en korrekt måling til påvisning af en “lokalt bevaret” sekvens mønster.

Feature-entropi Beregning

På baggrund af ovenstående beregning, kan det bestemmes, at korrekt gruppering kan minimere entropi forskel for de rester, der tilhører den “lokalt bevares ’tilfælde. For at udføre en test, udvælges én sekvens, mens resten af ​​sekvenserne er opdelt i en gastrisk cancer gruppe og en ikke-cancer-gruppe. For alle valgte rester, er den udvalgte sekvens anbragt i gastrisk cancer gruppe til at beregne entropien forskel, og derefter den er placeret i ikke-cancer gruppe for at få den tilsvarende entropi forskel. Endelig opnås for alle valgte rester, der anvendes som funktionen entropi.

Klassifikation af CagA sekvenser

Datasæt.

Vi søgte National Center for Biotechnology Information (NCBI ), den schweizisk-prot /Tremble og DDBJ protein database og opnåede 535 stammer af

H. pylori

CagA-protein. Blandt dem er der 287 østasiatiske subtype stammer og 248 vestlige undertype stammer. I den østasiatiske undertype gruppe, 47 ud af 287 stammer er fra mavecancerpatienter og resten er fra andre sygdomme. I den vestlige undertype gruppe er der 37 stammer fra mavens kræftpatienter, og rester er fra andre sygdomme eller de normale kontroller, herunder 24 stammer fra frivillige, hvis helbred (sygdom) status var ukendt.

Workflow.

Figur 4 viser arbejdsgangen for klassificering /forudsigelse proceduren:

Vælg en stamme som testen stammen

Anvend en bootstrap procedure til resten af ​​stammerne at få. uddannelsen stammer.

Beregn funktionen entropi til testen belastning baseret på uddannelse stammer og gemme det som testdata.

Beregn funktionen entropi for hver stamme i uddannelsen stammen sæt baseret på uddannelse stammer og gemme dem som træningsdata.

Generer klassificering model ved hjælp af træningsdata.

Klassificere testdata henhold til den model klassificering.

Gentag denne procedure fem gange, og derefter beregne gennemsnittet som det endelige resultat.

Bootstrapping.

et vigtigt spørgsmål i opbygningen af ​​en klassifikation model i dette tilfælde er den store forskel på prøvestørrelserne mellem kræft og ikke-kræft grupper, som kan forårsage skævhed i resultaterne klassificeringskriterierne. En bootstrapping procedure blev anvendt til at løse dette problem. I hver undertype gruppe for hver træning /test datasæt, blev alle ikke-cancer prøver inkluderet, og derefter stammer blev kontinuerligt trukket fra kræft gruppen på stikprøvebasis indtil den når samme størrelse af den ikke-cancer gruppe. I dette tilfælde blev alle de tilgængelige data, der anvendes selv om der blev udnyttet kræft prøver flere gange givet deres mindre størrelse i forhold til den ikke-cancer gruppe. Denne fremgangsmåde blev anvendt fem gange for at generere fem uafhængige træningssæt for hver testsekvens. Klassificeringen /forudsigelse resultat er gennemsnittet af disse fem uafhængige resultater.

Cross-validering.

Fordi data størrelse er lille, en leave-one-out (LOO) cross-valideringsproceduren blev udført. Dette er ikke kun en vurdering af klassificeringen ydeevne på træning /testdata, men også et skøn over forudsigelse strøm til nye sager.

SVM.

Vi valgte SVM som binær klassificeringen og brugt feature-entropi vektorer til at træne og teste klassificeringen. I tilfælde af klassificering blød margin to-klasse, beslutningen funktion er en vægtet lineær kombination defineret som følger: (4), hvor repræsenterer en brugerdefineret kerne funktion, der måler lighederne mellem input trækvektor og trækvektorerne i uddannelsen datasæt. er vægten tildelt til uddannelse trækvektor angiver, om den CagA stamme er blevet mærket med den positive klasse (+1) eller negativ klasse (-1). Det primal optimeringsproblem tager form: minimere (5) med forbehold (6) hvor. m er det totale antal stammer. er en slap variabel, der måler graden af ​​misklassifikation af nulpunktet. er en omkostning parameter, som giver mulighed for handel off træning fejl mod model kompleksitet. w er den normale vektor og b er forskydningen.

Efter at sammenligne resultaterne af polynomium, tanh og gaussiske radial basis kerner, opnået med den RBF-kernen resultat virkede bedst, hvor gaussiske radial basis kerner (RBF 🙂 er for generelle formål læring, når der ikke er nogen forudgående viden om dataene. Den SVM

Lyspakke (https://svmlight.joachims.org/) [32] blev ansat til at bygge vores ansøgning. De parametre og blev tunet til at få den bedste model for træningsdata som vist i det følgende. Alle andre SVM parametre blev indstillet til standardværdierne

Ydelse evaluering

For at evaluere resultaterne af klassificeringen, er en bred vifte af præstationsmålinger anvendt:.. Nøjagtighed, følsomhed og specificitet. En sand positiv (TP) er et cancer-relateret sekvens betegnet som sådan, mens en falsk positiv (FP) er et ikke-cancer relateret sekvens klassificeret som cancerrelateret, en falsk negativ (FN) er et cancerrelateret sekvens klassificeret som ikke -cancer relaterede og en sand negativ (TN) er en ikke-cancer relateret sekvens klassificeret som ikke-cancer relateret. Nøjagtigheden, følsomhed (Sn), specificitet (Sp) og Matthews korrelationskoefficient (MCC) for klassificering defineres således: (7) (8) (9) (10) Da der kun er to parametre til RBF kerne og de er uafhængige, vi anvendte et gitter-søgning for at bestemme de optimale parametre for klassificeringen. Vi brugte et harmonisk gennemsnit af sensitivitet og specificitet som den objektive funktion til at optimere modellen for træningssættet, som er defineret som følger:

(11)

Resultater

Rest Detection og Feature beregning

Tabel 1 viser alle registrerede vigtige rester ved at beregne entropien forskel i hvert mellemliggende region for både vestlige og østasiatiske undertyper. Selv om der er nogle geografiske variationer af CagA sekvenser mellem det vestlige og østasiatiske undertyper, kunne nogle fælles rester stadig findes at skelne kræft og ikke-kræft grupper. Det tyder på, at disse rester kan være meget vigtigt ved fastsættelsen af ​​virulens CagA og forholdet mellem CagA og nogle specifikke sygdomme.

Resten positioner er vist i figur 5. En tidligere undersøgelse [27] afslører at de forskellige EPIYA segmenter kan binde til de forskellige kinaser, f.eks EPIYA-R2 og EPIYA-R3 /R3 ‘binder til C-terminale Src-kinase (CSK), mens EPIYA-R4 og EPIYA-R4’ binder til SHP-2 kinase at forårsage kolibri fænotype. Det CagA-Csk interaktion nedregulerer CagA-SHP-2-signalering, der forstyrrer cellulære funktioner til at styre virulens CagA. Det er konstateret, at de fleste fundne rester tilhører R2 og R3 /R3 ‘regioner og få rester i R4 /R4’ regioner er blevet opdaget. Dette kan skyldes, R4 /R4 ‘har mere konserveret sekvens end R2, og R4 /R4’ er kortere end R3 /R3 ‘. Vi foreslår, at de forskellige restkoncentrationer mønstre i R2 eller R3 /R3 ‘regioner kan ændre evnen til at nedregulere CagA-SHP-2-signalering, og således ændre virulensen af ​​CagA.

Ren et al. fandt, at CagA multimerizes i pattedyrceller [33]. Denne multimerisering er uafhængig af tyrosinphosphorylering, men det er relateret til “FPLxRxxxVxDLSKVG” motiv, der er opkaldt CM motiv i R3 ‘mellemliggende region. Da multimerisering er en forudsætning for CagA-SHP-2 signalering kompleks og efterfølgende deregulering af SHP-2, CM-motivet spiller en vigtig rolle i CagA-positive

H. pylori

medieret gastrisk patogenese. Med flere CM motiver

H. pylori

stammer er meget sandsynligt forbundet med alvorlige gastroduodenale sygdomme [33], [34], men denne observation kan ikke forklare, hvorfor der kan udvikles forskellige gastroduodenale sygdomme med nøjagtig samme antal CM motiver. Vores undersøgelse opdaget to rester i CM motiv af R3 ‘mellemliggende region, som kan føre til ændring af multimerisering, og dermed ændre virulens CagA. Dette er i overensstemmelse med en tidligere opdagelse [35], at sekvensen forskellen mellem den østasiatiske CM og den vestlige CM bestemmer bindingsaffiniteten mellem CagA og SHP-2.

Mens de fundne centrale rester kan afsløre en vis forskel mellem kræft og ikke-kræft grupper, kan ingen enkelt rest være en markør for cancer, som vist i figur 5. Denne forskning forudsiger, at en særlig kombination af alle eller delvise detekterede rester kunne have en høj korrelation med en særlig sygdom. For at verificere, flere lineære statistiske modeller, f.eks lineær regression og logistisk regression blev anvendt på de detekterede funktioner til at evaluere betydningen af ​​hver rest samt sammenhængen mellem udvalgte rester og cancer. Men ingen af ​​ovennævnte modeller kunne producere et statistisk signifikant resultat. Da de funktioner ikke kan monteres af simple lineære modeller til at forudsige kræft, anvende en maskine learning metode til at analysere og klassificere disse data bliver nødvendigt.

Parameter Training for klassificering

Brug den vestlige undertype gruppe som eksemplet, en løs grid-søgning blev først udført på og (figur 6A) og fandt, at det bedste er omkring at få den højeste F-værdi med loo krydsvalidering sats 76%. Så en finere gitter søgning blev gennemført på nabolaget og en bedre F-værdi blev opnået med 79,7% LOO krydsvalidering på. Den samme fremgangsmåde blev anvendt til østasiatiske undertype gruppe og den bedste LOO krydsvalidering sats 72,6% blev nået ved.

(A) kontur plot af F-værdi som følge af en løs grid-søgning på en hyper parameter interval for den vestlige undertype gruppen. (B) Konturen plot af F-værdi som følge af en løs grid-søgning på en hyper parameter interval for et tilfældigt blandet vestlige undertype gruppen med det højeste F-værdi.

Da der ikke er nogen tidligere studier eller beregningsmetoder om samme emne, som evaluerer udførelsen af ​​denne forskning nye metode er vanskelig. At vurdere indholdet af sekvenserne information i form af deres kræsne magt til at forudsige kræft, blev en tilfældig shuffling procedure anvendes til at bygge kontrolgruppen. Først blev alle sekvenser fra Western subtype placeres sammen for at bygge en sekvens pool. For det andet, vi plukket tilfældigt det samme antal sekvenser som kræft gruppe fra sekvensen pool og behandles resten af ​​sekvenser som den ikke-cancer-gruppe. Derefter blev hele proceduren træning anvendt til nyligt blandes data for at finde den bedste. De ovennævnte trin blev gentaget fem gange for at generere fem uafhængige blandes datasæt. Den med den højeste

F Drømmeholdet værdi, hvilket svarer til 46,6% blev udvalgt og dens kontur plot er vist i figur 6B. Dette tilfældigt blander evaluering blev også anvendt på de østasiatiske subtype data og de bedste

F Drømmeholdet værdi var på 54,3%. Sammenligning af de to parceller viser den signifikante forskel på

F

værdier mellem dataene med korrekt gruppering af kræft og ikke-kræfttilfælde i uddannelse og de bedste tilfældigt blandet data. Resultatet tyder på, at de mellemliggende regioner er informativt at skelne mellem kræft og ikke-kræft grupper og vores metode kan bruge oplysningerne effektivt.

Klassifikation Ydelse

Der er primært tre kategorier af klassificering sekvens metoder: træk baseret, sekvens afstand baseret og model baseret. Den metode, som vi beskrev i dette dokument tilhører den feature-baserede kategori. Vi valgte to af de mest populære klassificering sekvens værktøjer som de repræsentative metoder til to andre kategorier til sammenligning. BLAST [36] blev valgt for sekvensen afstandsbaseret kategori, da det er det mest udbredte sekvenssammenligning værktøj. For den modelbaserede kategorien skjulte Markov model er den typiske fremgangsmåde til sekvensanalyse og dens udbredte værktøj, HMMER [37], blev udvalgt. For proceduren for klassificering af både BLAST og HMMER, vi brugte default parametre værktøjerne, anvendt samme LOO krydsvalidering som vores metode, og brugte de samme evaluering formler anført i Method sektionen.

Tabel 2 lister klassificeringskriterierne resultaterne for alle tre metoder. Den SVM metode giver betydeligt bedre end de to andre tilgange. BLAST opnået tæt nøjagtighed på Entropi-SVM metode, men det forudsagde mange falske negativer med lav følsomhed. HAMMER opnået høj følsomhed, men med lidt specificitet. I betragtning af

F

værdier og

MCC

værdier, de forudsigelse resultater fra BLAST og HAMMER er næsten tilfældigt.

Klassificeringen resultat og konturen plot (figur 6) kraftigt støtte vores hypotese, dvs. kan bruges oplysningerne af de udvalgte rester i mellemliggende regioner at klassificere forholdet mellem CagA sekvenser og mavekræft, selv om forskellen mellem profiler kræft og ikke-kræft grupper er ikke meget stærk.

Sammenligning mellem forskellige sygdomme

H. pylori

infektion er forbundet med de fleste gastroduodenale sygdomme, blandt hvilke mavekræft er den mest alvorlige én forårsager mere end 700.000 dødsfald på verdensplan hvert år [38]. Da

H. pylori

er en vigtig risikofaktor for mavekræft (GC), opdagelsen af ​​mekanismen for

H. pylori

mægle GC bliver en topprioritet opgave på dette område. Sammenligne til andre sygdomme, diagnosen information af GC fra offentlige data er forholdsvis nøjagtig, og det er en anden vigtig grund til at fokusere på GC i dette dokument. Vores undersøgelser er ikke begrænset til GC, selvom. Vi forsøgte også at vurdere forholdet mellem variansen af ​​CagA sekvenser og forskellige sygdomme.

Da de fleste data blev indsamlet fra offentlige databaser uden præcis diagnose oplysninger, før du anvender vores metode til CagA data vi kurateret sygdommen anmærkninger manuelt for alle stammer ved gennemgang af litteraturen. Tabel S1 viser fordelingerne af store sygdomme for både vestlige og østlige Asain subtype grupper. På grund af den begrænsning af strain antal af visse sygdomme, såsom atrofisk gastritis (AG) og mavesår (GU), vi til sidst plukket kronisk gastritis (CG) og ulcus duodeni (DU) som kontrolgrupperne til evaluering. Den DU gruppe i østasiatiske undertype indeholder 79 stammer, og en bootstrapping procedure blev anvendt på alle andre grupper til at gøre det samme antal stammer som den østasiatiske DU gruppe. Dette trin sikrer alle sammenligninger på samme skala, idet værdien af ​​kombinatorisk entropi afhænger af antallet af sekvenser. Vi anvendte formel (3) for at beregne entropien forskel på hver position mellem GC og CG /DU grupper, og derefter tilsat op alle entropi forskelle som den samlede forskel mellem GC og CG /DU grupper, som vist i tabel S2. Ved at sammenligne resultaterne mellem to grupper inden for samme geografiske undertype (østasiatiske eller vestlige undertype), er det i overensstemmelse med den kliniske opfattelse, at gastritis har stærkere relationer til kræft end at DU [39] (generelt, gastritis tilfælde kan indeholde nogle urapporteret eller udiagnosticeret kronisk atrofisk gastritis og tarm metaplasi sager, som patienterne har en høj risiko for at udvikle GC). Ved at betragte den samme sygdom-pair mellem to geografiske undertyper, det forklarede også den virulente forskel mellem den østasiatiske og de vestlige undertyper. Hertil kommer, på grund af den høje lighed mellem forskellige sygdomsgrupper af den østasiatiske undertype, selv med flere data, vi stadig ikke kan nå den samme klassificering nøjagtighed som den vestlige undertype gruppen.

På baggrund af ovenstående resultater, CagA sekvenser viser potentiale til at skelne flere gastroduodenale sygdomme. For at vurdere klassificeringen ydelse, brugte vi DU gruppe til at erstatte ikke-Cancer-gruppe, og derefter anvendt hele klassificering procedure igen uden bootstrapping, da disse to sygdomme grupper har sammenlignelige størrelser. Tabel S3 viser klassificering resultater. Selv fra den klinisk synspunkt, DU har negtive korrelation med GC blandt alle gastroduodenale sygdomme [40], blev klassificeringen ydeevne to subtype grupper kun lidt forbedret. Således cancer-relaterede CagA-stammer kan have nogle unik sekvens mønstre sammenligne med alle andre gastroduodenale sygdomme. Derfor tuning en delmængde af kontrolgruppen kan ikke være i stand til at forbedre klassificeringen nøjagtighed.

Diskussion

Selv om forskning viser, at der er sekvens markører til at skelne mellem kræft gruppe og ikke-cancer gruppe , de store profiler i disse to grupper er for ens til at skelne ved hjælp af traditionelle metoder, da CagA sekvenser er generelt stærkt bevaret. Derfor har vi fokuseret på at identificere de informative rester, kvantificere information af disse udvalgte rester, og derefter bruge det til at designe en klassificeringen, der kan forudsige, om en ny sekvens tilhører kræft gruppe eller den ikke-cancer gruppe. Denne metode ikke kun belyser forholdet mellem CagA sekvenser og mavekræft, men også kan være et nyttigt redskab for mavekræft diagnose eller prognose.

Mekanismerne i

H. pylori

forårsager de forskellige gastroduodenale sygdomme er stadig uklart, men det er sandsynligt, at forskellige gastroduodenale sygdomme forårsaget af

H. pylori

infektion deler nogle sekvens mønstre i de mellemliggende regioner. Små variationer af aminosyrer i disse vigtige rester kan føre til virulens variansen af ​​CagA-stammer resulterer i forskellige gastroduodenale sygdomme. Mens CagA kunne være en markør til påvisning af potentiel kræftrisiko ved brug CagA alene at skelne alle gastroduodenale sygdomme er ikke realistisk. Som en fremtidig undersøgelse, vil vi udvikle nye modeller, der adskiller forskellige gastroduodenale sygdomme fra CagA og andre gener.

Støtte oplysninger

tabel S1. .

Antal stammer i hver sygdom

doi: 10,1371 /journal.pone.0036844.s001

(DOC)

tabel S2. .

Total entropi forskel mavekræft og to andre sygdomme grupper

doi: 10,1371 /journal.pone.0036844.s002

(DOC)

tabel S3.

Klassifikation ydeevne mellem mavekræft og sår på tolvfingertarmen grupper for både den vestlige og den østasiatiske undertyper

doi:. 10,1371 /journal.pone.0036844.s003

(DOC)

Be the first to comment

Leave a Reply