PLoS ONE: En Computational Metode til Forudsigelse af ekskretionsorganerne Proteiner og Ansøgning til Identifikation af gastrisk kræft markører i urin

Abstrakte

En roman beregningsmæssige metode til forudsigelse af proteiner udskilles med urinen præsenteres. Metoden er baseret på identifikation af en liste over særlige kendetegn mellem proteiner, der findes i urinen hos raske mennesker og proteiner anses ikke for at være urin ekskretionsorganerne. Disse funktioner anvendes til at træne en klassifikator til at skelne de to klasser af proteiner. Når det bruges sammen med information om hvilke proteiner udtrykkes forskelligt i syge væv af en bestemt type

versus Salg kontrol væv, kan denne metode anvendes til at forudsige potentielle urin markører for sygdommen. Her rapporterer vi den detaljerede algoritme af denne metode, og en ansøgning til identifikation af urin markører for mavekræft. Udførelsen af ​​uddannet klassificeringen på 163 proteiner eksperimentelt valideret ved hjælp af antistof arrays, opnåelse 80% sand positiv sats. Ved at anvende klassifikator på differentielt udtrykte gener i gastrisk cancer

vs Salg normale gastriske væv, blev det konstateret, at endotel lipase (EL) i det væsentlige blev undertrykt i urinprøver fra 21 mavecancerpatienter

versus

21 raske individer. Samlet set har vi vist, at vores prædiktor for urin ekskretionsorganerne proteiner er yderst effektiv og kan potentielt tjene som et effektivt redskab i søgninger efter sygdom biomarkører i urin generelt

Henvisning:. Hong CS, Cui J, Ni Z, Su Y, Puett D, Li F, et al. (2011) A Computational Metode til Forudsigelse af ekskretionsorganerne Proteiner og Ansøgning til Identifikation af gastrisk kræft Markers i urin. PLoS ONE 6 (2): e16875. doi: 10,1371 /journal.pone.0016875

Redaktør: Vladimir Brusic, Dana-Farber Cancer Institute, USA

Modtaget: September 22, 2010; Accepteret: December 31, 2010; Udgivet: 18 februar, 2011

Dette er en åben adgang artiklen distribueres under betingelserne i Creative Commons Public Domain erklæring hvori det hedder, at når det først er i det offentlige rum, dette arbejde kan frit gengives, distribueres, overføres, ændres, bygget på, eller på anden måde bruges af alle til ethvert lovligt formål

Finansiering:. Denne undersøgelse blev støttet delvist af National Science Foundation (CCF-0.621.700, DBI0542119004, 1R01GM075331), Jilin Universitet, University of Georgia, Georgia Cancer Coalition, Georgia Research Alliance og National Institutes of Health (1R01GM075331, DK69711). De finansieringskilder havde ingen rolle i studie design, indsamling og analyse af data, beslutning om at offentliggøre, eller forberedelse af manuskriptet

Konkurrerende interesser:.. Forfatterne har erklæret, at der ikke findes konkurrerende interesser

Introduktion

Den hurtige udvikling af

OMIC

teknikker i de seneste år har gjort det muligt at søge efter biomarkører for humane sygdomme i en systematisk og omfattende måde, som er en væsentlig forbedring af vores evne til at opdage sygdomme på tidlige stadier. De fleste af de tidligere biomarkør undersøgelser har været fokuseret på serummarkører [1], hovedsagelig på grund af den kendte rigdom af serum i indeholdende signaler for forskellige fysiologiske og patofysiologiske tilstande.

Sammenlignet med serummarkører, eksisterende urinmarkørerne er for det meste relateret til urin-tarmkanalen eller nært associerede sygdomme. Kun inden for de sidste par år har forbedret proteomikanalyser af urinprøver viste, at ligesom sera, urin er også en rig kilde til information for at opdage humane sygdomme såsom graft-

versus

-host sygdom og koronararteriesygdom [2], [3], [4]. Bemærk at urin dannes ved filtrering af blod gennem nyrerne; dermed nogle proteiner i blodet kan passere gennem filtrene, og udskilles i urinen. Som følge heraf er de urinære proteiner ikke kun afspejler betingelserne i nyren og den urogenitale tarmkanalen, men også dem af andre organer, der kan være distalt fra nyren, som mindst 30% af de urinære proteiner ikke oprindeligt fra urogenitalkanalen [5], [6]. De mange oplysninger i urin gør det til et attraktivt kilde til biomarkør screening eftersom sammenlignet med serum, sammensætningen af ​​urin er relativt enkel, og urinopsamling er lettere og noninvasive [7], [8].

Marker identifikation i urin kan potentielt ske gennem komparative proteom analyser af urinprøver fra patienter med en specifik sygdom og kontrolgrupper. Udfordringen i sådanne søgninger efter urinmarkørerne i en blind måde er dobbelt. (A) urin kan have et stort antal proteiner /peptider (i modsætning til den tidligere forståelse [8]) med forholdsvis lav tæthed. (B) Det dynamiske område i overflod af disse proteiner kunne spænde over et par størrelsesordener, bredere end området typisk dækket af et massespektrometer [9]. Af disse grunde kan sammenlignende analyser, især (semi) kvantitative analyser, af proteomiske data for urinprøver være meget udfordrende. Dette kan være en vigtig grund til, at der ikke er nogen pålidelige urin markører for kræft diagnose.

Vores undersøgelse fokuserer på udvikling af en beregningsmetode til præcist at forudsige proteiner, der er urin ekskretionsorganerne (se figur 1 for omridset af tilgangen ). Disse proteiner skal have specifikke egenskaber, der tillader dem at blive udskilt fra cellerne først og derefter at blive filtreret gennem glomerulus membran i nyrerne. En nylig proteomisk undersøgelse identificeret mere end 1.500 proteiner /peptider, der udskilles i urinen gennem sunde glomerulære membraner [8]. Ved hjælp af denne sæt af proteiner og proteiner anses ikke for at være urin ekskretionsorganerne, har vi identificeret en liste over særlige kendetegn mellem disse to klasser af proteiner og trænet en støtte vektor maskine (SVM) baseret klassificeringen at forudsige, om et givet protein kan udskilles i urinen . Forudsigelsen metoden blev eksperimentelt valideret med antistof-arrays i forbindelse med Western blots, og resultaterne er meget opmuntrende.

Denne klassifikator er blevet anvendt til at forudsige proteiner, der muligvis udskilles i urinen baseret på den identificerede differentielt udtrykte gener i gastrisk kræft

versus

reference- gastrisk væv; og en række potentielle urin markører for gastrisk cancer er blevet identificeret. Et vigtigt bidrag i dette arbejde er, at den tilvejebringer en ny og effektiv måde at lede proteom undersøgelser af urin ved at foreslå kandidat markørproteiner, dermed tillader målrettede markør søgninger under anvendelse af antistof-medierede teknikker som Western blots og ELISA, som er væsentligt mere realistisk end store komparative proteom analyser af urinprøver uden nogen mål med at arbejde. Mens denne forudsigelse program er blevet anvendt på gastrisk cancer data i denne undersøgelse blev der ikke gastrisk cancer-specifikke oplysninger anvendes i dette program; derfor kan det bruges til urin markør søger efter andre sygdomme

Metoder

Denne undersøgelse består af tre hovedkomponenter:. (i) konstruktion af en sorterer til forudsigelse af urin udskillelsesvej proteiner; (Ii) evaluering af udførelsen af ​​klassificeringen ved at anvende det til et sæt af proteiner, som ekskretionsorganerne status af proteinerne er kendt; og (iii) anvendelse af den validerede klassificeringen til gen-ekspression data for mavekræft til at demonstrere sin effektivitet i løsningen urinen markør identifikation problem.

Denne forskning blev godkendt af Institutional Review Board ved University of Georgia, Athens, Georgia, USA (kontoret for vicepræsident for forskning DHHS Assurance-ID nr. FWA00003901, Projekt nummer 2009-10705-1) og af den kinesiske Board Institutional Review tilsyn mennesker på Jilin University College of Medicine, Changchun, Kina. En samtykkeerklæring, der er godkendt af IRB ved University of Georgia og kinesisk IRB, blev indsamlet fra hver emne. Alle emner er klar over, at alle data fra forskning kan bruges til dokumenter eller publikationer som anført i tilladelsen formularen.

a. En algoritme til forudsigelse udskillelsesvej proteiner

Den generelle forståelse af protein udskillelse fra væv til urin er, at nogle proteiner udskilles eller lækket fra celler i blodcirkulationen, og derefter en del af disse proteiner, sammen med nogle native proteiner i blod, kan udskilles med urinen. Vores mål er først at identificere særlige kendetegn for sådanne urin ekskretionsorganerne proteiner og derefter at bygge en klassifikatør baseret på disse funktioner til at forudsige, hvilke proteiner i celler kan udskilles med urinen. Så vidt vi ved, har der ikke været nogen offentliggjorte arbejde til formål at løse dette problem. Vigtigheden i at have en sådan kapacitet er, at det giver en effektiv link i tilslutning

miske

analyser af væv til søgning markør i urin ved at give kandidatlandene markører i urin, som kan studeres ved hjælp af antistof-baserede tilgange.

Det første skridt i at udvikle sådan en forudsigelig kapacitet, dvs. en klassificeringen, er at have en uddannelse datasæt indeholder proteiner, der kan og som ikke kan udskilles i urinen, baseret på hvor et sæt af særlige kendetegn muligvis kunne identificeres. Heldigvis har vi fundet en stor proteomisk datasæt af urinprøver fra raske mennesker i en nyligt offentliggjort undersøgelse [8], som indeholder mere end 1.500 unikke proteiner, hvoraf 1313 har SwissProt tiltrædelse id’er. Vi har brugt disse 1.313 proteiner som de positive træningsdata til til-være-uddannet klassificeringen. Følgende fremgangsmåde blev derefter anvendt til at generere et negativt træningssæt: vælg vilkårligt mindst et protein fra hver Pfam familie, der ikke indeholder nogen positiv træningsdata, og antallet af udvalgte proteiner fra hver familie er proportional med størrelsen af ​​familien [ ,,,0],10], [11]. Som følge heraf blev 2.627 proteiner udvalgt og anvendt som den negative træningssæt.

Vi undersøgte 18 fysisk-kemiske egenskaber regnet fra proteinsekvenser, som er potentielt nyttige for problemet klassificeringen baseret på den generelle forståelse af urinudskillelse af proteiner . Detaljerne i de 18 funktioner og edb-programmer til beregning af disse er anført i tabel S1. Nogle af disse funktioner er repræsenteret ved flere egenskabsværdier, fx aminosyresammensætningen i en proteinsekvens er repræsenteret ved 20 egenskabsværdier; samlet de 18 funktioner er repræsenteret ved hjælp af 243 har værdier. Vi identificerede derefter en undergruppe af funktioner værdier fra 243, som kan skelne mellem positive og negative træningsdata ved hjælp af en SVM-baserede klassificeringen. Den RBF-kernen blev brugt i vores SVM uddannelse, overvejer sin evne til at håndtere ikke-lineære egenskaber [12], [13].

For at fastslå, hvilke af de oprindeligt betragtet funktioner er faktisk nyttigt, funktionen markeringsværktøjet forudsat i LIBSVM [12] blev anvendt til at vælge de mest kræsne træk blandt de 243. Andre træk markeringsværktøjer eventuelt kunne bruges, men vi har stor erfaring i at bruge dette værktøj, og fundet det at være passende. Koder, der anvendes i dette er offentligt tilgængelige fra LIBSVM hjemmeside (https://www.csie.ntu.edu.tw/~cjlin/libsvm/); vi også har gjort det relevante program tilgængelig på https://seulgi.myweb.uga.edu/files. En F-score [12], defineret som følger, anvendes til at måle den kræsne magt enkelte funktioner værdi til vores klassificering problem,

hvor refererer til uddannelse har værdier (k = 1, …, m) ;

n

+ og

n

– er antallet af proteiner i den positive (+) og negative (-) uddannelse datasæt, henholdsvis; ,, Er gennemsnit af

jeg

th funktion værdi på tværs af hele uddannelsen datasæt, den positive datasæt og den negative datasæt, henholdsvis; og og er

jeg

th træk ved

k

th protein i de positive og negative træningsdata hhv. Generelt, jo større en F-score, jo mere skelnende den tilsvarende funktion er. I vores udvalg, blev alle funktioner med F-score over en forudvalgt tærskel bevares og anvendes i uddannelse af endelige klassificeringen. For at finde en optimal F-score tærskel, betragtes vi en liste over mulige tærskler og derefter udvalgt den bedste baseret på uddannelsesmæssige resultater.

Uddannelsen af ​​vores SVM-baserede klassificeringen sker ved hjælp af en standard procedure i LIBSVM [12] for at finde værdierne af to parametre

C

γ, der giver en optimal klassifikation på træningsdata, hvor

C

styrer afvejning mellem uddannelse fejl og klassificering marginer, og γ bestemmer bredden af ​​det anvendte kerne [12]. Vores procedure uddannelse opsummeres som følger [12]:

Få F-score for hver funktion værdi

For hver af de foreløbigt udvalgte tærskler, skal du gøre følgende

Fjern har værdier med F-scores lavere end tærsklen;

tilfældigt opdele træningsdata ind i en sub-uddannelse og en sub-validering sæt med lignende størrelse;

Tog en SVM med en RBF kerne på sub-uddannelse indstillet til at søge efter optimale værdier af

C

og γ, og derefter anvende det til sub-validering af data og beregne klassificeringen fejl,

Gentag trin (i) – (iii) fem gange, og beregne den gennemsnitlige valideringsfejl;

Vælg den tærskel, der giver den laveste gennemsnitlige valideringsfejl, og holder funktioner med F-score over den valgte tærskel; og

Genindstil en SVM baseret på de valgte funktioner som den endelige klassifikator.

b. Datasæt anvendes til at evaluere resultaterne af klassificeringen

En uafhængig datasæt blev brugt til at vurdere resultaterne af den uddannede klassificeringen, som ekskretionsorganerne status hvert protein er kendt. Den positive delmængde af dette datasæt har 460 humane proteiner, der findes i urinen hos sunde individer af tre urin proteomics undersøgelser [14], [15], [16], og den negative delmængde indeholder 2,148 proteiner valgt anvendelse af samme procedure som tidligere beskrevet, men gør ikke overlapper med den negative, der bruges til træning

følgende foranstaltninger blev anvendt til at vurdere klassificering nøjagtighed:. den følsomhed, specificitet, nøjagtighed, Matthew korrelationskoefficient, og AUC [17]. Tabel 1 opsummerer klassificering nøjagtighed uddannet klassificeringen på både træning og test datasæt [17]. Fra nøjagtigheder klassificeringskriterierne på de to datasæt, mener vi, at vores uddannede klassificeringen erobrede de vigtigste distinkte træk ved de ekskretionsorganerne proteiner i urinen.

Desuden blev vores klassifikatør testet på en separat datasæt, en delmængde af de 274 proteiner fast på en pre-made protein antistof array (den RayBio Humant G-serien Array 4000 (RayBiotech, Inc., Norcross, GA)). Af de 274 proteiner er 111 kendt for at være ekskretionsorganerne og indgik i vores uddannelse eller uafhængig test datasæt. Vi anvendte klassificeringen på de resterende 163 proteiner, som ekskretionsorganerne status var ukendt (se Resultater og Tabel S2). Dette protein matrix tilvejebringer den relative ekspression niveauet for hvert protein på arrayet, når testet på en (urin) prøve, som er målt i signalintensiteten, kvantificeres ved densitometri. Baggrunden for arrayet blev anvendt som kontrol til at bestemme den faktiske tilstedeværelse af et protein i (urin) prøve. Signalintensiteten for et protein blev betragtet som en sand signal, hvis det var mindst 5 gange højere end for kontrollen, som foreslået af fabrikantens anbefalinger. Vi fokuserede vores eksperimentelle validering på bekræftelse af positive forudsigelser kun, da det er næsten umuligt at bevise et protein ikke er til stede i en urinprøve på grund af begrænsninger i afsløring følsomhed af den nuværende teknologi, når proteinet er af meget lav koncentration i prøven.

c. Urin prøvetagning /forberedelse

Urinprøver fra gastrisk kræftpatienter og raske kontroller blev indsamlet ved Medical School i Jilin University, Changchun, Kina. Gastric kræftpatienter, fra hvem prøverne blev indsamlet fra, er alle stadie patienter sent (se tabel S3 til patientinformation). Disse prøver blev øjeblikkeligt lyofiliseres og opbevares ved -80 ° C indtil yderligere brug efter deres kirurgisk fjernelse fra patienterne. De blev derefter rekonstitueret og centrifugeret (3.000

xg

i 25 minutter ved 4 ° C) for at fjerne cellulære komponenter. Supernatanterne blev opsamlet og dialyseret ved 4 ° C mod Millipore ultrarent vand (tre buffere efterfulgt af en dialyse natten) under anvendelse Slide-A-Lyzer Dialysis Kassetter (Thermo Fisher Scientific, Rockford, IL). Proteinkoncentrationer blev målt under anvendelse af Bio-Rad Protein Assay (Bio-Rad, Hercules, CA) med bovint serumalbumin som en standard.

d. Identifikation af gener, der udtrykkes forskelligt i mavekræft og kontrol væv

I alt 80 mavekræft væv og deres tilstødende noncancerous væv fra 80 patienter blev indsamlet på Medical School of Jilin Universitet. Microarray eksperimenter blev udført på disse væv ved hjælp af Affymetrix GeneChip Humant Exon 1.0 ST Array, som dækker 17.800 humane gener. Den PLIER algoritme [18] blev brugt til at opsummere sonden signaler til gen-niveau udtryk. For hvert gen, undersøgte vi fordelingen af ​​udtrykket fold-change mellem de parrede cancer og kontrol væv på tværs af alle 80 par af væv. Lad

K

exp,

være antallet af par af væv, hvis fold-ændring er mindst 2. En gen betragtes som

differentielt udtrykt

hvis

p

-værdi af den observerede

K

exp

er mindre end 0,05. Ved hjælp af dette kriterium, blev fundet i alt 715 gener, der skal udtrykkes forskelligt i mavekræft på tværs af alle menneskelige gener, og navnene på de 715 gener, sammen med den tilhørende

K

exp

og

p

-værdier, er angivet i tabel S4. En detaljeret undersøgelse af microarray data er blevet rapporteret andetsteds [19].

e. Funktion og sti berigelse analyser

DAVID Bioinformatik Ressourcer og den KOBAS webserver [20], [21] blev brugt til at gøre funktionelle og gangsti berigelse analyse, henholdsvis for alle de forudsagte urin-ekskretionsorganerne proteiner, ved hjælp af hele sættet af humane proteiner som baggrunden. Vi henviser læserne til [20], [21] for at få oplysninger om metoderne til funktionel og sti berigelse analyser. Brug DAVID Bioinformatik Resources, blev berigelse score for en specificeret gruppe proteiner bestemt af EASE score [20], [22]. KOBAS er et supplerende redskab til DAVID, da det udvider det gen annotation hjælp Kegg Orthology (KO) vilkår. Den KOBAS webserver, sammen med KO-baserede annotation systemet [21], [23], blev brugt til at finde statistisk berigede og underrepræsenterede veje blandt de forudsagte urin-udskilt proteiner. KOBAS tager i et sæt af proteinsekvenser og annotates dem ved hjælp af KO vilkår. De kommenterede KO vilkår blev derefter sammenlignet med alle menneskelige proteiner som baggrunden sæt for at vurdere, om de er beriget eller underrepræsenteret.

f. Western blots

urinproteiner fra hver prøve (i alt 2 ug) blev kombineret med 3x prøve farvestof. Hvert rør blev kogt i 5 minutter og fyldt på SDS-PAGE geler, sammen med 10 pi standarder og køre i 1 time ved 200 volt. Membranen blev aktiveret med 100% methanol, efter en overførsel fra gelen til membranen (100 volt i 1 time). Når overførslen var tilendebragt, blev membranen lov til at tørre, genfugtes i 100% methanol og vasket 2X i 5 min hver med Tris-saltvand (TBS). Membranen blev derefter inkuberet i 3% mælk blokeringsopløsning i 2 timer ved stuetemperatur. Næste membranen blev inkuberet i den første antistofopløsning (1:200 fortyndinger i 1,5% mælk blokering) i 1 time ved stuetemperatur, og det ubundne antistof blev fjernet ved vask af membranen 3 gange med TBS Tween-20 (TBST) opløsning i 10 min hver. Derefter blev membranen inkuberet i en 1:10,000 fortynding af det sekundære antistof i 1,5% mælk blokeringsopløsning i 1 time ved stuetemperatur. Membranen blev vasket 3 gange med TBST og 2X med TBS (10 min hver). Endelig blev membranen dækket fuldstændigt med en lige mængde enhancer og peroxidopløsning fra en Pierce Western Blotting kit til 5 min og udsat for filmen. Hvert eksperiment blev gentaget flere gange for at sikre reproducerbarhed [24]. De signalintensiteter blev bestemt ved hjælp af ImageJ software [25]. For hver membran, blev den tomme bane anvendes til at normalisere de signalintensiteter gennem membranerne. Forestillingen blev undersøgt ved hjælp af ROC og knurhår-box plot.

Resultater og Diskussion

a. Signal peptid og sekundære strukturer er centrale elementer i urin-udskilt proteiner

Den oprindelige liste over funktioner blev omhyggeligt udvalgt til at omfatte, hvad vi menes at være protein karakteristika er relevante for urinudskillelse baseret på litteratursøgning og vores nuværende forståelse af urin proteiner. For eksempel vil den negativt ladede glomerulær væg i nyre tillade filtrering af kun positivt eller neutralt ladede proteiner. Således ladning af et protein er en af ​​de funktioner, vi valgte. Idet de foreliggende oplysninger i betragtning, det samlede antal egenskabsværdier indsamlet oprindeligt var 243, svarende til de grundlæggende sekvens egenskaber, motiver, fysisk-kemiske egenskaber, og strukturelle egenskaber (tabel S1). Ved identifikation funktioner, der er effektive i at diskriminere urin ekskretionsorganerne proteiner fra ikke-ekskretionsorganerne dem, at en enkel og effektiv metode eliminere funktioner, der viser ringe eller ingen kræsne strøm til vores klassificering problem var beskæftiget; 74 har værdier blev valgt ved hjælp af proceduren i afsnit en af ​​Metoder (tabel S5). Disse karakteristika værdier blev anvendt til at træne den endelige klassifikator.

Blandt de valgte funktioner, den mest diskriminerende ene var tilstedeværelsen af ​​signalpeptider. Det forstås, at proteiner, der udskilles gennem ER har signalpeptider og handles til deres destination henhold til de specifikke signalpeptider; derfor, ikke overraskende, mest udskilte proteiner har denne funktion. En anden fremtrædende træk var den sekundære struktur type specifikt blev procentdelen af ​​alfa-helixer i en proteinsekvens rangeret som nummer 2 har værdi blandt de udvalgte 74 (tabel S5). Som forventet, at ansvaret for et protein var blandt de højest rangerede funktioner for udskilte proteiner. Dette er i overensstemmelse med den generelle forståelse af, at afgiften er en faktor i at bestemme, hvilke proteiner kan filtreres gennem den glomerulære membran [26] som proteiner inde glomerulære membraner og podocyte spalter er negativt ladet, og dermed negativt ladede proteiner vil have lave chancer for at filtrere igennem nyrerne. Faktisk er de har værdier af positive aminosyrer og ladning var blandt de højest rangerede har værdier.

Interessant, men molekylvægt, der rangeret 232 ud af 243, blev ikke medtaget i de endelige 74 har værdier. Dette kunne forklares ved følgende. Proteiner til stede i serum måske allerede gennemgået en spaltning eller er blevet delvist nedbrudt, og kan således ikke være i deres intakte eller fuldstændig form, når de kommer ind i nyren. Det har faktisk fastslået, at størstedelen af ​​proteiner, der findes i urin udførligt nedbrydes [27]. Mens en intakt protein ikke kan være i stand til at filtrere igennem glomerulus på grund af sin størrelse eller form, kan en protein-afledt peptid let passere gennem podocyte spalter. Som et resultat, molekylvægten af ​​det intakte protein er et ikke-faktor ved forudsigelse hvis proteinet er urin udskillelsesvej.

Det skal bemærkes, at urin udskillelsesvej proteiner og secernerede proteiner deler nogle fælles karakteristika som nogle af de faktorer, der benyttes til at identificere blod-secernerede proteiner i vores tidligere undersøgelse [10] blev udvalgt i urinprotein forudsigelse i dette studie. For eksempel blev funktioner såsom opløsningsmiddel tilgængelighed, polaritet, og signalpeptider inkluderet i begge klassificører. Men der er en klar forskel mellem de funktioner, der anvendes i de to klassificører. Mens funktioner såsom beta-streng-indhold, funktioner i forbindelse med beta-tønde transmembrane protein og protein-forhold, TATP motiv, transmembrane domæne, protein størrelse, og den længste uordnede region var blandt de bedste funktioner til forudsigelse af blod-sekretoriske proteiner [10 ], blev de ikke medtaget i de endelige egenskaber for urinprotein forudsigelse. Desuden funktioner i forbindelse med positiv ladning, såsom sammensætningen af ​​positivt ladede aminosyrer, var fremtrædende i urinprotein forudsigelse men ikke valgt i blodet sekretion forudsigelse. Tilsvarende alfa-helix-indhold og spolen-indhold af proteiner var blandt de bedste funktioner til urinprotein forudsigelse, men de blev ikke valgt til blod-sekretoriske protein forudsigelse. Det er interessant at bemærke, at i modsætning til det fund, at beta-strenge er en fælles sekundær struktur typen blandt blodet sekretoriske proteiner, urinproteiner tendens til at have højere a-helix og spole indhold, hvilket indikerer, at proteiner fra urin har egenskaber ikke deles af blod sekretoriske proteiner generelt.

b. Udførelse af klassificeringen

For at bestemme nøjagtigheden af ​​den endelige klassificeringen, vi testede det på en uafhængig test sæt, som består af 460 eksperimentelt valideret urin ekskretionsorganerne proteiner og 2.148 ikke-urin ekskretionsorganerne proteiner. Vores klassifikator har sin forudsigelse sensitivitet og specificitet på denne uafhængige test sæt på 0,78 og 0,92, henholdsvis (tabel 1).

Vi løb derefter klassificeringen på 163 ud af de 274 proteiner fast på foruddefineret antistof array (se fremgangsmåder), for hvilke udskillelsesvej status var ukendt. Af de 163 proteiner blev 112 proteiner forudsiges at være urin ekskretionsorganerne af vores klassificeringen. For at vurdere resultaterne af denne forudsigelse, blev gennemført antistof-array-baserede eksperimenter på 14 urinprøver, syv fra raske individer og syv fra mavecancerpatienter. Af de 112 forudsagte urin-ekskretionsorganerne proteiner, blev 92 findes i mindst én af de urinprøver (tabel S6), hvilket giver en positiv forudsigelse på 0,81, hvilket er i overensstemmelse med det præstationsniveau på den første test sæt.

det skal bemærkes, at en begrænsning af denne klassifikator er, at nogle proteiner kan have været delvist nedbrudt før de udskilles med urinen eller i urin, hvilket gør det vanskeligt for vores klassifikator til påvisning således dannede peptider som det blev trænet på hele intakte proteiner. Dette spørgsmål vil blive behandlet i fremtiden gennem udledning har værdier baseret på de faktiske proteiner /peptider identificeret i tidligere urin proteom undersøgelser snarere end deres tilsvarende proteiner i fuld længde som gjort i denne undersøgelse. Mens der er helt klart plads til yderligere forbedringer, de forudsigelse resultaterne af den igangværende klassificeringen er meget opmuntrende.

c. Anvendelse af klassificeringen til mavekræft data

Vores tidligere undersøgelse om 160 sæt microarray gen-ekspression data for mavekræft har identificeret 715 differentielt udtrykte gener med mindst to-fold ændringer i gastrisk cancer

versus

kontrol vævsprøver [19]. Selv om det ville være at foretrække at have proteomiske data for vævsprøver, har vi kun gen-ekspression data i denne undersøgelse. Derfor er genekspression data, der anvendes som en tilnærmelse til proteinekspression i denne metode orienteret undersøgelse. Vores klassifikator blev påført disse 715 proteiner, og det forudsagt, at 201 af de 715 proteiner er urin udskillelsesvej. Tabel S7 indeholder detaljerede oplysninger om de 201 proteiner. Da det er urealistisk at kontrollere alle de 201 proteiner i denne undersøgelse for at afgøre, om de er urin ekskretionsorganerne eller ej, vi gjorde analyser at indsnævre denne liste. Konkret har vi gennemført følgende analyser: (i) funktionel og gangsti berigelse analyser at få en bedre forståelse af de typer af proteiner til stede i urin, (ii) litteratursøgning på urinproteiner at indsamle oplysninger om offentliggjorte urin markørproteiner, ( iii) gennemgang af genekspression data til at fjerne gener, som ikke væsentligt differentielt udtrykte mellem cancer og kontrol vævsprøver; og (iv) Western blots på proteiner valgt blandt en indsnævret liste over de 201 proteiner. Denne procedure viste en høj succesrate og førte til en interessant opdagelse af potentiel biomarkør for mavekræft.

Til (i), har vi gennemført funktionelt og gangsti berigelse analyser af alle de 201 proteiner ved hjælp af DAVID [20 ] og KOBAS [21] servere hhv. Vi fandt, at de berigede funktionelle grupper den ekstracellulære matrix (ECM), celleadhæsion og udvikling, cellemotilitet, forsvarsrespons, angiogenese, som er alle kendt for at være involveret i udviklingen af ​​eller i forsvar af cancer (fig S1A). De mest berigede veje var ECM-receptor-interaktion og uorganiske ion transport og stofskifte veje (figur S1B)

Det følgende kriterium blev anvendt til at reducere listen af ​​201 proteiner til trin (ii) – (iii):.

er ikke blevet rapporteret proteinerne at være relateret til enhver kræft baseret på vores omfattende litteratursøgning

, som giver anledning til 71 proteiner. Listen blev yderligere reduceret baseret på en forud valgt cutoff på differentierede udtryk og funktionelle anmærkninger (potentielt relevant for mavekræft snarere end immunreaktioner).

d. Endotel lipase er væsentligt reduceret i urinprøverne af mavekræft patienter

Vi valgte seks proteiner (MUC13, COL10A1, AZGP1, LiPF, MMP3, og EL) til eksperimentel validering af ovenstående indsnævret listen. For at gøre dette, har vi samlet urinprøver fra 21 mavecancerpatienter og 21 raske personer. Af de seks udvalgte proteiner, fem proteiner, MUC13, COL10A1, LIPG, AZGP1, og EL blev påvist ved Western blots i mindst én urinprøve. Ud af de fem, blev MUC13, COL10A1, og EL detekteres selv ved en meget lav mængde af de totale urinære proteiner (1-2 ug). MMP3 blev ikke fundet i prøverne, vi testede, som kan være på grund af den lave koncentration af MMP3 i urin eller en falsk forudsigelse af vores klassificeringen.

Det er særlig interessant at bemærke, at vi var i stand til at opdage konsistente forskelle i EL overflod (kodet af

LIPG

) mellem de to sæt af 21 urinprøver. De Western blots for EL viste en betydelig reduktion i sin overflod i urinprøver fra de 21 mavecancerpatienter sammenlignet med kontrolprøver. Som vist i figur 2A, størstedelen af ​​kontrolprøver viste tilstedeværelsen af ​​EL, hvorimod de fleste af de mavekræft prøver havde relativt lave mængder af EL. Dette mønster blev observeret gentagne gange

A:. Western blots for EL om kontrol og mavekræft prøver. Kontrolprøver (angivet ved den røde foret boks): Lanes 1-7, 11-17, 21-27. Kræft prøver: Lanes 8-14, 18-24, 28-34. B: Den tilsvarende knurhår-box plot for signalintensiteter. C. ROC kurve af EL Western blot. Rød linje: nogen forskelsbehandling; . Blå linje: ROC af EL

Molekylvægten af ​​dette protein er blevet bestemt til at være 68 kDa [28]; således forventes en homo-dimer til at være 134 kDa. https://csbl.bmb.uga.edu/~juancui/Publications/GC2009/Additional_material.pdf.

doi:10.1371/journal.pone.0016875.s005

(XLS)

Table

Be the first to comment

Leave a Reply