Abstrakt
Identifikation diagnostiske biomarkører baseret på genomisk funktioner til en nøjagtig klassificering sygdom er et problem af stor betydning for både, medicinsk grundforskning og klinisk praksis. I dette papir, vi indfører kvantitative netværk foranstaltninger som
strukturelle biomarkører
og undersøge deres evne til klassificering sygdomstilstande udledes genekspression data fra prostatakræft. Vi demonstrerer anvendeligheden af vores tilgang ved hjælp egenværdiproblemer og entropi-baserede graf invarianter og sammenligne resultaterne med en konventionel biomarkør analyse af de underliggende genekspression data
Henvisning:. Dehmer M, Mueller LAJ, Emmert-Streib F (2013) Kvantitativ Network Foranstaltninger som biomarkører for klassificering prostatakræft sygdomstilstande: A Systems Approach til Diagnostiske Biomarkører. PLoS ONE 8 (11): e77602. doi: 10,1371 /journal.pone.0077602
Redaktør: Francesco Pappalardo, University of Catania, Italien
Modtaget: Juli 3, 2013; Accepteret: 3. september 2013; Udgivet: November 13, 2013 |
Copyright: © 2013 Dehmer et al. Dette er en åben adgang artiklen distribueres under betingelserne i Creative Commons Attribution License, som tillader ubegrænset brug, distribution og reproduktion i ethvert medie, forudsat den oprindelige forfatter og kilde krediteres
Finansiering:. Matthias Dehmer tak de østrigske Science fondene til at støtte dette arbejde (projekt P22029-N13). Forfatterne også takke “Zentraler Informatikdienst” af det tekniske universitet i Wien for at levere IT-ressourcer til at udføre skala beregninger store på Phoenix Cluster. Også, Matthias Dehmer og Laurin Mueller takker Standortagentur Tirol til at understøtte dette arbejde. De finansieringskilder havde ingen rolle i studie design, indsamling og analyse af data, beslutning om at offentliggøre, eller forberedelse af manuskriptet
Konkurrerende interesser:.. Forfatterne har erklæret, at der ikke findes konkurrerende interesser
Introduktion
Molekylær og clinal biomarkører er blevet undersøgt i udstrakt grad i medicin og beslægtede områder [1], [2], [3], [4]. Især har biomarkører blevet anvendt til cancer analyse, cancer screening og stratificering og diagnose [1], [2], [3], [4]. Klassisk, diagnostiske biomarkører repræsenterer molekyler såsom at deres forekomst eller koncentration i vævsprøver eller blod er repræsentativ for en bestemt cancer tilstand, se [5]. Talrige undersøgelser er blevet udført for at demonstrere nytten og virkningen af sådanne biomarkører i kræftforskning og beslægtede områder [1], [2], [3], [4].
De ovennævnte resultater beskæftiger sig med biomarkør forskning er baseret på den bredt accepterede klassiske synspunkt, at differentielt udtrykte gener kan tolkes som markører for sygdomme. Men afsløret, nyere forskning, at den klassiske single-gen biomarkør er ofte mindre relevant til analyse sygdomme end at bruge netværksbaseret biomarkør, se [6], [7], [8], [9]. Her veje repræsenterer komplekse netværk [10], [6], [7] tjene som biomarkører for sygdomme. Vi har nu kort skitsere relevant relateret arbejde af såkaldte netværksbaserede biomarkører som følger. For eksempel er et protein-netværksbaseret fremgangsmåde til identifikation af biomarkører undernet udledes protein Interaktionsdatabasen blevet udviklet af Chuang et al. [11]. Denne metode har vist sig nyttig, når klassificering af disse undernet for diskrimination sygdom signatur [11]. En lignende fremgangsmåde grund Chen et al. [12] at prioritere sygdomsgener og protein-interaktion undernet viste sig at være anvendelige også som disse undernet kan skelne sygdomstilstande signaturer. Guyon et al. [8] brugte support vektormaskine klassificering, således at metoden tager netværksinteraktioner i betragtning og ikke kun enkelte gener. Jin et al. [9] fortolket visse subgraphs, f.eks trekant grafer, som protein biomarkører og udført en statistisk analyse heraf, se [9]. Endelig Barabasi et al. [13] anvendte, fx, strukturelle egenskaber af grafer ved hjælp af centrale foranstaltninger og graden udlodninger til finde netværksbaserede biomarkører via funktionen valg.
I dette papir, vi indfører kvantitative netværk foranstaltninger som strukturelle biomarkører og undersøge deres evne ved klassificering sygdomstilstande udledes prostatakræft (se afsnittet ‘data’). Problemet med at finde passende netværk foranstaltninger som fange strukturel information og dermed problemet med at identificere egnede kandidater som strukturelle biomarkører er entydigt indviklet. Dette vedrører den åbne problem, at det ikke på forhånd klart, hvilken slags strukturelle træk kunne være bedst som der er uendeligt mange funktioner, som graph invariants [14], [15] for at karakterisere strukturen af veje (komplekse netværk), se også [14], [16], [17], [18].
Den største bidrag med dette papir er som følger. Vi bruger egenværdier af biologiske netværk udledes prostatakræft microarray data som strukturelle biomarkører ved hjælp overvåget indlæring. Mere præcist viser vi, at disse strukturelle biomarkører, der repræsenterer egenværdiproblemer-baserede graf invariants, kan anvendes til at klassificere prostatacancer meningsfuldt; i denne sammenhæng, vi får fornuftige resultater, når klassificere kræft vs godartet væv, se også [19].
Metoder
Strukturelle Biomarkører
I dette papir, vi indfører kvantitative netværk foranstaltninger som strukturelle biomarkører. Det betyder, ved at starte fra biologiske netværk udledes microarray data (se afsnittet ‘Data’), beregner vi kvantitative graf foranstaltninger, der repræsenterer netværk kompleksitet foranstaltninger og beskæftiger overvåget indlæring. Hvis disse strukturelle træk kan klassificere /diskriminere sygdomstilstande, omtales de som strukturelle biomarkører. I virkeligheden er dette åbner nye perspektiver i biomarkør forskning som (i) uendeligt mange strukturelle træk (f.eks graf invarianter) findes for strukturel netværk karakterisering og (ii) der findes flere maskine læring og statistiske metoder til at bruge de afledte strukturelle træk for klassificering /diskrimination.
Som strukturelle biomarkører, vi kommer til at bruge eigenvalue- og entropi-baserede mængder. Vi starter med at forklare den procedure, til at udlede egenværdiproblemer-baserede graf invarianter. Hvis betegner et netværk, kan derefter egenværdi-baserede foranstaltninger beregnes ved hjælp af en graf-teoretisk matrix [20] udledes. Endelig giver vi. (1)
I dette papir, vi har sat og. er nabomatricen og er afstanden matrix, henholdsvis [17], [20]. Ved at løse den algebraiske ligning. (2) får vi de ikke-nul egenværdier og. Da og er symmetriske for ikke-rettede grafer, det holder. Fra den skitserede beregning af egenværdier ved hjælp udledes, vi definerer de foranstaltninger [17], [21], [22]:
(3) (4) (5) (6) (7), og
(8) (9) (10) (11)
for at beregne de foranstaltninger konkret ved hjælp af R, vi har sat. er Laplace af og er dens egenværdier heraf [23].
Den anden klasse af graf foranstaltninger, vi anvender som strukturelle biomarkører repræsenterer entropi foranstaltninger for grafer. Disse foranstaltninger er blevet undersøgt i udstrakt grad af Dehmer et al. [24], [25], [26] og oprindeligt af Mowshowitz [27], [28], [29], [30]. Sådanne foranstaltninger er afhængige af Shannons entropi og dermed skal et sandsynlighedsfordelinger tildeles en graf. Dette problem er indviklet som, igen, findes uendeligt mange strukturelle træk (f.eks vertex grader, vertices, kanter, afstande og skillevægge deraf) til at definere entropiske foranstaltninger på et netværk.
Grundlæggende findes der to metoder til at udlede en sandsynlighedsfordeling af en graf ved at tage dens strukturelle træk i betragtning. Den første metode er baseret på bestemmelse af partitioner ved at bruge en vilkårlig graf invariant og ækvivalens kriterium [31], [27]. Den anden procedure er baseret på anvendelse af såkaldte informations- funktionaler og tildele en sandsynlighed værdi til hver vinkelspids. Egenskaber af graf entropier baseret på begge metoder er blevet undersøgt i [24], [25], [26], [16]. Som et resultat af den omfattende forskning på området for de sidste tre årtier, er der udviklet talrige graf entropi foranstaltninger, se fx [31], [32], [24], [27], [33], [34 ]. Det ville gå ud over rammerne af papiret til at undersøge alle eksisterende graf entropi foranstaltninger som kandidater til strukturel biomarkør. Ikke desto mindre, vi brugte de følgende entropier fra forskellige paradigmer (som følge af funktionen udvælgelsesprocessen, se også afsnittet “Resultater”) [31], [24]:
Dehmer entropi ved hjælp af de oplysninger funktionelle (vertex centrale), se [24].
Topologiske information indhold [35].
Graph Vertex kompleksitet Index [36].
Gennemsnitlig indhold af distance-graders lighed oplysninger [ ,,,0],31].
Mean informationsindhold på kanten mellem kønnene [31].
Balaban indeks [37].
Entropiske symmetri indeks [38].
Bonchev indeks [31].
Dehmer-entropi ved hjælp af oplysningerne funktionelle (-spheres), se [24].
Bonchev indeks [31].
de konkrete formler heraf og de tekniske detaljer kan findes i [31], [24].
data
datasættet vi bruger i dette papir er aldrig blevet brugt til kræft klassifikation sygdomstilstande. At skabe det sæt af biologiske netværk, vi brugte syv offentligt tilgængelige datasæt (se tabel 1) relateret til prostatacancer fra NCBI GEO [39] og EBI Arrayexpress [40]. De datasæt er udvalgt i samarbejde med Urologi Department på det medicinske universitet Innsbruck for at identificere transkriptionelle ændringer i prostata cancer, herunder tumorer med ERG genomlejringer, se [19]. Et første resultat ved hjælp af disse data er blevet opnået ved Massoner et al. [19], som de fandt robuste populationsbaserede uafhængige transkriptionelle ændringer og tegn på ERG omlejringer inducerer metaboliske ændringer i kræftceller ved at aktivere væsentligste metaboliske signalmolekyler som NPY.
Vi analyseres igen de offentligt tilgængelige datasæt (se tabel 1) og udledte biologiske netværk ved at bruge C3NET inferens metode [41]. Dette resulterede i syv C3NET netværk, der repræsenterer den godartede væv (fra kontrolgruppen) og syv netværk, der repræsenterer kræftvæv. Her, godartede betyder, at vi refererer til syge patienter med en tumor.
For at opnå et større sæt af netværk, anvendte vi databasen genet ontologi (GO) [42] til at udtrække subgraphs fra disse netværk. For hvert netværk og hver GO sigt i kategorien ‘biologiske proces «, udtrække vi en delgraf indeholder de gener, der er forbundet med denne specifikke GO sigt resulterer i og 108 netværk, der repræsenterer godartet og kræft væv, hhv. Vi bestemt grønt vilkår ved at bruge BioConductor Package goProfiles.
De resulterende størrelser af de opnåede klasser er potentielt anderledes, fordi netværket strukturer og er forskellige, og dermed er det ikke alle veje fanget af disse netværk. Desuden udelukker vi et undernetværk, når det indeholder mindre, at gener, der er forbundet med en bestemt GO sigt. De opnåede to sæt netværk kan tolkes som en tilnærmelse af to populationer. En befolkning repræsenterer
godartet
stat og den anden
kræft
tilstand. Vi bemærker, at dette sæt af biologiske netværk, der allerede har været anvendt i [43], når demonstrere funktionaliteten af den nyligt udviklede R-pakke QuACN
Resultater
Klassificering:. Prostata Cancer Networks vs. Gene Expression biomarkører
for at evaluere resultaterne af de nye strukturelle biomarkører, vi sammenligner klassificeringen af netværk med klassificeringen af genekspression data selv ved hjælp af overvåget indlæring. For at klassificere de normaliserede genekspression data ved hjælp af oplysninger beskrevet i afsnittet ‘Data’, vi kombineret de prøver af de syv undersøgelser (se tabel 1) ved at bestemme skæringspunktet for de målte gener. Dette resulterer i en trækvektor der indeholder alle generne, som måles på hver af de syv forskellige undersøgelser. For at vælge de vigtigste gener, anvender vi en funktion selektionsmekanisme baseret på
information vinde
metode [44]. Så klassificere vi datasættet ved at bruge de 10 vigtigste funktioner som en feature vektor ved at bruge SVM klassifikationen [45] med et polynomium kerne funktion. For at udføre klassificering, anvender vi R-implementering af Libsvm [46], og for at lære de optimale parametre, vi udfører en 10-fold krydsvalidering.
For at opnå den bedste klassificering ydeevne vurderer vi følgende parameterindstillinger til klassificering udtømmende: (12) og
(13) for de tre undersøgte foranstaltninger, er deres resultater i form af fejl foranstaltninger af klassificeringen opsummeret i tabel 2. for disse foranstaltning, fandt vi den optimale parameterindstillinger anvendes til denne analyse:.,, (egenværdi-baserede foranstaltninger),,, (entropi-baserede foranstaltninger) og,, (genekspression data)
fra vores numeriske klassificering af data, opsummeret i tabel 2, følger det, at netværket fremgangsmåde baseret på egenværdier (anden kolonne) og biomarkør analyse af genekspression data (kolonne videre) mest effektive. Konkret klassificeringen af genekspression biomarkører er altid bedst, men de egenværdiproblemer metode resulterer i en sammenlignelig ydelse, inden for en standardafvigelse. På grund af det faktum, at alle fejl foranstaltninger er stokastiske variable, anslået fra en fold krydsvalidering, synes det fornuftigt at overveje
ydeevne intervaller
, givet af middelværdien og standard fejl, i stedet for punkt estimatorer. Dette vil føre til mere robuste udsagn om de opnåede resultater værdier.
I modsætning til egenværdien og genekspression biomarkør metode, klassificering metode baseret på de entropier af net resulterer i laveste ydeevne for alle fejl foranstaltninger, men , stadig giver en fornuftig klassificering ydeevne indikerer, at også denne fremgangsmåde er i stand til at skelne de to biologiske klasser, i det mindste i et vist omfang.
egenværdi-baserede Strukturel Analyse af prostatakræft Networks
I dette afsnit undersøger vi nogle egenskaber egenværdierne ved hjælp af prostatakræft netværk, der repræsenterer to klasser (kræft og godartet væv). De første resultater er opsummeret i figur 1, 2 og figur 3, 4. Vi plottet alle egenværdier for kræft og benigne net ved anvendelse adjacency og afstand matrix hhv. Ved at bruge nabomatricen, egenværdierne af de godartede netværk viser en karakteristisk fordeling, hvor næsten alle egenværdierne er beliggende i en vandret stribe. Faktisk 64% af disse egenværdier er negative og 36% er positive. Plottet af kræftnetværk ved at ansætte adjacency ligner meget. Her er forholdet mellem positiv og negativ egenværdi er den samme som ved anvendelse af de godartede net. At disse distributioner ligner kan også forklares ved at argumentere med de tilsvarende nul-frie regioner (fx bånd-lignende områder, hvor der ikke nuller i det karakteristiske polynomium løgn). Som nævnt i afsnittet “Strukturelle Biomarkører”, egenværdier er de nuller (der betyder løsningerne af ligningen) af det karakteristiske polynomium ved hjælp af en graf-teoretisk matrix (her bruger vi og). Så ser vi, at de nul-fri områder af godartet vs. kræftnetværk ved hjælp nabomatricen ser meget ens. Men fra dette, kan vi ikke konkludere, at egenværdier er generelt uegnede til at diskriminere de to netværk klasser, som ses i afsnittet “Klassifikation: Prostata Cancer Networks vs. genekspression Biomarkører«. Ved at bruge afstanden matrix, vi giver de egenværdiproblemer-nøgletal 74% negative og 26% er positive for godartet; 76% negativ og 24% for kræftnetværk. I modsætning til fordelingerne ved hjælp nabomatricen, de vandrette strimler og dermed de nul-frie områder er forskellige. Dette kan forstås ved at analysere afgivelsen af de matrixelementer af adjacency og afstand matrix. Det faktum, at de er forskellige betyder også, at koefficienterne af de resulterende karakteristiske polynomier adskiller sig væsentligt. Vejviser
Sammenfattende kan vi konkludere, at visse egenværdiproblemer-baserede foranstaltninger hjælp adjacency og afstand matrix fange strukturelle information forskelligt. Her kan det betyde, at nogle af disse foranstaltninger ved hjælp af afstanden matrix er mere følsomme over for mindre strukturelle ændringer i netværket. Gyldigheden af denne hypotese kan underbygges ved at evaluere effekten af egenværdiproblemer-baserede foranstaltninger diskrimination. Dette vedrører at afgøre, om foranstaltningen indfanger strukturel information entydigt, se [47], [16], [14]. For eksempel, hvis netværket struktur lidt er ændret, bør foranstaltningen opdage denne strukturændring ved at give skelnes værdier. I dette papir, vi måler kraften eller unikke forskelsbehandling mængden,, udtrykke de
ikke-skelnes værdier
af en bestemt egenværdi-baserede foranstaltning. Det er at beregne NDV, vi beregne alle foranstaltninger vedrørende de netværk og bestemme antallet af grafer, som ikke kan skelnes af dem. Vigtigt er det, de netværk skal være strukturelt ikke-ækvivalent (ikke-isomorf) til at udføre denne undersøgelse meningsfuldt; Vi understreger, at kræftnetværk anvendt i denne undersøgelse er blevet kontrolleret for at være strukturelt ikke-ækvivalente. Ved at inspicere tabel 3, ser vi først og fremmest, at mange af de beregnede egenværdiproblemer-baserede foranstaltninger er fuldt unik; * At normalisere de værdier, ansat vi Konstantinova følsomhed foranstaltning, se [48], [17]. * Det betyder at de strukturelt skelne de netværk, som deres værdier entydigt. Den eneste foranstaltning, der producerer degenererede værdier er, se ligning 5. Endvidere vi observerer som er mere unik end den kan ses af de NDV-værdier. Således kan vi konkludere, at afstanden matrix koder strukturel information mere meningsfuldt end ved at bruge nabomatricen når der anvendes foranstaltningen.
Bemærk at de supplerende filer (File S1, S2, S3) indeholder de værdier af de calucated netværk.
diskussion og konklusion
inden de seneste år er der en betydelig interesse i identifikationen af biomarkører inden genomiske datasæt. Normalt, hvis der anvendes genekspression data fra DNA microarray eksperimenter, er en biomarkør betragtes som et gen, eller et sæt af gener, som der foreligger genekspression data. Derefter er metoder klassificering baseret på genekspression data af disse biomarkører, der fører til biologisk fortolkelige resultater med hensyn til deres evner klassificering, for eksempel til diagnostiske formål. I modsætning hertil i dette papir, vi antog
strukturelle biomarkører
, der stammer fra gen-regulatoriske netværk udledes genekspression data, og brugte disse til at foretage en klassificering af sygdomstilstande. Fra vores numerisk analyse fandt vi, at genekspression biomarkører og egenværdiproblemer baserede funktioner udføre ens, selv om de genekspression biomarkører udføre lidt bedre.
Dette resultat er interessant, fordi det viser, dels en biomarkør behøver ikke at være et gen, men det kan være en abstrakt egenskab ved et biologisk system, f.eks egenværdiproblemer-baserede netværk foranstaltninger, som i vores tilfælde. I princippet denne idé er ikke ny. Men hvad der er nyt, er, at vi demonstrere dette udtrykkeligt ved at give et eksempel for strukturelle biomarkører. Som sådan, giver vi praktiske erfaringer på dette argument, som normalt kun diskuteret argumentatively stedet for numerisk. For det andet, er den måde, vores strukturelle biomarkører defineres ikke længere tillade at sige, for eksempel ‘gen A og gen-B’ er i stand til at skelne mellem de biologiske forhold under overvejelse. I stedet vores funktioner henholdsvis biomarkører, svarer til funktioner i
systemet
er som sådan gen uafhængig, men afspejler deres kollektive egenskaber, som opfanges af de regulerende netværk udledes gen. Derfor vores tilgang repræsenterer en praktisk realisering af
systemer medicin
.
For en fremtidig analyse ville det være interessant at bruge protein udtryk data snarere end genekspression data til at gentage en lignende analyse. En sådan analyse ville gøre det muligt at få indblik i robustheden af vores resultater med hensyn til en ændring af den molekylære niveau, som leveres af protein interaktioner. Konkret vil det hjælpe til at forstå, hvis ren [49] eller blandede interaktion typer, som repræsenteret ved gen-regulatoriske netværk, er bedre egnet til at konstruere strukturelle biomarkører.
Samlet set vores resultater giver lovende tegn på, at
ingen -genet biomarkører
kan være en gavnlig middel til at klassificere sygdomstilstande fra genekspression data til diagnostiske formål.
Appendiks
for fuldstændighedens skyld i tabellerne 4, 5, 6, 7, 8, 9, 10 viser vi de samme resultater som i tabel 3, men for de enkelte datasæt, som anført i tabel 1. Vejviser
Støtte Information
File S1.
R datafil indeholder deskriptor værdier
doi:. 10,1371 /journal.pone.0077602.s001
(ZIP)
File S2.
Excel-fil med indhold af deskriptor værdier ved hjælp egenværdiproblemer-baserede foranstaltninger
doi:. 10,1371 /journal.pone.0077602.s002
(CSV)
fil S3.
Excel-fil med indhold af deskriptor værdier af ikke-egenværdi-baserede foranstaltninger
doi:. 10,1371 /journal.pone.0077602.s003
(CSV)
Leave a Reply
Du skal være logget ind for at skrive en kommentar.