PLoS ONE: En Model meget effektive Gene Expression Programmering (GEP) for Auxiliary Diagnose af småcellet lungekræft

Abstrakt

Baggrund

Lungekræft er en vigtig og almindelige kræftform, der udgør et stort problem for folkesundheden, men tidlig påvisning af småcellet lungekræft kan forbedre overlevelsesraten for kræftpatienter betydeligt . En række serum biomarkører er blevet anvendt ved diagnose af lungekræft; men de udviser lav følsomhed og specificitet.

Metoder Salg

Vi bruges biokemiske metoder til at måle blodets indhold af lactat dehydrogenase (LDH), C-reaktivt protein (CRP), Na

+ , Cl

-, Karcinogenicitet-embryonale antigen (CEA), og neuron specifik enolase (NSE) i 145 småcellet lungecancer (SCLC) patienter og 155 ikke-småcellet lungekræft og 155 normale kontroller. En genekspression programmering (GEP) model og receiver Betjening Karakteristiske (ROC) kurver inkorporerer disse biomarkører blev udviklet til den ekstra diagnose af SCLC.

Resultater

Efter passende ændring af parametrene, GEP model blev oprindeligt oprettet på grundlag af et træningssæt af 115 SCLC patienter og 125 normale kontroller for GEP model generation. Så GEP blev anvendt til de resterende 60 fag (test sæt) til model validering. GEP held diskrimineret 281 ud af 300 sager, som viser en korrekt klassificering sats for lungekræftpatienter på 93,75% (225/240) og 93,33% (56/60) for uddannelses- og test sæt, hhv. En anden GEP model inkorporerer fire biomarkører, herunder CEA, NSE, LDH, og CRP, udstillet lidt lavere afsløring følsomhed end GEP model, herunder seks biomarkører. Vi gentager de modeller på kunstige neurale netværk (ANN), og vores resultater viste, at nøjagtigheden af ​​GEP modeller var højere end i ANN. GEP model inkorporerer seks serum biomarkører udføres af NSCLC patienter og normale kontroller viste lav nøjagtighed end SCLC patienter og var nok til at bevise, at GEP model er egnet til SCLC-patienter.

Konklusion

Vi har udviklet en GEP model med høj følsomhed og specificitet for det ekstra diagnose af SCLC. Denne GEP model har potentiale for bred anvendelse til påvisning af SCLC i mindre udviklede regioner

Henvisning:. Yu Z, Lu H, Si H, Liu S, Li X, Gao C, et al. Model (2015) en yderst effektiv Gene Expression Programmering (GEP) for Auxiliary Diagnose af småcellet lungekræft. PLoS ONE 10 (5): e0125517. doi: 10,1371 /journal.pone.0125517

Academic Redaktør: Lanjing Zhang, University Medical Center of Princeton /Rutgers Robert Wood Johnson Medical School, USA

Modtaget: Maj 20, 2014; Accepteret: 24 marts 2015; Udgivet: 21. maj 2015

Copyright: © 2015 Yu et al. Dette er en åben adgang artiklen distribueres under betingelserne i Creative Commons Attribution License, som tillader ubegrænset brug, distribution og reproduktion i ethvert medie, forudsat den oprindelige forfatter og kilde krediteres

Data Tilgængelighed: Alle relevante data er inden for papir og dens støtte Information filer

Finansiering:. Dette arbejde blev støttet af Jieping Wu fundament: 320.6750.13210 og Jieping Wu fundament: 320.6753.1219. De finansieringskilder havde ingen rolle i studie design, indsamling og analyse af data, beslutning om at offentliggøre, eller forberedelse af manuskriptet

Konkurrerende interesser:.. Forfatterne har erklæret, at der ikke findes konkurrerende interesser

Introduktion

Lungekræft er en væsentlig årsag til kræft død på verdensplan, hvilket svarer til omkring 12,7% (1,6 millioner tilfælde) af alle nye kræfttilfælde hvert år og 18,2% (1,4 millioner dødsfald) af alle kræftdødsfald [1]. Det har en dårlig prognose, med en 15% 5-års overlevelse, og mere end 75% af patienterne er diagnosticeret på sene stadier af sygdommen [2,3]. Småcellet lungekræft (SCLC) er en af ​​de vigtigste typer af lungekræft, med den højeste grad af malignitet. Aktuelle terapimetoder, såsom kemoterapi, strålebehandling, og kirurgi er meget begrænset til behandling af sent stadium SCLC. Selvom enorme indsats og fremskridt er blevet gjort i behandlingen af ​​lungekræft, har de seneste fremskridt inden tidlig påvisning ført til små forbedringer i prognose [4]. Derfor er en effektiv screeningsmetode til tidlig diagnosticering af SCLC er yderst vigtigt for at øge klinisk diagnose effektiviteten og resultaterne af denne sygdom.

Mange forskellige teknikker er blevet anvendt i påvisning af lungekræft, herunder røntgenbillede af brystet (x -ray), computertomografi (CT), magnetisk resonans (MRI), spyt cytologi og bronkoskopi [5]. I de senere år har hele legemet positron-emissions-tomografi (PET) opstået for at forenkle og forbedre evalueringen af ​​patienter med denne type tumor [6]. Men disse teknikker er invasive, kostbare og /eller tidskrævende. For eksempel kan bronkoskopi beskadige bronkie og lunge. Desuden er disse detektionsmetoder er ikke tilstrækkeligt følsomme og specifikke nok i de fleste tilfælde [7,8] og fejldiagnosticering af indolente tumorer, grundet den lave specificitet af disse metoder, kan føre til unødvendige kirurgiske behandlinger [9,10]. For at undgå overbehandling af sygdommen, har ikke-invasive blodprøver været meget anvendt i kliniske omgivelser til screening af SCLC. Biomarkører er molekyler i blod, andre legemsvæsker eller væv, som kan anvendes til at evaluere de normale og unormale mennesker. Biomarkører kan supplere eller erstatte radiologiske undersøgelser til screening af kræft eller rutinemæssige kliniske besøg [11,12]. I lungekræft, er biomarkør evalueringer udført i serum, væv, og sputum [12]. Adskillige serum biomarkører, herunder carcinoembryonisk antigen (CEA), cytokeratin 19-fragment (CYFRA 21-1), vævet polypeptid antigen (TPA), pladecellecarcinomet antigen (SCC), cancerantigenet 125 (CA-125), cancerantigenet 153 (CA-153), den pro-gastrin-frigivende peptid (ProGRP), cancerantigenet 199 (CA-199), tumor-associeret glycoprotein 72-3 (TAG-72,3) og neuron-specifik enolase-( NSE), har vist anvendelighed til diagnose af lungekræft [13] [14] [15]. Ikke desto mindre har hver af dem ikke bevist den nødvendige sensitivitet og specificitet som et diagnostisk værktøj til at berettige klinisk udvikling [8]. Kombinationen af ​​en række biomarkører kan forbedre den diagnostiske effektivitet af cancere [16]. Imidlertid er den kombinerede anvendelse af tumor biomarkører ikke særlig udbredt, især i små sygehuse og i mindre udviklede lande, på grund af de store udgifter til udstyr og reagenser. I denne undersøgelse har vi fundet en kombination af økonomisk effektivitet og korrelationsmaalinger serum såsom LDH, CRP, Na

+, Cl

-, som kan opnås ved fælles biokemisk påvisning metode og behøver ikke ublu agentias eller faciliteter. I et landdistrikt og forarmet område, ved hjælp af metode, kunne en grundlæggende serum test advare folk, der er større risiko for at lide af kræft og til at gøre en dybe helbredsundersøgelse såsom CT, PET-CT og så videre.

Derfor er ny teknologi presserende behov for at finde foreningen oplysninger mellem et stort sæt af biomarkører og for tidlig påvisning af lungekræft. I de senere år, med udviklingen af ​​videnskab og teknologi, har computerstøttet design blevet et hjælpeværktøj til diagnosticering af humane kræftformer. I dag har machine learning metoder, såsom kunstige neurale netværk (Anns), beslutningsprocesser træer, den naive Bayes (NB) algoritme, og support vektormaskine (SVM) blevet udnyttet i diagnose og prognose forudsigelse af kræft [17]. For eksempel har ANNs af forskellige EGFR mikrodeletion mutationer blevet anvendt til at forbedre diagnosen effektiviteten af ​​ikke-småcellet lungekræft (NSCLC) [18]. ANN-model kombineret med seks tumor biomarkører, herunder CEA, gastrin, NSE, sialinsyre (SA), Cu /Zn, og Ca, blev anvendt til med succes differentiere lungekræft fra godartet lungesygdom, en normal kontrol, og gastrointestinale cancere [19 ]. En tidligere undersøgelse har vist, at NB teknikker er nyttige for diagnose og til at generere behandling anbefalinger og forudsige den 1-årige-overlevelse i lungekræftpatienter [20]. Kombinationen af ​​proteinegenskaber og attribut vægtning modeller med en støtte vektor maskine (SVM) blev anvendt til at skelne SCLC og NSCLC [21]. Disse metoder har ført til udviklingen af ​​klassificører der er i stand til at skelne mellem kræft og ikke-cancer prøver. Den ANNs, SVMs og bemyndigede organer er ofte blevet brugt til problemer klassificering [17] [20] [22]. De ANNs har evnen til at opfylde den statistiske som indeholder lineære, logistisk og ikke-lineær regression, men det er svært for ANNs at forstå strukturen i algoritmen, skyldes denne ANNs er en “black-box” teknologi og derfor kan de næppe opdage hvordan man betjener klassificeringen. Ellers forårsager generøse attributter overfitting let [17]. Kontrast til ANNs, i SVM den overfitting næppe forekomme, men træningen er langsom, når inddata mange data. Den NB er meget let at skelne, men ligesom ANN store attributter kan misinformere klassifikationen [17] [23]. For nylig, en roman evolutionær algoritme kaldet Gene Expression Programmering (GEP), som er en automatisk tilgang programmering først introduceret af Ferreira [24] blev undersøgt for ekstra diagnose af kræft. GEP har fordelene ved fleksibilitet og magt til at udforske hele søgning plads, som kommer fra adskillelsen af ​​genotype og fænotype og har visualisering datamodel. Det er let at implementere og påpege hvorfor GEP ikke kan arbejde via parameter justering [24] [25] [26]. En særlig undersøgelse har manifesteret den overlegne værdi GEP forudsige bivirkningerne af radikal hysterektomi i livmoderhalskræft kræftpatienter med en nøjagtighed på 71,96% [27]. I vores grundforskning, blev klassificeringen af ​​lungetumorer foretaget på grundlag af biomarkører (målt i 120 NSCLC og 60 SCLC-patienter) ved at oprette optimale biomarkør fælles modeller med GEP algoritme [28]. Men der er lidt relevante data vedrørende GEP påført lungekræft hidtil.

I denne undersøgelse har vi udviklet en forudsigelsesmodel hjælp GEP metode til at forbedre den diagnostiske effektivitet af SCLC. En række biomarkører er tidligere blevet påvist at være nyttig til lungecancer diagnose. Vores GEP model foreslog en ny multi-analyse af serum biomarkører til tidlig påvisning af SCLC.

Materialer og metoder

Patienter og kontroller

I alt 430 sager, herunder 145 SCLC patienter, 130 ikke-småcellet lungecancer (NSCLC) patienter og 155 ikke-kræft kontroller, blev indrulleret fra Tilknyttede Hospital i Qingdao Universitet mellem juli 2006 og maj 2013. diagnosen af ​​145 SCLC patienter var baseret på biopsi og histopatologi, og de blev vist sig at være ubehandlede primære lungecancere (fig 1), blev de 130 NSCLC-patienter diagnosticeret med primær tumor i trin i, II før operation. Histologisk diagnose af primær lungecancer blev etableret i henhold til den reviderede klassificering af lunge tumorer ved WHO og den internationale sammenslutning for lungekræft Study [29].

A. hæmatoxylin-eosin-farvning af biopsi prøve skive. B. CD56 (+) fund i immunhistokemisk metode. C. Syn (+) fund i immunhistokemisk metode. D.TTF-1 (+) fund i immunhistokemisk metode

SCLC gruppe omfattede 94 mandlige og 51 kvindelige patienter i alderen mellem 33 og 78 år. Kontrolgruppen bestod af 155 ikke-kræfttilfælde, der undergik undersøgelser, der beviser deres helbred (86 mænd og 69 kvinder). De NSCLC patienter (69 mænd og 61 kvinder) indgik i den negative kontrol for at vise forskellen fra SCLC, valgte vi 130 sager fra 155 sager ikke-kræft, som den sunde kontrol. Forskning godkendelse blev opnået fra den tilsvarende etiske komité og skriftligt informeret samtykke blev opnået fra alle deltagere. Prøver og information om sundhed blev mærket ved hjælp af entydige identifikatorer til at beskytte emne fortrolighed (tabel 1 og 2).

Udvælgelse af seks serum biomarkører

Vi valgte seks biomarkører, der er tæt relateret til lungekræft, især til SCLC, og der har været meget anvendt i screeningen af ​​SCLC. Indeksene vi valgte er blevet indarbejdet i GEP-modellen. Baseret på tidligere klinisk undersøgelse, serum niveauer af LDH og CRP i SCLC patienter er væsentligt højere end hos raske kontroller, men serum niveau af natrium og klorid er væsentligt lavere end i normale kontroller. Serumniveau LDH, som er almindeligt forhøjet i neoplastiske lidelser, er blevet foreslået som en kraftfuld tumormarkør i mange år. Derfor er disse markører har betydelig betydning i SCLC. For eksempel er lungekræftpatienter, især SCLC patienter, Inappropriate Anti diuretisk hormon (SIADH), der anses for at være den førende årsag til hyponatriæmi og hypokloriæmi og kan induceres af komorbiditet, såsom lungekræft. Også de store osmotiske aktive stoffer, i den ekstracellulære væske hovedstol indeholder serum-natrium og dets ledsagende anioner chlorid [30] [31]. Der er også mange rapporter om sammenhængen mellem kronisk betændelse og kræft [32]. CRP er en uspecifik akut-fase inflammatorisk respons serum markør produceret af hepatocytter reguleret af interleukin (IL) -6 [33]. CEA og NSE er de mest almindelige biomarkører, der anvendes i lunge kræftscreening på hospitalet [34] [35].

Målinger af serum biomarkører

Blod (10 ml) blev indsamlet i serumseparatorrør, behandles straks, og separeret ved centrifugering ved 3.000 rpm ved stuetemperatur i 10 minutter. Den fraskilte serum blev herefter overført og lagret ved -80 ° C til måling af de seks biomarkører nævnt ovenfor. CEA og NSE blev bestemt ved elektro-chemiluminescens immunassay (ECLIA), ved hjælp af Roche E601 kemisk luminescens immunitet analysator med den ekstra reagens kit (Dongying J M Chemical Co., Ltd., Kina). LDH, CRP, Na

+, og Cl

– blev målt ved polyacrylamidgelelektroforese (PAGE), immunoturbidimetry (ITM), og ion elektrode metoder, henholdsvis ved hjælp af Hitachi 7600-020 automatiske biokemiske analysator (Beijing Leadman Biokemisk Technology Company, Beijing, Kina). Resultaterne blev præsenteret som middelværdier af dubletter efter subtraktion af baggrundsværdier. De normale kritiske værdier af LDH (99-245 U /l), CRP (0-3mg /l), Na

+ (136-146 mmol /l, Cl

– (96-108mmol /l), CEA (0-3,4 ng /ml), og NSE (0-17ng /ml) blev anvendt som standarder.

Genekspression programmering (GEP) modeller

GEP er en evolutionær algoritme indført ved Ferreira i 2001 [25]. det kan emulere biologisk evolution baseret på edb-programmering. med antagelsen af ​​at være, på en måde, en naturlig udvikling af genetisk programmering (GP) bevarer få ejendomme af genetiske algoritmer (GA) [36] [37 ]. GEP algoritme arver fordelene ved GA og GP, men overvinder deres ulemper. i modsætning til GP, er kromosomerne i GEP ikke repræsenteret som træer, men som lineære strenge af fast længde, med elementer tages fra GA. GEP vedtager en simpel lineær fast længde måde at beskrive individer, og det er derfor nemt at bruge en ikke-lineær træstruktur til at løse komplicerede ikke-lineære problemer og således opnå formålet med at bruge simple kodning til at løse komplekse problemer [38]. GEP bruger karakteristiske lineære kromosomer, som er sammensat af generne strukturelt organiseret i hovedet og halen. Hoved kan indeholde funktionelle elementer som {Q, +, -, ×, /} eller terminal elementer som, “Q” er den statistiske funktion af kvadratroden. Størrelsen af ​​halen (t) beregnes som t = h (n-1) + 1, hvor n er det maksimale antal parametre, der kræves i funktionen sæt [39]. Når gengivelsen af ​​hvert gen er givet, er genotypen etableret. Det omdannes derpå til fænotypen ekspression træet (ET). Kromosomerne funktion anvendes som et genom og er modificeret ved hjælp af mutation, gennemførelse, root gennemførelse, gen transponering, genrekombination, og en- og to-point rekombination. Rutediagrammet i et genekspression algoritme (GEA) er vist i Fig 2. [24].

Algoritmen begynder med tilfældig skabelse af kromosomerne i den oprindelige population. Derefter kromosomerne udtrykkes og egnethed enkelte evalueres. Ifølge fitness, er reproduktion med modifikation, de personer udvælges derefter, og resultaterne føre til nye træk. Derudover er individerne i denne nye generation udsat for den samme udviklingsproces: udtryk for de genomer, konfrontation af udvælgelsen miljø, og reproduktion med modifikation. Den gentages et vist antal generationer, indtil der er fundet en tilfredsstillende løsning. Det er vigtigt, at de personer, der er udvalgt og kopieret ind i den næste generation i henhold til fitness ved roulettehjulet sampling med elitisme. Dette garanterer overlevelse og kloning af den bedste enkelte til den næste generation. Hver GEP gen indeholder en liste over symboler med en fast længde, der kan være ethvert element fra en funktion sæt [36]: Hotel (1)

Den optimale fitness er: (2) (3) (4) TP, TN, FP, FN er antallet af sande positive (TPS), sande negativer (TNS), falske positiver (RP), og falsk negative (FN’er), hhv.

teorien om ANN modeller

kunstige neurale netværk (ANNs), der har evnen til at klassificeringen er en matematisk model, der oprindelig designet til at efterligne menneskelige neurale system. Flere neuroner interconnect til hinanden og arrangeret i en ledningsføring lag. ANNs bruge komplicerede lag (kaldet skjulte lag) til at håndtere input og output, input hvor hver neuron repræsenterer en uafhængig variabel. ANNs indeholder en række forskellige arkitekturer, herunder flerlags-perceptron (MLP) og Radial Basis Function (RBF) [17] [39]. MLP anvender back-propagation læring algoritme og en ikke-lineær funktion overføres summen. RBF netværk aktiverer neuron i skjulte lag gennem radial basis funktion, som har to parametre: center placering af funktionen og dens bias. I RBF netværk, accepterer det skjulte lag input data via en uovervåget form [40].

statistiske analyser

Statistiske analyser blev udført ved hjælp af SPSS 16.0. Forskelle mellem grupper blev beregnet ved hjælp af en ikke-parametrisk Wilcoxon test (Mann-Whitney U-test), uafhængige-Samples T Test og chi-square test.

P-værdier 0

.

05

blev anset for at være statistisk signifikant.

kapacitet Detection sammenligning

Receiver Operating Karakteristiske (ROC) kurver blev brugt til at beskrive følsomhed biomarkører, alene og kombineret, som blev afbildet med “R programmering projekt 2,15-1”. Brug ANNs at sammenligne detektionsevnen, kan vi fastslå den optimale algoritme.

Etik erklæring

Forskning godkendelse blev opnået fra den etiske komité Qingdao University Medical College og skriftligt informeret samtykke blev opnået fra alle deltagere. Undersøgelsen blev fulgt af stard (Standarder for Indberetning af diagnostisk nøjagtighed) tjekliste for at forbedre nøjagtigheden og fuldstændigheden af ​​rapportering af studier af diagnostisk nøjagtighed [41].

Resultater

demografiske og kliniske profiler , samt serum niveauer af seks biomarkører for SCLC patienter og normale kontroller

de kliniske karakteristika for SCLC patienter og normale kontroller blev opsummeret i tabel 1 NSCLC patienter og kontroller var i tabel 2. ingen signifikante forskelle alder og rygevaner blev observeret mellem disse to grupper. At etablere en ny multipel-analyse af serum biomarkører for effektiv screening af SCLC, blev et sæt af seks biomarkører udvælges og deres serum blev bestemt ved 145 lungecancerpatienter og 155 kontrolpersoner (S1 datasæt). SCLC patienter udviste signifikant højere koncentrationer af serum LDH, CRP, CEA, og NSE end normale kontroller (

s. 0

001

), mens koncentrationerne af Na

+ og Cl

– var betydeligt lavere end i normale kontroller; (tabel 3) (

s & lt 0

001

.). Der er betydelige forskelle i koncentrationerne af LDH, Na, Cl og NSE mellem SCLC og NSCLC betyder, at disse biomarkører er særligt velegnede til SCLC (tabel 4). Den korrelationsanalyse afhang af Spearman rank korrelation analysen var at udelukke potentielle confoundere, korrelationskoefficienten, som er tæt på “1” betyder gentagne i GEP-modeller, de seks biomarkører udføre deres mission godt og har betydelig rolle henholdsvis. (Tabel 5). Vejviser

ROC kurver analyser til at repræsentere sensitivitet /specificitet hver biomarkør og deres kombinationer

ROC kurver at opdage sensitivitet /specificitet i hver biomarkør blev bestemt ved sammenligning med området under kurven, fandt vi resultatet i serum-natrium og serum chlorid var lavere end nogen andre biomarkører (fig 3), derefter bygge modeller delende to grupper at bekræfte, om Na

+ og Cl

– er meningsfulde i påvisning af patienter med lungecancer og kontroller. Model 1 har forenet alle de seks biomarkører og model 2 har konjunktion fire biomarkører, der fjerner serum-natrium og serum chlorid. Den slående forskel på ydeevnen i model 1 og model 2 blev afbildet i figur 4, model 1 med 6 biomarkører i ROC-kurven har en betydelig fordel (Fig 4).

Følsomheden uddannet af seks biomarkører kombination klaret sig bedre end fire biomarkører.

GEP modellering

GEP model 1 inkorporerer seks serum biomarkører.

En software, der kaldes “Automatic problem Solver 3,0” blev anvendt til at køre algoritmen. Den GEP modellering tilfældigt udvalgt fire af fem partitioner som et træningssæt (240 patienter) til model generation, herunder 115 SCLC patienter og 125 normale kontroller. Derefter blev GEP parametre ændret for at teste de resterende 60 emner for model validering. Koncentrationen af ​​seks biomarkører var input til GEP model til beregning sin afsløring sensitivitet og specificitet for diskrimination af SCLC og normale kontroller. GEP model 1 brugt alle seks biomarkører som input og algoritmen var:

Hvis den beregnede værdi af “y” lig med eller større end afrundingsgrænsen, så posten er klassificeret som “1”, “0” ellers. De variable x

0, x

1, x

2, x

3, x

4, og x

5 repræsenterede biomarkører LDH, CRP, Na

+ , Cl

-., CEA, og NSE henholdsvis

Patienter ramt af lungekræft, blev markeret som klasse “1”, mens de raske forsøgspersoner blev markeret som klasse “0”. De serumkoncentrationer af LDH, CRP, Na

+, Cl

-, CEA, og NSE blev anvendt som input i model 1. Den generelle eksperiment setup blev opsummeret i tabel 6. Denne model held diskrimineret 281 ud af 300 emner, som repræsenterede en bestemmelse koefficient på 93,75% (225/240) og 93,33% (56/60) for uddannelse og test sæt, henholdsvis (S1 datasæt).

GEP model 2 herunder fire biomarkører .

Mens udførelsen af ​​model 1 med 6 biomarkører var godt, vi ønskede at undersøge, om antallet af biomarkører kunne reduceres til kun fire, som i væsentlig grad kan reducere omkostningerne og tid til SCLC screening. I model 2, valgte vi kun de markører, der var udbredt i påvisning af lungekræft, herunder LDH, CRP, CEA, og NSE, med samme funktion sæt beskrevet ovenfor.

Algoritmen af ​​GEP model 2 var:

Hvis den beregnede værdi af “y” lig med eller større end afrundingsgrænsen, så posten er klassificeret som “1”, “0” ellers. I denne model variable x

0, x

1, x

2, og x

3 var biomarkører LDH, CRP, CEA, og NSE hhv.

Nøjagtigheden af GEP model 2 var 91,66%, og følsomheden var 86,67% i testen sæt, hvilket var lavere end i model 1 (tabel 7). Alle kurser blev foretaget in triplo at sikre, at den bedste arkitektur blev valgt. Vi har gjort andre kombinationer for at sikre model 1 er den optimerede biomarkør panel, der har erhvervet den højeste forventede værdi.

Udvikling af model af kunstige neurale netværk

For at sammenligne klassificering magten mellem GEP og ANN, blev IBM SPSS Statistics 18.0 anvendes til at bygge ANNs (MLP og RBF modeller) forudsigelse modeller. Den model1 og MODEL2 var som samme til GEP. SCLC patienter og kontroller (0 eller 1) var input som en afhængig variabel som GEP modeller. Ved hjælp af model 1, MLP angivne nøjagtighed på 85,4%, 80,0% og i RBF erhvervede en nøjagtighed på 80,0%, 78,3% for uddannelse og testfasen, hhv. Hertil kommer, at model 2 den korrekte klassificering sats for MLP repræsenterede identifikation af 83,3% og 83,3% og for RBF var for 84,2%, 83,3% blandt træning og test faser, hhv. Softwaren er blevet kørte tre gange, og covariant var anderledes arrangere at vælge den bedste (tabel 8) (figur 5).

I forhold til ANNs, GEP algoritmen viser den højeste prædiktive sats, der har betydelige styrker. ROC kurve og GEP model viste, at modellen 1 er den passende kombination at skelne lungekræftpatienter fra højrisiko-folk.

GEP model 1 inkorporerer seks serum biomarkører udføres af begrænset scenen og omfattende fase.

Den optimale GEP model 1 blev brugt til at lave en sammenligning mellem tidlige og sene SCLC (74 begrænset scenen og 71 omfattende fase). Vi valgte 74 tilfælde fra de 155 sager ikke-kræft, som den sunde kontrol. For det første for at undersøge den tidlige SCLC, som den ovennævnte fremgangsmåde GEP model tilfældigt udvalgt fire af fem skillevægge som et træningssæt (118 patienter) til model generation, herunder 59 tidlige SCLC patienter og 59 normale kontroller. Resterende 30 tilfælde (15 tidlige SCLC og 15 normale kontroller) var til model validering. Det kan bemærkes, at den tidlige SCLC erhvervede nøjagtigheden af ​​92,37% (109/118) og 90% (27/30) til træning og test sæt, hhv. For det andet, for sen SCLC, 116 forsøgspersoner (57 sent SCLC og 59 normale kontroller) til model generation og 29 sager til model validering, det repræsenterede nøjagtigheden af ​​96,52% (112/116), 91,30% (27/29) til træning og prøveopstilling henholdsvis. Resultaterne viste, at nøjagtigheden af ​​sen SCLC i GEP model 1 blev udført bedre end tidlig SCLC og total 145 SCLC, men den tidlige SCLC nøjagtighed var tæt på resultatet af 145 SCLC, var det stadig en god ydeevne (S3 datasæt) (S4 datasæt).

GEP model 1 udført af NSCLC patienter og normale kontroller.

for at bekræfte GEP model 1 test, NSCLC patienter er blevet medtaget i den negative kontrol med raske forsøgspersoner. Som ovenstående metode, GEP udvalgt tilfældigt 208 forsøgspersoner (104 NSCLC patienter og 104 normale kontroller) til model generation, 52 forsøgspersoner (26 NSCLC patienter og 26 normale kontroller) til model validering hhv. Det anførte, at nøjagtigheden af ​​87,5% (182/208), 86,5% (45/52) til træning og test sæt, hhv. I mellemtiden var resultaterne betydeligt værre end SCLC patienter og var nok til at bevise, at GEP model er egnet til SCLC patienter (tabel 9) (S2 datasæt).

Diskussion

SCLC udgør ca. 13-18% af alle lungekræfttilfælde, med forskellige forekomster i forskellige lande [42]. Uden behandling, det har den mest aggressive kliniske forløb af alle typer lungekræft, med overlevelse fra 2 til 4 måneder [43]. Diagnosticering af SCLC på sin tidlige fase er udfordrende, fordi det er normalt asymptomatisk indtil fremskredne stadier, der forårsager dårlig prognose [44]. Dette understreger betydningen af ​​en pålidelig tidlige fase diagnose metode til at forlænge livet [45].

Forskellige fremgangsmåder er blevet anvendt til påvisning af SCLC, såsom thorax radiografi, opspyt cytologi, og CT. Effekten af ​​disse værktøjer er blevet evalueret i kliniske forsøg, og det viser sig, at thorax røntgen og opspyt cytologi har lav følsomhed for tidlige fase påvisning af SCLC [46,47]. Selv CT billeddannelse har vist sig som en effektiv teknik til diagnosticering af mange humane sygdomme, den mest fremtrædende begrænsning af CT billeddannelse til påvisning af lungekræft er den høje fejlagtige godartede lungeknuder som lungekræft [48,49]. Desuden CT billeddannelse undersøgelse er stadig dyrt for de fleste mennesker i udviklingslandene og medicinske forsikringsselskaber vil ikke godkende brugen af ​​CT-scanninger som en overvågning strategi for lungekræft.

Biologiske markører let kan afsløres i biologiske væsker under anvendelse af minimalt invasive procedurer som i væsentlig grad kan øge detektionsraten af ​​et antal humane cancere. Adskillige tumormarkører, såsom ɑ-føtoprotein (AFP), prostataspecifikt antigen (PSA) og cancer antigen125 (CA125), har vist sig at være meget følsomme og effektive til screening af leveren, prostata, og ovariecancere [50] . Hver biomarkør har lav diagnostisk grund af begrænset følsomhed og specificitet som delvist på grund af den heterogene for denne sygdom [15,51]. Mange tumormarkører anvendes ikke alene til rutinemæssig tumor screening på grund af lave opdaget og uacceptable falsk-positive diagnoser [52]. I denne undersøgelse, nogle konventionelle og økonomiske markører såsom LDH, CRP, Na

+, Cl

– og to andre tumor biomarkører (CEA, NSE) blev udvalgt baseret på tidligere undersøgelser for at fastslå GEP model til påvisning af SCLC. Disse biomarkører kan let testes, selv i udviklingsregioner, ved hjælp af to sæt. For eksempel, LDH og CRP, to vigtige betændelsesmarkører, rutinemæssigt testet i de fleste hospitaler i Kina, endsige elektrolytopløsning Na

+, Cl

-.

En tidligere undersøgelse foretaget af Flores,

et al

. [44,53,15] omfattede 63 lungekræftpatienter, 87 ikke-kræft kontroller. Den ANN modellen blev trænet med et sæt af biomarkører (Cyfra 21.1, CEA, CA125 og CRP) og opnåede en korrekt klassificering på 88,9%, 93,3% og 90% i uddannelse, validering og afprøvning faser, hhv. Feng,

et al

. [19] nåede en forudsigelse på 87,3% til påvisning af lungekræft i en testfase ved hjælp af en ANN model med de ovennævnte seks biomarkører og 19 yderligere parametre, såsom risikofaktorer, symptomer, rygning, kemisk eksponering, køkken miljø osv anden undersøgelse nåede 90% specificitet for påvisning af lungekræft i træningssættet, er baseret på en tre-biomarkør panel bestående af makrofag migration inhibitorisk faktor (MIF), prolactin (PRL) , og thrombospondin (THSP) [12]. Ifølge karakteristisk for “black-box” i ANN, vidste vi ikke, hvordan en ANN lærer at udføre sin klassificering, blot give en endelige resultater årsag vi ikke til at skelne, hvorfor det ikke virkede [17]. Alligevel GEP fungere selv om der er store sofistikerede data og tilbyde en visuel formel model. I vores undersøgelse, ved hjælp af ROC-kurven til at opdage hver sensitivitet /specificitet, vi opfattede, at området under kurven for Na

+ og Cl

– er lavere end andre, og de seks biomarkører opstod bedst.

Be the first to comment

Leave a Reply