PLoS ONE: Identifikation af Logic relationer mellem gener og subtyper af ikke-småcellet lungekræft

Abstrakte

Ikke-småcellet lungekræft (NSCLC) har to store undertyper: adenocarcinom (AC) og pladecellekræft (SCC). Den diagnose og behandling af NSCLC hindres af den begrænsede viden om sygdomsfremkaldende mekanismer af undertyper af NSCLC. Det er nødvendigt at forske de molekylære mekanismer relateret med AC og SCC. I dette arbejde, vi forbedret logik analyse algoritme til at udvinde de tilstrækkelige og nødvendige betingelser for tilstedeværelsen stater (tilstedeværelsen eller fraværet) af fænotyper. Vi anvendte vores metode til AC og SCC prøver, og identificeret lavere og højere logiske relationer mellem gener og to undertyper af NSCLC. De opdagede relationer var uafhængige af prøver udvalgt, og deres betydning blev bekræftet af statistik test. I forhold til de to tidligere metoder (den ikke-negative matrix faktorisering metode og relevansen analysemetode), den nuværende metode udkonkurrerede disse metoder i tilbagekaldelsen sats og klassificering nøjagtighed på NSCLC og normale prøver. Vi opnåede biomarkører. Blandt biomarkører, er gener blevet anvendt til at skelne AC fra SCC i praksis, og andre seks gener blev nyopdagede biomarkører til at skelne undertyper. Desuden er blevet overvejet,

NKX2-1

som en molekylær mål for målrettet terapi af AC, og andre gener kan være nye molekylære mål. Ved gen ontologi analyse, fandt vi, at to biologiske processer ( “epidermis udvikling” og “celle vedhæftning”) blev tæt forbundet med tumorigenese af undertyper af NSCLC. Mere generelt kan den nuværende metode udvides til andre komplekse sygdomme til at skelne undertyper og detektering af de molekylære mål for målrettet terapi

Henvisning:. Su Y, Pan L (2014) Identifikation af Logic relationer mellem Gener og undertyper af Ikke-småcellet lungekræft. PLoS ONE 9 (4): e94644. doi: 10,1371 /journal.pone.0094644

Redaktør: Yan Zhang, Harbin Medical University, Kina

Modtaget: 20. november 2013; Accepteret: 18 marts 2014; Udgivet: 17 april, 2014

Copyright: © 2014 Su, Pan. Dette er en åben adgang artiklen distribueres under betingelserne i Creative Commons Attribution License, som tillader ubegrænset brug, distribution og reproduktion i ethvert medie, forudsat den oprindelige forfatter og kilde krediteres

Finansiering:. Forfatterne ‘arbejde er støttet af National Natural Science Foundation of China (Grant nr. 61.100.145, 61.033.003 og 91.130.034). De finansieringskilder havde ingen rolle i studie design, indsamling og analyse af data, beslutning om at offentliggøre, eller forberedelse af manuskriptet

Konkurrerende interesser:.. Forfatterne har erklæret, at der ikke findes konkurrerende interesser

Introduktion

Lungekræft er den hyppigste årsag til kræft dødsfald i verden [1]. Det er blevet delt op i to klasser af World Health Organization (WHO): ikke-småcellet lungekræft (NSCLC) og småcellet lungecancer (SCLC) [2]. NSCLC, som har to store undertyper: adenocarcinom (AC) og pladecellekræft (SCC), tegner sig for mere end halvdelen af ​​alle tilfælde lungekræft [2]. Men mindre end af NSCLC patienter overlever mere end fem år [3]. Den begrænsede effektivitet diagnosticering og behandling af NSCLC er primært forårsaget af vanskeligheden ved at skelne mellem de undertyper og den begrænsede viden om sygdomsfremkaldende mekanismer af undertyper af NSCLC.

NSCLC er et system sygdom, og forskellen på AC og SCC kan blive afspejlet på det cellulære og molekylære niveau. Traditionelle metoder er afhængige af visuel celle morfologi (fx tumorstørrelse og histologiske træk) for at skelne undertyper, der er baseret på celleniveau [4] – [6]. Det er blevet foreslået, at traditionelle metoder effektivt kunne skelne SCLC fra NSCLC grund af den klare skelnen mellem morfologi SCLC celler, og at af NSCLC celler [7]. Men den morfologiske forskel blandt de undertyper af NSCLC fortsat uklart [8]. Multiple niveau data molekylære (mRNA, microRNA og methylering data) mellem NSCLC og normal er blevet anvendt til at analysere dysfunktioner i NSCLC [9]. Det blev foreslået, at den udslagsgivende evne gener opnået ved mRNA-data var betydelig større end dem, microRNA og methylering data. Derfor er det rimeligt at hente værdifulde gener og biologiske processer, som har stor skelnende evne mellem AC og SCC på mRNA-niveauet.

En målrettet terapeutiske middel er designet til at interferere med en specifik molekylært mål, der spiller en afgørende rolle for tumorvækst og progression [10]. For eksempel, som er en målrettet terapeutisk middel til målrettet terapi af NSCLC, er et monoklonalt antistof til

VEGF

. Genet

VEGF

er afgørende, fordi det er højere udtrykt i lungekræft end i normal lunge [11]. Således kan molekylerne, som spiller særskilte roller mellem kræft og normale være vigtigt for udvælgelsen terapeutiske midler. Selvom målrettet terapi viser kliniske fordele, har målrettede agenter ikke aktiveret målrettede behandlinger til at ændre kliniske resultat dramatisk. Desuden kan de eksisterende målrettede terapeutiske skemaer være egnet til prognostiske af en særlig undertype af NSCLC. For eksempel kun patienter med ikke-SCC er bedre at bruge [12]. Derfor er det nødvendigt at forske de molekylære mekanismer, der er relateret til de undertyper af NSCLC, at udvikle effektive metoder til at skelne AC fra SCC og nye terapeutiske midler særlige for undertyper af NSCLC.

ekspressionsmønstre af flere gener er fundet at være specielt for undertyper af sygdomme. For eksempel er

NKX2-1

gen udtrykkes i lunge AC [13]. Knockdown af

NKX2-1

resultater vækstinhibering i lunge AC celle. Derfor er tilstedeværelsen af ​​lunge AC afhænger ekspressionen af ​​

NKX2-1

[14]. Et andet eksempel er involveret i forskning af kræft i spiserøret, kombinationen af ​​generne

GATA6

SPRR3

kan diskriminere blandt normale epitel, Barretts dysplasi og Barretts øsofagus forbundet AC [15]. Der findes nogle særlige relationer mellem genparret (

GATA6

SPRR3

) og fænotyper af kræft i spiserøret. Sådanne eksempler antyder eksistensen af ​​relationer mellem gener og subtyper af sygdomme

De metoder, der indirekte identificere genet-fænotype relationer kan groft inddeles i tre almindelige trin:. Konstruere et gen-gen (eller protein-protein) netværk og en fænotype-fænotype netværk ved at samle interaktion data fra flere databaser; forbinde genet-genet (eller protein-protein) netværk med fænotypen-fænotype netværk; bruge en algoritme (fx random walk med genstart ved heterogene netværk algoritme) til at udlede parvise gen-fænotype relationer [16], [17]. Men støj fra integration af data begrænser effektiviteten af ​​påvisning af gen-fænotype relationer.

Mange fremgangsmåder er blevet udviklet til direkte knytte enkelte molekyler til fænotyper. Den ikke-negativ matrix faktorisering (NMF) -metoden er en dimensionalitet-reducerende algoritme til opnåelse af et sæt af metagenes og tilhørende koefficienter [18]. Hver fænotype svarer til en metagene. Koefficienten af ​​et gen i en metagene repræsenterer graden af ​​forholdet mellem gen og fænotype, der svarer til metagene. Denne metode kræver at filtrere flere data for at sikre den ikke-negativ tilstand, som kan tab nogle nyttige oplysninger. Lineære korrelationskoefficienter blev anvendt til måling genotype-fænotype associationer mellem enkelte proteiner i en mikrobe og mikrobe s fænotyper [19]. Slonim et al. brugte relevans analysemetode (RA) at udlede gen-fænotype relationer ved at estimere gensidig information [20]. Imidlertid er fænotype træk ofte påvirkes ikke af et enkelt gen, men kombinationer af gener. Association regel minedrift (ARM) er en data mining teknik til at udtrække hvis-så regler med den generelle form [21]. Bowers et al. designet logikken analyse metode til at opnå, hvis-så reglerne fra et emne eller en kombination af elementer til en anden. Tidligere undersøgelser har været gjort for at udlede logiske relationer mellem gener eller proteiner under anvendelse parvis og triplet logik analyse på udtryk data eller fylogenetiske profiler [22]. Men hvis-så regler kan ikke have mange biologiske tilfælde, medmindre det omvendte forhold holder så godt [23].

I dette papir, forbedre vi logikken analysemetode til at udvinde de nødvendige og tilstrækkelige betingelser for tilstedeværelsestilstande (tilstedeværelse eller fravær) af fænotyper [22]. Den nuværende metode tager hensyn til både et enkelt gen og et gen par, som kan påvirke fænotyper. Vi anvender den metode til at udlede gen-undertype relationer baseret på AC og SCC prøver. Det foreslås, at de ekspressionsmønstre (udtryk eller no-udtryk) af identificerede gener er nødvendige og tilstrækkelige betingelser for tilstedeværelse stater i AC eller SCC. Effektiviteten af ​​den nuværende metode er demonstreret på NSCLC og normale prøver. Vores resultater viser, at den nuværende metode overgår de to eksisterende metoder (den NMF-metoden og RA-metoden) i tilbagekaldelse sats og klassificering nøjagtighed. Dette arbejde kunne bidrage til at finde de biomarkører til at skelne de undertyper af sygdomme og til at designe nye målrettede terapeutiske midler til sygdomme, samt afsløre de biologiske processer, som er nært beslægtede med sygdomme.

Resultater

Vi anvendte vores metode til at identificere forbindelser mellem gener og to store undertyper af NSCLC (AC og SCC). Endvidere blev ydeevne sammenligning af vores metode med de af de to tidligere metoder (NMF metode og RA metode) ved at sammenligne to foranstaltninger (tilbagekaldelse sats og klassificering nøjagtighed) på data fra GSE18842 som indeholder tilsvarende antal NSCLC og normale prøver. De biomarkører samt biologiske processer som nøje var relateret til de undertyper af NSCLC kunne opnås fra flere interessante relationer mellem gener og subtyper af NSCLC.

Identifikation af gen-subtype lavere og højere logiske relationer

Da antallet af AC enheder () var meget større end den for SCC enheder () (Tabel 1), har vi valgt tilfældigt det faste tal (dvs.) af AC prøver at sikre tilsvarende antal prøver til forskellige fænotyper. Vi inddrev kolonner af binære probe data samt de af fænotype profildata, som svarer til de valgte AC prøver og alle de SCC prøver. De nye binære probe data og fænotype profildata blev dannet af de inddrev kolonner af binære probe data og fænotype profildata, opretholdelse af de relative positioner af kolonner. De nye binære probe data havde størrelse, hvor de første kolonner svarede til AC prøver, og de sidste kolonner producentpriserne SCC prøver. De nye fænotype profildata havde størrelse, hvor den første række repræsenterede AC og den anden repræsenteret SCC. For nemheds definerede vi den første og anden række af de nye fænotype profildata som AC profildata og SCC profildata henholdsvis. De undertyper af NSCLC data omfattede de nye binære probe data og de nye fænotype profildata. Vi anvendte vores metode til undertyper af NSCLC data til mine gen-subtype logiske relationer.

Identifikation af sonde-subtype lavere og højere logiske relationer.

Baseret på undertyper af NSCLC data, vi beregnet usikkerhed koefficienten for en undertype af NSCLC forudsagt af en probe (eller en probe par), samt usikkerheden koefficienten for en probe (eller en probe par) forudsagt af subtype i den modsatte retning. Den samme fremgangsmåde blev anvendt på tilfældige binære probe data og fænotype profildata. De maksimale tilfældige usikkerhed koefficienter for logik parvise og triplet kombinationer blev brugt som tærskelværdierne for lavere og højere logiske relationer, hhv. Det vil sige, blev associeringen af ​​en probe eller en probe par med en undertype væsentlig, hvis og kun hvis dens usikkerhed koefficienter i begge retninger viste sig at være større end den maksimale værdi opnået fra de tilfældige data. Lade og være tærskelværdierne i lavere og højere logiske relationer, hhv. Vi opnåede logik parvise kombinationer og logik triplet kombinationer med usikkerhed koefficienter højere end og Hhv.

Da betydningen af ​​opdagede logik parvis og triplet kombinationer ikke kan præcist verificeres af den begrænsede viden om gen-subtype interaktioner, en statistisk analyse er fortjent skal estimeres [24]. Antag signifikansniveauet var. De p-værdier var alle nuller for de fundne logik parvise og triplet kombinationer, som var mindre end signifikansniveauet. Resultaterne af den statistiske analyse viste, at de fundne logiske parvise og triplet kombinationer ikke interagere tilfældigt.

Dernæst vi vurderet den falske opdagelse sats (FDR) til at styre den globale betydning af opdagede logik parvis og triplet kombinationer . Begge FDR-værdier for opdagede parvise og triplet kombinationer var nul, derfor alle de fundne logik parvise og triplet kombinationer blev ikke genereret tilfældigt og alle af dem kan repræsentere reelle foreninger.

Derudover har vi beregnet recidivraten af opdagede logik parvis og triplet kombinationer blandt alle tilfældige forsøg. De logiske relationer med gentagelse sats større end der blev betragtet som de relationer, der var uafhængig af de udvalgte prøver. Endelig har vi afledt probe-AC lavere logiske relationer og probe-AC højere logiske relationer (tabel A og B i tabel S1).

Bemærk at AC profildata og SCC profildata var binære komplementære vektorer. Hvis en probe (eller en probe par) er relateret med AC ved th type nedre (højere) logiske relationer, så sonden (sonden par) er relateret med SCC ved th type nedre (højere) logiske relationer, hvor usikkerheden koefficienten af ​​sonden-SCC lavere (højere) logik forhold er lig med den for proben-AC lavere (højere) logik forhold, men. Derfor er sonden, som har et tæt samarbejde med AC også tæt forbundet med SCC. Endelig fik vi sonde-AC /SCC lavere logiske relationer og sonde-AC /SCC højere logik relationer.

Identifikation af gen-subtype lavere og højere logiske relationer.

Hver sonde, der blev fokuseret på i dette papir, er knyttet til et enkelt gen. Omvendt kan et gen påvises ved mere end én probe. For eksempel

CLCA2

genet blev opdaget af fire forskellige sonder:

206164_at

,

206165_s_at

,

206166_s_at

og

217528_at

. Alle de ovennævnte fire prober blev forbundet med AC ved den anden type af lavere logiske relationer. Desuden, og blev den betyde usikkerhed koefficienter for hver af de fire prober forbindelse med AC i begge retninger, hhv. En probe-AC logik forholdet sæt omfattede flere sonde-AC logiske relationer, hvor prober blev forbundet til det samme gen. I en probe-AC logik forholdet sæt, probe-AC /SCC logik forhold til den største betyde usikkerhed koefficienter i begge retninger blev anvendt til at generere et gen-AC /SCC logik forhold som beskrevet i afsnit Materialer og Metoder. Således

CLCA2

var relateret med AC ved den anden type af lavere logiske relationer og koefficienten af ​​

CLCA2

-AC /SCC forhold var.

Ifølge ovennævnte metode, blev gen-AC /SCC lavere logiske relationer genereret fra sonde-AC /SCC lavere logiske relationer (tabel A i tabel S2). Hver af resten probe-AC /SCC lavere logiske relationer genereret et gen-AC /SCC lavere logik forhold. Endelig opnåede vi gen-AC /SCC lavere logiske relationer (tabel A i tabel S3).

Vi fandt, at hvis et gen blev påvist ved mere end én probe, og proberne blev relateret til undertyper af lavere logik relationer, så de typer af sonden-AC /SCC lavere logiske relationer var de samme. Det foreslås, at proberne, som er forbundet til det samme gen kan være relateret med undertyper af samme måde.

Vi opnåede seks-gen-AC /SCC højere logiske relationer fra probe-AC /SCC højere logiske relationer ( tabel B i tabel S2). Hver af resten probe-AC /SCC højere logiske relationer genereret et gen-AC /SCC højere logik forhold. Endelig fik vi gen-AC /SCC højere logik relationer (tabel B i tabel S3).

I det følgende vi diskuterede eksempler på logiske relationer, som kan udledes fra fænomener tidligere beskrevet i litteraturen.

Eksempler på gen-subtype lavere logiske relationer.

Hvis hver af de gener,

DSG3

,

CLCA2

,

DSC3

og

pKP1

blev udtrykt, så SCC var til stede, mens AC var fraværende. Desuden, hvis hver af ovennævnte gener ikke blev udtrykt, så SCC var til stede og AC var til stede. Dvs. ekspressionen af ​​hver af ovennævnte gener var en tilstrækkelig og nødvendig betingelse af tilstedeværelsen af ​​SCC samt fravær af AC. Vores resultater antydede, at gener (

DSG3

,

CLCA2

,

DSC3

og

pKP1

) kan skelne undertype AC fra SCC. Eftersom intracellulære broer er en af ​​de mest karakteristiske for SCC men ikke af AC, kan proteiner involveret i disse broer opreguleres i SCC kun, såsom desmosom proteiner og intercellulære forbindelsesepitoper proteiner [25].

desmoglein 3 fotos er kodet af

DSG3

. Dette protein er et calcium-bindende transmembrane glycoprotein bestanddel af desmosom for vertebrate epitelceller. Proteinet kodet af

DSC3

er en calcium-afhængig glycoprotein (

Desmocollin 3 fotos), der er påkrævet for celleadhæsion og desmosom formationen. Proteinet kodet af

pKP1

kan være involveret i molekylær rekruttering og stabilisering i løbet desmosom dannelse. Proteinet kodet af

CLCA2

tilhører calciumfølsomme chloridkonduktans proteinfamilie. Det kan tjene som adhæsionsmolekyle for lunge metastatiske cancerceller. Ovennævnte fire gener (

DSC3

,

DSG3

,

pKP1

CLCA2

), som er forbundet til desmosomer blev fundet at være opreguleret i SCC sammenlignet med AC subtype [26]. Konkret

DSG3

viste høj ekspression i SCC, mens lav udtryk i AC [26].

DSC3

blev også opreguleret i SCC udelukkende [27], [28]. I primære lungetumorer,

DSC3

var en potentiel diagnostisk markør for lunge pladecellekræft [29].

pKP1

viste en gange større grad af ekspression i SCC’er end i ACs og normal lunge og kan således være anvendelige i histopatologisk diagnose [28].

CLCA2

er blevet udledt til at være specielt overudtrykt i SCC [30].

Vi fandt, at undertype AC (SCC) var til stede (fraværende) hvis og kun hvis

NKX2-1

blev udtrykt. Det udledes, at ekspressionen af ​​

NKX2-1

i modellen for AC er meget højere end for SCC.

NKX2-1

der er kendt som skjoldbruskkirtlen transskription faktor 1 (

TITF-1

) er en homeodomæne-holdige transaktiverende faktor, og det udtrykkes i de terminale lungebronkioler og lunge periferien overvejende [31 ]. Tilstedeværelsen af ​​

NKX2-1

protein var fremherskende i AC, mens i SCC

NKX2-1

var fraværende [13]. Det er i overensstemmelse med vores resultater.

Eksempler på gen-undertype højere logiske relationer.

De højere logiske relationer mellem genpar og SCC blev udvalgt til yderligere analyse. Genpar (

GPX2

,

ITGB8

) og (

GPX2

,

SLC2A12

) var relateret med SCC, via en “OG” logisk sammenhæng ( højere logik forholdet type). Det indikerer, at

GPX2

,

ITGB8

SLC2A12

blev alle udtrykt hvis prøven var SCC. Desuden er alle de gener

GPX2

,

ITGB8

og

SLC2A12

blev ikke udtrykt, hvis prøven var AC.

GPX2

blev fundet at have højere udtryk i SCC sammenlignet med AC og normal [32], [33]. Vi var uvidende om beviser i litteraturen af ​​forholdet mellem

ITGB8

,

SLC2A12

og undertyper af NSCLC. Vores analyse genereret flere nye relationer.

Der er ikke nok beviser for højere logiske relationer til at skelne de undertyper af NSCLC. Derfor er de fleste af forholdet mellem genpar og undertyper af NSCLC er ikke blevet bekræftet. Som den manglende viden om regulering relationer mellem gener og subtyper, er de nøjagtige forhold mellem de fælles genpar og undertyper fortjente at blive kontrolleret.

Ydelse sammenligning

Vi inddrev kolonner af binære probe data samt de af fænotype profildata, der svarer til de NSCLC prøver og normale eksemplarer af GSE18842. De nye binære probe data og fænotype profildata blev dannet af de inddrev kolonner af binære probe data og fænotype profildata, opretholdelse af de relative positioner af kolonner. De NSCLC og normale data omfattede de nye binære probe data og fænotype profildata.

Anvendelse af de tre metoder.

Vi anvendte det første den nuværende metode til NSCLC og normale data. Vi indstiller, og opnåede sonde-fænotype lavere logiske relationer. Betydningen og global betydning af de fundne relationer blev verificeret ved statistisk test.

Dernæst vi anvendt NMF metode til NSCLC og normale data. Rækker med ‘s’ blev filtreret fra de binære sonde data for at sikre muligheden for NMF metoden. Resten binære sonde data indeholdt rækker og kolonner. Fordi to klynger af prøver (AC og SCC) blev inkluderet i de binære probe data, valgte vi som parameter for NMF reduktion metode dimensionalitet. Blandt de opnåede to metagenes, den anden metagene havde højere udtryk niveau i næsten alle (dvs.) i NSCLC prøver, mens lavere udtryk niveau i næsten alle (dvs.) af de normale prøver. Proberne inden for det andet metagene blev sorteret efter deres aktivering niveauer (Tabel S4). Den første sonde repræsenterede den mest tæt forbundet sonde til NSCLC fænotype, mens den sidste sonde repræsenterede den mindste nært beslægtede sonde.

Endelig har vi anvendt RA metode til NSCLC og normale data. Vi sorteres sonderne, som den gensidige information mellem sonden profiler og NSCLC profiler.

Bemærk at korrelationerne mellem genpar og fænotyper kunne måles ved den nuværende metode, men de kunne ikke måles ved NMF og RA metoder. Derfor fra dette synspunkt er den nuværende metode er overlegen i forhold til de to tidligere metoder. Alle de tre metoder kunne finde enkelte gener nært beslægtede med fænotyper. Derfor har vi netop identificeret det gen-fænotype lavere logiske relationer ved den nuværende metode og sammenlignet resultaterne med dem, der opnås ved de to tidligere metoder.

Ydelse sammenligning for de tre metoder.

Vi valgte to datasæt involverede gener, der er relateret med NSCLC. Et datasæt indeholder højfrekvente gener på mRNA-niveauet detekteret ved Huang et al. (Tabel S5) [9]. Det blev vist, at disse gener tilhørte de bedste dysfunktionelle gensæt med god diskriminerende evner. Vi valgte datasæt, fordi det blev indsamlet fra GEO med tiltrædelsen nummer GSE18842, som også var kilden til NSCLC og normale data i dette arbejde. Den anden datasæt indeholder op- /ned-regulerede gener fundet af Urgard et al., Hvor gener nedreguleres og gener er opreguleret i NSCLC sammenlignet med det normale væv (Tabel S5) [34]. I alt gener blev delt af de to ovennævnte datasæt. Fordi det er svært at validere de gener, der indgår i hver datasæt, er det rimeligt at betragte disse gener som sandheden data til at estimere effektiviteten af ​​forskellige metoder i dette arbejde.

For at vurdere effektiviteten af ​​de nuværende fremgangsmåde og en sammenligning med de to tidligere fremgangsmåder (NMF fremgangsmåden og RA metode) vi beregnet en foranstaltning: tilbagekaldelsen sats, der var forholdet mellem antallet af detekterede gener i sandheden data til det samlede antal gener i sandhed data. Bemærk, at tilbagekaldelsen sats kan være forudindtaget af den ufuldstændige karakter af sandheden data. Endvidere har vi vurderet klassificeringen nøjagtighed, der evaluerede den udslagsgivende evne resulterede sonder.

Blandt alle de opdaget af sonder er opnået ved den nuværende metode gener, gener var i sandheden data. Derfor tilbagekaldelse hastigheden af ​​den nuværende metode var. At sammenligne tilbagekaldelse hastigheden af ​​den nuværende metode med specifikationerne for de to tidligere metoder, valgte vi de bedste prober opnået ved NMF fremgangsmåden og RA-metoden, hhv. Vi fandt og nul af generne i sandheden data er blevet opdaget af NMF metoden og RA-metoden, hhv. Derfor tilbagekaldelse på NMF og RA var og Hhv. Den nuværende metode havde højere tilbagekaldelse end NMF og RA.

Af fig. 1, fandt vi, at den nuværende metode opnåede højere klassifikation nøjagtighed end NMF metoden og RA-metoden. Derudover gennemsnitlige klassificering nøjagtigheden af ​​vores metode nærmede til (dvs.), hvilket betyder, at resultater opnået i vores metode prober har en stor klassificering evne. I figuren hver kurve var stabil med små udsving. Det indikerer, at klassificeringen nøjagtighed var lidt følsom over for antallet af sonder.

Ifølge hver metode, vi rangerer generne i aftagende orden efter koefficienterne af gener relateret med fænotyper. Vi selecte toppen gener, hvor. Klassificeringen nøjagtighed beregnes på baggrund af de øverste gener. ‘RA’, ‘NMF “og” U “repræsenterer relevans analysemetode, den ikke-negative matrix faktorisering metode og den nuværende metode, hhv.

Biomarkører og centrale genpar

Biomarkører udledt af gen-undertype lavere logiske relationer.

i tidligere forskning, er blevet rapporteret et samlet antal gener, der skal bruges til at skelne mellem AC og SCC, og disse gener er

DSG3

[26],

CLCA2

[30],

DSC3

[27],

pKP1

[28],

NKX2-1

[35], GJB5 [26], KRT6B [36], SERPINB13 [36], TP63 [37], TRIM29 [38],

KRT5

[28],

NTRK2

[28] og

DST

[39]. Vi sorteres de gener, der var involveret i de gen-AC /SCC lavere logiske relationer i rækkefølge efter faldende deres koefficienter. Interessant nok blev alle ovennævnte gener indgår i de øverste gener. Det foreslås, at et gen, som har stor usikkerhed koefficient kan klart skelne AC fra SCC.

For at få et sæt af biomarkører, vi først valgt højest rangerede gener (fig. 2). Fordi de molekylære mål for målrettede terapeutiske midler spiller afgørende roller for tumor, bør de biomarkører for målrettet terapi har de distinkte biologiske funktioner mellem NSCLC og normal. Dernæst blev et skæringspunkt sæt genereret mellem top gener og de gener, der er involveret i gen-NSCLC lavere logiske relationer (generne er opnået i underafsnit ‘ydeevne sammenligning «). Endelig skærer gener blev betragtet som de biomarkører for at skelne AC fra SCC, såvel som nye molekylære mål for målrettede terapeutiske midler. Det vil sige, det sæt af biomarkører omfattede

DST

,

CLCA2

,

KRT5

,

DSG3

,

GJB5

,

SERPINB13

,

BNC1

,

TRIM29

,

LOC642587

,

pKP1

,

KRT6B

,

FAT2

,

GOLT1A

,

DSC3

,

NKX2-1

,

TP63

,

LASS3

,

PVRL1

NTRK2

.

Der er gener relateret med undertyper af NSCLC af lavere logiske relationer, og hvert gen lægger en koefficient. Generne er rangeret efter koefficienter i faldende rækkefølge. De øverste gener er udvalgt til at identificere biomarkører. De blå noder repræsenterer biomarkører identificeret i dette arbejde. De gule knuder repræsenterer seks gener, som ikke er relateret med NSCLC på NSCLC og normale prøver. De røde knuder repræsenterer undertyper, nemlig AC og SCC.

Key genpar udledt af gen-undertype højere logiske relationer.

Vi samlet genet-subtype højere logik relationer med samme logiske funktion. Da de to logiske funktioner OG (Type 1) og XOR (Type 8) har mere intuitive biologiske fortolkninger end andre logiske funktioner, vi begrænset vores analyse til disse to logiske funktioner. De centrale genpar blev defineret som de genpar involveret i gen-subtype højere logik relationer med logik funktion og eller XOR. Vi opnåede centrale genpar i alt, hvor og genpar var relateret med AC /SCC gennem de logiske funktioner og og XOR (tabel S6). Dette resultat kan forklares ved de strenge parametre vi valgte.

Gene ontologi analyse

Gene Ontology (GO) er en struktureret og kontrolleret ordforråd og klassifikationer om anmærkninger af gener, genprodukter og sekvenser [40]. GO omfatter tre kategorier af termer: biologiske processer, molekylære funktioner og cellekomponenter. Vi blev fokuseret på de biologiske processer beriger de gener, der er involveret i lavere logiske relationer. Så i det følgende, når vi siger GO vilkår, betyder det, at GO vilkår i kategorien ‘biologiske proces «.

Ifølge sonde-AC /SCC parvise foreninger og deres usikkerhed koefficienter, vi opnåede et gen sæt indeholdende gener uden overlapning og hvert gen er fastgjort en koefficient. I alt gener blev rangeret i faldende rækkefølge med koefficienter og givet som input til Gorilla. Den Gorilla gav betydelige GO udtryk som ‘væv udvikling “(GO: 0.009.888),” epidermis udvikling “(GO: 0.008.544), og’ epitelcelledifferentiering ‘(GO: 0.030.855) (Del A i bilag S1). I betragtning af, at de væsentlige GO vilkår blev hentet baseret på undertyper af NSCLC data, skal det kontrolleres, om de betydelige GO vilkår er også betydelige på NSCLC og normale prøver. Den samme fremgangsmåde blev anvendt på de sorteret gener baseret på NSCLC og normale data. Testen afslørede betydelige GO vilkår med betydelig værdi (del B i bilag S1). I alt syv ud af GO vilkår på de undertyper af NSCLC data var også signifikant på NSCLC og normale prøver (tabel 2). Det indikerer, at følgende syv biologiske processer er vigtige for tumorigenese af NSCLC:. Vævsudvikling, epidermis udvikling, epitelcelledifferentiering anatomiske struktur udvikling, udviklingsmæssige proces, celleadhæsion og biologisk adhæsion

Endvidere vi grupperet generne nært beslægtede med de undertyper af NSCLC i to grupper af de typer af gen-SCC lavere logiske relationer. Vi kortlagt de gener, der blev relateret med SCC (AC) efter type () lavere logiske relationer til GO vilkår. Gene ontologi analyse viste GO vilkår med p-værdi scores mindre end og berigelse scoringer større end.

Be the first to comment

Leave a Reply