PLoS ONE: Identifikation Cancer undertyper fra miRNA-TF-mRNA Regulatory Netværk og Expression Data

Abstrakt

Baggrund

Identifikation kræft undertyper er en vigtig del af den personlige medicin rammer. Et stigende antal beregningsmetoder er blevet udviklet til at identificere kræft undertyper. Men eksisterende metoder sjældent bruge oplysninger fra gen regulatoriske netværk for at lette identifikationen undertype. Det er almindeligt accepteret, at gen-regulatoriske netværk spiller afgørende roller i at forstå mekanismerne i sygdomme. Forskellige kræft undertyper er sandsynligvis forårsaget af forskellige reguleringsmekanismer. Derfor er der store muligheder for at udvikle metoder, der kan udnytte informationsnetværk identificere kræft undertyper.

Resultater

I dette papir, vi foreslår en metode, vægtet lighed netværk fusion (WSNF), til udnytte oplysningerne i den komplekse miRNA-TF-mRNA regulatoriske netværk at identificere kræft undertyper. Vi først opbygge den regulerende netværk, hvor knudepunkterne repræsenterer de funktioner, dvs. microRNA (miRNA), transkriptionsfaktorer (TFS) og messenger RNA’er (mRNA’er) og kanterne angiver samspillet mellem funktionerne. Interaktionerne hentes fra forskellige interatomare databaser. Vi bruger derefter oplysningerne netværket og udtrykket data for miRNA, TF’er og mRNA til at beregne vægten af ​​de funktioner, der repræsenterer graden af ​​vigtigheden af ​​de funktioner. Funktionen vægt derpå integreret i et netværk fusion tilgang til klynge prøverne (patienter) og således at identificere cancer undertyper. Vi anvendte vores metode til TCGA bryst invasive carcinom (BRCA) og glioblastoma multiforme (GBM) datasæt. De eksperimentelle resultater viser, at WSNF fungerer bedre end de andre almindeligt anvendte beregningsmetoder, og oplysningerne fra miRNA-TF-mRNA regulatoriske netværk bidrager til at forbedre ydeevnen. Den WSNF metode med succes identificeret fem brystkræft undertyper og tre GBM undertyper faktor er signifikant forskellige overlevelse mønstre. Vi observerede, at udtrykket mønstre af funktionerne i nogle miRNA-TF-mRNA sub-netværk varierer på tværs af forskellige opstillede undertyper. Desuden pathway berigelse analyser viser, at de bedste veje inddrager de mest differentielt udtrykte gener i hver af de identificerede undertyper er forskellige. Resultaterne vil give værdifulde oplysninger til forståelse af de mekanismer, der kendetegner forskellige cancer undertyper og hjælpe udformningen af ​​behandlingsterapier. Alle datasæt og R scripts til at gengive resultaterne er tilgængelige online på hjemmesiden:. https://nugget.unisa.edu.au/Thuc/cancersubtypes/

Henvisning: Xu T, Le TD, Liu L Wang R, Sun B, Li J (2016) Identifikation Cancer undertyper fra miRNA-TF-mRNA Regulatory netværk og Expression data. PLoS ONE 11 (4): e0152792. doi: 10,1371 /journal.pone.0152792

Redaktør: Bibekanand Mallick, National Institute of Technology, Rourkela, INDIEN

Modtaget: December 13, 2015; Accepteret: 18 Mar 2016; Udgivet: April 1, 2016

Copyright: © 2016 Xu et al. Dette er en åben adgang artiklen distribueres under betingelserne i Creative Commons Attribution License, som tillader ubegrænset brug, distribution og reproduktion i ethvert medie, forudsat den oprindelige forfatter og kilde krediteres

Data Tilgængelighed:. Alle relevante data er inden for papir og dens støtte Information filer

Finansiering:. Dette arbejde er delvist støttet af Australian Research Council (https://www.arc.gov.au/) Discovery Project DP130104090 (JL og LL ), og National Natural Science Foundation of China 31371340 (BS), https://www.nsfc.gov.cn/publish/portal1/. De finansieringskilder havde ingen rolle i studie design, indsamling og analyse af data, beslutning om at offentliggøre, eller forberedelse af manuskriptet

Konkurrerende interesser:.. Forfatterne har erklæret, at der ikke findes konkurrerende interesser

Introduktion

i stedet for at være en enkelt sygdom, kræft involverer forskellige undertyper karakteriseret ved forskellige sæt af molekyler [1, 2]. Identifikation kræft undertyper er en afgørende opgave for at vælge den rigtige behandling til patienter, som forskellige cancer undertyper kan reagere godt på forskellige behandlingsterapier. For eksempel ville østrogenreceptor (ER) positiv brystcancer subtype svare hormonterapi, og den humane epidermale vækstfaktor receptor 2 (HER2) positiv subtype er sandsynligvis drage fordel af kemoterapi. Men vores nuværende forståelse af de mekanismer, der styrer hver kræft undertype er stadig langt fra afsluttet.

Flere beregningsmetoder er blevet udviklet til at identificere kræft undertyper. Disse metoder falder i tre forskellige strømme af forskningen. I den første strøm, er data mining eller maskine learning modeller bygget til at udnytte genekspression datasæt for klyngedannelse prøver (patienter) i forskellige grupper, der hver svarer til en kræft undertype [3-7]. Men anvendelse af en genomisk datatype er muligvis ikke tilstrækkelig til at identificere cancer undertyper præcist. Med forud for sekventering teknologier, er flere data typer kræftpatienter såsom genomisk, miRNA og relaterede kliniske data til rådighed i dag. Disse væld af datasæt fører til den anden strøm af forskning, hvor forskerne analysere forskellige typer data separat for at identificere undertyper og de opnåede separat resultater integreres derefter til dannelse af den endelige resultat. Højdepunkter i denne tilgang er [1, 8-10]. analyse af de forskellige typer af data alene kan imidlertid miste supplerende oplysninger i dataene i de samme patienter, og der kan være konflikt i resultaterne opnået under anvendelse af forskellige typer af data. Den sidste strøm af forskning fokuserer på at analysere multi-omik data på samme tid, og har identificeret nogle vigtige cancer undertyper nylig [11-14].

Men oplysningerne fra gen regulatoriske netværk er sjældent bruges af den eksisterende beregningsmetoder. Gene regulatoriske netværk spiller en vigtig rolle i ethvert liv proces, og forstå dynamikken i disse netværk hjælper afsløre mekanismerne i sygdomme [15]. Selvom betydningen af ​​netværksbaseret information er blevet behandlet i de senere værker [16, 17], er der stadig mangel på metoder udnytter biologisk information fra netværk til at identificere kræft undertyper. Desuden er det fortsat en stor udfordring at knytte de multi-omik data og netværk oplysninger med kræft undertyper og resultaterne især prognose. For nylig, Liu et al. [18] foreslog NCIS (netværkstjeneste-assisteret co-clustering til identifikation af cancer undertyper) metode til at udnytte udtrykket profiler af mRNA’er og netværket information af mRNA-mRNA-interaktioner med en bi-clustering metode til at opdage kræft undertyper. Men gen regulatoriske netværk er komplekse og involverer mange typer af regulatorer, herunder miRNA og TF’er. Det er af interesse at udnytte oplysningerne i de netværk, der involverer miRNA TFS og mRNA i at identificere kræft undertyper. Oplysningerne må ikke blot forbedre nøjagtigheden af ​​de beregningsmodeller, men også give indsigt i de mekanismer (de regulatoriske netværk) regulerer hver kræft undertype.

I dette papir, vi foreslår en metode, der kaldes vægtet lighed netværk fusion (WSNF), for at identificere kræft undertyper ved at gøre brug af både udtrykket data og netværk information af miRNA, TF’er og mRNA. Givet et datasæt indeholder udtrykket profiler af et sæt af miRNA, TF’er og mRNA (kendt som funktioner i resten af ​​papiret), WSNF først henter samspillet mellem disse funktioner fra forskellige interatomare databaser for at bygge miRNA-TF-mRNA regulatoriske netværk . I netværket, er funktioner, repræsenteret ved knudepunkter og interaktioner mellem funktioner er angivet med kanterne. Vi beregner derefter vægten (dvs. betydning) af en funktion ved at udnytte netværksoplysninger miRNA-TF-mRNA og udtrykket variation af funktionerne. Endelig vil vi ændre ligheden netværk fusion (SNF) tilgang [11] for at tage funktionen vægt i betragtning, når clustering patienter til at identificere kræft undertyper.

Vi anvender WSNF metode til TCGA brystkræft og GBM datasæt. De eksperimentelle resultater viser, at vores metode med succes har identificeret fem brystkræft undertyper og tre GBM undertyper faktor er signifikant forskellige overlevelse mønstre. Oplysningerne fra miRNA-TF-mRNA regulatoriske netværk forbedrer ydeevnen af ​​netværket fusion tilgang, som WSNF metode præsterer bedre end både SNF [11], netværket fusion metoden uden brug funktionen vægt og NCIS [18], som kun bruger mRNA ekspressionsdata og mRNA-mRNA interaktioner. Vi sammenligner også vores metode med konsensus klyngedannelse (CC) [7], en metode, der er almindeligt anvendt i TCGA forskning. De eksperimentelle resultater viser, at WSNF metoden har også bedre ydeevne med både brystkræft og GBM datasæt. For brystkræft datasæt, vi analyserer de identificerede undertyper i detaljer og rapportere resultaterne i forhold til de ekspressionsmønstre, forskellene i miRNA-TF-mRNA regulatoriske netværk på tværs af de forskellige undertyper, og de funktionelle veje kendetegner hver undertype. Oplysningerne kan være værdifulde for at bistå behandling design af specifikke brystkræft undertyper.

Materialer og metoder

oversigt Metode

Vi foreslår at bruge miRNA-TF-mRNA regulatoriske netværk til at bistå identifikation af cancer undertyper. Der er tre trin i WSNF metoden (figur 1), herunder: 1) at konstruere miRNA-TF-mRNA regulatoriske netværk, 2) at beregne vægten for hver funktion (miRNA, TF, mRNA), og 3) at ændre og anvende ligheden netværk fusion tilgang [11] for at identificere kræft undertyper, samtidig med at funktionen vægt i betragtning. Vi beskriver detaljerne for hvert trin i det følgende.

I trin 1 interaktioner mellem miRNA, TF’er og mRNA opnået fra databaserne anvendes til at konstruere miRNA-TF-mRNA regulatoriske netværk. I trin 2 er placeringen af ​​de enkelte funktioner (R) beregnes på grundlag af informationsnetværk, og gen- og miRNA udtryk data anvendes til at få funktionen udtryk variation (MAD) på tværs af alle prøverne. Så for hver funktion, er dens placering og udtryk variation kombineret for at opnå sin vægt (W). I trin 3, er de vægtede prøve lighed netværk opnået fra gener (mRNA’er, TF’er) og miRNA separat ved hjælp af vægte og udtryk data for de funktioner, og endelig netværke fusion og klyngedannelse udføres for at finde patientgrupper, der indebærer kræft undertyper.

Konstruktion miRNA-TF-mRNA regulatoriske netværk

i dette trin, bruger vi en række forskellige kilder til at bygge de miRNA-TF-mRNA interaktion netværk. Netværket indeholder forskellige typer af interaktioner, herunder mellem miRNA-mRNA, miRNA-TF, TF-miRNA, TF-mRNA, TF-TF, og mRNA-mRNA. Figur 2 viser detaljerne i datakilder for at hente de forskellige typen interaktioner. I figuren er hver type af interaktionerne repræsenteret som et link, hvor kilden er regulatoren og pilen ende er målet. De datakilder er angivet ud for hver type af interaktionerne.

Vi først få listen over TF’er ved at kombinere TFS i Encyclopedia of DNA Elements (KODE) Chip-seq data, TransmiR [19 ] og FANTOM5 Menneskelige transkriptionsfaktorer, som er tilgængelige på https://fantom.gsc.riken.jp/5/sstar/Browse_Transcription_Factors_hg19. Endelig opnås en liste over 1679 TF’er (se S1 fil til listen).

Som vist i figur 2, vi opnå miRNA-mRNA og miRNA-TF interaktioner fra eksperimentelt bekræftet databaser, herunder Tarbase [20 ], mirTarbase [21], mirRecords [22], og forudsigelse database starbase v2.0 [23]. Tarbase, mirTarbase og mirRecords omfatter kurateret bekræftede interaktioner fra litteraturen. starbase v2.0 indeholder en forening af det sæt af miRNA-mRNA interaktioner forudsagt af de mål forudsigelse softwareprogrammer fem miRNA (Targetscan, PicTar, PITA, Miranda og RNA22). Det tester også de enkelte miRNA-mRNA interaktion par baseret på TCGA Pan-cancer [24] udtryk datasæt. Kriteriet om valideringen test er anti-korrelation med negativ Pearsons korrelationskoefficient (

s

-værdi 0,05) mellem en miRNA og sit mål. I vores netværk, bruger vi de miRNA-mRNA interaktioner i starbase v2.0, der understøttes af mindst en TCGA Pan-cancer udtryk datasæt. Hertil kommer, at miRNA-mRNA interaktioner afledt Encode data [25] også anvendes i vores arbejde. Samspillet findes på:. https://encodenets.gersteinlab.org/

mRNA-mRNA interaktioner hentes fra Reactome [26] og STRING v10.0 [27]. Siden indeholdt i Reactome og STRING er protein-protein interaktion par, bruger vi

org.Hs.eg.db

R pakke [28] til at kortlægge protein-gen annotation at få den tilsvarende mRNA-mRNA interaktion par. Vi vælger score cut-off som 0,9 i STRING v10.0 til at vælge de mRNA-mRNA par af høj troværdighed til vores netværk.

For TF regulering, får vi samspillet mellem TF-mRNA fra KODE chip -seq data [29] og transskriptionelle regulatoriske Element Database (TRED) [30]. Encode Chip-seq data på UCSC Genome Browser behandles ved hjælp af den beregningsmæssige rørledning til at generere ensartede toppe af TF binding. TRED er en integreret opbevaringssted for både cis- og trans-regulatoriske elementer. Den indeholder den kurateret transkriptionel oplysninger regulering, herunder transskription faktor bindende motiver og eksperimentelle bevismateriale. Vi hente TF-TF interaktioner fra Reactome og STRING, med protein-gen annotation kortlægning som for få TF-TF interaktioner. For vores netværk, er TF-miRNA interaktioner opnået fra to kilder: TransmiR [19], og de supplerende data [25], der er også tilgængelig på https://encodenets.gersteinlab.org/

Beregning funktion. vægte

med den foreslåede WSNF metoden, beregner vi vægten af ​​en funktion i to etaper. For det første bruger vi oplysningerne for miRNA-TF-mRNA netværk bygget i det forrige trin for at rangere de funktioner. Derefter ekspressionen data anvendes til at finde ekspressionen variation af de enkelte funktioner på tværs af alle prøverne i datasættene. Til sidst, er vægten af ​​en funktion opnås ved at kombinere sin placering og udtryk variation

Trin 1:.. Computing rangordning af funktioner ved hjælp af Google PageRank

Google PageRank [31, 32] er et algoritme, der oprindeligt blev brugt til at rangere de mange websider fra Google Search. Den er baseret på en rettet graf

G Hotel (

V

,

E

) hvor knuderne

V

repræsentere websider og kanterne

E

angiver hyperlinks mellem websider. Den grundlæggende antagelse er, at en vigtig webside er tilbøjelige til at have flere indgående links fra andre websider. Antag der er

N

websider {

s

1,

s

2, …,

s

N

}. Rangordningen af ​​en webside

s

jeg

er defineret som følgende: (1) hvor

PR

(

s

i

) og

PR

(

s

j

) er placeringerne af websider

s

jeg

og

s

j

henholdsvis med

s

i

s

j

;

d

er den dæmpende faktor, som er ligesom et klik-through sandsynlighed bruges til henfald rækkefølgen af ​​websider uden udgående links, og 0

d

1;

M Hotel (

s

i

) er det sæt af websider, der er knyttet til

s

i

; og

L Hotel (

s

j

) er antallet af udgående links fra

s

j

. Så en webside

s

Jeg

vil have en høj placering, hvis den er forbundet af mange andre high-rangerede websider

s

j

. For interesserede læsere, konvergens og beregning af PageRank ved hjælp af ovenstående iterative formel (dvs. ligning 1) er illustreret i [33, 34].

For vores sag at udnytte miRNA-TF-mRNA regulatoriske netværk til rang en funktion, en molekylær regulerende mange mål er vigtig. I vores miRNA-TF-mRNA-netværk, betegnet som

G

(

V

,

E

), noderne

V

er de funktioner (miRNA TFS og mRNA) og kanterne

E

er samspillet mellem tilsynsmyndighederne og deres mål. Retningen af ​​en kant er fra en regulator til sit mål. En vigtig regulator er analog til en vigtig webside i PageRank, at mange andre websider linker til, bortset fra, at tilsynsmyndigheden har mange links går ud af det til sine mål. Antag der er

N

funktioner {

f

1,

f

2, …,

f

N

}. Rangordningen (regulatoriske betydning) af en funktion

f

jeg

kan defineres som følger ved hjælp af en modificeret PageRank-algoritmen: (2) hvor

R Hotel (

f

i

) og

R Hotel (

f

j

) er placeringerne af funktioner

f

jeg

og

f

j

henholdsvis med

f

jeg

f

j

;

d

er dæmpningsfaktoren, og 0

d

1;

T Hotel (

f

i

) er det sæt af mål,

f

jeg

regulerer ; og

L Hotel (

f

j

) er antallet af regulatorer, der regulerer

f

j

R og Matlab scripts til beregning af den funktion ranking fra miRNA-TF-mRNA regulatoriske netværk findes i S2 File

Trin 2:… Integration funktion ranking og funktion variation

udtrykket variation på tværs af prøver er en vigtig indikator for den forskning af kræft genomiske data. De funktioner (fx gener) med højere udtryk variationer betragtes altid som mere vigtig biologisk markør i mekanismer kræft. Vi bruger den mediane absolutte afvigelse (MAD) til at repræsentere ekspressionen variation af en funktion. Den MAD af en funktion

f

jeg

beregnes som: (3) hvor

X

(

f

jeg

) er en numerisk vektor som repræsenterer udtrykket værdier af funktionen

f

i

tværs af alle prøver (patienter).

for at integrere funktion variation med funktionen ranking, NCIS [18] følger ideen om GeneRank [35] til blot at udskifte den del [] i Google PageRank-algoritmen med MAD at opnå den endelige vægt af en funktion. finder dog, at den endelige vægt er opnået på denne måde ved både GeneRank og NCIS stærkt korreleret med funktionen vægt beregnes direkte med ligning 2, dvs. uden brug af MAD. Den stærke sammenhæng indebærer, at den fremgangsmåde, som de to metoder til at integrere MAD er ikke effektiv som information udtrykket variation ikke afspejles i den endelige vægt opnået ved hjælp af deres tilgang. De detaljerede resultater på dette fund vises i S3 File.

For at overvinde dette problem, vi vedtager en lineær model for effektivt at integrere funktionen ranking og funktionen variation i dette papir. Vi først normalisere funktionen ranking fås fra miRNA-TF-mRNA regulatoriske netværk og har variation fra udtryk data som følger: (4) (5)

En lineær model er derefter anvendt til at integrere disse to foranstaltninger for at få den endelige vægt for hver funktion. (6), hvor

β

er en tuning parameter for betydningen af ​​miRNA-TF-mRNA regulatoriske netværk information. Jo større værdien af ​​

β

er den større rolle informationen af ​​miRNA-TF-mRNA regulatoriske netværk vil spille i beregningen af ​​den endelige vægt af funktionerne. I vores eksperimenter, vi indstille

β

til 0,8 for at fokusere mere på informationsnettet for kræft undertype opdagelse.

Vægtet lighed netværk fusion

Vi udnytter funktionen vægt information at bistå identifikation af cancer undertyper fra genekspression data og miRNA udtryk data. Til dette formål har vi ændre ligheden netværk fusion (SNF) metode [11] for at indarbejde funktionen vægt opnået i det foregående trin i processen for kræft undertype klassificering.

SNF er en multi-omics databehandling metode der konstruerer en fusion patient lighed netværk ved at integrere patienten lighed opnået fra hver af de genomiske datatyper. SNF beregner ligheden mellem patienter, der bruger hver enkelt datatype separat. Lighederne mellem patienter fra forskellige datatyper integreres derefter med et cross-netværk diffusion proces at konstruere fusion patienten lighed matrix. Endelig er en klyngedannelse metode, der anvendes til fusion patienten lighed matrix at klynge patienter i forskellige grupper, der indebærer forskellige kræft undertyper.

Det centrale trin i SNF er at definere ligheden mellem patienter, som vi har brug for at stratificere lignende patienter i samme gruppe (undertype). Euklidiske afstand bruges i SNF at måle lighed mellem patienter i enkelt genomisk datatype, hvor er imidlertid alle funktioner behandles som lige vigtige. Antag, at der er et udtryk profil datasæt (

n

patienter ×

s

funktioner), så den euklidiske afstand mellem patient

S

i

og patient

S

j

er: (7) hvor og er udtrykket værdier

f

m

i patienter

S

jeg

og

S

j

henholdsvis.

Vi ændrer patienten afstand formel som følger tage vægten af ​​hver enkelt funktion i betragtning: (8)

Ved at bruge ovenstående modificerede prøver afstand formel, den foreslåede WSNF metoden anser ligheden mellem to patienter baseret på ikke kun den overordnede forskel mellem ekspressionsniveauerne af alle deres funktioner, men også vigtigheden (vægt) af hver af funktionerne. Som vi gøre brug af miRNA-TF-mRNA netværksoplysninger i beregningen af ​​funktionen vægt og vores metode behandler forskellige funktioner forskelligt, vil vi se i Resultater og diskussion Afsnit, der væsentligt WSNF udkonkurrerer SNF og de andre almindeligt anvendte metoder til at identificere cancer undertyper.

Resultater og diskussion

datasæt

i dette papir, vi bruger de BRCA og GBM datasæt fra The Cancer Genome Atlas (TCGA) for vores eksperimenter, herunder gen (mRNA og TF) udtryk data, miRNA udtryk data og kliniske data (samlet overlevelse tid, overlevelse status og nogle kliniske kovariater). Niveau 3 TCGA tumorprøver hentes fra de overordnede GDAC brandslange (tidsstempel: 2015/04/02). For at få mest antallet af matchede prøver til begge kræftformer, bruger vi RNASeq og miRNAHiseq data for BRCA og microarray data for GBM.

De gener og miRNA med meget lave ekspressionsniveauer og lave variationer på tværs af prøver fjernes. De forskellige cut-off point er udvalgt baseret på distributions- karakteristika for de BRCA og GBM datasæt (se S3 File). For BRCA RNASeq og miRNAHiseq datasæt, vi først bruge

log

2 transformation til preprocess dem, der er almindeligt anvendt til RNA-sekventering data indført i

DESeq2

[36] R pakke . Vi beregner den gennemsnitlige værdi for hver funktion på tværs af prøver og fjern de 25% gener og 60% miRNA med lav gennemsnitlig udtryk. Derefter standardafvigelsen for hvert gen og miRNA beregnes, samt gener og miRNA med standardafvigelse på under 0,5 fjernes også. For GBM microarray data, er der nogle manglende observationer. Vi anvender det første imputering ved hjælp af

tilregne

R pacakage [37]. Derefter beregner vi standardafvigelsen af ​​hvert gen og miRNA. Generne med standardafvigelse under 0,6 og miRNA med standardafvigelse under 0,2 er fjernet. procedure af datasættene Den detaljerede behandling registreres i S3 Filer. I sidste ende, er der 587 matchede prøver i BRCA med 12,233 mRNA, 1.338 TF’er og 361 miRNA. I mellemtiden, for GBM er der 276 matchede prøver med 10.278 stk mRNA, 1.083 TF’er og 287 miRNA (se S3 File).

Netværk byggeri

Som nævnt i de materialer og metoder afsnit, vi bruger flere offentlige databaser for at konstruere miRNA-TF-mRNA regulatoriske netværk. Tabel 1 viser antallet af interaktioner fra datakilder til at konstruere de regulatoriske netværk for BRCA datasæt. Lignende oplysninger til GBM datasættet er i S3 Filer.

De identificerede undertyper har markant forskellige overlevelse mønstre

Med de konstruerede netværk og BRCA og GBM udtryk datasæt, WSNF identificerer fem brystkræft undertyper og tre GBM undertyper. De identificerede kræft undertyper og relaterede kliniske oplysninger for brystkræft og GBM er givet i S4 og S5 Files. For at vurdere, hvor godt vores metode har udført med at identificere kræft undertyper, vi gennemfører overlevelse analyse af de identificerede kræft undertyper. Fig 3 og 4 viser overlevelseskurverne for patienterne i de fem undertyper af BRCA og de tre undertyper af GBM hhv.

s

-værdier fra log-rank test [38] er 0,00483 for BRCA og 0.00279 for GBM. De p-værdier tyder på, at de identificerede undertyper i begge datasæt har markant forskellige overlevelse mønstre, hvilket indikerer forskellige cancer undertyper hhv.

j

,

n

j

,

s

jeg

i Silhouette plottet er undertype label, at antallet af patienter i subtype og Silhouette bredde for patient

i

henholdsvis.

j

,

n

j

,

s

i

i Silhouette plot er undertype label, at antallet af patienter i subtype og Silhouette bredde for patient

jeg

henholdsvis.

Desuden bruger vi Silhouette bredde [39] og sort-hvid heatmap at demonstrere sammenhængen af ​​prøverne (patienter) i hver undertype og forskellen på tværs af forskellige undertyper, hhv. Som vist i figur 3 og 4, de overordnede gennemsnitlige Silhouette bredde værdier er positive for både BRCA og GBM. Bemærk, at Silhouette bredde værdien er positiv, hvis prøverne i hver undertype er konsekvente, og negativ ellers. I mellemtiden er den sort-hvide heatmaps genereret fra matrixen af ​​prøven lighed ved at anbringe prøver efter klyngen etiketter. Blokgrænserne for alle undertyper er meget klare. Især den tredje undertype af BRCA har en høj Silhouette bredde værdi og en klar kontrast i sort-hvid Heatmap, hvilket tyder på unikke egenskaber patienterne i denne undertype.

Oplysningerne netværk forbedrer identifikationen af ​​kræft undertyper

for at undersøge, om oplysningerne fra miRNA-TF-mRNA regulatoriske netværk faktisk hjælper med at forbedre identifikationen af ​​kræft undertyper, vi sammenligner WSNF metoden med de tidligere foreslåede metoder, herunder NCIS [18], konsensus klyngedannelse (CC ) [7], og SNF [11]. NCIS udnytter genekspression data og oplysningerne fra mRNA-mRNA interaktioner. CC er den almindeligt anvendte klyngedannelse metode i TCGA forskning papirer [1, 8, 40-42] baseret på enkelt genomisk datatype. SNF er den multiple genom datafusion og klyngedannelse metode, men bruger ikke oplysningerne fra de regulerende netværk gen. For at gøre en rimelig sammenligning fra vores forarbejdede datasæt (BRCA GBM) og konstrueret miRNA-TF-mRNA regulatoriske netværk, bruger vi genekspression data og udtrække mRNA-mRNA interaktioner som input til NICS. Vi sammenkæde de normaliserede genekspression data og normaliserede miRNA udtryk data for hver patient som input data for CC. Indgangene på SNF er genekspression data og miRNA udtryk data. Indgangene på vores WSNF metode er genekspression data, miRNA udtryk data og regulerende netværk miRNA-TF-mRNA. Vi gennemfører overlevelse analyser for de identificerede undertyper af hver af de metoder, og sammenligne de

p

-værdier af log-rank test [38] for at vurdere betydningen af ​​de forskellige overlevelse distributioner tværs undertyper.

Fra tabel 2, ser vi, at WSNF har væsentligt lavere

s

-værdier end andre almindelige metoder i både BRCA og GBM datasæt. Når

β

er sat til 1, er vægten for de funktioner helt bestemt af miRNA-TF-mRNA regulatoriske netværk. Resultaterne viser, at WSNF metode er bedre end de andre eksisterende metoder, hvilket tyder på, at oplysningerne fra miRNA-TF-mRNA regulatoriske netværk hjælper med at forbedre identifikationen af ​​undertyper. Vi observerer desuden, at metoden fungerer meget godt i begge datasæt, når

β

er 0,8 (som er default værdi bruges til

β

).

Brystkræft undertyper viser forskellige ekspressionsmønstre

i det foregående afsnit har vi påvist ydeevne WSNF hjælp af BRCA og GBM datasæt. Resultaterne antyder, at WSNF er i stand til at opdage cancer undertyper med særskilte overlevelse mønstre og vores metode overgår de eksisterende cancer subtypeidentifikation metoder. Vi undersøger mRNA, TF og miRNA ekspressionsmønstre på tværs af de fem forskellige brystkræft undertyper. Svarende til [8], vi udtrække de “centrale prøver”, som er identificeret på grundlag af deres Silhouette bredde ved at fjerne prøver med negative Silhouette bredde værdier i hver undertype. Der er 502 prøver med positive Silhouette bredde værdier på tværs af de fem undertyper. Vi får også 69 normale prøver fra TCGA til sammenligning. De heatmaps for mRNA, TF, og miRNA udtryk er vist i figur 5. Under normale gruppe som reference, kan vi se af figuren, at udtrykket profiler mellem undertyper er signifikant forskellige.

Til have et nærmere kig på ekspressionsmønstre af gener, der kendetegner hver undertype, bruger vi

Voom

[43] metode og

Limma

[44] R pakke at finde de differentielt udtrykte gener (justeret

s

-værdi 0,01) mellem hver undertype og normale prøver. Vi udvælger de øverste 1500 differentielt udtrykte gener i hver undertype til analyse. Fig 6 viser overlapningen af ​​differentielt udtrykte gener tværs af undertyper. Der er 473 almindelige differentielt udtrykte gener for alle undertyper. I mellemtiden, hver undertype har deres specifikke gener (Undertype 1: 271, undertype 2: 82, undertype 3: 393, Subtype 4: 291, Subtype 5: 157). De fælles gener på tværs af de fem undertyper og undertype-specifikke gener er opført i S6 Filer. Selv om der er nogle fælles differentielt udtrykte gener for alle undertyper, deres ekspressionsmønstre er meget forskellige som vist i figur 7. I sidstnævnte afsnit, gennemfører vi vejen analyse for de undertype-specifikke gener for at udforske deres funktion karakteristika i hver undertype.

ændringer i regulatoriske netværk på tværs af brystkræft undertyper

Vi udvinder TF-genet

BCL11A

at vise ændringer i miRNA-TF-mRNA regulatoriske netværk på tværs af de identificerede brystkræft undertyper.

BCL11A

er en proto-onkogen, der har en signifikant effekt på brystkræft [45]. Som vist i fig 8,

BCL11A

udtrykkes kraftigt i Subtype 3, men ringe udtrykkes i andre undertyper. Vi kortlægger patienterne i Subtype 3 til kliniske data og finde, at 73,5% af patienterne er i triple-negativ klasse, herunder ER-, PR- og HER2-.

Be the first to comment

Leave a Reply