Abstrakt
Fortolkningen af biologiske datasæt er afgørende for at generere hypoteser, der styrer forskningen, men alligevel moderne metoder til global analyse udfordring vores evne til at skelne meningsfulde mønstre og derefter formidle resultater på en måde, som let kan forstås. Proteomisk data er særligt udfordrende, fordi massespektrometri detektorer ofte savner peptider i komplekse prøver, hvilket resulterer i tyndt befolkede datasæt. Brug sproget R programmering og teknikker fra området mønstergenkendelse, har vi udtænkt metoder til at løse og evaluere klynger af proteiner relateret ved deres mønster af udtryk i forskellige prøver i proteomiske datasæt. Vi undersøgte tyrosin phosphoproteomic data fra prøver lungecancer. Vi beregnede forskelle mellem de proteiner, baseret på Pearson eller Spearman korrelationer og på euklidiske afstande, mens der beskæftiger sig med store mængder manglende data. De forskelle blev derefter brugt som har vektorer i klyngedannelse og visualisering algoritmer. Kvaliteten af clusterings og visuelle effekter blev evalueret internt baseret på de primære data og eksternt baseret på gen ontologi og protein interaktionsnetværk. Resultaterne viser, at t-fordelte stokastiske nabo indlejring (t-SNE) efterfulgt af mindst udspændende træ metoder grupper sparsomme proteom data til meningsfulde klynger mere effektivt end andre metoder såsom
k
-means og klassisk multidimensional skalering. Desuden er vores resultater viser, at brug af en kombination af Spearman korrelation og Euklidisk afstand som en forskellighed repræsentation øger opløsningen af klynger. Vores analyser viser, at mange klynger indeholde en eller flere tyrosinkinaser og omfatte kendte effektorer samt proteiner med ingen kendte interaktioner. Visualisere disse klynger som netværk belyst hidtil ukendte tyrosinkinaseinhibitorer signaltransduktionsveje der drev kræft. Vores tilgang kan anvendes på andre datatyper, og kan let vedtaget, fordi open source software-pakker er ansat
Henvisning:. Grimes ML, Lee WJ, van der Maaten L, Shannon P (2013) Wrangling Phosphoproteomic data for at belyse Cancer signaleringsveje. PLoS ONE 8 (1): e52884. doi: 10,1371 /journal.pone.0052884
Redaktør: Jorge Sans Burns, University Hospital of Modena og Reggio Emilia, Italien
Modtaget: 26 juli, 2012; Accepteret: November 22, 2012; Udgivet: januar 3, 2013 |
Copyright: © 2013 Grimes et al. Dette er en åben adgang artiklen distribueres under betingelserne i Creative Commons Attribution License, som tillader ubegrænset brug, distribution og reproduktion i ethvert medie, forudsat den oprindelige forfatter og kilde krediteres
Finansiering:. MG var støttet af National Institutes of Health (NIH) NS070746-01, NS061303-01, og COBRE NCRR tilskud P20 RR015583. De finansieringskilder havde ingen rolle i studie design, indsamling og analyse af data, beslutning om at offentliggøre, eller forberedelse af manuskriptet
Konkurrerende interesser:.. Forfatterne har erklæret, at der ikke findes konkurrerende interesser
Introduktion
Cell adfærd styres af funktionelle interaktioner mellem biologiske molekyler, som er blevet klassisk studeret en ad gangen, og kommunikeret med pathway diagrammer eller tegninger. Signaling netværk er faktisk langt mere kompliceret end disse enkle modeller, som afsløret af store tilgange til at studere genomet, transkriptomet, og proteomanalyse. Disse undersøgelser producere en stor mængde data, der er vanskelige at forstå
prima facia
. For at overvinde dette problem, en kombination af statistisk analyse og visualisering teknikker kan være nyttigt [1] – [4].
En stor udfordring, når der beskæftiger sig med store datasæt er, hvordan man løser relationer i dataene, og display resultater på en meningsfuld måde for udforskning, præsentation, og i sidste ende, forståelse af dynamikken i celle responser i sygdomstilstande og normal differentiering [3]. Meget arbejde er blevet udført på eksplorativ dataanalyse og empiriske statistiske [5], og på den “netværk” metafor, der beskriver forholdet mellem biologiske molekyler [6]. Hierarkisk klyngedannelse dendrogrammer, varme kort og netværk grafer er blevet anvendt i forsøg på at visualisere mønstre, der kan indikere funktionelle relationer mellem forskellige grupper inden data. Det er almindeligt anerkendt, at high-throughput karakterisering teknologier vil drage fordel af en forbedret visualisering og bioinformatiske værktøjer [7], og dette gælder især for phosphoproteomic dataanalyse [4], [8], [9].
Højere opløsning af datastruktur og computer visualisering kunne være særligt nyttigt for undersøgelser, phosphorylering af cellulære proteiner. Phosphoproteomic teknikker er blevet mere effektive til at identificere proteiner i de senere år. Forstå de resulterende data, er imidlertid vanskeligt, både på grund af den dynamiske karakter af cellesignalering, og fordi signalering displays mange overlapninger og stor redundans [10], [11]. For at forstå disse oplysninger og transcendere begrænsninger, som repræsenterer signaltransduktion som lineære veje, er der et klart behov for værktøjer og metoder, der integrerer dataanalyse og grafer [2], [12]. Redskaberne bør sætte efterforskerne at vælge statistiske teknikker med passende underliggende forudsætninger for den type data, der analyseres, og visualisere resultater på en måde, der antyder hypoteser for yderligere indsamling og eksperimenter data.
En overvejelse, som er især vigtigt, når analysere proteomisk massespektrometri data er, hvordan manglende værdier håndteres. Med omhyggelig anvendelse af instrumenter med høj opløsning, massespektrometri har en meget lav falsk positiv rate [13], hvilket betyder, at vi kan have stor tillid til data, hvor der konstateres proteiner. Ikke desto mindre, vil sandsynligvis være høj, og i phosphoproteomic analyse den falske negative sats er underlagt omfanget af optimerede prøve berigelse [14], peptid fraktionering [15], [16], phosphorylering websted støkiometri [17] og massespektrometer opløsning, med nylige forbedringer med henblik på at minimere den del af peptider i komplekse prøver at miss detektoren [18]. Mest almindeligt anvendte software-værktøjer til statistiske analyser, såsom
k
-means eller hierarkisk klyngedannelse, kræver en imputering tilgang til at håndtere manglende data. Tilregne nuller som pladsholdere til at repræsentere manglende data er en meget enkel metode, der ofte bruges. Tilregne nuller er uhensigtsmæssigt for disse data, men fordi nulværdier påvirke de statistiske beregninger, når de behandles som data. Alternative metoder til at estimere manglende værdier baseret på tidligere data er blevet beskrevet, men disse metoder er egnede, når der mangler kun nogle få værdier [19] – [21], eller når meget stærke antagelser kan foretages på kovariansen datastrukturen [ ,,,0],22], [23], der er urealistiske for proteomiske data. Det er urimeligt at drage slutninger om manglende værdier ved hjælp af disse metoder i phosphoproteomic data, fordi der kan være flere manglende værdier end data. , Den mest direkte metode er derfor at beregne statistiske relationer kun bruger de observerede variabler og til at ignorere alle manglende variabler. Vi brugte denne fremgangsmåde som udgangspunkt til at søge forbedrede metoder til løsning af datastruktur, som vi anvendte til phosphoproteomic data fra lungekræft prøver [24]. Denne tilgang væsentligt forbedret løsning af klynger identificeret i sparsomme datasæt typiske for proteom undersøgelser. Desuden er vores analyse af gen funktion anmærkninger og protein-protein interaktioner inden klynger foreslog flere roman kræft driver veje og potentielle forbindelser mellem disse veje og proteiner, der ikke tidligere har været karakteriseret.
Resultater
Indlejring og Clustering metoder
grupper af proteiner phosphorylerede i de samme prøver kan indikere signalveje aktiveret i forskellige klasser af tumorer, så det er værd at forsøge at finde klynger defineret af statistiske metoder i phosphoproteomic data. Phosphoproteomic data fra Rikova
et al.
[24] blev igen undersøgt for at belyse sammenhænge mellem proteiner phosphorylerede i prøver lungekræft, der ikke tidligere værdsat. Dette datasæt, som omfatter tyrosinphosphorylerede proteiner fra 41 ikke-småcellet lungekræft (NSCLC) cellelinier og over 150 NSCLC tumorer, blev omdannet til en tabel med 2482 gener ved 233 prøver, er især en udfordring for klyngedannelse algoritmer, fordi 95,7% af bordet celler indeholder ingen data. Mange proteiner blev kun identificeret i delmængder af prøver, og vi kan ikke vide, om de er virkelig fraværende eller simpelthen ikke opdaget. Anvendelse af nuller til at repræsentere ingen data ville tilsløre statistiske beregninger, fordi alle de nuller korrelerer med hinanden. Vores tilgang med R-software tilladt os at udforske brugen af NA (fortolkes som data ikke tilgængelig) som en værdi, der var mere passende end nul for at repræsentere manglende data.
Vi analyserede data med eller uden tilregne nuller til kontorer anvender to almindeligt anvendte statistiske målinger af afstand: Pearson eller Spearman afstand, som er et minus den absolutte værdi af den Pearson eller Spearman korrelation mellem hvert protein og hver anden protein, og euklidiske afstand, der måler den relative nærhed i flerdimensionale rum af hvert protein til hver anden protein. Pearson og Spearman korrelationer var meget tæt på hinanden, så Spearman blev anvendt til efterfølgende analyse. Omdannelse af dataene i statistisk afstand tillader ingen sammenhæng (en afstand på NA), der skal indstilles til en vilkårligt stor værdi (100 gange den maksimale virkelige afstand mellem to proteiner; se Materialer og fremgangsmåder). Distance matricer blev derefter omregnet ved hjælp af multidimensional skalering til retvinklede koordinater i to eller tre dimensioner for at visualisere datastruktur (figur 1 og S1). Brug kontorer til at repræsentere manglende værdier gav anledning til datastrukturer (Figur 1, blå point), der var langt mere meget løst end dem, hvor nuller erstattet nationale kontorer (Figur 1, røde punkter).
(A) og Spearman ( B) afstand matricer beregnet ud fra data, hvor nationale kontorer (blå punkter) eller nuller (røde punkter) blev anvendt til at repræsentere den manglende phosphoproteomic massespektrometri signaler. Data er plottet i samme omfang i de vigtigste grafer; mellemværker viser omfanget og fordelingen af knuder fra afstand matricer beregnet ud fra data ved hjælp af nuller til at repræsentere nogen signaler.
Tre-dimensionelle statistiske datastrukturer løses af Spearman (figur S1 A, B) og Euklidisk (figur S1 C, D) afstand var meget forskellige fra hinanden, fordi de anvender forskellige metoder til beregning af statistiske relationer. Nogle proteiner, ikke var godt løst ved en fremgangsmåde var adskilt af den anden, hvilket antyder, at en kombination af disse to metoder yderligere skulle løse dataene. Kombination af de forskellige kilder til forskellighed har vist sig at være nyttige i mønstergenkendelse da forskellige forskellighed foranstaltninger kan fremhæve forskellige typer af information [25]. Den skalerede sum af Spearman og euklidiske afstand, der stammer fra beregninger med kontorer til at repræsentere ikke foreligger data, var repræsenteret som to eller tre dimensionelle Spearman-euklidisk forskellighed (SED) (Figur S1, E, F, figur S2, A, B; film S1).
Evaluering af Clustering Metoder
Vi spurgte, om forskellige klyngedannelse algoritmer kunne skelne relationer i disse data. Grafer af datastruktur produceret af multidimensional skalering, i hvilken node størrelse og farve repræsenterede det samlede phosphopeptider, foreslog relationer mellem proteiner, der kan forstås af manuel udforskning af datastrukturen i Cytoscape (fig S1). Udforskning og udvælgelse af klynger baseret på nærhed inden datastrukturen i tre dimensioner ved hjælp PyMOL var også muligt (fig S2, Film S1, S2, se nedenfor). Fordi manuelt valg af klynger i store datastrukturer er besværlig, evalueres vi automatiseret udvælgelse af klynger med
k
-centers,
k
-means, og flerdimensional skalering og t-fordelte stokastiske nabo indlejring ( t-SNE, ref. [26]) under anvendelse af mindst udspændende træ metode til at vælge grupper baseret på nærhed.
at evaluere klynger, blev et indeks beregnes ud fra den oprindelige data, der måles densiteten af data og antallet af gener, der er monteret det overordnede mønster af udtryk i hver klynge (se materialer og metoder og tabel 1) .Dette indeks rangeret klynger indeholder almindeligt phosphorylerede proteiner højere end klynger mere tyndt befolkede med data (højere procent NA, tabel 1). Baseret på denne benchmark, den mest effektive klyngedannelse metode var den minimale udspændende træ metode i t-SNE indlejret rum. t-SNE er en ny mønstergenkendelse teknik, der har til formål at modellere den lokale struktur data i en enkelt kort og samtidig sikre, at uens grupper af punkt modelleres langt fra hinanden [26]. Figur 2 sammenligner klynger identificeret ved minimal udspændende træ i multidimensional skalering (A) og t-SNE (B) indlejret plads fra Spearman-Euclid forskellighed. (Figur S3 viser todimensional t-SNE afbildet i Cytoscape;. Figur S2C, D og Film S1, S2 viser tredimensionel t-SNE indlejring tegnes ved hjælp PyMOL) Empirisk fandt vi, at t-SNE løses klynger fra den kombinerede Spearman -Euclid forskellighed mere effektivt end fra enten Spearman eller Euclid forskellighed alene (højeste sum Index, tabel 1). Generelt klynge medlemskab defineret ved forskellige metoder i stigende grad afveg ved gruppering proteiner, der blev mere sparsomt repræsenteret i de data. Klynger blev løst mest effektivt, når afstanden matrix blev betragtet som et “trækvektor” i en såkaldt forskellighed repræsentation (sammenlign Metode: forskellighed vs. afstand, tabel 1) [27]. Clustering metoder anvendt på de rå data, eller data, hvor nuller repræsenterede ikke foreligger data, var ikke vellykket (ikke vist); de konvergeret på kun én stor klynge, efterlader en række individuelle proteiner.
(SED) reduceres til to dimensioner ved multidimensional skalering (A) eller t-SNE (B). 100 klynger blev udvalgt ved en enkelt lift mindst udspændende træer. Røde cirkler er tegnet rundt om klyngerne.
Data tovtrækkeri
Begrebet “fuzzy clustering” omfatter forestillingen om, at er muligt medlemskab i mere end én gruppe. Desværre, fuzzy
c-
betyder clustering løst kun få særskilte klynger indeholdende mindre end 10% af proteinerne i datasættet (se tabel 1 legende). Selvom denne særlige gruppering teknik viste sig at være af begrænset nytte for disse data, begrebet fuzzy eller overlappende grænser mellem klynger er ikke desto mindre vigtigt at huske på, når behandlingen klynger bestemt ved enhver metode. Medlemskab i individuelle klynger identificeret fra hårde klyngedannelse metoder på Spearman, euklidisk, eller SED indlejring delt på forskellige måder klynger, der indeholder selv de mest statistisk godt repræsenteret proteiner (figur S4). Vi søger at værdsætte mønstre af tyrosinphosphorylering at belyse forskellige veje, der kan drive eller være aktive i forskellige typer af lungekræft. Selv om det er umagen værd at omhyggeligt bestemme som indeholder proteiner er oftest co-aktiveret, kan tyrosinphosphoryleret proteiner, der findes i mange prøver blive aktiveret af flere overlappende veje, og en eller flere nedstrømseffektorer kan aktiveres ved mere end én tyrosin-kinase [28 ], [29]. Derfor bør tildelingen af proteiner til en klynge ikke betragtes som bevis for at udelukke det fra at deltage i en signalvej identificeret i en anden klynge.
Med dette i tankerne, vi undersøgte, hvordan data-drevne analyser kombineret med hypotese drevet forhør og filtrering kan anvendes til at indsamle yderligere oplysninger fra lungekræft datasæt. Vi antager, at tilstedeværelsen af en eller flere tyrosinkinaser i individuelle klynger implicerer disse kinaser i pathways (direkte eller indirekte), der forårsager tyrosinphosphorylering af andre proteiner i denne klynge. Således har vi foreløbigt identificeret klynger af tyrosinkinaser, hvor stede. Klynger, der indeholdt de højest fosforyleret proteiner i disse data indeholdt FAK (pTk2-), LCK, LYN, FYN, DDR1 og EGFR. Vi fokuserede på disse klynger, og to andre klynger indeholdende ALK og MET, for nærmere undersøgelse. Vi evaluerede og filtreret klynger baseret på interne kriterier, der er baseret på de primære data og eksterne kriterier fra protein interaktion og gen-ontologi (GO) databaser [30] – [32].
For at vurdere validiteten af klynger, undersøgte vi delmængde af de primære data, der er indeholdt i dem. Vi fokuserede på de clustering metoder, der klarede sig godt efter kriterierne i tabel 1. Data blev tegnede som varme kort, sorteret efter faldende phosphopeptidsøjler indhold. Den ordnet zonekort, der kan betragtes som en tredimensionel histogram med
z
-dimension repræsenterer mængden af en farveskala, giver et overblik til at vurdere overensstemmelse med et lignende mønster i de primære data. Klynger indeholder de mest repræsenterede proteiner i data lungekræft er vist i fig S4 og S5. Klynger blev også evalueret ved hjælp af indekset, der måler datatæthed som beskrevet ovenfor (tabel 2). FAK (pTk2-) og LCK blev grupperet sammen med MAPK14 (p38a) og GSK3A (som var til stede i alle prøver) i alle de undtagen Spearman (Figur S4C, tabel 2, Spearman t-SNE gruppe 108). Klynger indeholdende EGFR var også stort set ens, gruppering EGFR med DDR1, LYN, og FYN (figur S5), bortset fra at
k-
betyder på euklidisk indlejring grupperet EGFR med FAK-LCK klynge (Figur S4A; Tabel 2 , Euclid
k
-means gruppe 56). På trods af disse undtagelser, var der betydelig enighed blandt forskellige klyngedannelse metoder til de højest repræsenteret proteiner i datasættet.
Forskellige indlejring (Spearman vs. euklidisk) produceret overlappende, men distinkte klynger, og den kombinerede ( SED) indlejring produceret en rimelig konsensus visning (figur S4D, S5D). I betragtning af at både Spearman og Euklidiske forskellighed definere klynger, som er statistisk meningsfuld, vi også kombineret dem på en anden måde, ved at flette overlappende grupper efter clustering, derefter filtrering. Anvendes denne tilgang til FAK-LCK gruppe (figur S4E) returnerer en klynge meget lig den SED klynge (Figur S4D). Ligeledes var der god overensstemmelse sammenligne EGFR klyngen når Spearman og Euklidiske indlejring blev kombineret før (figur S5D, SED t-SNE) eller efter (figur S5E) den clustering algoritme blev udført. Disse resultater antydede, at kombinere Spearman og euklidiske indlejringerne enten før eller efter clustering er nyttigt at repræsentere en konsensus af klynger. Den SED (t-SNE) FAK (pTk2-) klynge (figur S4D) og den kombinerede Spearman og Euklidisk EGFR klynge (figur S5E) blev afbildet som netværk i figur 3, der omfatter data fra protein Interaktionsdatabasen som kanter (forklaret i eksterne evalueringer, nedenfor).
A) Cluster indeholder LCK og FAK (pTk2-) afledt af t-SNE på SED indlejring (Figur S4D). B) Cluster indeholdende EGFR og LYN, stammer fra første udfører t-SNE Spearman og euklidisk indlejring hver for sig, så kombinere disse klynger og filtrering (Figur S5E). Node størrelse og farve (hvid til gul) angiver det samlede antal phosphopeptider detekteret i alle prøver. Kanterne er protein interaktion data fra String (string.embl.de/), GeneMANIA (genemania.org/), og kinase-substrat data fra PhosphoSitePlus (phosphosite.org). Af klarhedshensyn og fordi grafer af disse klynger, herunder alle individuelle kanter var vanskelige at fortolke, blev kanter sammenlagt, og kantvægtene, der angiver styrken af evidens for interaktion, blev summeret for at bestemme tykkelsen af kanten linje. Protein interaktion netværk data blev importeret til R for kanten fletning og plottet med RCytoscape som beskrevet i materialer og metoder. Node position i netværket grafer blev indstillet med en kant-vægtet, forår-indlejret layout, hvor meget forbundet noder gruppe tættere sammen. Klyngen i (A) havde 107 gange mere kanter, 544 gange større kant vægt, og 7,5 gange mere GO termer hentet end gennemsnittet tilfældig klynge. Klyngen i (B) havde 88 gange mere kanter, 499 gange større kant vægt og 10,8 gange mere GO termer hentet end gennemsnittet tilfældig klynge. Som en yderligere foranstaltning, blev antallet af kanter forventede disse knudepunkter i hele lungekræft netværk beregnet (se Materialer og fremgangsmåder). Den LCK /pTk2- netværk (A) havde 122 flere kanter, og EGFR-netværket (B) havde 67 flere kanter, end forventet ved denne beregning.
Et vigtigt mål for detaljeret analyse af store datasæt er at finde nye mekanismer eller signalveje. MET, receptor tyrosinkinasen til hepatocytvækstfaktor (HGF) er blevet vist at drive tumorigenese når overaktivering i en række cancere, herunder lungekræft [33]. Anaplastisk lymfom kinase (ALK) er en vigtig onkogen driver, men er mindre godt undersøgt end mange andre receptortyrosinkinaser (RTK) [34]. Cluster medlemskab for klynger identificeret fra de undersøgte her indeholder MET og ALK-data var mere varieret, når forskellige metoder blev anvendt (figur S6, S7, S8, tabel 2). Klynger indeholdende MET varierede i størrelse fra 8 til 162-proteiner, med lille overlap (tabel 2, fig S6). Ingen af de klynger identificeret automatisk syntes at være særligt overbevisende baseret på interne evalueringer, dog kombinerer klynger fra t-SNE på euklidisk (figur S6B) og Spearman (figur S6c) indlejring, så filtrering, defineret en rimelig størrelse klynge, der gjorde det mest mening af interne evalueringer (Figur 4, lav procent NA, tabel 2). Denne klynge identificeret samarbejde af RTK EphA2, ERBB2, og ErbB3 med MET, der kan give yderligere mål for metastatiske lungetumorer.
(se materialer og metoder). Varmen kort (A) repræsenterer manglende data (NA) som sort, og stigende skalerede peptid tæller vises på en blå-gul skala (farve nøgle, venstre). Data er bestilt af faldende summer af skaleret peptid tæller for gener (faldende fra top til bund) og prøver (faldende fra venstre mod højre). B) MET i lungekræft vist som en protein-interaktion netværk afbildet grafisk som i figur 3. Denne klynge havde 70 gange mere kanter, 847 gange større kant vægt fem gange mere gå termer hentet end gennemsnittet tilfældig klynge, og 249 flere kanter end det kunne forventes ud fra disse knudepunkter fra hele lungekræft netværk.
Phosphoryleret ALK blev påvist i et mindre antal prøver i datasættet undersøgt, hvilket skaber en vanskelig statistisk problem, der kræver en kombination af metoder til opnåelse af potentielle biologiske indsigt.
k-
betyder klynge indeholdt ikke proteiner, hvis mønster af phosphorylering i den primære data var godt korreleret (fig S7A), og SED (t-SNE) klynge indeholdende ALK var meget stor, med en række af tyndt identificerede proteiner (figur S7D). De eneste gener med lignende klynge mønstre mellem t-SNE Euclid og Spearman klynger var ALK og EML1 (figur S7B, C). Vi eksperimenterede derfor med forskellige tilgange til at kombinere og filtrere klynger.
ALK og pighuder mikrotubuli associeret protein ligesom 4 (EML4) blev korreleret i 6 prøver, som blev identificeret i Spearman (t-SNE) klynge (figur S7C ). Dette blev bemærket af Rikova,
et al.,
Som elegant bevist, at en kromosomal translokation produceret en hybrid
ALK-EML4
gen i en delmængde af sager, hvilket skaber et onkogen analog med nucleophosmin-anaplastisk lymfom kinase (NPM-ALK), som driver anaplastisk store celle lymfomer [24], [34], [35]. Der er flere tilfælde, men hvor EML4 blev detekteret og ALK var ikke (figur S8A), og tilfælde, hvor ALK blev påvist og EML4 var ikke (figur S8B). Derudover er der en række af proteiner identificeret i en prøve, der indeholder EML4 men ikke ALK (H3255, fig S8A, B). Disse data påvirket euklidiske forskellighed mere end Spearman, og dermed maskere potentielt interessante relationer. En mere informativ klyngedannelse blev fremstillet ved først at kombinere klynger fra forskellige metoder (fig S8C), og derefter filtrering for ALK og proteiner til stede i det mindste to gange (figur 5).
(A) og protein-interaktion netværk (B ). Klyngen er afledt af klynger kombineret fra fig S8B og C, hvor proteiner, der findes i en enkelt prøve eller prøver indeholdende et enkelt gen, blev filtreret. Denne klynge havde tolv gange mere kanter, ti gange større kant vægt end den gennemsnitlige tilfældig klynge, og 7 flere kanter, end man ville forvente fra disse knudepunkter i hele lungekræft netværk. Individuelle kanter vises fra String (blå) og GeneMANIA (sort).
Fordi metoder til at identificere ALK og mødte klynger (figur 4 og 5), der er involveret flere trin ud over klyngedannelse algoritmer, der er, der kombinerer klynger og filtrering på forskellige måder, vi beskrive disse metoder som “data tovtrækkeri.” Dette udtryk skal betegne nogle kuratering af dataene i grupper ved hjælp af kvantitative filtre, startende med klynger identificeret ved automatiske metoder. For yderligere at validere disse metoder, vi undersøgte klynger bruger eksterne evalueringer.
Eksterne evalueringer
Klynger identificeret fra statistikken indeholder proteiner, som fysisk interagerer sandsynligvis vil repræsentere funktionelle signalering netværk. Protein interaktion og GO data hentet fra eksterne databaser blev brugt som yderligere foranstaltninger i den biologiske betydning og gyldighed klynger identificeret ovenfor. Disse databaser er ufuldstændige igangværende arbejder [36], [37], ikke desto mindre, hvis klyngerne implicerer virkelige veje de vil være mere tilbøjelige end et tilfældigt udvalg af gener fra datasættet at vise interaktioner og funktionel synergi. Som en kontrol valgte vi tilfældigt 11 til 34 proteiner fra datasættet (størrelsen af klynger vi anså informativt) og bestemmes det gennemsnitlige antal og vægt af kanter, der repræsenterer tegn på fysiske eller genetiske interaktioner for tilfældige klynger (se Materialer og fremgangsmåder). De i figur 3 og 4B alle netværk havde mere end tres gange mere kanter (og 500 gange mere kant vægt) i forhold til baggrund fra tilfældigt udvalgte proteiner (se figur 3 og 4 sagn).
Vi anvendte random klynger for at bestemme baggrunden GO sigt berigelse, som var omkring en beriget GO term for hver tre gener udvalgt tilfældigt fra sættet lungekræft data (se Materialer og fremgangsmåder). Denne relativt høje baggrund for GO sigt berigelse indikerer, at GO vilkår for klyngerne skal fortolkes med forsigtighed. Ikke desto mindre er antallet af GO termer hentet var mere end fem gange over baggrunden for FAK (pTk2-), EGFR, og Met net (figur 3 og 4). Et resumé af GO vilkår for disse klynger, og alle klynger identificeret ved t-SNE på SED 2D indlejring (klynge medlemskab og GO oversigtstabeller, tilgængelig online), afslørede links til mange signalering, metaboliske og vækst-kontrol proces i FAK ( pTk2-) gruppe, implicerer disse proteiner som knudepunkter for signal integration i mange lungekræft signalveje. EGFR klynge havde også links til signaltransduktion og vækstkontrol, og også til differentiering. I modsætning hertil MET klyngen havde mange flere links til cellemigrering, kontrol af actin organisation, og adhæsion, hvilket tyder på en rolle for disse proteiner i metastase.
Proteiner i ALK klyngen er ikke så godt undersøgt, og ALK klynge GO vilkår blev ikke signifikant forøget i forhold til baggrund, men elleve gange mere kanter (og ti gange mere kant vægt) var til stede i ALK-netværket i forhold til tilfældige proteiner (figur 5). Den iagttagelse, at elleve gange flere kanter (og ti gange mere kant vægt) var til stede i ALK-netværket i forhold til tilfældige proteiner viste, at ALK klynge er værdig til yderligere undersøgelse.
Co-aktivering af tyrosinkinaser i lungekræft
blev påvist 31 af de 58 RTK i det menneskelige genom i dette datasæt, og alle ni SFKs. Co-aktivering af RTK’er og SFKs observeret i klynger indeholdende EGFR (figur 3B) og MET (figur 4) foreslog den hypotese, at funktionelle synergi mellem to eller flere tyrosinkinaser spiller en rolle i udviklingen lungekræft. Det fik os til at søge efter andre klynger, hvor to eller flere tyrosinkinaser blev fundet sammen. Vi identificerede klynger defineret ud fra t-SNE indlejring af Spearman, euklidisk eller kombineret (SED) forskellighed som beskrevet ovenfor, der indeholder to eller flere tyrosinkinaser (tabel 3). Discoidin domæne receptor 2 (DDR2) er for nylig blevet identificeret som en mulig lungekræft driver [38], og var forbundet med SFK, HCK i klynger afledt fra alle tre af disse indlejringerne (tabel 3). DDR2 blev ofte co-aktiveret med HCK, og også med DDR1, FGR, og PDGFRA i et antal prøver, som identificeret i SED klynge (figur 6). Disse klynger af co-aktiverede tyrosinkinaser indikerer samarbejde i signaltransduktion, og kan foreslå behandlinger med kombinationer af kinase hæmmere [39], [40]
(A), afbildet som en zonekort.; og (B), afbildet som et netværk, som i figur 5, undtagen yderligere kanter medtages fra GeneMANIA: sort – genetiske interaktioner; mørk turkis – delt proteindomæner; violet – fysiske interaktioner; grøn – pathway; og String: lys turkis – homologi; orange – viden; og blå – kombineret score. SHC1 var medtaget, fordi den er tilsluttet netværket for disse proteiner, for hvilke begrænsede interaktion data er kendt.
Diskussion
Dette papir adresser presserende opkald at analysere proteom data med mere effektiv metoder, og integrere disse analyser med protein-interaktion og funktion databaser for at belyse signalering netværk, der driver sygdomme som lungecancer [41], [42]. Ved at kombinere data forhørsmetoder med computer visualisering værktøjer øger vores evne til at få mening ud af store datasæt og deres forbindelser til genom og protein Interaktionsdatabasen betydeligt. Vi beskriver her effektive metoder til at udforske datastruktur vælge delmængder baseret på statistiske relationer, og visualisere markeringer som netværk. De kombinerede interne og eksterne evalueringer forudsat stærke beviser for, at klynger af proteiner identificeret her repræsenterer funktionelle signalering netværk i lungekræft, fordi de indeholder proteiner, der er kendt for at interagere med hinanden.
open source software platforme R, Cytoscape og RCytoscape blev anvendt til denne undersøgelse. Scriptsprog såsom F er langt bedre til at håndtere store datamængder end regneark, og R har en rig bibliotek af statistiske analyseværktøjer, herunder mange udviklet for bioinformatik og systembiologi [1], [43].
Leave a Reply
Du skal være logget ind for at skrive en kommentar.