PLoS ONE: Gene-Expression Signaturer kan skelne mavekræft kvaliteter og Stages

Abstrakt

Microarray gen-udtryk data af 54 parrede mavekræft og tilstødende noncancerous gastriske væv blev analyseret med det formål at etablere gen signaturer for kræft kvaliteter (vel-, moderately-, poorly- eller un-differentierede) og stadier (I, II, III og IV), som er blevet bestemt af patologer. Vores statistisk analyse førte til identifikation af en række af gen-kombinationer, hvis udtryk mønstre tjener samt underskrifter fra forskellige kvaliteter og forskellige stadier af mavekræft. En 19-gen signatur blev fundet at have kræsne magten mellem høj- og lav kvalitet gastrisk kræft i almindelighed, med overordnet klassificering nøjagtighed på 79,6%. En udvidet 198-gen panel tillader lagdeling af kræft i fire kategorier og kontrol, der giver anledning til en samlet aftale klassificering af 74,2% mellem hver kvalitet udpeget af patologer og vores forudsigelse. To underskrifter for kræft iscenesættelse, der består af 10 gener og 9 gener, henholdsvis levere høj klassificering nøjagtighed på 90,0% og 84,0%, blandt tidligt-, avanceret fase kræft og kontrol. Funktionel og sti analyser på disse signatur gener afslører den betydelige relevans af de afledte underskrifter til kræft kvaliteter og progression. Så vidt vi ved, dette er den første undersøgelse om identifikation af gener, hvis udtryk mønstre kan tjene som markører for kræft kvaliteter og faser

Henvisning:. Cui J, Li F, Wang G, Fang X, Puett JD, Xu Y (2011) Gene-Expression signaturer kan skelne mavekræft kvaliteter og Stages. PLoS ONE 6 (3): e17819. doi: 10,1371 /journal.pone.0017819

Redaktør: Amanda Toland, Ohio State University Medical Center, USA

Modtaget: November 24, 2010; Accepteret: 9. februar 2011; Udgivet: 18 marts 2011

Copyright: © 2011 Cui et al. Dette er en åben adgang artiklen distribueres under betingelserne i Creative Commons Attribution License, som tillader ubegrænset brug, distribution og reproduktion i ethvert medie, forudsat den oprindelige forfatter og kilde krediteres

Finansiering:. Denne undersøgelse blev delvist understøttet af National Science Foundation (DEB-0.830.024, DBI-0.542.119), National Institutes of Health (1R01GM075331), en “Distinguished Scholar” bevilling fra Georgia Cancer Coalition, og et frø fond i fællesskab fra præsidentens Venture Fund og kontoret for vicepræsident for forskning fra University of Georgia. De finansieringskilder havde ingen rolle i studie design, indsamling og analyse af data, beslutning om at offentliggøre, eller forberedelse af manuskriptet

Konkurrerende interesser:.. Forfatterne har erklæret, at der ikke findes konkurrerende interesser

Introduktion

kræft grading er et mål for en kræft s malignitet og aggressivitet. En populær grading system bruger fire niveauer af malignitet (G1-G4), hvilket afspejler den kombinerede niveau af celle-udseende abnormitet, afvigelse i vækstraten fra de normale celler og graden af ​​invasiv og formidling. Der er fundet Disse patologiske foranstaltninger til at være generelt konkordans med niveauet for cellulær differentiering (American Joint Commission on Cancer) [1]. Derfor {G1, G2, G3, G4} er også nævnt som godt, moderately-, poorly- og un-opdelte, hhv. Hvad nu, har der ikke været et universelt klassificeringssystem for alle cancerformer. I stedet er der blevet foreslået forskellige systemer er for forskellige cancerformer. For eksempel Gleason [2] er formentlig det mest kendte til klassificering adenokarcinomceller i prostatacancer medens Bloom-Richardson-system [3] benyttes ved brystcancer, og Fuhrman systemet [4] benyttes ved nyrekræft .

mavekræft, den anden hyppigste årsag til kræft-relaterede dødsfald på verdensplan, er særligt udbredt i de asiatiske lande, herunder Kina, Korea og Japan [5]. I USA er dette asymptomatisk sygdom havde ~21,500 nye tilfælde i 2008 sammen med 10.800 dødsfald [6]. I modsætning til andre kræftformer, er mavekræft endnu ikke har en generelt accepteret grading ordningen. Grading er oftest gjort på grundlag af temmelig generelle kræft-klassificering retningslinier fra organisationer som det amerikanske Joint Kommissionen om kræft. Der er et par systemer til klassificering af gastrisk kræft i histologiske undertyper, herunder dem, som Lauren [7], World Health Organization (WHO) [8] og Goseki, et al. [9], [10], som definerer undertyper ifølge de strukturelle træk ved cancer, de histopatologiske udseende af cellerne, og niveauet af slim, henholdsvis. Det er dog i høj grad kontroversiel hensyn til, om et af disse systemer er virkelig relevant for graden af ​​malignance og overlevelsesevne, således ikke have været meget anvendt til klassificering gastrisk cancer [11]. Det mangler af en veletableret klassificeringssystem for mavekræft forbliver som en stor hindring hindre fremskridt på dette område.

Vi præsenterer en beregningsmæssige undersøgelse heri, havde til formål at identificere et sæt af gener, hvis udtryk mønstre kan godt skelne blandt gastriske cancere af forskellig kvaliteter, som Oncotype DX, en 21-gen panel til identificering brystcancer lav risiko [12]. Disse gener, hvis udtryk mønstre skelne gastrisk kræft i forskellige kvaliteter, giver nyttige oplysninger at udvikle en genekspression-baserede klassificeringssystem for mavekræft. Derudover har vi også præsentere vores resultater på genekspressionsmønstre fælles for kræft på forskellige udviklingsstadier, potentielt tjener som molekylære signaturer for mavekræft iscenesættelse.

Resultater

A. Identifikation af gener med udtryk ændringer korreleret med kræft kvaliteter

17.800 menneskelige gener blev profileret i denne undersøgelse, hjælp Affymatrix Exon Arrays. Ud af de 54 cancer prøver, 8 er godt differentieret (WD), 9 moderat differentieret (MD), 35 dårligt differentierede (PD) og 2 udifferentierede (UD). Der blev fundet i alt 452 gener, der skal udtrykkes differentielt som bestemt ved hjælp af følgende kriterier: Udtrykket niveauer i kræft og den tilsvarende kontrol væv show på mindst 2-gange ændring, og den statistiske signifikans,

P

-værdi , for at have dette niveau af ekspression ændring er 0,05 (se Materialer og metoder; gen navne er anført i tabel S1). Blandt de 452 gener, 97 entydigt i UD, 62 i PD, 8 i MD og 16 entydigt i WD repræsenterer en

kerne

af differentielt udtrykte gener, som er konsekvent identificeres ved at anvende forskellige klassifikationssystemer strategier via den paired- prøve oplysninger eller ej. Dette sæt indeholder gener udviser den mest konsekvente udtryk ændring (over 2 gange) i kræft

versus

kontrol væv, som blev anset for at være differentielt udtrykte gener med høj pålidelighed, der er afledt gennem flere statistiske test. I modsætning hertil hele sættet af 452 gener udgør en udvidet sæt. Vi bemærkede, at der er en generel tendens, at antallet af de differentielt udtrykte gener stiger som en gastrisk cancer, i forhold til normalt væv, er mere dårligt differentieret, som vist i figur 1. Denne iagttagelse er i overensstemmelse med vores generelle viden, der ugunstigt opdelte kræftformer tendens til at have flere differentielt udtrykte gener og er mere aggressive; undtagelsen for WD, som vist i figur 1, kan afspejle de små størrelser af WD og MD grupperne.

Den grønne plot viser den overlappede identifikation mellem disse to strategier.

Vi kontrolleres derefter, hvis nogle gener kan have deres udtryk ændringer korrelerer med kræft kvaliteter. For at gøre dette, har vi beregnet Spearman korrelationskoefficienten (CC) mellem den gennemsnitlige udtryk for hvert gen på tværs af alle prøver af hver kvalitet og de fire kræft kvaliteter. Det blev konstateret, at udtrykket ændringer i 99 gener korrelerer perfekt med karaktererne WD-MD-PD-UD (|

CC

| = 1,

P

-værdi 0,05) (se detaljer i tabel S2). Blandt disse gener er

POF1B

,

MET

,

CEACAM6

,

ZNF367

,

GKN1

,

LiPF

,

SLC5A5

,

MUC13

,

CLDN1

,

MMP7 og ATP4A

, som alle er kendt for at være kræft relateret. Figur 2 viser fire eksempler med enten positive eller negative korrelationer. Blandt dem,

MUC13

er blevet rapporteret som en god markør for niveauet af differentiering af gastrointestinale slimhinder [13]. Forøget MUC13 ekspression har vist sig at inducere morfologiske ændringer, herunder spredning af celler gennem interferens med funktionen af ​​celleadhæsionsmolekyler [14]; derfor kan en forøget udtryk sammen med differentiering angiver forbedret celle-celle-adhæsion.

( “↑” og “↓” betegner op- og nedregulering i kræft

versus

reference- væv, henholdsvis .)

Vi bemærkede, at gener med deres udtryk ændringer korreleret med kræft kvaliteter er stærkt beriget blandt udskilte eller membranproteiner (P-værdi 0,05), som deltager i flere signalveje såsom ErbB, FAS, NOD-lignende receptor, PPAR og Wnt-signalering samt celleadhæsionsmolekyler (CAM’er) og tætte sammenføjninger. Dette er ikke overraskende, eftersom disse veje i det væsentlige er involveret i cellevækst og celledød, samt cancermetastase. Sådanne ændringer i gen-ekspression mønstre af disse veje, der er involveret i signaltransduktion og ekstracellulær kommunikation, kan give et fingerpeg om kræft progression.

B. Identifikation af gen underskrifter for kræft kvaliteter

Vi har undersøgt de 452 differentielt udtrykte gener, der sigter på at identificere gener, hvis udtryk mønstre kan, med god nøjagtighed og pålidelighed, skelne gastrisk kræft i forskellige kvaliteter. Klassificeringen analyse (se metoder) blev først gennemført mellem to kræft grupper (højt og dårligt differentierede), og derefter forlænget til fem grupper, nemlig fire kræft kvaliteter og kontrollen. En support vektormaskine (SVM) -baseret regressiv funktion elimination fremgangsmåde blev anvendt under anvendelse af en lineær kerne til klassificering cancer (se fremgangsmåder).

I slutningen, en 19-gen gruppe blev identificeret som kan skelne mellem højt og dårligt differentieret kræft med en samlet aftale på 79,2%, baseret på udtrykket fold-ændring i kræft

versus

kontrol væv. På samme måde kan en 198-gen gruppe skelne mellem de fire forskellige kræft kvaliteter og gruppens kontrol i henhold til deres genekspression, der giver anledning til 74,2% samlet klassifikation nøjagtighed. Begge gen sæt blev valgt på grundlag af en flertalsafstemning (mindst 70% konsistens) ordningen fra klassificeringsresultater på 500 sæt tilfældigt stikprøven fra de 54 prøvesæt, sammen med deres betydning ranking (se Metoder til detaljer).

Den 19-gen signatur består af ADIPOQ, COL6A3, TNS1, SCN7A, DES, VIL1, COL3A1, C2orf40, SMYD1, ACTG2, MEIS1, C7, GPR174, SHCBP1, DUSP1, DNAJB5, HIATL1, IL17RB, og FAT. En nærmere blik på den funktionelle annotation af disse gener viste, at deres proteinprodukter er involveret i cellevækst og differentiering (IL17RB, SMYD1, SHCBP1), celle motilitet (ACTG2), angiogenese og væv remodellering (ADIPOQ), carcinogenese (ECRG4), matrix proteinsyntese (COL3A1, COL6A3), og andre som G-protein-koblede receptorer 174 (GPR174), brush border cytoskelettet (VIL1), membran angreb kompleks (C7), og natrium-kanal (SCn7A).

17 ud af de 19 gener, plus yderligere 181 gener, danner en 198-gen gruppe, hvis udtryk mønster kan skelne de fire kræft kvaliteter og kontrollen. Deres funktioner omfatter celledeling, immunrespons, signaltransduktion og transkription regulering, ud over de ovennævnte kategorier. Samlet, 39 ud af 99 klasse-korreleret gener er en del af denne 198-gen signatur, herunder CLDN1, MUC13, VIL1, HIATL1, CDCA7, HIST1H2BM og FAT (se den fulde liste i tabel S3).

I Ud over denne catch-all signatur til fem-vejs klassificering, vi også identificeret og analyseret klasse-specifikke gen signaturer for hver kræft lønklasse. F.eks LAPTM4B er en sådan repræsentant. Dette gen giver høj klassificering nøjagtighed for Caner og kontrolprøver i WD-gruppen med AUC (areal under kurven) = 0,97 (figur 3). Brug 7,04 som udtryk cutoff, kan dette gen godt skelne kræft fra kontrolprøver i WD-gruppen med følsomhed = 87,5% og specificitet = 100%. Dette resultat er ikke overraskende, eftersom det er kendt, at LAPTM4B er essentielle for cellevækst og overlevelse, og har vist sin opregulering at være korreleret med niveauet af differentiering af hepatocellulært carcinom [15]. I alt er 40 sådanne signatur gener fundet specielt til WD gruppe; 18, 20 og 255 gener er specifikke for MD, PD og UD-gruppe, henholdsvis (se detaljer i tabel S4).

Vi har også identificeret enkelt gen diskriminatorer for hver lønklasse gruppe mod resten af prøverne, herunder kontrol, som sammenfattet i tabel 1. for eksempel signaturerne for PD gruppen omfatter op-regulerede gener,

MYO1B

for WD;

GKN2

for MD;

CTSA

for PD; og en nedreguleret gen,

RHOJ,

for UD gruppen. Disse single-gen diskriminatorer signifikante AUC’er, der spænder fra 0,76 til 0,99, mens den samlede stilling nøjagtigheder opnået ved 5-fold krydsvalidering intervallet fra 70,0% til 97,0% for forskellige grupper. En efterfølgende søgning på

k

-genet kombinationer (k = 2, 3, 4) for hver kræft gruppe ved udtømmende at gå gennem alle de kombinationer af

k

-genet grupper også identificeret.

C. Identifikation af gen underskrifter for patologisk stadium

Brug lignende analyser til dem af ovenstående har vi identificeret gen underskrifter for tidligt (fase I + II) og fremskreden kræft (fase III + IV). Tabel 2 fremhæver de mest diskriminerende enkelt genmarkører, med klassificeringen nøjagtighed spænder fra 75,0% til 81,4%. Multi-gen underskrifter blev også kontrolleret for kræft iscenesættelse. For eksempel blev to underskrifter sig at være særlig effektiv i kræft iscenesættelse, nemlig en 10-gen gruppe (CPS1 + DEFA5 + DES + DMN + GFRA3 + MUC17 + OR9G1 + REEP3 + TMED6 + TTN) og en 9-gen gruppe (DPT + EIF1AX + FAM26D + IFITM2 + LOC401498 + OR2AE1 + PRRG1 + REEP3 + RTKN2) , som kan skelne den tidlige og de avancerede gastrisk kræft fra resten af ​​prøverne (herunder kontrolprøver) med aftaler af 90,0% og 84,0%, hhv. Den samlede klassificering nøjagtighed på de tre grupper, tidligt, avanceret og kontrol, er 71,4%.

En funktionel analyse af disse signatur gener afslørede noget interessant. For eksempel, blandt proteinprodukter fra tidlige fase signatur gener,

GFRA3

,

MUC17

,

OR9G1

,

REEP3 og TMED6

er membranproteiner , mest receptorer, der transducerer ekstracellulære signaler.

DEFA5

er en mikrobicid peptid menes at være involveret i vært forsvar, der er stærkt til udtryk i ileum [16].

CPS1

,

DES og TTN

er involveret i flere metaboliske processer, muskelfunktion og M-fasen af ​​det mitotiske cellecyklus hhv. Vi spekulere, at disse signaling- og immun- relaterede gener kan repræsentere den tidlige abnormitet af væv celler under onkogenese generelt.

Et par gener viste sig at være i både kræft sortering og rastende underskrifter, såsom CPS1, DES, GFRA3, TMED6 og DPT, hvilket indikerer en vis biologisk relevans mellem kræft differentiering og progression. Vi undersøgte derefter, om genekspressionen af ​​mellemstationer signaturer er forbundet med patologiske stadier. Blandt dem, der stærkt korreleret med forskellige patologiske stadier er

LANCL3

,

MFAP2 og pPA1

(figur 4), viser konsekvent op- og nedregulering, henholdsvis sammen med kræft progression.

(S1-S4 repræsenterer fire stadier fra tidlig fase i til fremskredent stadium IV.

D. Identifikation af differentielt udtrykte gener uafhængigt af kræft kvaliteter og stadier

Ud over den differentielle ekspression specifikt for bestemte undergrupper af mavekræft, vi også undersøgt, om nogle gener differentielt udtrykkes i gastrisk cancer i almindelighed, uanset kvaliteter og faser. 62 sådanne gener blev fundet med konsekvent differentiel ekspression af mindst 2-fold ændringer i cancer

versus

tilsvarende reference- væv. Vi bemærkede, at de for det meste er involveret i ekstracellulære processer som omdrejningspunkt vedhæftning, CAM, tight junction, cytokin-cytokin receptor interaktion og ECM-receptor-interaktion, plasminogen aktivering kaskade, samt signalveje, herunder Wnt signalering og Integrin signalering, som er nært relevante for cellevækst og celleproliferation kontrol. Søgning mod vores interne database (https://bioinfosrv1.bmb.uga.edu/DMarker/), som omfatter offentlige microarray datasæt fra GEO [17], Oncomine [18] og SMD [19], der dækker over 53 humane sygdomme, herunder kræft, fandt vi, at forskellen ekspressionsmønstre af 15 gener er meget specifik for mavekræft, såsom GKN2, CLDN7, Thy1, GIF og PGA4, mens de fleste andre er generelle for flere typer kræft. For eksempel er de mest almindelige dem omfatter et par medlemmer af collagen-genfamilien (COL1A2, COL3A1 og COL1A1), den carcinoembryonisk antigen-relateret celleadhæsionsmolekyle (CEACAM6), matrixmetalloproteinaser (MMP1, MMP7 og MMP12), topoisomerase (TOP2A) og udskilles phosphoprotein (SPP1).

Kun tre,

CLDN7

,

CLDN1 og DPT

, af disse gener er indbyrdes meget forskellige i alle grader eller stadier af mavekræft. Vi kan se fra figur 5A og 5B, at både

CLDN7 og CLDN1

er højt udtrykt i kræft

versus

kontrolprøver på tværs af alle kvaliteter og stadier, med en moderat stigning i tidlig kræft væv, mens

DPT

blev nedreguleret på tværs af alle disse grupper. Den konsekvente ekspressionsmønster tværs af alle cancerpatienter undergrupper kan indikere, at disse gener deltager i mange større biologiske veje er involveret i dannelsen af ​​kræft og progression. Som det er velkendt, er de to claudin proteiner, claudin-1 og claudin-7, er integrerede membranproteiner afgørende for dannelsen af ​​tætte sammenføjninger, opretholdelse celle-til-celle-adhæsion og regulere paracellulær og transcellulær transport af opløste stoffer på tværs human epitel og endotel, som udtrykkes forskelligt i forskellige cancerformer, såsom cervikal neoplasi [20], renalt carcinom [21] og en intestinal type gastrisk cancer [22]. Dermatopontin (

DPT

) er en ekstracellulær matrix protein tjener som en kommunikationsforbindelse mellem dermal fibroblast celleoverfladen og dens ekstracellulære matrix. Dets reducerede ekspression har også vist sig i både uterin leiomyomas og keloider [23]. Den i figur 5C ROC indikerer, at disse gener eventuelt kan anvendes som effektive markører for gastrisk cancer diagnose generelt

(A) for hver undertype (WD, MD, PD, UD).; (B) for hver fase (fase I, II, III og IV); og (C) ROC kurve viser kræsne magt hvert gen for klassificering af kræft

versus

normale prøver (AUC af CLDN1, CLDN6 og DPT er 0,86, 0,84 og 0,79, henholdsvis med et signifikansniveau på P = 0,0001).

E. Verifikation af de identificerede signaturer på offentlige datasæt

Udtrykket mønstre af vores identificerede signatur gener blev kontrolleret mod to offentlige datasæt, nemlig

Kim

Takeno

datasæt (se materialer og fremgangsmåder) for at bestemme den generelle betydning af disse gen-signaturer. Som vist i figur 6, fordelingen af ​​udtrykket differentialer mellem vores data og

Kim

datasæt er betydeligt overensstemmende, hvilket indikerer, at den generelle anvendelighed af vores identificerede markører. Ud af 19 og 12 overlappede gener fra de ovenfor identificerede kvaliteter-korrelerede og scene-korreleret gen liste, 10 og 5 viser lignende ekspressionsmønstre tværs kræft i G1-2 /G3-4 kvaliteter og I-IV stadier i

Kim

data henholdsvis afspejler en høj konsistens i ekspressionsmønstre af disse gener mellem forskellige prøvesæt.

Samlet set vores 19-gen signatur for kræft kvaliteter klarede sig godt på

Kim Salg data og opnåede 78,0% klassificering nøjagtighed på 5-fold validering kryds ved sondringen dårligt fra højt differentierede kræftformer. Tilsvarende to-trins signaturer (10-gen og 9-gen grupper) opnåede respektive nøjagtighed på 84,0% og 76,0% på

Kim

datasæt. Den 198-genet signatur blev ikke kontrolleret siden

Kim

datasæt giver kun fold-ændring i stedet for rå udtryk data.

Interessant, vi bemærkede, at der er moderat korrelation mellem genekspressionen af ​​vores identificerede signatur grupper og kræft tilbagefald baseret på peritoneal tilbagefald oplysninger om Takeno data [24]. Især er de fire underskrifter, 19-, 198-, 10- og 9-gen-grupper, kan forudsige peritoneal tilbagefald med en samlet nøjagtighed på 66,0%, 87,2%, 73,0% og 55,3%, henholdsvis ved at skelne mellem relapse- frie og peritoneal-relaps patienter i Takeno undersøgelse [24].

diskussion

Microarray gen-udtryk analyser af mavekræft har tidligere identificeret genekspression mønstre for prognose forudsigelse [25], [26] og generel kræftdiagnose [27], [28] (som revideret i tabel S6), men ingen for mavekræft subtypning eller sortering. Her præsenterede vi en analyse på 54 par af kræft og tilstødende referenceværdier væv fra det samme antal mavecancerpatienter og identificeret molekylære signaturer til kræft kvaliteter og faser.

Det er kendt, at forskellige klassificering og gen udvælgelse analyser kan føre til forskellige gen signaturer, udgør et alvorligt problem om stabiliteten og nytten af ​​de udvalgte gen signaturer. For at løse dette problem, har vi anvendt udtømmende søgninger for k-gen signaturer (k = 4) kombineret med et robust udvælgelsesprocedure med flertalsafstemning for k 4, som sikrer stabiliteten af ​​de identificerede signatur gener. På den anden side, på grund af den komplekse natur af cancer genekspression data, har en generel opfattelse været, at forskellige klassifikation teknikker kan give anledning til forskellige signaturer men lige vigtige, da de kan svare til forskellige veje, der er forbundet med forskellige aspekter af en cancer . Ud over disse tekniske forskelle, er den begrænsede stikprøve størrelse og heterogenitet eksisterende blandt kræft undergrupper noteret som andre vigtige faktorer, der påvirker de valgte markører.

Som konklusion har vi vist heri, at genekspression mønstre kan bruges som effektive underskrifter for mavekræft sortering og iscenesættelse, samt prognostisk forudsigelse. To typer af underskrifter blev foreslået at tjene forskellige diagnostiske formål, hver viser en vis relevans for kræft malignance og kræft progression. Sådanne forsøg på at bruge molekylære kvalitet-og scene-signaturer forventes i væsentlig grad at gavne udviklingen af ​​skræddersyet medicin og kan føre til nye serum markører.

Materialer og metoder

vævsprøver

Der blev udtaget prøver fra primære maligne gastrisk kræft fra ikke-behandlede patienter i den indledende kirurgiske procedure på tre tilknyttede hospitaler i Jilin University College of Medicine og Jilin provinsen Cancer Hospital, Changchun, Kina. For hver cancer vævsprøve blev en prøve matching henvisning væv opsamlet fra den tilstødende noncancerous region at kirurgen reseceret for at sikre positive margener. Alle prøver blev snap-frosset i flydende nitrogen inden for 10 minutter efter udskæring og opbevaret ved -196C indtil RNA-ekstraktion. For RNA isolation blev 100 um sektioner af hver prøve anvendt.

Alle journaler og kræft sektioner blev undersøgt af en kirurgisk patolog, og den histologiske diagnose og TNM klassifikation blev foretaget i henhold til Worldwide (WHO) kriterier og klassifikationssystem af den Internationale Union mod kræft. Referenceprøverne blev underkastet en omhyggelig histologisk analyse for at garantere fuldstændig fravær af cancerceller. Skriftligt informeret samtykke blev opnået fra alle patienter, som blev godkendt af Institutional Review Board ved University of Georgia, Athens, Georgia, USA og af den kinesiske IRB tilsyn forsøgspersoner ved Jilin University College of Medicine og Jilin provinsen Cancer Hospital, Changchun , Kina.

Detaljerede patient oplysninger såsom alder, køn, histologisk type, differential kvalitet, patologisk scene og historie ved hjælp af alkohol /rygning er anført i tabel S5.

microarray eksperimenter

de RNA-prøver blev analyseret ved hjælp af GeneChip menneskelige Exon 1.0 ST (Affymetrix), ifølge protokollen beskrevet i GeneChip Expression analyse Teknisk Manual (P /N 900.223) for array eksperiment og en tidligere rapport [29]. De microarrays blev scannet ved hjælp af GeneChip® Scanner 3000 med GeneChip® Operating Software (GCOS). Alle data er MIAME kompatibel og de rå data er blevet deponeret i GEO-databasen (ID: GSE27342).

Microarray Data Analysis

genekspression resultater blev sammenfattet på grundlag af rå probe intensiteter ved hjælp af Robust Multichip Gennemsnitlig [30] og APT pakke (https://www.affymetrix.com/partnerSupplementaryprograms/programs/developer/tools/powertools.affx), efter tre vigtigste trin, herunder baggrund korrektion, fraktil normalisering og log2-transformation. Gener med meget lav ekspression i både cancer og referenceprøver blev fjernet; specifikt blev et gen fjernes, hvis dens

maksimum (Expr.cancer, Expr.normal)

var under 4 (normaliseret signal intensitet).

To forskellige strategier blev anvendt til vurdering gen betydning, afhængigt på hvilke betingelser blev sammenlignet, og om parret eller uparrede prøver bør anvendes. Til sammenligning af kræft mod kontrol prøve grupper blev uparrede tests udført for at undersøge, om to grupper af udtryk er forskellige, mens parrede test blev anvendt til at undersøge sammenhængen i udtryk ændringer på tværs af alle par. Ud over den Wilcoxon-test, vi anvendte også en anden simpel statistisk test til påvisning af gener med konsekvent differentiel ekspression i cancer

versus Salg reference- væv, som følger. For hvert gen,

K

exp

, antallet af par af kræft /reference- væv, hvis udtryk fold-ændring (FC) er større end

k

(f.eks

k

= 2) blev undersøgt; hvis P-værdi for den observerede

K

exp

var mindre end 0,05, genet blev anset for at være differentielt udtrykt i størstedelen af ​​cancer og reference væv par (se den understøttende information). Vores beregnede P-værdi blev ikke justeret på flere hypoteser test for at undgå ethvert tab af gener, der kan være potentielt effektivt i det efterfølgende trin klassificering.

Gene udvælgelse og klassificering

For k -gen signaturer (k = 4), vi foretaget en udtømmende søgning for alle k-genkombinationer blandt de differentielt udtrykte gener, identificeres ud fra det foregående trin, anvendelse af en lineær SVM-baseret klassificering tilgang, og den samlede nøjagtighed blev vurderet ved anvendelse 5-fold krydsvalidering. For k 4, blev en anden tilgang ved hjælp af en heuristisk søgning anvendt siden den udtømmende søgning er for tidskrævende at være praktisk for vores problem. Detaljerne er som følger.

Hele udtryk datasættet blev tilfældigt opdelt i uddannelse og test sæt, der hver indeholder halvdelen af ​​prøverne. Dette blev gentaget i 500 gange for at generere 500 sæt træning /testdata for klassificering. En lineær SVM blev brugt til at træne en klassifikator [31], [32]. Det konstruerer en hyper-fly, der adskiller to forskellige klasser af funktionen vektorer med en maksimal margen. Denne hyper-fly er konstrueret ved at finde en vektor w og en variabel b, der minimerer, der opfylder følgende betingelser:

, for (kræft prøver) og (normale prøver). Her er en trækvektor, er gruppen indeks, w er en vektor vinkelret på hyper-plane, er afstanden fra den hyper-plane oprindelse og er den euklidiske norm w. Efter bestemmelse af w og b-værdier, kan en given vektor x klassificeres ved anvendelse; en positiv eller negativ værdi indikerer, at vektoren x tilhører den positive eller negative klasse, henholdsvis. Gene signaturer af hver træningssættet blev selekteret ved anvendelse af den rekursive funktion elimination procedure (RFE), som er et omslag, der vælger prædiktor gener ved at fjerne ikke-prædiktor gener ifølge et gen-ranking funktion frembragt fra klassifikationssystemet [33]. Rangordningskriteriet er baseret på ændringen i den objektive funktion ved at fjerne hvert gen. For at forbedre effektiviteten af ​​uddannelse, er denne objektive funktion repræsenteret som en omkostning funktion

J

for

jeg

th funktion, beregnes ved hjælp af uddannelse kun sat. Når et gen er fjernet eller dens vægt w

i er reduceret til nul, ændringen i kostfunktion

J (i)

er givet ved. Sagen om svarer til fjernelse af

jeg

th gen. Ændringen i omkostningerne funktionen angiver bidraget af genet til beslutningen funktion og tjener som en indikator for gen ranking.

500 træning /testsæt blev tilfældigt inddelt i 10 prøvegrupperne. Hver prøve gruppen blev derefter brugt til at udlede en signatur, baseret på flertalsafgørelser og evaluering af gen-ranking konsistens på tværs af de 50 uddannelse og test sæt. De 10 forskellige signaturer stammer fra de 10 grupper blev sammenlignet for at vurdere graden af ​​overensstemmelse mellem de udvalgte gener. I hver gruppe blev delmængder af gener udvalgt af RFE-SVM fra hvert træningssæt, og udførelse på de delmængder blev evalueret fra den tilhørende test sæt. For at udlede et gen ranking kriterium konsistent for alle iterationer blev en RFE ranking funktion på hver iteration skridt stammer fra en SVM klassificeringen, der gav den bedste gennemsnitlige klassificering nøjagtighed over de 50 test sæt.

Offentlige microarray data for mavekræft

To offentlige microarray datasæt blev hentet fra GEO database for sammenlignende undersøgelser,

Kim

(GSE3438) og

Takeno

(GSE15081) datasæt. Den første [34] omfatter genekspression af 50 patienter mavekræft (fra Korea) på forskellige stadier og niveau af differentiering, der blev anvendt til at kontrollere sammenhængen i vores identificerede underskrifter. De Takeno oplysninger [24] indeholder 141 primære mavekræft væv efter helbredende kirurgi, med opfølgende peritoneal tilbagefald oplysninger. Disse datasæt giver det normaliserede log2 forholdet mellem tumor og normal udtryk.

Støtte Information

Tabel S1.

Statistik over 452 gener, der udtrykkes forskelligt i nogen af ​​de fire kategorier gruppe, bestemmes ved hjælp af følgende kriterier: ekspressionsniveauer i kræft og den tilsvarende kontrol væv show på mindst 2-gange ændring og cutoff for statistisk signifikans for at have

Be the first to comment

Leave a Reply