Abstrakt
Baggrund
Lungekræft er den hyppigste årsag til kræftdødsfald i hele verden. Ny diagnostik er nødvendige for at påvise tidlige stadium lungekræft, fordi det kan hærdes med kirurgi. Men de fleste tilfælde diagnosticeres for sent for helbredende kirurgi. Her præsenterer vi en omfattende klinisk biomarkør undersøgelse af lungekræft og den første store kliniske anvendelse af en ny aptamer-baserede proteomisk teknologi til at opdage blod protein biomarkører i sygdom.
Metode /vigtigste resultater
Vi har udført et multicenter case-kontrol undersøgelse i arkiverede serumprøver fra 1.326 individer fra fire uafhængige undersøgelser af ikke-småcellet lungekræft (NSCLC) i de lange tobak-eksponerede populationer. Sera blev indsamlet og behandlet under ensartede protokoller. Case sera blev indsamlet fra 291 patienter inden for 8 uger efter første biopsi-verificeret lungekræft og før tumorfjernelse ved operation. Kontrol sera blev indsamlet fra 1.035 asymptomatiske undersøgelsens deltagere med ≥10 pack-års cigaretrygning. Vi målte 813 proteiner i hver prøve med en ny aptamer-baserede proteomisk teknologi, der er konstateret 44 kandidat biomarkører, og udviklet en 12-protein panel (cadherin-1, CD30-ligand, endostatin, HSP90α, LRIG3, MIP-4, pleiotrophin, PRKCI, RGM-C, SCF-sR, sL-selectin, og JA), som skelner NSCLC fra kontroller med 91% sensitivitet og 84% specificitet i cross-valideret uddannelse og 89% sensitivitet og 83% specificitet i en separat verifikation sæt, med tilsvarende ydeevne for tidligt og sent stadium NSCLC.
konklusioner /betydning
Denne undersøgelse er et betydeligt fremskridt i kliniske proteomics i et område med et stort udækket behandlingsbehov. Vores analyse overstiger bredden og dynamikområde proteom afhørt af tidligere publicerede kliniske studier af bred serum proteom profilering platforme, herunder massespektrometri, antistof-arrays, og autoantistof arrays. Følsomheden og specificiteten af vores 12-biomarkør panel forbedrer offentliggjorte protein- og genekspression paneler. Separat kontrol af klassificeringen ydeevne giver beviser mod over-fitting og er opmuntrende for den næste fase udvikling, uafhængig validering. Denne omhyggelige undersøgelse giver et solidt fundament til at udvikle tests hårdt brug for at identificere tidlige fase lungekræft
Henvisning:. Ostroff RM, Bigbee WL, Franklin W, Gold L, Mehan M, Miller YE, et al. (2010) Frigørelse Biomarkør Discovery: Large Scale Anvendelse af aptamer proteomiske teknologi til tidlig påvisning af lungekræft. PLoS ONE 5 (12): e15003. doi: 10,1371 /journal.pone.0015003
Redaktør: Irina Agoulnik, Florida International University, USA
Modtaget: August 6, 2010; Accepteret: 7 oktober 2010; Udgivet: December 7, 2010
Copyright: © 2010 Ostroff et al. Dette er en åben adgang artiklen distribueres under betingelserne i Creative Commons Attribution License, som tillader ubegrænset brug, distribution og reproduktion i ethvert medie, forudsat den oprindelige forfatter og kilde krediteres
Finansiering:. Lungekræft patient og Pluss kontrol emne optjening og annotation sammen med blodprøve indsamling, behandling og lagring ved University of Pittsburgh Cancer Institute blev støttet af et specialiseret programmer for forskning Excellence (SPORE) bevilling fra National Cancer Institute (NCI) i USA National Institutes of Health (NIH) i USA i lungekræft (P50 CA090440) til JMS. Lungekræft studier ved NYU blev støttet af tilskud fra tidlig påvisning Research Network (EDRN) i NCI af NIH De Forenede Stater og fra Stephen E. Banner fond for lungekræft til HIP, og en biomarkør bevilling fra NCI af NIH i USA (5U01CA086137) til WR. Lungekræft studier ved Roswell Park Cancer Institute blev delvist understøttet af en Cancer Center Support Grant (5P30CA016056) fra NCI af NIH i USA. University of Colorado bidrag til denne undersøgelse blev støttet af en SPORE bevilling fra NCI af NIH i USA (P50-CA58187) og en bevilling fra EDRN af NCI af NIH i USA (U01 -CA85070). SomaLogic finansieret proteomisk biomarkør forskning. SomaLogic havde en rolle i studie design, indsamling og analyse af data, beslutning om at offentliggøre, eller forberedelse af manuskriptet. andre end SomaLogic Funders havde ingen rolle i studie design, indsamling og analyse af data, beslutning om at offentliggøre, eller forberedelse af manuskriptet
Konkurrerende interesser:. Forfatterne har læst tidsskriftets politik og de følgende konflikter. R Ostroff, L Gold, M Mehan, A Stewart, J Walker, S Williams, D Zichi, E Brody er fuldtidsansatte i SomaLogic. Dette ændrer ikke forfatternes overholdelse af PLoS ONE politikker på datadeling og materialer.
Introduktion
Lungekræft er den hyppigste årsag til kræftdødsfald, fordi ~84% af tilfældene er diagnosticeret på et fremskredent stadium [1] – [3]. Worldwide i 2008 blev ~1.5 millioner mennesker diagnosticeret og ~1.3 millioner døde [4] – en overlevelsesprocent uændret siden 1960. Dog patienter diagnosticeret på et tidligt tidspunkt og har kirurgi erfaring en 86% samlet 5-års overlevelse [2], [3]. Der er derfor behov Nye diagnostik til at identificere tidlige fase lungekræft
Gennem det seneste årti den kliniske anvendelighed af lavdosis CT er blevet evalueret [5] – [8]. med håbet om, at høj opløsning billeddannelse kan hjælpe opdage lungekræft tidligere og forbedre patienternes resultater, meget som screening har gjort for bryst- og tarmkræft [9]. Endelige konklusioner om CT-screening og lungekræft dødelighed afventer resultater fra randomiserede forsøg i USA [8] og Europa [10] – [13]. CT kan detektere små, tidlige fase lungetumorer, men skelne sjældne kræftformer fra almindelige godartede betingelser er vanskelig og har ført til unødvendige procedurer, stråling, angst, og omkostninger [6], [14] – [16]. Vi (JMS, JLW og kolleger) rapporterede for nylig sådanne konklusioner for Pittsburgh Lung Screening Study (Pluss), den største enkelt institution CT screening undersøgelse rapporteret til dato [5].
Andre typer af biomarkører har også søgt [17]. Proteiner er attraktive, fordi de er en øjeblikkelig foranstaltning af fænotype, i modsætning til DNA, som giver genotype, hovedsagelig et mål for sygdomsrisiko [18]. Enkelt protein biomarkører er grundlaget for molekylær diagnostik i klinikken i dag. Det er almindeligt troede, at flere biomarkører kunne forbedre følsomheden og specificiteten af diagnostiske tests, og at komplekse sygdomme som kræft ændre koncentrationerne af multiple proteiner [19]. Men opdager flere protein biomarkører ved at måle mange proteiner samtidigt (proteomics) i komplekse prøver som blod har vist sig vanskeligt på grund af dækning, præcision, gennemløb, præanalytiske variation, og omkostninger [20].
For at aktivere biomarkør opdagelse udviklede vi en ny proteom teknologi, der er baseret på en ny generation af aptamer proteinbindende reagenser og har potentielt bred anvendelse [18]. Den nuværende assay måler 813 forskellige humane proteiner på bare 15 uL af blod med lave detektionsgrænser (01:00 gennemsnit og så lave som 100 FM), 7 logfiler over samlede dynamikområde og høj reproducerbarhed (5% median variationskoefficient) [ ,,,0],18]. Her præsenterer vi den første storstilet klinisk anvendelse af vores proteomics teknologi til at opdage blod protein biomarkører i et stort multi-center case-kontrol undersøgelse gennemført i arkiverede prøver fra 1.326 individer fra fire uafhængige undersøgelser af ikke-småcellet lungekræft (NSCLC) i langsigtede tobak-eksponerede populationer.
Materialer og metoder
Etik Statement
Alle prøver blev indsamlet fra undersøgelsens deltagere efter at have indhentet skriftligt informeret samtykke under klinisk forskning protokoller godkendt af efter institutionelle anmeldelse boards: The University of Pittsburgh Institutional Review Board (Pitt); The New York University School of Medicine Institutional Review Board (NYU); Den Roswell Park Cancer Institute Institutional Review Board (RP); og The Cape Cod Healthcare Institutional Review Board (BS).
Study Design
Formålet med denne undersøgelse var at opdage biomarkører, der diskriminerer NSCLC fra rygere med ≥10 års cigaretrygning historie, træne og cross-validere en multi-biomarkør klassificeringen af NSCLC at mødes forud specificerede kriterier for ydeevne, og at kontrollere udførelsen af denne klassificeringen med et separat sæt blindede prøver. Det overordnede design af undersøgelsen er vist i figur 1. Vi har designet og udført denne undersøgelse til aktuelle strenge standarder for biomarkør kliniske undersøgelser [21] – [23] med målene for maksimere biomarkør robusthed, gyldighed og pålidelighed på opdagelse fase, og minimere potentielle virkninger af præanalytiske variation. Undersøgelsen var en opdagelse-fase, case-control design. Kritiske undersøgelse design funktioner omfatter følgende. Den kliniske spørgsmål og studiedesign var på forhånd fastsat forud for at identificere og erhverve prøver. Prøverne blev erhvervet fra fire uafhængige undersøgelse websteder for at kontrollere for potentielle præanalytiske variation. Strenge standard operationelle procedurer blev fulgt for at sikre prøven og data anonymitet og blændende på alle tidspunkter (se nedenfor). En verificering prøvesæt bestående af 25% af alle prøver i undersøgelsen blev tilfældigt udvalgt og identificering af dette sæt blev blændet. Den statistiske analyse Planen blev på forhånd fastsat og omfattede minimalt acceptable kriterier for ydeevne for sensitivitet og specificitet
Sample Kohorte
Prøven kohorte bestod 1.326 serumprøver opnået fra fire uafhængige biorepositories:. Ny York University (NYU) [24]; Roswell Park Cancer Institute (RPCI) [25]; The University of Pittsburgh (PITT) [5]; og en kommerciel biorepository (BioServe (BS)) (tabel 1). Alle prøver blev indsamlet fra undersøgelsens deltagere efter at have indhentet informeret samtykke under institutionelt godkendte kliniske forskning protokoller som beskrevet [5], [24], [25]. Både case og kontrol serumprøver blev indsamlet fra fire studiecentre. De kliniske karakteristika for undersøgelsen kohorte for uddannelses- og verifikation sæt er vist i tabel 2. iscenesættelse og histologi af NSCLC tilfælde er vist i tabel 3. Prøven kohorte omfattede patienter diagnosticeret med patologisk eller klinisk fase I-III NSCLC og en høj -risk kontrol befolkning med en historie af langvarig brug af tobak, herunder aktive og ex-rygere med ≥10 pack-års cigaretrygning. De kontrol-populationer blev udvalgt tilfældigt for hver studie til at repræsentere patientpopulation i risiko for lungekræft, som ville være kandidater til CT screening, med et forhold mellem tilfælde: kontrol med 1:3.5. Blodprøver til sager blev indsamlet fra patienter inden for otte uger efter den første biopsi-verificeret diagnose lungekræft og før fjernelse af svulsten ved en kirurgisk procedure. Alle tilfælde anvendt i denne undersøgelse, blev bekræftet som primær lungekræft med patologi anmeldelse. NSCLC iscenesættelse blev tildelt af patologisk iscenesættelse i 240 emner og klinisk iscenesættelse for 51 fag. Godartede knuder kontroller har mindst et års opfølgende data og ikke-maligne diagnose. Ryger kontrol var asymptomatiske undersøgelsens deltagere med ≥10 pack-års cigaretrygning. Ryger kontrol fra NYU og Pitt var knude gratis ved CT; knude status er ukendt for de ryger kontrol fra RP og BS. Demografiske data blev indsamlet ved selvrapportering spørgeskemaer. Yderligere data for sager blev erhvervet gennem kliniske diagram gennemgang. Lungefunktionen test blev vurderet ved spirometri for en delmængde af undersøgelsens deltagere. Vejviser
Serum indsamling, behandling, opbevaring og forsendelse
Alle serumprøver blev indsamlet efter ensartede protokoller anbefalet af National Cancer Institute tidlig påvisning Research Network [22]. Tre af centrene (NYU, Pitt og RPMC) indsamlet serum i røde top Vacutainer rør (Becton Dickinson, Raritan, NJ) og et center (BS) indsamles serum i tiger top SST Vacutainer rør (Becton Dickinson). Alle prøver fik lov til at koagulere, og serum blev udvundet ved centrifugering inden 2-8 timer efter indsamling og opbevaret ved -80 ° C. HIPAA kompatibel, de-identificerede prøver blev leveret frossen på tøris til SomaLogic fra studiecentre og opbevaret ved -80 ° C. Prøverne blev optøet en gang for alikvotere før proteomisk analyse.
Sample Blinding
For at undgå potentielle bias, denne undersøgelse fulgte en streng standardprocedure for prøve de-identifikation og blændende, således at alle fysiske prøver og dataposter blev udelukkende identificeres ved et unikt, uidentificerbare stregkode nummer og nøglen blev opbevaret i en sikker database kun tilgængelige for udpegede ansvarlige administratorer. Alle prøvealiquoter kører i denne undersøgelse blev opbevaret i identiske rør identificeret kun af formålsbestemte stregkode. Prøven blændende koden blev brudt kun i henhold til den forudbestemte analyse plan med henblik på klassificeringen træning med den indstillede træning og klassificeringen verifikation med kontrollen sæt. For verifikation prøvesæt blev en unik blændende nøgle genereres og leveres udelukkende til en tredjepart læser (KC), uden tilknytning til de studiecentre eller SomaLogic, at score og rapportere det endelige verifikation resultater.
proteomanalyse
Serumprøver blev analyseret på vores proteomisk opdagelse platform som beskrevet i Gold et al [5]. Kort fortalt denne teknologi anvender nye DNA aptamerer, der indeholder kemisk modificerede nukleotider som meget specifik protein bindende reagenser i en unik multiplex assay der omdanner mængden af hvert målrettet protein i en tilsvarende mængde aptamer, som kvantificeres med en brugerdefineret hybridisering array. Protein mængderne registreres som relative fluorescerende enheder (RFU), som kan omdannes til koncentrationer med standard kurver. Platformen er stærkt automatiseret [26] og skalerbar til at rumme en bred vifte af prøvegennemløb. I denne undersøgelse blev 813 proteinmål målt i 15 pi serum for hver patient, og alle 1.326 sera blev analyseret i en kontinuerlig proces i en periode på otte dage. Samlet set er resultaterne analoge med lidt mere end 1.000.000 høj kvalitet ELISA-målinger. Prøverne blev behandlet i flere 96-huls mikrotiterplader, og alle 1.326 prøver blev fordelt tilfældigt, og deres identitet blev helt blændet hele proteomisk analyseprocessen.
Biomarkør Valg
Biomarkører blev udvalgt med en strategi designet til at identificere analytter med den højeste ydeevne i at klassificere NSCLC sager fra kontrol på tværs af alle studier websteder og der var mindst påvirket af præanalytiske variabler. I det første trin af denne analyse, vi elimineret analytter som udviste uventet variation i forhold til interne kontroller, på grund af for eksempel prøve ustabilitet. I denne proces, valgte vi en række analytter, der klarede sig godt i alt seks naive Bayes (NB) klassifikator træning analyser. Først delte vi den indstillede træning i to adskilte populationer til kontrol for mulig biologisk variation mellem dem: (1) alle tilfælde og kontroller med godartede knuder identificeret af CT; og (2) alle sager og alle andre ryger kontroller (knude status ukendt). For hver population, vi sammenlignet sager til kontrol i tre NB træning analyser designet til at styre til potentiel præanalytiske variation mellem undersøgelse sites. De tre NB analyser i gang med et unikt sæt af potentielle biomarkører baseret på følgende kriterier: (1) sager versus kontrol KS≥0.3 for alle sammenligninger inden for hver af de fire studier sites; (2) tilfælde, versus kontrol KS≥0.3 til sammenligning alle websteder tilsammen; (3) begge kriterier et og to var opfyldt. For hver analyse, brugte vi en grådig frem søgealgoritme til at vælge delmængder af potentielle biomarkører, bygge NB klassificører (se nedenfor), og scorede deres præstationer til klassificering lungekræft og kontrol ved hjælp af den indstillede træning. I denne proces, denne meta-heuristiske tilgang effektivt søger klassificeringen plads til at identificere potentielle biomarkører, der klarer sig bedst i klassifikation. Vi brugte et simpelt mål for diagnostisk ydeevne klassificører, den numeriske sum af sensitivitet + specificitet, og målte den hyppighed, hvormed potentielle biomarkører blev udvalgt af den grådige algoritme til optagelse i klassificeringen paneler med følsomhed + specificitet ≥1.7. Dette trin frembragte en række potentielle biomarkører for hver af de seks parallelle analyser. Vi valgte det sidste sæt af biomarkører som foreningen af disse seks sæt.
Statistisk Metoder
KS statistik er en ikke-parametrisk mål for forskellen mellem to distributioner. De to-stikprøve KS Statistik er:, hvor og er empiriske kumulative fordelinger for to populationer af værdier
naive Bayes klassificeringen antager uafhængighed mellem prøverne, og modeller afgivelsen af de uddannelse klasser at gøre forudsigelser [27. ]. Vi brugte normalfordelinger at modellere vores data. Men funktionerne i vores data indeholder ofte fordelinger med tunge haler så maksimal sandsynlighed estimering af parametrene distributionsomkostninger udfører dårligt. Derfor har vi modelleret vores distributioner som lognormalfordelinger og bruges Gauss-Newton-algoritme til at passe dataene.
Vi konstruerede Bayesian klassifikatorer vha sæt af potentielle biomarkører identificeret som beskrevet ovenfor. Vi anvendte en parametrisk model til at fange den underliggende protein fordeling for en given tilstand. Den enkleste parametrisk model for tæthedsfunktionen (pdf) for et enkelt protein er en normal fordeling, fuldstændig beskrevet ved en gennemsnitlig u og varians σ
2 (ligning. 1). (1)
Mange protein distributioner blev observeret som normalt i forhold til logaritmen af koncentrationen. De numeriske CDFS kan være egnet til en normal fordeling i log koncentrationer x (ligning. 2). (2)
Modellerne passer til dataene godt. Mere komplekse modeller over sandsynlighedsfordelingen funktioner kan anvendes, når berettiget, men den simple model gav en god beskrivelse af vores data.
For at kombinere flere markører, brugte vi en multivariat normalfordeling at modellere funktion tæthedsfunktionen (pdf ) for hver kategori. For n markører, er det multivariate pdf givet ved følgende ligning (ligning. 3). (3)
hvor x er en n-komponent vektor af proteinniveauer, μ er en n-komponent vektor af gennemsnitlig protein niveauer, Σ er nxn kovariansmatrixen og | Σ | og Σ
-1 er dens determinant og invers. I sin enkleste form, kan vi antage en diagonal repræsentation for Σ. En sådan tilnærmelse fører til en naiv Bayes model, som forudsætter uafhængighed mellem markørerne. I dette arbejde, vi udelukkende bruge naive Bayes modellen til at konstruere klassificører. De parameterværdier for μ og Σ anvendes i den naive Bayes klassifikation blev opnået fra ikke-lineær regressionsanalyse, som beskrevet ovenfor.
Tilsætningen af efterfølgende markører med gode KS afstande vil generelt forbedre ydeevnen klassificering, hvis efterfølgende tilsatte markører er uafhængig af den første markør. Vi søgte efter optimale markør paneler med en “grådig” algoritme, som er enhver algoritme, der følger problemløsning meta-heuristik for at gøre lokalt optimale valg på hvert trin med håbet om at finde den globale optimum. Vi anvendte følsomheden (fraktion af ægte positive) plus specificitet (del af sande negative) som en sorterer score. Algoritmen tilgang, der her er beskrevet som følger. Alle enkelt analyt klassifikatorer blev genereret fra en tabel over potentielle biomarkører og tilsat til en liste. Derefter blev alle mulige tilsætninger af en anden analyt til hver af de lagrede enkelt analyt klassifikatorer udføres, hvilket sparer et forudbestemt antal (10.000 i dette tilfælde) af de bedste scorende parvis på en ny liste. Alle mulige tre markør klassificører udforskes ved hjælp af denne nye liste over de bedste to-markør klassificører, igen gemme bedst tusinde af disse. Denne proces fortsætter, indtil score enten plateauer eller begynder at forringes som ekstra markører tilføjes
Resultater
Vi analyserede 1.326 serumprøver fra fire uafhængige biorepositories:. New York University (NYU) [24] ; Roswell Park Cancer Institute (RPCI) [25]; The University of Pittsburgh (PITT) [5]; og en kommerciel biorepository (BioServe (BS)) (tabel 1). Undersøgelsen omfattede patienter diagnosticeret med patologisk eller klinisk fase I-III NSCLC og en kontrolgruppe befolkning høj risiko med en historie af langvarig brug af tobak, herunder aktive og ex-rygere med ≥10 pack-års cigaretrygning (tabel 2 og 3). De kontrol-populationer blev udvalgt tilfældigt for hver studie til at repræsentere patientpopulation i risiko for lungekræft, som ville være kandidater til CT screening, med et forhold mellem tilfælde til styring af 1 til 3,5.
Prøver blev tilfældigt fordelt i adskilte sæt til klassificeringen træning og kontrol (figur 1) med ingen signifikante forskelle i demografi mellem disse sæt (tabel 2). Mere end 45% af NSCLC tilfælde var patologisk bekræftet stadie IA eller IB eller klinisk fase I med adenocarcinom repræsenterer store histologisk diagnose (tabel 3). Alle lungekræftpatienter havde en biopsi-verificeret kræftdiagnose.
Vi målte mængden af 813 proteiner i hver af de 1.326 prøver med vores proteomisk discovery platform [18]. Vi fulgte en på forhånd fastsat tofaset analyseplan at identificere biomarkører og udvikle en klassificeringen til at skelne lungekræft fag fra kontrol inden for den fastsatte (uddannelse fase) uddannelse og til at kontrollere klassificeringen ydeevne med blindet uafhængig verifikation sæt (verifikation fase). Uddannelsen fase indebar to trin -. Biomarkør udvælgelse og algoritme træning med cross-validering
For at vælge biomarkører vi udførte en systematisk analyse, der indsnævret potentielle biomarkør vilkår for algoritme uddannelse for at øge sandsynligheden for sand opdagelse, og stadig kaste et relativt bredt net. Vi brugte en naiv Bayes (NB) metode til systematisk vurdering potentiel biomarkør ydeevne med præ-specificerede kriterier. Vi anvendte NB metode til delmængder af træningsdata at udvide vores cast for potentielle biomarkører (se metoder). Resultaterne identificeret et sæt af 44 potentielle biomarkører (tabel 4), der adskiller lungekræft fra kontrol på tværs af en række sammenligninger i træningssættet og samtidig minimere potentiel præanalytiske variation – artefakter indført ved variationer i prøvetagning og opbevaring (se nedenfor) [28] , [29].
at udvikle en potentiel diagnostisk at skelne NSCLC fra kontroller, vi trænede NB klassificører startende med de 44 potentielle biomarkører vi identificeret ved hjælp af en “grådig” fremad søgealgoritme og ti gange lagdelt cross validering, startende med tre biomarkører og tilføje en mere på hvert trin. Vi vurderede klassificeringen ydeevne med præ-specificerede ydeevne kriterier (tabel 5). Vi bygget 45 7-12-biomarkør klassificører fra dette sæt af 44 potentielle biomarkører, der opfyldte vores resultatkriterier, der tyder på, at der er en betydelig redundans i oplysningerne i sæt af potentielle biomarkører. Cross-valideret klassificeringen præstation nåede en performance plateau med tolv biomarkører. Efter vores analyse plan, vi valgte fra de 45 resulterende klassificører ene med den højeste samlede præstation af præ-specificerede kriterier (tabel 5), herunder diskrimination af NSCLC fra kontrol, afsløring af fase I-sygdom, og påvisning af kræft i kronisk obstruktiv lungesygdom (KOL). I træningssættet, foretager klassificeringen opnåede 91% følsomhed, 84% specificitet, og et område under kurven (AUC) på 0,91 (Figur 2). Resultaterne (tabel 6) viser, at følsomheden opretholdes i fase I NSCLC (90% for træningssæt). Klassificeringen klaret sig godt på prøver fra alle fire studier sites (figur 3). Vejviser
De tolv biomarkører er vist i tabel 7. De estimerede serumkoncentrationer for disse markører span 4 brænde (22:00-100 nm). Omkring halvdelen kontrolgruppen havde benigne lungeknuder påvises ved CT (tabel 2), og ydeevnen af klassifikatoren i denne undergruppe var den samme som af hele (tabel 6). Vi testede også virkningen af andre egenskaber, der kan påvirke klassificeringen ydeevne såsom alder, rygevaner, og KOL, men fundet ringe effekt (tabel 8 og 9). Alder har en moderat virkning på formen af ROC-kurven, fordi sandsynligheden for kræft stiger med alderen, men denne virkning kan styres ved at indstille forudgående sandsynlighed for kræft i Bayes klassificeringen model. Klassificeringen ydeevne af den faste algoritme blev testet på de blindede uafhængig verifikation sæt og verificeret af en tredjepart læser til at opnå 89% sensitivitet og 83% specificitet, næsten matcher træningssættet ydeevne.
for at afgøre, om vores klassificering resultater blev påvirket af enten alder, rygning status, eller rygning historie, som er demografien med betydelige forskelle mellem case og kontrol populationer (tabel 2), sammenlignede vi klassificeringen ydeevne på undergrupper af den uddannelse sæt befolkning inddelt i grupper baseret på medianværdien af disse attributter. Resultaterne viser lignende klassifikator ydeevne for alle undergrupper (tabel 8). For yderligere at vurdere, om vores klassificering resultater blev påvirket af enten alder, rygning status, eller rygning historie, vi testet for potentiel korrelation af de tolv biomarkører med disse variabler. Resultaterne viste ingen korrelationer bortset endostatin, som viste en moderat korrelation, stigende med alderen. Denne effekt kan der kompenseres for ved at justere forudgående sandsynlighed for kræft i Bayes klassificeringen model. Vi vurderede også specificiteten af klassificeringen for diskrimination af kontroller er kendt for at have luftvejsobstruktion (målt ved GOLD score). Resultaterne er vist i tabel 9. Spirometri data var ufuldstændige for NSCLC tilfælde, så vi kunne ikke beregne følsomheden.
præanalytiske variation ligger til grund for almindelige fejl at oversætte kandidat biomarkører i klinisk anvendelige tests [20], [29]. Vi vurderede præanalytiske variabilitet i denne undersøgelse ved måling forskelle i proteinniveauer i samme sygdomsfrie klasse (NSCLC eller kontrol) mellem forskellige steder og sammenligner dem med forskelle observeret mellem NSCLC og kontrolpopulationer. Resultaterne (figur 4) viser signifikant præanalytiske variation mellem websteder. Men proteiner hårdest ramt adskiller sig fra potentielle NSCLC biomarkører. Mange proteiner, som udviser præanalytiske variabilitet (tabel 10) er kendt for at være modtagelige for variationer i prøvetagning og håndtering [28], [29]. Dette resultat bekræfter, at præ-analytisk variation findes i vores undersøgelse og dokumenterer, at, som designet, vores undersøgelse stort set overvinder dette variation til at maksimere chancerne for at opdage sande, robuste biomarkører for NSCLC
Øverste række:. KS afstande for NSCLC versus kontrol distributioner. Nederste række: gennemsnitlige KS afstande for alle 12 parvise sammenligninger mellem de fire lokaliteter, af case og kontrolprøver analyseret separat. Proteiner blev bestilt ved at trække NSCLC KS afstand fra middelværdien websted KS afstand. Dette afslørede grupper af NSCLC biomarkører (øverst til højre) i kontrast til præanalytiske markører (nederst til venstre). |
Diskussion
De primære resultater af denne undersøgelse er 44 potentielle lungekræft biomarkører der diskriminerer stadier i-III NSCLC sager fra udsatte storryger kontroller, der kan kombineres i klassificeringen paneler, der mødes og overstiger forud specificerede præstationskriterier. Resultaterne af denne undersøgelse er hidtil ukendte i det følgende: (1) De fleste af de proteiner, der er identificeret i denne undersøgelse ikke tidligere er blevet identificeret som serum lungecancer biomarkører; (2) vi har identificeret nye protein biomarkør paneler, der adskiller lunge kræfttilfælde fra passende kontrol med høj følsomhed og specificitet i et uafhængigt, blindet verifikation sæt; og (3) denne undersøgelse opnår et nyt niveau af bevismæssig standard i kliniske proteom biomarkør undersøgelser som følge af en stor stikprøve, en undersøgelse design til at styre præanalytiske variation, og den unikke evne til denne proteomisk teknologi til at afhøre den cirkulerende proteomanalyse kvantitativt med en bredde, følsomhed og dynamikområde uovertruffen af andre brede serum profilering platforme [18], herunder massespektrometri [18], antistof arrays [18], og autoantistof arrays [18], [30] – [32]. Denne undersøgelse er den første store anvendelse af denne teknologi og den største kliniske proteom biomarkør studie til dato. Som sådan sigter denne undersøgelse at overvinde kritiske konfoundere og begrænsninger af kliniske proteom biomarkør undersøgelser, der bidrager i høj grad til den manglende oversættelse til klinikken på grund af falsk opdagelse [20]. Disse konfoundere og begrænsninger omfatter klinisk prøve integritet, præanalytiske variation, og utilstrækkelig undersøgelse design og magt.
Den bedste samlede udfører klassificeringen anvendt 12 af de 44 biomarkører og opnåede 91% sensitivitet og 84% specificitet i cross-valideret uddannelse og lignende ydeevne på 89% sensitivitet og 83% specificitet i blindet validering. Disse resultater beviser, at disse biomarkører er gyldige, og at klassificeringen ikke var over-fit til træningsdata. Denne præstation og den biologiske sandsynlighed (efter) af de 12 biomarkører er opmuntrende for den næste fase af udviklingen – validering i en uafhængig klinisk studie
De 12 biomarkører identificeret i denne undersøgelse (tabel 4) omfatter funktioner af cellen. bevægelse, inflammation og immun overvågning, der kan bidrage til udviklingen af kræft. De fleste af de 12 proteiner er generelt blevet associeret med cancer biologi, nogle er blevet identificeret som kandidat lungekræft biomarkører, ingen er blevet valideret som lungekræft biomarkører, og ingen anvendes klinisk [33], [34]. Fire af de 12 proteiner er blevet identificeret i serum og lungekræft væv eller cellekultur som kandidat lung cancer biomarkører – cadherin-1 [35], endostatin [36], HSP90 [37], og pleiotrophin [38]. Otte af de 12 proteiner, CD30 ligand, LRIG3, MIP-4, PRKCI, RGM-C, SCF-sR, sL-selectin, og ja, er ikke tidligere blevet identificeret i serum som lungekræft biomarkører og repræsentere nye fund.
Seks af de 12 proteiner, CD30 ligand, endostatin, HSP90, MIP-4, pleiotrophin, PRKCI, og JA blev observeret opreguleret i lungekræft i denne undersøgelse, i overensstemmelse med deres foreslåede biologiske roller i proliferation, invasion, eller vært inflammatoriske og immunrespons på tumoren. CD30 ligand er et medlem af TNF-ligand superfamilien, som stimulerer T-cellevækst.
Leave a Reply
Du skal være logget ind for at skrive en kommentar.