Abstrakte
Den kommende kvantificering og automatisering i biomarkør baseret histologisk tumor evaluering vil kræve beregningsmetoder i stand til automatisk at identificere tumor områder og differentiere dem fra stroma. Da ingen enkelt generelt anvendelig tumor biomarkør er tilgængelig, patologi bruger rutinemæssigt morfologiske kriterier som et rumligt referencesystem. Vi her til stede og evaluere en metode stand til at udføre klassificeringen i immunofluorescens histologiske slides udelukkende ved hjælp af en DAPI baggrund plet. På grund af begrænsningen til en enkelt farvekanal dette er i sig selv en udfordring. Vi dannede celle grafer baseret på topologiske fordeling af vævet cellekerner og ekstraheret de tilsvarende graf funktioner. Ved at bruge topologisk, morfologiske og intensitet baserede funktioner kunne vi systematisk kvantificere og sammenligne evnen diskrimination individuelle træk bidrager til den samlede algoritme. Vi viser her, at når klassificere fluorescens væv glider i DAPI kanal, morfologiske og intensitet baserede funktioner klart overhale topologiske dem, der udelukkende har været anvendt i relaterede tidligere tilgange. Vi samles de 15 bedste funktioner til at træne en støtte vektor maskine baseret på Keratin farvede tumor områder. På en test sæt TMA’er med 210 kerner af triple negativ brystkræft vores klassificeringen var i stand til at skelne mellem tumor og stroma væv med en samlet overordnet nøjagtighed på 88%. Vores metode giver de første resultater på evnen til funktioner grupper forskelsbehandling, som er afgørende for en automatiseret tumor diagnostik. Også, det giver et objektivt geografiske referencesystem for multiplex analyse af biomarkører i fluorescens immunhistokemi
Henvisning:. Lahrmann B, Halama N, Sinn HP, Schirmacher P, Jaeger D, Grabe N (2011) Automatisk tumor- stroma Separation i Fluorescence TMA’er Aktiverer Quantitative High-Throughput Analyse af Multiple Cancer biomarkører. PLoS ONE 6 (12): e28048. doi: 10,1371 /journal.pone.0028048
Redaktør: Pierre Busson, Institut for cancerologi Gustave Roussy, Frankrig
Modtaget: September 21, 2011; Accepteret 31. oktober, 2011; Udgivet: December 2, 2011
Copyright: © 2011 Lahrmann et al. Dette er en åben adgang artiklen distribueres under betingelserne i Creative Commons Attribution License, som tillader ubegrænset brug, distribution og reproduktion i ethvert medie, forudsat den oprindelige forfatter og kilde krediteres
Finansiering:. Funding var leveret af det tyske ministerium for forskning og uddannelse (BMBF) i deres MEDSYS og FORSYS støtteprogrammer. Grant Numbers: 0315401B (MEDSYS), 0.315.263 (FORSYS). De finansieringskilder havde ingen rolle i studie design, indsamling og analyse af data, beslutning om at offentliggøre, eller forberedelse af manuskriptet
Konkurrerende interesser:.. Forfatterne har erklæret, at der ikke findes konkurrerende interesser
Introduktion
Automation i immunohistologisk billedbehandling er i øjeblikket en vigtig teknologisk udvikling, der finder sted i den kliniske jagt efter objektive biomarkører i forskning og diagnostik. I kræftforskning en af de vigtigste, men også ekstreme udfordringer er udviklingen af metoder til automatisk adskillelse af tumor og stroma væv [1], [2]. Succes her, vil have en enorm indflydelse på anvendeligheden af biomarkører i rutinemæssige kræftdiagnostik og terapi samt den generation storstilet af histologiske væv data til forskningsformål. En vigtig metode rutinemæssigt anvendes i denne sammenhæng, som vi her bruger til at illustrere problemet er Tissue Microarray (TMA) teknologi, blev indført i 1998 [3]. TMA’erne muliggøre samtidig immunhistokemisk analyse af flere hundrede væv på et enkelt objektglas [4] – [6]. Men som generelt i alle områder af patologi, manuel visuel scoring af TMA’er rutinemæssigt baseret på kvantitativ analyse af protein niveauer af patologer og andre eksperter er subjektiv, arbejdskrævende, er tidskrævende og vigtigst lider intra og inter-observatør variabilitet [7]. Som en løsning, har fluorescerende stand mikroskopiske hel-dias scannere bliver tilgængelige for nylig, men er stadig kun sjældent bruges, selv om de vil have en central rolle i at omdanne histologisk evaluering i objektivitet. Fluorescens baseret farvning her er vigtigt, da det overvinder centrale problem med lysfelt pletter af objektiv og automatisk registrering af distinkte biomarkør signaler [8]. Selvom fluorescens hjælper i kvantificering af de enkelte celler, det gør ikke i sig selv hjælp differentiere tumor og stroma. I fluorescens væv slides ofte modfarvet med DAPI (4 ‘, 6-diamidino-2-phenylindol) tager rollen som en konventionel baggrund plet. Dette gør det tumor-stroma separation mere kompleks som den primære visuel information af vævet struktur er meget sværere at genkende i DAPI kanal end i kromogene histologi. En histologisk biomarkør, som udelukkende ville plette tumorvæv er ikke tilgængelig. I stedet heterogenitet af rumlige protein ekspressionsmønstre er uløseligt forbundet med kræft. Et glimrende eksempel her er de aggressive tredobbelte negative brystkræft væv, som ikke udtrykker generne for de mest værdifulde prognostiske markør som østrogenreceptoren (ER), progesteron markør (PR) og den humane epidermale vækstfaktorreceptor type 2 (HER2) [9]. Fraværet af ekspressionsmønstre for disse biomarkører tillader ikke brug en enkelt af dem som reference protein biomarkør og gør det nødvendigt at adskille den cancerøse fra raske /bindevæv ved hjælp af objektive, standardiserede algoritmer baseret på morfologiske kriterier. Således patologisk evaluering bruger rutinemæssigt morfologiske kriterier som et rumligt referencesystem til at bestemme tumor område i kræft histologi. Vi konkluderer, at kombinere fordelene ved fluorescens med automatisk erhvervelse og billedbehandling kræver udvikling af algoritmer til tumor-stroma adskillelse udelukkende fra en DAPI baggrund plet bliver ofte brugt i immunfluorescens.
Derfor har vi her sat sig for at udvikle sådan automatisk algoritme baseret udelukkende på DAPI kanal (Figur 1B-D). Adskillige fremgangsmåder til separation af cancervævet fra andre vævstyper ved morfologiske kriterier er tilgængelige i litteraturen. Amaral et al. [10], [11] præsenterer to forskellige metoder, hvorved der bruges farve funktioner til klassificering af hele TMA-kerner. I [12] stoflige egenskaber med til at adskille forskellige væv regioner på en TMA og er [13] stoflige egenskaber anvendt til påvisning af patologiske regioner histologiske slides. Men alle disse metoder fungerer på kromogene farvede vævsprøver, hvor var opnåelige for klassificeringen af de forskellige vævstyper information af alle 3 RGB kanaler. Klassificering tumorvæv kun i DAPI kanal tvinger os til at beskæftige sig med mindre information til rådighed for trin klassificering i forhold til de tidligere andre tilgange. Kun få publikationer beskæftiger sig med klassificering af fluorescens farvede væv. I [14] anvender forfatterne nukleare funktioner opnået fra DAPI-kanal til at skelne, om hele væv er kræft eller sund stedet for at klassificere de forskellige typer til stede på vævet. De fleste af de offentliggjorte arbejde i biomarkører forskningsbrug to biomarkører for co-lokalisering eller manuelt segment kræft væv i stedet for en automatiseret måde [15] – [18].
(a) repræsentation af alle tre kanaler af en fluorescens farves kerne i RGB farverum. Glyffer stammer skyldes TMA udarbejdelse. Rød repræsenterer stromale markør (Vimentin), grøn tumor markør (CK19) og blå DAPI kanal fremhæver cellekerner; (B) DAPI kanal af (a) som et intensitetsbillede: generelt tumor celler er mørkere og tættere forbundet end stromale celler; (C) en anden DAPI billede af en kerne med en høj tæthed af celler; (D) et eksempel på en kerne med en lavere tæthed af celler viser høje heterogenitet blandt kernerne.
Gunduz et al. [19] udgivet en ny metode til klassificering af kromogene farvede hjerne vævsprøver. De dannede celle grafer baseret på topologiske fordeling af væv, celler og ekstraheres de tilsvarende graf målinger til at træne en klassificeringen. Klassifikatoren kunne skelne mellem kræft og sundt væv. En graf her er en abstrakt repræsentation af objekter (knudepunkter), hvor par af disse formål er oprettet af kanterne. Metoden blev yderligere udviklet i [20] og [21]. Bilgin et al. [22] – [23] viste, at de med held analyseret bryst og ben vævsprøver ved hjælp af celle grafer. De evaluerede deres metode på håndplukket og ikke-biomarkør karakteriseret brystkræft prøver.
Her er vi videreudviklet denne tilgang ved at udvikle en ny metode i stand til at klassificere fluorescens farvede væv Microarrays. Vores metode bruger celle grafer baseret på tre forskellige kategorier af funktioner afspejler egenskaberne for cellerne, der er indeholdt i grafen (noder) og deres lighed (kanter). Fra en potentiel sæt af funktioner vi bestemme dem, der er bedst i stand til at adskille tumor og stroma væv. Det er klart, at udføre en nøjagtig tumor-stroma adskillelse er allerede en udfordrende opgave. Brug desuden kun DAPI-kanal for denne opgave kræver en endnu højere ydelse i segmentering og klassifikation.
Som det første skridt, vi udførte vandskel segmentering og derefter byggede vi celle grafer ved at forbinde de segmenterede cellekerner under hinanden. Sammenkoblingen af cellerne er baseret på nye regler især tilpasset fluorescens farvet TMA’er som kan bestå af flere forskellige væv typer. I stedet for kun at bruge topologiske graf målinger for celle-graf klassificering, vi bestemmer også de morfologiske og intensitet baseret celle funktioner i hver celle-graf. Ved at kombinere alle tre har typer var vi i stand til at opnå en vellykket væv sorterer for fluorescerende histologiske dias.
Vi viser vores metode på 180 centrale billeder af TMA’er fra invasive triple negativ brystkræft biopsier indeholder kræft væv samt stroma (bindevæv). Vores metode metode var i stand til at adskille tumor og bindevæv, side om side på samme væv kerne med en samlet overordnet nøjagtighed på 88,80 (± 07.73)%.
Materialer og metoder
Vævsprøver
datasættet alt består af 210 væv microarray core billeder af invasive triple negative brystkræft biopsier opnået fra 6 TMAs. Vævet blev opnået fra vævet bred af National Center for Tumor Sygdomme (NCT) på University Hospital Heidelberg. Indhentning vævsprøver blev godkendt af den etiske komité i det medicinske fakultet Heidelberg. Ifølge de officielle regler i universitetets Tissue Bank bestemt af de nævnte etiske komité ingen individuel samtykke skal indhentes fra individuelle patienter til patientprøver ældre end 3 år. Dokumentation af alle procedurer håndteres i en ISO-certificeret proces af NCT væv bank. Hver TMA indeholder to kerner af 1 mm i diameter fra 42 forskellige patienter (i alt 84 kerner per TMA). En kerne er opnået fra periferien af tumoren, og der fås det andet fra tumorens centrum. Vi udelukkede kerner fra vores datasæt, hvis deres område var under halvtreds procent af en almindelig kerne eller hvis ubrugelig. Hvert billede er taget i en 20 gange forstørrelse og har en gennemsnitlig størrelse på 2800 × 2900 pixels. Alle TMA’er farves med 3 fluorescerende farvestoffer. Hver TMA blev farvet med DAPI fremhæve de cellekerner som en kontrastfarve De andre brugte antistoffer (vimentin, CK19 og CK5 /6) blev konjugeret med Alexa Fluor® 488 (FITC alternativ, grøn fluorescerende farvestof) eller Alexa Fluor® 594 (rød farve) . Figur 1A viser et væv kerne farvet med 2 forskellige biomarkører og DAPI som modfarve. Figur 1B-D illustrerer yderligere repræsentative eksempler på DAPI kanal af tre forskellige væv-kerner.
Billede erhvervelse
Fluorescerende farves TMA’er blev automatisk filmede med den Nanozoomer HT Scan System (Hamamatsu Photonics, Hamamatsu Japan) kan scanne hele dias. Objektglas blev scannet ved 20 gange forstørrelse (opløsning på 0,46 um /pixel). Til scanning af objektglas, registrerer dias scanner automatisk interesseområdet, som indeholder den vifte af kerner, og også bestemmer automatisk et gyldigt fokalplan til scanning. De resulterende virtuelle dias havde en gennemsnitlig filstørrelse på 5 GB. Single Core billeder med en gennemsnitlig størrelse på 2800 × 2900 pixels var placeret og udvundet fra TMA’er hjælp skabelon matching [24].
Generelt billedanalyse workflow
Det centrale begreb i dette manuskript er celle graf, som vi bruger til at fange den topologiske cellefordeling i væv samt de rumligt relateret lokal celletræk for klassificering. De vigtigste trin i denne tilgang er segmentering af cellekernerne i DAPI kanal ved hjælp af vandskel segmentering, opførelse af cellen grafer, udvinding af topologiske og lokale celle funktioner fra disse grafer og bruge dem til at træne en klassificeringen. Billede algoritmer blev udviklet ved hjælp af Matlab ™ (Mathworks, Natick, Mass, USA.) Med billedbehandling værktøjskasse
Vores billedanalyse pipeline indeholder følgende konceptionelle trin (som illustreret i figur 2):.
efter at have fået billederne, før procestrin forbedre billedkvaliteten og vandskel segmentering for den efterfølgende segmentering anvendes. Derfor cellen grafer genereres og funktioner er edb. Det sidste trin bruger en SVM til at klassificere graferne som enten tumor eller stroma
2.1 Pre-behandling:.. Vi anvendte først flere billede ekstraudstyr metoder til at forberede billedet til den efterfølgende segmentering trin
2.2 Cell segmentering: En Watershed-Transformation blev anvendt for cellen kerner segmentering
2.3 Cell graf generation:. Baseret på de segmenterede kerner vi genererede celle grafer, som repræsenterer topologiske fordeling af kernerne på vævet kerner. Vi beregnede flere funktioner for hver (under) graf og også beregnet intensitet og morfologiske base-funktioner til hver enkelt kerne på en kerne
2.4 Klassificering og funktion valg:. En Support Vector Machine blev uddannet til trin klassificering og F-score blev beregnet for funktionen udvælgelse.
2.1 forbehandling
i dette første skridt, vi anvendes flere metoder til at forbedre kvaliteten af de centrale billedet for den efterfølgende klassificering. Vi begyndte at fjerne skygger artefakter, der afgrænser et resultat af forskellige optiske fænomener som linse vignettering eller foto blegning. Shading artefakter i fluorescens billeddannelse kan også være forårsaget på grund auto fluorescens af prøverne eller montering medium. Shading korrektion (flad felt kompensation) blev anvendt til at kompensere for linsen vignettering samt for inhomogenitet i belysningen. Skygge korrektion blev opnået ved at udføre en sort balance kalibrering ved hjælp af klare baggrund områder. Det næste trin i billedbehandling rørledningen var fjernelsen af støj og andre små partikler, som ikke egner sig til senere analyse. For at udelukke uspecifikke og diffus baggrund farvning alle pixels med intensitet niveauer under en tærskel på 25 blev sat til nul. En median-filter med en 3 x 3 kerne blev anvendt til at udjævne billedet. Det resulterende billede blev omdannet til et binært billede (ved anvendelse af Otsu metode [25]) i hvilke objekter med et areal mindre end 150px (mindre end størrelsen af bindevæv kerne) fjernes. Objekter uden for det almindelige kerne form blev fjernet ved morfologiske operationer som lukning og åbning kombineret med området filter. Til sidst blev isolerede kerner observeret inde i kernen. Vi antog, at disse isolerede kerner tilhører ikke tumerous celler og blev derfor udelukket fra tumorvæv. Til dette formål har vi bestemt den mindste afgrænsningsramme af objekterne og udvidet den med 20px i hver retning. Baseret på denne nye koordinater, blev et billede beskåret fra det oprindelige binære billede, og de nuværende objekter i billedet blev talt. Hvis kun et objekt var til stede, blev det objekt fjernes, mens tilstedeværelsen af mere end et objekt indebærer kontakt til andre celler og objektet forblev. Desuden i flere kerner opdagede vi store overstained områder med maksimal intensitet niveauer. Disse områder, som kunne være forårsaget af agglomererede bindevæv cellekerner på TMA forberedelse eller til tider høje eksponering, er ikke egnede til yderligere analyse og blev fjernet. Figur 3B viser resultaterne af forbehandlingsindretningen trin
(a) original billede af DAPI-kanal.; (B) billede efter shading korrektion og fjernelse støj; (C) resultatet af vandskellet segmentering, er de segmenterede celler fremhævet af grønne kontur; (D) billedet efter fjernelse af enkeltceller; (E), der viser de celler, som blev tilsluttet via grafen generation skridt i samme farve (felter markeret med samme farve tilhører samme sub-graf); (F) celle graf repræsentation af cellerne. De røde prikker er de knudepunkter, der repræsenterer cellerne, de sorte linjer er kanterne mellem dem.
2.2 Cell Segmentering
Automatiseret celle segmentering i fluorescens bejdset TMA kan være problematisk for grunde der omfatter celle overlappende eller klynger celler, kompleks vævsstruktur, snavs og ujævn baggrundsintensitet grundet auto fluorescens. En anden vanskelighed er intensiteten variation mellem kernerne, som kan føre til over-segmentering af cellekernerne. På grund af disse variationer intensitet blandt kerner, vi først delt billedet i et billede, der repræsenterer kun objekter med en lysere belysning og en, der repræsenterer de mørkere objekter. Vi anvendte derefter segmentering trin separat på begge disse billeder. Denne adskillelse blev udført ved at beregne en tærskel baseret på Otsu metode [25] ignorerer baggrund pixels. En segmentering algoritme, der har vist sig at være meget nyttig for mange kerner eller celle segmentering tilfælde er vandskel segmentering [26] – [28]. Vi anvendte seedet skelsættende segmentering for segmentering. Seedede vandskel segmentering betyder, at startende regioner, som kaldes frø, er givet som input til vandskel segmentering. Vi sætter frøene i en automatiseret måde ved hjælp af h-maksima omdanne [29]. Resultatet af denne segmentering trin er vist i figur 3C.
2.3 Cell graf Generation
En graf betegnes som et sæt af objekter, hvor nogle par af objekter er forbundet med links. De tilsluttede objekter repræsenteres af matematiske abstraktioner kaldet knuder (også kaldet hjørnepunkter), og de links, der forbinder nogle par knuder kaldes kanter. Formelt, en graf er et ordnet par
G = (V, E)
hvor
V
er det sæt af knuder og
E
det sæt af kanter forbinder knudepunkter i
V
. I vores arbejde, blev hver af de tidligere opdelte cellekerner anvendes som et knudepunkt. Figur 4 viser en begrebsmæssig repræsentation af celle grafer
(a) Kunstig skitse af 3 forskellige 3 celletype:. Tumorceller i blå, lymfocytter i hvid og i lilla fibroblast. (B) Cell graf repræsentation af (a). Cellerne er afbildet som knudepunkter og forbindelser mellem dem repræsenterer biologiske relationer.
Forskellige tilgange præsenteres i litteraturen for at generere celler grafer, som repræsenterer den topologiske opførsel af væv eller celler i forskellige videnskabelige spørgsmål [19], [21] – [23], [30]. I [19] Gunduz et al. gøre brug af Waxman model for cellen graf generation. Bilgin et al. [22] og Gunduz et al. [21] bruger en sandsynlighedsfunktion til binding af cellerne indbyrdes. I deres tilgang sandsynligheden for forbinder celler henfalder med en voksende euklidisk afstand mellem cellerne centroids. I [23], [30] celler simpelthen forbundet, hvis den euklidiske afstand mellem deres centroider er under en bestemt distance. Tumor celler generelt forekommer i klynger, derfor kan de forventes i en marginal afstand af hinanden eller appearingly “rørende” hinanden. Derved denne “berøring” af kerner opstår på grund af den tredimensionale struktur af de histologiske snit. Ved at bruge kernerne centroids til afstandsmåling alene er det muligt, at cellerne bliver bundet selvom de er mere fra hinanden end typiske tumorceller. I vores tilfælde er vi udfører en pre-klassificering ved kun at bygge forbindelser mellem celle kerner rører hinanden og derved udelukke ensomme celler (af bindevæv oprindelse) fra grafen konstruktionstrin. I vores metode tester vi, hvis celler røre hinanden ved følgende trin. Vi først konvertere resultatet af vandskel opdeling i et binært billede og derefter vi spile hver af de segmenterede cellekerner separat. Den dilatation af en (cellekerne) -Image
jeg
med et strukturerende element
S
, betegnet som
I⊕S
, er defineret som det sæt operation hvor S betegner den symmetriske strukturerende element. Vi valgte en diamant-formet strukturerende element med en afstand fra oprindelsen af 2. Vi derefter afgøre, hvis cellekerner var i meget tæt kontakt ( “rørende” udseende) og indstille en forbindelse mellem dem, hvis deres pixel skæringspunktet ikke en var tomme sæt efter dilatation trin: (1) hvor
i og J
er særlige billeder af to tilstødende cellekerner. I væv, tumorceller vinder stramt omgivet af bindevævsceller, idet denne, efter anvendelse af den ovenfor beskrevne afstand reglen førte til strukturelle fejl i cellen grafen. Normalt er tumorcellerne optræder med lavere intensitet niveauer end de bindevævsceller. Derfor linker vi kun celler, hvis forskellen mellem deres intensitet niveauer er lavere end en bestemt tærskel. Denne tærskel er afhængig af variationer i farvning og fluorescens signal erhvervelse effektivitet. Vi her empirisk en forskel på 30 intensitetsværdier som en gældende tærskel for vores datasæt. Afsluttende er nærliggende cellekerner med en intensitet forskel under denne tærskel forbundet: (2) Hvor er det aritmetiske gennemsnit af celle billede intensitet niveau, X antallet af rækker, Y antallet af kolonner og S = X * Y. Opsummering, fastsætte en forbindelse mellem to cellekerner i vores model afhænger sandsynligheden for at røre hinanden, og at forskellen mellem deres intensitetsniveauer er lavere end en bestemt tærskelværdi. Figur 4D viser et eksempel billede, hvorved enkelte celler fjernes. Figur 4E fremhæver celle kerner, som blev forbundet via denne graf generation skridt i samme farve. En visuel graf repræsentation af dette trin er vist i figur 4F. Celler, som ikke var forbundet under grafen generation proces blev behandlet i et yderligere skridt beskrevet i afsnittet “klassifikation enkelt celle”.
Cell Graph Features
Efter at generere cellen grafer, vi beregnede flere funktioner til uddannelse af klassificeringen. I alt beregnet vi 22 funktioner, som kan inddeles i tre forskellige kategorier. De første 10 træk, i litteraturen normalt kaldet graf målinger [19], [23], fange topologiske adfærd graferne ligesom antallet af celler i en graf, at antallet af forbindelser mellem dem eller yderligere topologiske relationer mellem cellerne (feature kategori T). De resterende 12 funktioner fange morfologiske egenskaber (funktion kategori M) som område, forme samt intensitet baserede egenskaber (funktion kategori I) af de enkelte cellekerner i en graf og blev valgt ud fra deres forventede egnethed. De to sidstnævnte funktioner er først for hver enkelt cellekerne og derefter den gennemsnitlige anvendes som en funktion af den tilsvarende graf. Husk på, at flere af disse intensitet baserede funktioner afhænger af de billeddannende forhold som eksponeringstiden, koncentrationen af biomarkør, tidsforskydning mellem farvning og billedbehandling på grund af foto blegning og yderligere mere. Det kræver, at disse betingelser er konstante på tværs af datasæt. I tabel 1 de anvendte funktioner og graf målinger er beskrevet i detaljer.
2.4 Klassifikation og har valg
Support vector maskiner (SVMs) [31] er almindeligt anvendt som overvåget læringsmetoder for klassificering i datamatisk biologi og billedbehandling opgaver [32] – [34]. Udgangspunkt for uddannelse af en SVM er et sæt af træningsdata, hvis klasse medlemskab er kendt: (3) hvor er trækvektorerne og deres respektive klasse etiketter (tumorceller eller bindevævsceller). SVM kortlægger disse input vektorer i en højere dimensionelle rum og konstruerer en optimal hyper plan adskille dataene i to grupper. Ved at løse et kvadratisk programmering optimeringsproblem, SVM beregner den normale vektor og forspændingen b i det adskillende hyper plan, som maksimerer margenen mellem støtteelementerne vektorer af forskellige klasser. Bredden af margenen er lig med, således det bredeste margin mellem vektorerne findes ved at minimere de begrænsninger, der kræver en adskillelig datasæt. Den hyper fly derefter bruges som et tegn funktion til klassificering af hver funktion vektor af testsættet. Klassificeringen funktionen giver enten en hvis testen data medlem af klassen, eller -1 hvis det ikke er. Når perfekte adskillelse ikke er mulig, er en slap variabel indført for hver vektor. Begrænsningerne for beregning af optimale hyperplan derefter formuleres som og hyperplan kan findes ved at minimere: (4) hvor
C
er en omkostning parameter, der bestemmer effekten af outliners på den resulterende hyper plan. Den beskrevne SVM er i stand til at adskille lineære data. For at oprette en klassificeringen som er i stand til at klassificere ikke-lineære data kernen trick anvendes. Den centrale idé er at forvandle sig til et højere dimensioneret rum for at finde en adskillelse hyper fly ved hjælp af en kerne. Dette tillader algoritmen til at passe den maksimale-margin hyper planet i en transformeret funktion plads. Ligning 4 kan omskrives til (5) 🙁 5) (6), hvor værdierne er Lagrange multiplikatorer, som kan være positiv eller negativ, på grund af de begrænsninger, ligestilling og er kernen funktionen. I denne artikel, brugte vi en radial basis kerne (RBF), som også er kendt som Gaussisk kerne.
Feature Selection
Vi beregnede F-score for udvælgelsen af de funktioner, der indgår i SVM. Feature udvælgelse er en teknik til at finde en delmængde af funktioner ved at fjerne mest ligegyldige og overflødige funktioner fra funktionen rummet. Denne teknik hjælper generelt til at forbedre den samlede ydeevne klassificeringen, fremskynde læreprocessen, giver mulighed for en bedre repræsentation af vigtige funktioner og resultater i en resterende funktion sæt med opretholdt diskriminerende magt. F-score måler forskelsbehandling mellem to sæt af funktioner [35]. En højere F-score indikerer en højere diskriminere funktion end en funktion med en lavere F-score. Vi beregnede F-score for hver enkelt funktion
jeg
som beskrevet i (7) med de givne uddannelse vektorer: (7) hvor er de gennemsnitlige værdier for
jeg
th træk af tumor , stroma, og hele datasættet. betegnes som
jeg
th træk af tumor instans og
jeg
th træk ved stroma instans.
Enkelt celle klassifikation
Baseret på de to kriterier for celle graf generation (intensitet og afstand), kan det forekomme, at enkelte celler ikke er knyttet til en anden celle. Således er disse celler ikke inkluderet i trin klassificering og vi behandler dem med en ekstra algoritme i et separat trin enkelt klassifikation celle. Vi først forsøge at identificere inflammatoriske celler (lymfocytter eksempel) og fibroblaster, som indgår i det stromale klassen. Normalt inflammatoriske cellekerner vises som små afrundede cellekerner med en meget høj intensitet sammenlignet med andre celler på kernen. Cellekerner klassificeres derfor som inflammatoriske celler, når: cellekernen intensiteten er højere end et bestemt niveau, en metrik, der beregner rundhed er højere end en tærskel, og området er mindre end 500 pixels: (8), hvor den aritmetiske middelværdi intensitet , S = X * Y området og w omkredsen af en cellekerne. Fibroblaster har generelt en elliptisk form og blev identificeret ved: (9) hvor er hovedparten og den mindre-aksen af cellekerner. Disse værdier anvendes til at beregne excentriciteten af en ellipse. Excentriciteten af en cirkel er 0, og en ellipse som excentricitet er 1 er et linjesegment. De resterende cellekerner blev klassificeret ved anvendelse af en support vektormaskine. Vi brugte de 12 morfologiske og intensitet baserede funktioner allerede er nævnt i afsnittet “Cell Graph funktioner” til at klassificere hver enkelt cellekernen. Vi trænede SVM med de enkelte cellekerner i vores uddannelse sæt og evalueret algoritmen separat som afbildet i resultatafsnittet.
Resultater
Det overordnede mål med vores tilgang var at automatisk at klassificere hver celle af en TMA kerne ved hjælp af de genererede celle grafer. Uddannelsen og klassificeringen er kun baseret på DAPI kanal primært farvning kerner. Figur 5 illustrerer resultaterne af vores tilgang på 4 forskellige TMA-kerner
(a-d), der viser de oprindelige RGB core billeder.; (E-h), der viser det tilsvarende DAPI kanal som et intensitetsbillede af kernerne (a-d); (I-l) resultaterne af trin klassificering, grøn = celler, der er klassificeret som tumorceller, blå = celler, der er klassificeret som stroma celler.
Cell segmentering trin
celle kerner segmentering var evalueret på 3 tilfældigt udvalgte virkelige kerne billeder opnået fra en TMA. I alt 5162 kerner blev brugt og jord sandheden blev opnået fra en ekspert, der markerede de over- og under-segmenteret cellekerner. Den skelsættende algoritme foreslås her kan korrekt segment 94,1% (± 3,75) af kernerne. Tabel 2 viser de detaljerede segmentering resultater og figur 3C viser et eksempel på dette trin, hvorved de segmenterede kerner er omgivet af en grøn kontur.
Feature valg
Feature udvælgelse forenkler og forkorter uddannelse af en klassificeringen, og ofte også forbedrer dens nøjagtighed. For funktionen markering fra 30 core billede, vi først genereres i alt 7888 topologisk disjunct celle grafer, der fører til at bruge den samme totale antal har vektorer. Denne samlede sæt af funktioner omfatter 4065 har vektorer for tumor klasse og 3823 for stroma klassen. De egenskabsværdier forekomme inden i vid udstrækning varierende numeriske områder. Derfor vi normaliseret dem til området [0,1] for at forbedre de fremskridt læring.
Vi beregnede F-score (evnen til skelnen af en funktion) for hver af de 22 funktioner fra tabel 1 for at bestemme bedste funktion sæt til opgave klassificering. Baseret på de viste resultater i tabel 3 vi plukket de 15 bedste funktioner til træning af den support vektormaskine.
Leave a Reply
Du skal være logget ind for at skrive en kommentar.