Abstrakt
Baggrund
Der har været stor interesse for at differentiere syge og normale prøver ved hjælp af biomarkører afledt massespektrometri (MS) undersøgelser. Imidlertid har biomarkør identifikation for specifikke sygdomme blevet hæmmet af irreproducibility. Specielt har en peak-profil ekstraheret fra et datasæt for biomarkør identifikation afhænger af en data forbehandling algoritme. Indtil nu, ikke er nået bredt accepteret aftale.
Resultater
I dette papir, vi undersøgte sammenhængen i biomarkør identifikation ved hjælp differentielt udtrykte (DE) toppe fra peak profiler produceret af tre udbredte gennemsnitlige spektrum-afhængige præ-algoritmer baseret på SELDI-TOF MS-data for prostata og brystkræft. Vores resultater viste to vigtige faktorer, der påvirker konsistensen af DE peak identifikation ved hjælp af forskellige algoritmer. En faktor er, at nogle DE toppe udvalgt fra én top profil ikke blev påvist som toppe i andre profiler, og den anden faktor er, at den statistiske styrke identificere DE toppe i store peak profiler med mange toppe kan være lav på grund af den store skala de prøver og lille antal prøver. Desuden vi demonstreret, at DE topdetektion magt i store profiler kunne forbedres ved den lagdelte falske opdagelse sats (FDR) kontrol tilgang, og at reproducerbarheden af DE topdetektion kunne derved øges.
Konklusioner
Sammenligning og evaluering pre-algoritmer i form af reproducerbarhed kan belyse forholdet mellem forskellige algoritmer og også hjælpe med at vælge en pre-algoritme. Den de toppe valgt blandt små peak profiler med få toppe for et datasæt tendens til at være reproducerbart detekteres i store peak profiler, hvilket antyder, at en egnet forbehandling algoritmen skal være i stand til at producere toppe tilstrækkelig til identifikation af nyttige og reproducerbare biomarkører.
Henvisning: Zou J, Hong G, Guo X, Zhang L, Yao C, Wang J, et al. (2011) Reproducerbar Cancer Biomarkør Discovery i SELDI-TOF MS Brug af forskellige forbehandling Algorithms. PLoS ONE 6 (10): e26294. doi: 10,1371 /journal.pone.0026294
Redaktør: William C. S. Cho, Queen Elizabeth Hospital, Hongkong
Modtaget: Juni 7, 2011; Accepteret: September 24, 2011; Udgivet: 14 oktober 2011
Copyright: © 2011 Zou et al. Dette er en åben adgang artiklen distribueres under betingelserne i Creative Commons Attribution License, som tillader ubegrænset brug, distribution og reproduktion i ethvert medie, forudsat den oprindelige forfatter og kilde krediteres
Finansiering:. Dette arbejde blev støttet af National Natural Science Foundation of China (30970668, 81071646, 91029717) (https://www.nsfc.gov.cn/Portal0/default106.htm), Excellent Youth Foundation of Heilongjiang provinsen (JC200808) (http: //jj.hljkj.cn/qn/), Natural Science Foundation of Heilongjiang-provinsen i Kina (QC2010012) (https://jj.hljkj.cn/zr/index.htm), og den Videnskabelige Research Fund af Heilongjiang Provincial Education Department (11.541.156). De finansieringskilder havde ingen rolle i studie design, indsamling og analyse af data, beslutning om at offentliggøre, eller forberedelse af manuskriptet
Konkurrerende interesser:.. Forfatterne har erklæret, at der ikke findes konkurrerende interesser
Introduktion
proteomiske teknologier baseret på massespektrometri (MS) [1], har i stigende grad blevet den foretrukne metode til identifikation af biomarkører, der er nyttige til at skelne syge og normale prøver [2], [3], [4] . Imidlertid ligner microarray undersøgelser [5], [6], anvendelse af MS-teknikker til at identificere sygdoms biomarkører er blevet hæmmet af irreproducibility, [7], [8]. For eksempel er de biomarkører identificeret i fire prostatakræft studier er meget forskellige [8]. For nylig Callesen
et al
. [7] viste, at kun 10 af 207 biomarkører rapporteret i 15 MS-baserede brystkræft undersøgelser blev detekteret i mere end 2 undersøgelser. Denne irreproducibility rejser spørgsmål om den biologiske betydning og kliniske implikationer af de fundne biomarkører.
Mange faktorer, såsom prøve forarbejdning og operationelle procedurer for forsøgene, kan påvirke reproducerbarheden af sygdom biomarkører [9], [10] [11], [12], [13], [14], [15]. Vigtigere er det, data forbehandling algoritme valgt til frembringelse peak profiler kan i høj grad påvirke biomarkør identifikation [16]. Nogle undersøgelser har forsøgt at finde den optimale forbehandling algoritme til detektering toppe [17], [18], [19]. Men indtil nu, ikke er nået bredt accepteret aftale. For eksempel, baseret på simulerede data med foruddefinerede sande toppe, Cruz-Marcelo
et al
. [17] og Emanuele
et al
. [18] vurderede flere algoritmer både følsomhed (defineret som den andel af sande toppe, der blev identificeret korrekt) og specificitet (defineret som den falske opdagelse sats (FDR)). Disse to undersøgelser nået forskellige konklusioner om de tre algoritmer, som de begge evaluerede, som var MassSpecWavelet [20], Cromwell [21] og kommerciel software produceret af Ciphergen Biosystems. Cruz-Marcelo
et al
. [17] rapporterede, at disse algoritmer tilbydes høj følsomhed med en lav FDR, mens Emanuele
et al
. [18] viste, at de havde lav følsomhed og lav FDR. Denne konflikt kunne have været indført af forskelle i deres simulation data, som generelt har tendens til at være forudindtaget til specifikke scenarier. En løsning til at undgå bias er at vedtage reelle data i stedet for simulerede data. Desværre, med virkelige data, følsomhed og FDR af en algoritme kan ikke vurderes, da de sande toppe er ukendte. Dog kan præ-algoritmer sammenlignes med hensyn til topdetektion reproducerbarhed ved at vurdere peak overlap. Især reproducerbarhed er et kritisk mål for validering af biologiske opdagelser, der adskiller sig fra sensitivitet og specificitet [6], [22], [23], [24].
I denne undersøgelse ved hjælp af reelle prostata og brystkræft data, vi først evalueret reproducerbarhed topdetektion blandt tre udbredte pre-algoritmer, der registrerer toppe afhængig af den gennemsnitlige spektrum af alle spektre (se
Metoder
), herunder SpecAlign [25], MassSpecWavelet [ ,,,0],20] og Cromwell [21]. Endnu vigtigere, vi yderligere evalueret reproducerbarheden af påvisning af differentielt udtrykte (DE) toppe (ofte defineret som biomarkører), der har været fokus på det biologiske samfund, men er ikke blevet fuldt evalueret med enten simulerede eller virkelige data. Vores resultater viser, at antallet af toppe detekteret for et datasæt varierer dramatisk alt efter forbehandling algoritme. Vores resultater viste også to vigtige faktorer, der påvirker sammenhængen i DE peak identifikation ved hjælp af forskellige præ-algoritmer. Den første faktor er, at en top-profil kan mangle DE toppe findes i en anden profil, som kan påvirke reproducerbarheden før udvælgelsen af DE toppe. Den anden faktor er, at en stor top profil med mange toppe kan lide af lavt statistisk styrke til at identificere DE toppe på grund af den store skala af testen sammen med lille prøve nummer [26], [27], [28], [29] . Heldigvis vores resultater viser, at kraften i store peak profiler kan øges ved den lagdelte FDR kontrol tilgang [30]. Følgelig DE toppe valgt blandt små peak profiler tendens til at være reproducerbart detekteres i store peak profiler. På baggrund af analysen af denne undersøgelse, foreslår vi, at en egnet forbehandling algoritme bør være i stand til at producere toppe tilstrækkelige til identifikation af nyttige og reproducerbare biomarkører.
Materialer og metoder
Cancer datasæt
prostatakræft data, som blev hentet fra https://www.evms.edu/vpc/seldi/, bestod af to eksemplarer spektre for 168 kræft og 81 normale serumprøver målt ved SELDI-TOF MS (IMAC -3 chips) med masse-til-ladningsforhold (
m /z
) forhold i området fra 0 til 200 kDa [31]. Prøverne af diagnosticerede fase I-IV patienter blod blev indkøbt fra Institut of Urology, Eastern Virginia Medical School og prøver af raske mænd blev opnået fra frie screening klinikker er åbne for offentligheden (se detaljer i [31]). Serumprøverne blev opnået fra Virginia Prostate center Tissue og kropsvæske Bank. Den brystkræft data, som blev hentet fra https://bioinformatics.mdanderson.org/pubdata.html, bestod af to eksemplarer spektre for 26 kræft og 14 normale plasmaprøver målt ved SELDI-TOF MS (IMAC-Cu chip), med
m /z
forhold i området fra 10 til 100 kDa [32]. Blodprøverne blev opnået fra diagnosticeret stadie I-III bryst carcinom patienter og raske frivillige (se detaljer i [32]). Plasmaprøverne blev udført på Nellie B. Connally Breast Center ved University of Texas MD Anderson Cancer Center.
I hvert par af dublerede spektre, de to spektre var forbehandlet separat og derefter beregnes et gennemsnit til frembringelse af et konsensus profil. I betragtning af måling støj og afsløring begrænsninger, vi brugte kun de toppe i
m /z
vifte af 1-10 kDa for brystkræft og 2-40 kDa for prostatakræft i vores analyser som i de oprindelige papirer [31 ], [32].
data pre-algoritmer
som illustreret i figur 1, SELDI-TOF-MS-data er som regel på forhånd behandles af flere trin, herunder denoising (udjævning), baseline subtraktion, normalisering, peak påvisning, clustering af toppe og peak kvantificering [17]. De tre algoritmer analyseret i denne undersøgelse påvise toppe efter den gennemsnitlige spektrum af alle spektrene, og forbehandling er beskrevet nedenfor. De specifikke parameterindstillinger, der anvendes for hver algoritme kan findes i Text S1.
(A) Raw spektrum. (B) Udglattet spektrum. Baseline estimeret ud fra den udglattede spektrum er repræsenteret som den grå linje. (C) Normalized spektrum. Den baseline trækkes fra den udglattede spektrum. Derefter baseline-korrigeret spektrum er normaliseret. De fundne baseret på det normaliserede spektrum toppe vises i cirkler.
(1). SpecAlign [25] pre-processer data som følger: a) spektrum udjævning ved hjælp af Savitzky-Golay filter; b) at fratrække baseline estimeret ved en behersket glidende gennemsnit; c) Rescaling intensiteter til positive værdier ved at gøre den mindste værdi 0; d) at normalisere intensiteter at lade alle spektre har samme total ion strøm; e) generering af en gennemsnitlig spektrum; f) ved hjælp af den hurtige Fourier transformation (FFT) /peak matching kombineret metode til at tilpasse de fundne toppe af individuelle spektre til dem, der i den gennemsnitlige spektrum; og g) plukke toppe. Standard højdeforhold der tjente som signal-støj-forhold (SNR) var 1,5.
(2). Den MassSpecWavelet pakke til topdetektion [20] kombineret med processen pakke til peak kvantificering [33] (betegnet MSW /PRO). MassSpecWavelet er blevet rapporteret at have høj følsomhed med en lav FDR for topdetektion [17]. Det gør dog ikke tal på de fundne toppe. Således baseret på arbejde af Cruz-Marcelo
et al
. [17], brugte vi proces til at kvantificere toppe detekteret af MassSpecWavelet. MassSpecWavelet detekterer toppe ved hjælp af kontinuerlig wavelet transformation på den gennemsnitlige spektrum af alle spektrene. For hvert spektrum, Proces fratrækker grundlinjen, som anslås ved lineær interpolation, normaliserer derefter intensiteterne ved hjælp af median arealet under kurverne for alle spektre, og endelig kvantificerer de fundne toppe af individuelle spektre af den lokale maksimum inden for den foruddefinerede interval . Standard SNR for peak påvisning var 3.
(3). Cromwell [21] pre-processer data ved en) computing en gennemsnitlig spektrum; b) denoising den gennemsnitlige spektrum af undecimated diskrete wavelet transformere; c) om berigtigelse intensiteter for den gennemsnitlige spektrum ved at trække baseline, der estimeres ved en kurve monoton minimum; d) at finde toppe med lokale maksimale intensiteter for den gennemsnitlige spektrum; e) gentagelse b) og c) for hvert spektrum, normalisere intensiteter med gennemsnitlige samlede ionstrøm, og kvantificere topintensiteter ved hjælp af maksimum inden intervallerne definerer toppe på den gennemsnitlige spektrum; og f) udvinding toppe med en brugerdefineret SNR. Standard SNR blev fastsat til 5, i henhold til henstilling fra udviklerne.
Udgangen af en forbehandling algoritme er et højdepunkt profil for datasættet, som er sammensat af de fundne toppe og deres tilsvarende intensiteter i hvert spektrum. For enkelhed, peak profiler produceret af SpecAlign, MSW /PRO og Cromwell betegnes SpecAlign profil, MSW /PRO profil og Cromwell profil, henholdsvis.
To toppe med en
m /z
forholdet forskel inden et skift interval kan svare til den samme biologiske molekyle [17], [34]. I denne undersøgelse anvendte vi shift intervaller af ± 0,1%, ± 0,2% og ± 0,3%, og resultaterne var de samme. For enkelhed, vi kun præsentere resultater baseret på den almindeligt anvendte skift på ± 0,3% [17],.
Fordi optimering mål for topdetektion ikke er defineret i reelle data, standardindstillingerne parameter for præ -Behandling algoritmer anvendes til påvisning toppe i de fleste applikationer. Men nogle undersøgelser kan tune SNR for at finde mere eller mindre toppe [17], [18], [35], [36]. Således har vi ligeledes tunet SNR i vores undersøgelse til sammenligning præ-algoritmer. Hertil kommer, fordi en lavere SNR kan opdage mere sande og nyttige toppe, vi primært betragtes som den laveste af de to SNR’er når man sammenligner en algoritme med en anden (se detaljer i
Diskussion
).
Påvisning af dE toppe og konsistens scoringer
Studerendes
t
-test blev anvendt til at vurdere betydningen af forskellene mellem intensiteten betyder af kræft og normale prøver. For korrektion multiple test, vi brugte Benjamini-Hochberg procedure til at styre FDR på et givet niveau [37].
Konsistensen af to peak lister blev målt ved PO (procentdel af overlapninger) score [38] . Antaget liste 1 med
l
1 toppe og liste 2 med
l
2 toppe deler
k
toppe, så PO score fra liste 1 ( eller 2) til liste 2 (eller 1) er
PO
12 =
k-service /
l
1 (eller
PO
21 =
k-service /
l
2). Fordi PO score afhænger af listen længder, vi også beregnet den normaliserede PO score (
n
PO), der er defineret som den andel af den observerede score over chance til den tilsvarende maksimale potentielle score uden chance [38 ] 🙁 1) (2), hvor E (PO
12) (eller E (PO
21)) blev estimeret som gennemsnittet af PO
12 (eller PO
21) scores for 1.000 par peak lister (med længder
l
1 og
l
2) udvundet tilfældigt fra de to rå
m /z
lister. Blandt scorer for de 1.000 tilfældige par af peak-lister,
s
-værdi for at observere PO score ved tilfældig chance blev beregnet som den andel af de scores ikke mindre end den observerede score.
den PO (
n
PO) score mellem to lister med dE toppe blev beregnet ved den samme fremgangsmåde som beskrevet ovenfor, bortset fra at en dE top blev defineret som deles af to lister, hvis den blev reguleret i samme retning i begge peak profiler [38]. E (PO) blev evalueret under anvendelse DE peak lister tilfældigt udtrukket fra de to peak profiler. Her præsenterer vi PO (
n
PO) score fra den kortere liste til længere liste og vurdere den grad, at kortere liste er omfattet af længere liste.
Vi betegne PO (
n
PO) score fra de opdaget af algoritme toppe
A
til dem opdaget af algoritme
B
som PO
AB (
n
PO
AB), mens PO
de
AB (
n
PO
de
AB) er til DE toppe.
Stratificeret FDR kontrol tilgang
i store test med de nuværende flere test justeringer, magt kan falde, efterhånden som antallet af test stiger [27], [30], [39]. For at øge styrken, er blevet foreslået en stratificeret FDR kontrol tilgang [24]. Som et bevis på princippet, vi undersøgt, om sammenhængen i DE topdetektion kan øges ved at forbedre evnen til at identificere DE toppe i store peak profiler ved hjælp af den lagdelte FDR kontrol tilgang, som er baseret på den antagelse, at toppe med store fold ændring ( FC) værdier kan være mere tilbøjelige til at være sandt DE toppe [40]. Først, vi anvendt de k-midler clustering algoritme til at opdele toppene i
k
grupper, ved at minimere summen af den kvadrerede euklidiske afstand mellem FC værdi for hver top og dens nærmeste klynge center [41]. Det optimale
k
blev valgt som den partition resulterer i en maksimal gennemsnit af silhuet værdier, som måler, hvordan lignende en top er til andre toppe i sin egen gruppe sammenlignet med dem i andre grupper [42]. Så på et bestemt FDR kontrolniveau, valgte vi DE toppe i hver gruppe. Da der ikke er nogen overlapning mellem de opdagelser fra forskellige grupper, FDR af de integrerede resultater er stadig mindre end den givne FDR niveau [30].
Resultater
Reproducerbarhed af top afsløring
i det følgende er resultaterne for hver algoritme baseret på dens standard SNR, medmindre andet er nævnt. For prostatakræft datasæt, blev 31 og 53 toppe opdaget af SpecAlign og MSW /PRO, henholdsvis, og alle af dem blev medtaget i de 420 toppe opdaget af Cromwell. Endvidere har vi vurderet reproducerbarheden af topdetektion anvendelse af samme antal toppe ved nedsættelse af SNR af en af de to algoritmer. Men selv ved hjælp af de laveste SNR’er på 1 og 0,1 tilladte for SpecAlign og MSW /PRO henholdsvis blev opdaget kun 130 og 90 toppe. De fleste blev medtaget i de opdaget af Cromwell med PO
SC toppe (
n
PO
SC) og PO
MC (
n
PO
MC) scores så højt som 1 (1) og 0,93 (0,93), (figur 2A). Til sammenligning mellem SpecAlign og MSW /PRO, PO
SM (
n
PO
SM) score var 0,84 (0,84). Når SNR blev nedsat til 1,27, SpecAlign detekteret det samme antal toppe (53) som MSW /PRO, men score faldt til 0,74 (0,73) (figur 2A).
(A) For prostatakræft og (B) for brystkræft. Reproducerbarhed blev evalueret mellem en algoritme (
x
-aksen etiket) med forskellige SNR’er og en anden (titel) med standard SNR. Standardindstillingerne SNR’er for SpecAlign, MSW /PRO og Cromwell var 1,5, 3 og 5, hhv. De fyldte trekanter repræsenterer antallet af toppe (højre
y
aksen) opdaget af algoritmen, som fremgår af den
x
-aksen etiket. Alle PO (
n
PO) scoringer var væsentligt højere end forventet ved en tilfældighed (
s
2.2E-11).
For brystkræft datasæt blev 19 og 47 toppe identificeres ved SpecAlign og MSW /PRO, henholdsvis, og alle af dem blev medtaget i de 287 toppe opdaget af Cromwell. Som vist i figur 2B, selv efter faldende SNR til de laveste tilladte værdier for SpecAlign og MSW /PRO kun 104 og 52 toppe, henholdsvis blev påvist, og alle af dem blev detekteret ved Cromwell. Konsistensen score mellem SpecAlign og MSW /PRO var ikke høj, med en PO
SM (
n
PO
SM) score på 0,68 (0,68). Efter SNR blev nedsat til 1,181, SpecAlign detekteret det samme antal toppe (47) som MSW /PRO, og PO
SM (
n
PO
SM) score faldt til 0,55 (0,55 ) (Figur 2B).
ovenstående resultater tyder på, at når du bruger standard SNR for hver algoritme i disse to datasæt, SpecAlign og MSW /PRO tendens til at være mindre følsom ved topdetektion end Cromwell. Alle de fundne toppe også en tendens til at blive opdaget af Cromwell. Cromwell kunne stadig fange næsten alle de detekteret af SpecAlign og MSW /PRO toppe når SNR’er af de sidstnævnte to mindre følsomme algoritmer blev sænket.
Reproducerbarhed af DE topdetektion
Vi derefter evaluerede reproducerbarhed DE peak identifikation i peak profiler produceret af forskellige præ-algoritmer. For prostatakræft datasæt blev 27 og 24 de toppe valgt fra SpecAlign og MSW /PRO profiler, henholdsvis med en 10% FDR kontrol. De fleste af disse var også til stede i de 229 DE toppe identificeret fra Cromwell profil, og PO
de
SC (
n
PO
de
SC) og PO
DE
MC (
n
PO
de
MC) scoringer var 0,81 (0,62) og 0,96 (0,92), hhv. Selv om alle de toppe i SpecAlign profil indgik i Cromwell profil, blev mere end 10% af de udvalgte DE toppe ikke inkluderet i DE toppe fundet i Cromwell profil. Efter SNR’er blev nedsat for SpecAlign og MSW /PRO, konsistensen mellem DE toppe fra disse to peak profiler og de af Cromwell profil faldt en anelse (figur 3A og 3B). Konsistensen mellem de 27 og 24 DE toppe påvist i SpecAlign og MSW /PRO profiler var forholdsvis lav, med en PO
de
MS (
n
PO
de
MS) score på 0,54 (0,31). Men efter SNR blev nedsat for SpecAlign Stillingen steg til 0,79 (0,61) som flere toppe indgik i det udvidede SpecAlign profil og blev påvist som DE toppe (figur 3C).
(A), ( B), (C) for prostatakræft og (D) for brystkræft. Reproducerbarhed blev evalueret mellem en algoritme (
x
-aksen etiket) med forskellige SNR’er og en anden (titel) med standard SNR. Standardindstillingerne SNR’er for SpecAlign, MSW /PRO og Cromwell er 1,5, 3 og 5, hhv. Den de toppe blev udvalgt med en 10% FDR kontrol. De fyldte diamanter repræsenterer antallet af DE toppe (højre
y
aksen) detekteres ved hjælp af algoritmen fremgår af
x
-aksen etiket. Alle PO
DE (
n
PO
DE) scoringer var væsentligt højere end forventet ved en tilfældighed (
s
7.0E-3)
.
for brystkræft datasæt, med en 10% FDR kontrol, kun 2 dE toppe blev udvalgt fra SpecAlign profil, og de blev inkluderet i 8 dE toppe udvalgt fra MSW /PRO profil med en PO
dE
SM (
n
PO
de
SM) score på 1 (1). Efter SNR blev nedsat for SpecAlign blev lignende resultater observeret (figur 3D). Der blev imidlertid ikke DE toppe vælges fra Cromwell profil.
To vigtige faktorer påvirker sammenhængen i DE peak identifikation
Vores analyse afslørede to vigtige faktorer, der kan påvirke sammenhængen i DE peak identifikation ved hjælp forskellige præ-algoritmer. Den første faktor er, at nogle DE toppe valgt blandt én top profil ikke kan inkluderes i en anden spids profil. For eksempel, for prostatakræft datasæt, med en 10% FDR kontrol, 11 af de 24 DE toppe identificeret fra MSW /PRO profil blev ikke inkluderet i SpecAlign profil. Især efter at SNR af SpecAlign faldt til 1,27, 6 af disse 11 DE toppe blev inkluderet i SpecAlign profil og valgt som DE toppe, hvilket førte til forøget reproducerbarhed (figur 3C). Naturligvis denne faktor i høj grad påvirker sammenhængen i DE peak identifikation. Den anden faktor er, at den statistiske styrke identificere DE toppe i forskellige peak profiler varierer. Således kan nogle toppe deles af to peak profiler påvises som DE toppe i én profil, men ikke i en anden. Den statistiske effekt kan påvirkes af mange variabler, såsom peak kvantificering, at antallet af toppe til test, prøve størrelse, andelen af sande positive og FDR kontrol niveau [6], [26], [27], [28 ]. Her har vi først og fremmest analyseret effekten af antallet af prøver og stikprøvestørrelse på magten.
Først brugte vi et eksempel for at illustrere effekten af antallet af tests. I brystkræft datasæt, på en 10% FDR kontrolniveau, der blev ikke konstateret DE toppe på hele Cromwell profil, som bestod af 287 toppe. Men når man overvejer en subprofile af Cromwell profil sammensat af alle toppene indgår i MSW /PRO profil blev 6 DE toppe opdaget, og de blev alle inkluderet i de 8 DE toppe identificeret i MSW /PRO profil. Især den
t
-test
s
-værdi cutoff for at erklære signifikans baseret på Benjamini-Hochberg FDR procedure [37] var 0,013, men det faldt til 0,0003 i hele Cromwell profil, hvilket resulterede i nul strøm til at finde DE toppe (dvs. blev der ikke DE toppe fundet). Tilsvarende, når man overvejer en subprofile af Cromwell profil sammensat af alle toppene af SpecAlign profil, blev påvist 2 DE toppe ved 10% FDR kontrolniveau, og de var identiske med de to DE toppe identificeret fra SpecAlign profil.
for at illustrere effekten af stikprøvestørrelsen, vi stikprøver delmængder på forskellige prøve størrelse niveauer fra prostatakræft datasæt af 249 prøver. Ved hver prøve størrelse niveau, vi tilfældigt udtaget 100 delmængder med andelen af normale og cancer prøver i hver delmængde holdt identiske med dem i den rå datasæt. Som prøvens størrelse øges, antallet af DE toppe udvalgt med en 10% FDR kontrol i top profilen produceret af hver forbehandling algoritme steget, hvilket indikerer, at magten til at opdage DE toppe steget (figur 4). Derfor er sammenhængen i de DE toppe udvalgte ved hjælp af de forskellige pre-bearbejdningsalgoritmer steget kraftigt.
Standard SNR blev anvendt til hver forbehandling algoritme. Ved hver prøve størrelse, blev det gennemsnitlige antal DE toppe detekteret ved et 10% FDR kontrol beregnet baseret på 100 undergrupper tilfældigt stikprøven. De fyldte firkanter, trekanter og diamanter repræsenterer det gennemsnitlige antal DE toppe (højre
y
aksen) detekteres ved brug SpecAlign, MSW /PRO og Cromwell, hhv.
Forbedring reproducerbarhed ved stigende statistisk styrke
Som det fremgår ovenfor for brystkræft datasæt, den fuldstændige mangel på statistisk styrke til at identificere dE toppe i nogle store peak profiler er en vigtig faktor, der påvirker sammenhængen i dE topdetektion. Som et bevis på princippet, vi viste, at evnen til at finde DE toppe i Cromwell brystkræft profil kunne forbedres ved den lagdelte FDR kontrol tilgang, der kan styrke sammenhængen mellem de identificerede DE toppe og dem valgt fra SpecAlign og MSW /PRO profiler. Brug af k-midler clustering algoritme som beskrevet i
Metoder
blev de 287 toppe detekteret i Cromwell profil grupperet i 2 grupper. Én gruppe indeholdt 259 toppe med lave FC værdier, og den anden gruppe indeholdt 28 toppe med høj FC værdier. Med en stratificeret FDR niveau på 10%, blev påvist i alt 16 DE toppe, som omfattede de fleste af de DE toppe detekteret i SpecAlign og MSW /PRO profiler ved hjælp af standard SNR’er med en PO
de
SC (
n
PO
de
MC) og PO
de
MC (
n
PO
de
MC) af en (1) og 0,75 (0,74), hhv. Ved at sænke SNR’er for SpecAlign og MSW /PRO blev lignende resultater opnås generelt (figur 5). Men efter SNR faldt til 1 for SpecAlign, PO
de
SC (
n
PO
de
SC) score var kun 0,5 (0,47). Dette resultat indikerer, at lagdelte FDR kontrol tilgang i høj grad kan øge afsløring magt, men der er stadig plads til forbedringer.
Brug Cromwell på standard SNR, opdaget lagdelte FDR kontrol tilgang 16 DE toppe ved 10% niveau. For SpecAlign og MSW /PRO, blev den enkle FDR kontrol fremgangsmåde, der anvendes til at vælge DE toppe. Alle PO
DE (
n
PO
DE) scoringer var væsentligt højere end forventet ved en tilfældighed (
s
0,013). For en detaljeret beskrivelse af figurerne se legenden til figur 3.
Men med Cromwell prostatakræft profil, de lagdelte og enkle FDR kontrol tilgange havde samme effekt (dvs. de opdaget det samme DE toppe). Dette resultat kan skyldes, at strømmen af den simple FDR kontrol tilgang til at identificere DE toppe allerede var højt.
Sammenligning med biomarkører rapporteret i den oprindelige brystkræft undersøgelse
I alt 5 DE toppe var rapporteret i den oprindelige undersøgelse af brystkræft datasæt [32]. Kort fortalt proceduren for forbehandling anvendt i den oprindelige papir omfattede Savitzky-Golay-filter, baseline subtraktion, normalisering til den samme totale ion strøm og udvinder toppe med SNR ikke mindre end 3,0, og DE toppe blev udvalgt med en
t
-statistic score 3,5. Vi vurderet, om disse 5 DE toppe kunne reproduceres ved hjælp af de tre pre-algoritmer med deres standard SNR’er. Da SpecAlign algoritme blev benyttet, blev påvist kun 2 af disse 5 DE toppe som toppe og derefter detekteres som DE toppe ved 10% FDR kontrol. Brug af MSW /PRO algoritme, blev alle 5 DE toppe identificeret som toppe og derefter detekteres som DE toppe. Brug af Cromwell algoritme, blev alle 5 DE toppe detekteret som toppe, men ingen blev valgt som en DE højdepunkt på FDR niveau på 10% af den simple FDR kontrol tilgang. Imidlertid blev alle 5 DE toppe indgår i de 16 DE toppe udvalgte hjælp af Cromwell algoritmen på FDR niveau på 10% ved anvendelse af stratificeret FDR kontrol.
Diskussion
Reproducerbarhed er af grundlæggende betydning for validering af biologiske opdagelser fra high-throughput data. I MS-undersøgelser, kan præ-algoritmer i høj grad påvirke biomarkør opdagelse. Brug af biologiske data for kræft, viste vores undersøgelse, at antallet af toppe identificeret i et datasæt varierer afhængigt af forbehandling metode. Den viste også, at sammenhængen i DE peak identifikation er påvirket af to vigtige faktorer, fraværet af nogle DE toppe i et andet højdepunkt profil og den reducerede statistisk magt DE peak identifikation i profiler med et stort antal af toppe, men et lille antal prøver . Vores resultater viser, at DE toppe valgt blandt små peak profiler tendens til at være reproducerbart detekteres i store profiler, når tilstrækkelig strøm til at identificere DE toppe i store profiler opnås gennem kraftfulde statistiske metoder, såsom den lagdelte FDR kontrol tilgang. Analyserne i denne undersøgelse kan udvides til andre MS-baserede proteom teknologier. For eksempel til tandem-massespektrometri (MS /MS), anvendelse af forskellige præ-algoritmer til topdetektion og forskellige søgemaskiner til matchende proteiner kunne producere forskellige proteinprofiler [43]. Således kunne de to faktorer afsløret i denne undersøgelse også påvirke konsistensen af biomarkør opdagelse i MS /MS-studier.
Baseret på en simulation undersøgelse, Cruz-Marcelo
et al
. [17] foreslog, at kombinationen af MassSpecWavelet og proces giver høj følsomhed med en lav FDR for peak påvisning. Men baseret på vores analyse af reproducerbarhed af top og DE topdetektion baseret på to reelle datasæt, MSW /PRO algoritme (dvs. kombinationen af MassSpecWavelet og Process) tendens til at detektere færre toppe end Cromwell, som viste, at det kunne være mindre følsomme for peak påvisning og måske gå glip af nogle DE toppe påvises ved hjælp af Cromwell.
Leave a Reply
Du skal være logget ind for at skrive en kommentar.