簡介

EQ-5D是描述和評估健康狀況的通用工具。它基於一個描述性係統,從5個維度定義健康:行動能力、自我照顧、日常活動、疼痛/不適和焦慮/抑鬱[1].每個維度有3個響應類別,分別對應於沒有問題、有些問題和極端問題。該儀器是為自我完成而設計的,受訪者還在訪談當天以0-100哈希標記的垂直視覺模擬量表(EQ-VAS)對他們的整體健康狀況進行評分。EQ-5D已在普通人群和患者樣本中廣泛測試和使用,並已被翻譯成130多種不同的語言版本[www.euroqol.org].

EQ-5D的設計目的是測量健康狀況的下降。該儀器的大量使用表明,它可能會受到上限效應的影響,特別是在一般人口調查中使用時,但在一些患者群體環境中也是如此[2- - - - - -8].因此,它在測量健康狀況的微小變化方麵可能存在問題,特別是在病情較輕的患者中。鑒於這些可能的局限性,並受到臨床領域需求的刺激,EuroQol集團決定探索改善EQ-5D測量性能的方法。

2005年,在EuroQol小組內成立了一個工作隊,調查提高儀器對中小健康變化的敏感性和減少上限效應的方法。最初的討論集中在通過增加額外維度來擴展描述性係統,以及擴大每個維度的嚴重程度級別[9].工作組決定,新版本的EQ-5D不應該改變維度的數量。使用EQ-5D 25年的經驗證明,最初的尺寸選擇是合理的,盡管在某些領域所包含的尺寸範圍可能不是最佳的[1011].此外,EuroQol集團在使用當前五維模型測量和評估健康方麵有豐富的經驗,保留該模型將使現有EQ-5D更容易過渡到新版本。

就每個維度的級別數量而言,EuroQol集團成員先前發表的研究表明,EQ-5D的5級原型版本可以顯著提高可靠性和靈敏度(區分能力),同時保持可行性並可能減少天花板效應[12- - - - - -15].5級描述係統的選擇也得到大量心理測量學文獻的支持[16- - - - - -18].因此,新版本的EQ-5D應該在現有的五個EQ-5D維度中包括五個嚴重級別,因此新版本將被稱為EQ-5D- 5l。現有的EQ-5D將被重新命名為EQ-5D- 3l,這是它在本文其餘部分將被引用的方式。

本研究的目的是為EQ-5D-5L選擇嚴重程度標簽,並測試結果儀器的表麵和內容效度。這項研究同時在英國和西班牙進行。

方法

EuroQol小組工作組建議並行開發英語和西班牙語版本,它們也可以作為進一步翻譯和改編擴展版本的根語言。

這項研究分為兩個階段。在2007年6月至11月進行的第一階段,確定了新級別的潛在標簽池,並在與外行受訪者的方便樣本進行麵對麵訪談後,從該池中選擇了5級版本的臨時標簽。在2008年5月至7月進行的第二階段,在健康參與者和患有慢性疾病的參與者的焦點小組會議上測試了兩個備選5級係統的麵孔和內容效度。第二階段還用於測試基於5級版本的一係列健康狀態的表麵有效性。研究的兩個階段采用了不同的受訪者群體。

兩個階段的參與者都被招募,以確保具有廣泛的社會人口特征。在反應評估階段,英國的參與者是通過當地報紙廣告、當地社區廣告和現有的參與者數據庫招募的。西班牙的參與者是從當地學校的家長和患者協會中招募的。患者焦點組主要包括患有關節炎、糖尿病或哮喘的患者。在所有小組中,都要求具備足夠的英語或西班牙語的書麵和口頭流利性。

在研究的兩個階段,所有參與者都獲得了書麵知情同意。

階段1:響應擴展

EQ-5D-5L的潛在標簽是通過對現有健康相關生活質量儀器的回顧、對反應量表的文獻回顧、手工搜索字典和辭典,以及對目標語言母語者的非正式訪談來確定他們如何描述不同嚴重程度的健康問題。以英文和西班牙文進行了同樣的程序,並在可能的情況下設法以這兩種語文使用相同的措詞。包含在初始池中的標簽顯然必須符合EQ-5D-3L中使用的詞彙結構,例如“我在做我的日常活動時沒有問題”和“我在做我的日常活動時有一些問題”。

為了從新水平的標簽池中選擇標簽,麵試官管理的響應縮放練習類似於以前的研究中使用的方法[141920.]來估計每個標簽所代表的嚴重程度。在這個練習中,受訪者被展示了一個評分量表,其形式是一個垂直的、哈希標記的40厘米視覺模擬量表(VAS),終點為0和100,用於評分標簽嚴重程度的視覺輔助。對於機動性、自我護理和日常活動維度,使用了同一組標簽。麵試官在量表的底部(0)放置了一張標簽為“沒問題”、“沒有疼痛/不適”或“沒有焦慮/抑鬱”的卡片作為下錨,在刻度表的底部(100)放置了一張標簽為“無法”、“我能想象到的最嚴重的疼痛或不適”、“我能想象到的最焦慮或抑鬱”的卡片作為上錨。然後,以準隨機的順序向受訪者單獨展示池中的其他標簽,並要求他們在0到100之間分配一個分數,以表明與較低和較高錨相關的標簽嚴重程度。

麵試官記錄了所有的分數,當受訪者對某一特定維度的所有標簽進行評分時,麵試官將它們與VAS一起按等級順序排列,並要求受訪者審查排名,並做出他或她認為必要的任何更改。如果標簽在這一點上被重新排序,被調查者被要求為相關標簽分配一個新的分數。最後的分數被記錄在一本答案小冊子上。對每個維度重複縮放任務。在結束卡片之前,受訪者被問及是否有任何標簽聽起來不尋常,或者不應該用於特定的維度。

受訪者在這五個方麵都對標簽進行了評分。三個功能維度(活動能力、自我照顧和日常活動)總是被疼痛/不適和焦慮/抑鬱維度所穿插,因此受訪者不會連續地對相同的標簽類型進行評分。在對實際標簽進行評分之前,受訪者根據整體健康水平執行了一項練習任務,以適應研究要求。年齡、受教育程度、主要活動、當前健康問題治療的使用情況等數據,連同現有的EQ-5D-3L描述係統和EQ-VAS,在響應縮放任務後收集。

在主要響應縮放任務之前,進行了一個試點測試,以測試研究程序和材料。根據初步研究的結果,從初始池中刪除了一些標簽,以實現響應擴展任務更易於管理的數量。特別是,任何使用額外修飾語的標簽,如“非常”或“相當”,以及任何被認為過於口語化或語言水平過高的標簽都被刪除了。經過初步測試,得出的結論是,對於單個受訪者來說,每個維度的可行限製約為10-12個標簽。

通過計算平均值和中位數以及相應的標準差和四分位差(IQR)來分析對縮放任務的響應。標簽是根據數據收集開始前確定的標準選擇進行進一步測試的。其中包括選擇接近或位於VAS第25、50和75百分位的標簽,以確保各維度的一致性和與描述係統中的措辭的一致性。在決定將哪些標簽帶入下一階段時,沒有進行標簽分數的定量比較;中位數分數被簡單地用作指南,以確定哪些標簽最接近第25、50和75百分位。標簽也必須用口語化語言。在研究過程中,工作隊在幾次會議上討論了標簽的選擇及其適當性。

階段2:測試備選5級版本的外觀和內容有效性

響應縮放任務的結果導致了兩個(而不是一個)中間結果,英國英語和西班牙語的替代5級版本(有關解釋,請參閱結果)。研究的第二部分旨在評估這兩個版本的易用性、理解性、解釋性和可接受性,並使用這些結果來決定驗證工作的最終確定版本。這部分研究的另一個目的是評估由5級描述係統產生的一些假設健康狀態的表麵有效性。為此目的,在每個國家的8個焦點小組(共16個小組)對兩個替代版本進行了測試;其中4人是健康的參與者,4人正在接受健康狀況的治療。

小組由一位經驗豐富的主持人領導,會議錄音並轉錄以供分析。所有組均遵循預先準備的腳本。每個組的所有參與者首先完成EQ-5D-5L的選項1或選項2(取決於他們被分配到的組),然後是EQ-VAS。然後,參與者被要求回顧他們的答案,以及他們在完成調查時的想法。進一步的問題被用來更詳細地探究他們對問卷的反應,特別是他們對所使用的嚴重標簽的反應。然後,參與者在被要求完成補充的替代方案2或替代方案1之前,提供了社會人口信息,之後,他們的反應進行了進一步的小組討論。最後,參與者被問及他們對替代描述係統的偏好。版本1和版本2的給藥順序在兩組之間交替進行,以控製可能的排序效果,並且將組隨機分配到不同的順序。

在焦點小組的最後階段,參與者討論了一組假設的健康狀態,這些狀態是通過使用替代的5級版本將5個維度的不同級別結合起來產生的。表中顯示了測試的運行狀況狀態示例1.參與者回顧了這些狀態,並被要求評估它們的表麵有效性、可解釋性和合理性。其餘組也采用了相同的程序,隻是不同版本問卷的執行順序相反。

表1在第二階段焦點小組中測試的兩個健康狀態的例子

焦點小組是使用結構化的“腳本”或指南進行的,因此分析最初是基於分組和對比參與者針對每個具體問題的陳述。專題內容分析[21用來更深入地探討問題,並檢查其他非腳本語句和表達的文本。

結果

響應比例

在西班牙,為了獲得40人的最終樣本,最初邀請了53人參與。在同意參加麵試的40人中,有3人在麵試當天沒有參加,最後留下了37人的樣本。在英國,采用的招募策略得到了公眾的良好反應,所以所有有興趣參與這項研究的人都被邀請參加,直到招募了40名參與者。40名參加者均如期參加麵試。在英國和西班牙參加反應量表測試的人的樣本特征見表2以及對兩國的參考值。在這兩個國家中,參與者按年齡和性別平均分布,但就教育水平而言,西班牙的樣本中包括更多受教育程度較高的人,在這兩個國家中,受教育程度較高的樣本比例大大高於一般人口參考值。

表2響應縮放任務中參與者的樣本特征與英國和西班牙一般人口數據進行比較

對機動性、自我護理和日常活動三個維度的響應縮放任務的結果見表3.以及表中疼痛/不適和焦慮/抑鬱的維度4.兩國在所有維度上的標簽排序相似,同一標簽的中位數評分在不同維度和兩種語言之間基本相似。例如,“輕微”和“水平”在三個功能維度上的中位數得分為15分(除了西班牙在自我護理維度上的得分為20分);同樣,“嚴重”和“嚴重”在功能維度上的得分都在82到88之間,“溫和”和“溫和”在兩種語言的所有維度上的得分中值都在40到50之間。一些標簽的差異更大,比如“mayores”和“major”在功能維度上,“quite”和“bastante”在焦慮/抑鬱維度上,但這些標簽都不在最終選擇的標簽之列。在縮放方麵,最接近中點的標簽是“中等”。從邏輯上講,“適度”這個標簽描述的是問題的性質,而不是問題的數量(例如“少量”)。因此,決定選擇與此一致的其他標簽。

表3英國和西班牙流動性、自我照顧和日常活動標簽的中位數(IQR)得分比較(括號中為西班牙標簽)
表4英國和西班牙疼痛/不適和焦慮/抑鬱標簽的中位數(IQR)得分比較

基於這一決定,確定了兩個5級版本:在功能維度的情況下,英國測試的替代方案是“沒有問題-小問題-中等問題-嚴重問題-不能”和“沒有問題-輕微問題-中等問題-嚴重問題-不能”。在疼痛/不適和焦慮/抑鬱維度中,測試的替代標簽是“輕度”和“輕微”作為第二級,“嚴重疼痛”或“非常疼痛”和“嚴重”或“非常”焦慮或抑鬱作為第四級。西班牙也采用了類似的標簽選擇過程。

焦點小組

焦點組的樣本特征見表5.兩國之間的主要區別在於教育水平,英國樣本的教育水平要高得多;英國樣本中93.3%的健康參與者和66.7%的患者在畢業後繼續接受某種形式的高等教育,而西班牙樣本中這一比例分別為33.3%和21.0%。

表5焦點組受訪者樣本特征;健康參與者和患者組,英國和西班牙

在西班牙和英國,參與者普遍認為這兩個替代版本都很容易理解和完整,給出了諸如“問題很好地製定和具體”之類的評論。關於新的嚴重程度標簽,與會者評論說,“它們是非常明確的點,毫無疑問,你在每個維度上都從少到多”,並且“似乎涵蓋了所有不同的級別”。一些西班牙受訪者認為,有些標簽可能很難區分,尤其是在較低端的標簽。然而,針對每個標簽所反映的問題類型的反應比例測試和評論的結果表明,大多數受訪者完全能夠區分所使用的不同標簽。

不同的版本並不是同樣有吸引力,在兩個國家的參與者都傾向於選擇版本2,它使用“輕微”、“中等”和“嚴重”作為流動性、自我護理和日常活動維度的中心水平,而不是“輕微”、“中等”和“嚴重”問題。後者通常被認為不那麼口語化。一個典型的評論是,你可能會用它們“和醫生或其他人交談……但我無法想象對一個走路有小問題的朋友或家人說”。“輕微”和“嚴重”被一名參與者描述為“常見語言”,“不用多想就能引發回應”。少數參與者確實更喜歡“小調”和“大調”,這表明這是“更現代的語言”;其他參與者認為,不同的標簽組之間的差異很小。

在疼痛/不適和焦慮/抑鬱維度,參與者對標簽的偏好不是很清楚。因此,在英國和西班牙版本中,決定保持與功能維度相同的比例(“輕微”,“中等”,“嚴重”)。

參與者關於他們解釋嚴重程度標簽的方式的評論表明,標簽在預期的測量水平上運行良好。例如,在描述自我護理方麵的“小問題”時,一位患者說:“也許你背部肌肉拉傷,很難洗頭。”當提到行動能力的“中度問題”時,參與者解釋說,“即使我必須使用拐杖四處走動,我仍然可以自己站起來,我可以四處走動”和“由於我的膝蓋,我在走路方麵有中度問題。它描述得很好,不多也不少。”另一方麵,為了描述這個維度的“嚴重問題”,例子包括那些因為關節炎或椎間盤突出而在走路時經曆巨大疼痛的人。

基於新標簽係統的健康狀態測試

參與者發現,無論使用哪種版本,都相對容易理解健康狀態。事實上,評論更多地集中在健康狀況的內容上,特別是他們認為健康狀況存在矛盾或缺乏現實主義的地方,而不是健康狀況的措辭方式。例如,一位受訪者表示,對她來說,“洗衣服是日常活動,因此被包括在日常活動中[所以這兩個維度不應該是分開的)”。另一方麵,所使用的標簽並不妨礙了解健康狀況,參與者一般都能很容易地區分健康狀況。在這個意義上,5級描述係統的兩個替代版本似乎都同樣有效,盡管當被明確詢問時,大多數參與者在前三個維度上更喜歡“輕微-中等-嚴重”的替代版本。

討論

本文報告了為西班牙開發新的5級英語和西班牙語版EQ-5D的過程和結果。通過使用響應規模和焦點小組,有可能開發出英國英語和西班牙語的5級版本,這些版本已經證明了初始內容和表麵有效性。反應比例計算的結果表明,所選標簽在整個健康連續體中分布良好,在兩個國家的分布情況相似。

雖然EQ-5D的5級版本之前已經開發和應用,但它們是由個別小組成員或研究團隊準備和測試的實驗版本[12- - - - - -15].這裏報告的英國英語和西班牙語版本是EuroQol集團官方倡議的第一個結果,它們應該被認為是最終版本,依賴於進一步的有效性、可靠性和對變化的敏感性測試。會議還利用這個機會協調了文書內的措辭,例如,將行動不便維度中健康狀況極差的措辭改為“無法走動”,而不是“臥床不起”。

至於在每個維度中使用5個層次的決定,這個問題被詳細討論,因為它也可以跨領域使用不同數量的層次(事實上,EQ的第一個版本是一個6域儀器,其中3個領域有3個層次,其他有2個層次[22])。兩種論點導致選擇了統一的五級文書。首先,似乎沒有自然或明顯的理由來應用不同的等級:當前EQ的所有領域都指的是“不可數”實體,其中所有範圍都必須用一般的分級術語來指代。這些可以基於功能障礙/殘疾的頻率或強度,但原則對所有情商領域是相同的。同樣地,我們也沒有先驗的偏好,試圖在一個特定的領域比其他領域更多地(或更少地)歧視。第二,建立一個平等的製度有明顯的實用性。自我報告自己的健康狀況(用於描述)和權衡任務(用於評估)可以說更容易解釋和理解:使用不同數量的級別可能會導致“缺失”級別的問題。跨維度標簽選擇的一致性(盡可能使用“輕微”、“中度”、“嚴重”)應通過便利應答者解釋、幫助構建健康狀況和簡化翻譯過程來簡化使用問卷的操作方麵。我們意識到,“輕微”、“中等”和“嚴重”等術語在解釋上可能存在文化內部和文化間的差異,因此,我們修改了5L版本的翻譯程序,以更徹底地測試受訪者對這些術語的解釋。

在英國和西班牙,響應縮放任務的結果基本相似,分配給標簽的分數在各個維度上通常隻有最小的變化。例如,無論國家和維度如何,“中等”的反應縮放得分總是在40到50之間。這些結果表明在響應縮放評分中有一定的穩健性。

同樣,盡管EQ-5D-5L中使用的大多數標簽可以被認為是口語化的,但一些焦點小組參與者的評論表明,某些術語(特別是“溫和”)在這種情況下聽起來不尋常。另一方麵,與響應縮放練習獲得的結果的一致性表明,受訪者實際上在理解所提到的問題的水平方麵沒有困難。也很難找到任何其他合適的術語接近嚴重連續體的中心點。新EQ-5D-5L的定量測試將為所選標簽的適當性提供額外的證據。

本研究為測試EQ-5D-5L衍生的健康狀態的可理解性和表麵有效性提供了機會。同樣,參與者理解新標簽意在描述的問題的水平沒有什麼困難;相反,大多數評論提到了兩國參與者認為不太可能或自相矛盾的健康狀況。例如,一些受訪者認為,在同樣的健康狀態下,“洗衣服沒有問題”和“不能走路”會讓人感到不舒服。然而,這更多的是屬性之間關係的問題,而不是屬性級別內的描述,因此很可能與EQ-5D的3級和5級版本有關。為了考慮到這類評論,EuroQol小組一直在討論在未來對5級版本進行估值研究之前使用這種可信性測試和認知彙報。

之所以選擇西班牙語和英語作為EQ-5D-5L初始開發的兩種語言,是因為它們是世界上使用最廣泛的兩種語言,而且在一定程度上,它們可以作為翻譯成許多其他語言的根語言。法國和中國版本的EQ-5D-5L最近也使用類似的方法開發。

限製

當前研究的一個局限性是,由於實際原因,沒有評估反應尺度評分的測試-重測可靠性。此外,我們也注意到,在這類比例測試中,沒有一種主要儀器進行了測試-再測試[1920.].該研究的另一個局限性可能是使用的反應量表方法,其中標簽最初是獨立評定的,隻有VAS錨點提供上下文。雖然受訪者後來有機會糾正他們認為根據他們提供的評級對標簽進行排名時不一致的評級,但如果標簽最初是在其他標簽的背景下進行評級,例如使用配對選擇練習,則值可能會有所不同。盡管如此,調查結果在各個維度和國家之間是相當一致的,在焦點小組中具有良好的表麵效度,這表明最終的排序是受訪者可以接受的。進一步的限製是,我們使用方便樣本進行響應標度測試,這些樣本不能代表全國人口,而且所使用的樣本量相當小,盡管與類似研究一致[20.23].這些問題可能會限製研究結果的普遍性。最後,在反應量表測試和焦點小組中,接受過高等教育的參與者比例都很高。這可能會導致更一致的結果和更大的接受措辭的情況下,如果樣本包括更多的受訪者在較低的教育水平。今後這類研究的目標應該是納入更均衡、更有代表性的樣本。

開發的下一步將是在一般人群和臨床樣本中現場測試EQ-5D-5L和EQ-5D-3L,以評估EQ-5D-5L的心理測量特性(敏感性,有效性和可靠性),並將它們與EQ-5D-3L進行比較。還需要進一步的工作來確定嚴重性標簽的跨文化等效程度。為此,需要使用等概率選擇方法適當構造樣本,這些樣本足夠大,以研究本文提出的問題。此外,還需要根據新的大規模評估工作為EQ-5D-5L開發價值集。這些估值工作的準備工作正在進行中。

總之,新的EQ-5D-5L的官方版本現在以英國英語和西班牙語存在,並且翻譯已經在另外25個國家使用。英國英語和西班牙語的西班牙版本已經顯示了初始內容和表麵效度,盡管進一步的心理測試不僅需要效度和信度,還需要對EQ-5D-5L的變化進行敏感性測試,這是開發EQ-5D-5L估值集的必要前提。預計EQ-5D-5L將比EQ-5D-3L具有更好的辨別能力和變化敏感性,以及更小的天花板效應。