引用本文: 王海平, 向良成, 張偉, 袁佳英, 李梅, 馮萍. 客觀結構化臨床考試信度的Meta分析. 中國循證醫學雜志, 2014, 14(7): 878-883. doi: 10.7507/1672-2531.20140145 復制
客觀結構化臨床考試(objective structured clinical examination,OSCE)又名臨床多站式考試,是考生通過事先設計好的系列考站,每個考站要求考生在規定時間內根據程式化的臨床技能標準完成一系列臨床操作的臨床能力評估考試。該考試方法由英國鄧迪大學的R. M. Harden博士[1]于1975年提出,并在全世界范圍內被廣泛采用,加拿大和美國相繼將其應用于國家醫師執照考試和國外醫學畢業生醫師執照考試。我國在20世紀90年代初期開始引入OSCE,并在一些高等醫學院校做了有益嘗試。
OSCE作為一種臨床技能測評工具,保證其信度是考試成功與否的關鍵。信度描述的是測驗結果的精確度、一致性和可重復性[2]。測量信度的方法有重測信度法(組內相關系數法)、分半信度法和Cronbach’s α系數,目前最常用的指標是Cronbach’s α系數[3]。Cronbach’s α系數值介于0~1之間,Cronbach’s α值越大表示信度越高,一般而言α大于0.8表示內部一致性極好,α在0.6~0.8表示較好,而低于0.6表示內部一致性較差[4]。然而,目前文獻中報道OSCE的信度不一[5],已報道OSCE的Cronbach’s α系數在0.100 [6]~0.929 [7]之間,差異較大,導致對OSCE考試可信度的質疑,但目前尚缺乏對OSCE信度進行綜合評估的研究。因此,本文收集國內外采用OSCE評價醫學生臨床能力并使用Cronbach’s α系數進行OSCE信度測量的研究,采用Meta分析對OSCE的信度進行整合與探討,以判斷OSCE作為國內外醫學生臨床能力評估考試是否具有較好的可信度。
1 資料與方法
1.1 納入與排除標準
1.1.1 研究類型
國內外公開發表的采用OSCE評價醫學生臨床能力的橫斷面調查研究。
1.1.2 研究對象
醫學生(包括臨床、護理等專業)、臨床醫師、實習醫師等需進行臨床能力評估的人群。
1.1.3 結局指標
Cronbach’s α系數。
1.1.4 排除標準
①僅分開計算各個考站的Cronbach’s α系數,未計算OSCE總Cronbach’s α系數的研究;②采用其他內部一致性評估方法的研究,如重測信度法(組內相關系數法)、分半信度法等;③對重復或資料雷同的研究僅采用數據最全、最新的一個研究。
1.2 檢索策略
計算機檢索PubMed、ScienceDirect、CNKI、WanFang Data和VIP,收集采用OSCE評價醫學生臨床能力并使用Cronbach’s α系數進行OSCE信度測量的研究,檢索時限均為1998年1月至2013年5月。同時追溯納入文獻的參考文獻,根據不同數據庫,采用主題詞與自由詞相結合的方式進行檢索。中文檢索詞包括:客觀結構化考試、信度;英文檢索詞包括objective structured clinical examination、OSCE、reliability、Cronbach's a。以PubMed為例,其具體檢索策略見框1。
框?1?PubMed檢索策略
#1 ? objective structured clinical examination OR OSCE #2? reliability #3 ?Cronbach’s a #4 ?#1 AND #2 AND #3
1.3 文獻篩選、資料提取與質量評價
由2位研究者按納入與排除標準獨立篩選文獻并交叉核對,如遇分歧,討論解決或由第三方裁決。按預先設計的資料提取表,由一位研究者提取和錄入資料,另一位研究者進行核對。資料提取內容包括研究作者、發表年份、調查地點、調查人群的基本特征、人數、考站、Cronbach’s α系數等信息。納入研究的方法學質量采用美國衛生保健質量和研究機構(AHRQ)評價橫斷面研究的標準進行評價,包括11個條目,分別用“是”、“否”及“不清楚”表示。
1.4 統計分析
采用SPSS 17.0軟件進行統計分析。使用Rodriguez和Maeda [8]提出的Cronbach’s α系數效應量計算方法,首先對偏態的α系數進行正態轉換(Ti=(1-rai)^(1/3)),其中rai為第i個研究的Cronbach’s α系數,
2 結果
2.1 文獻檢索結果
初檢出文獻389篇,經逐層篩選后,最終納入34個研究(53個Cronbach’s α系數)[6, 7, 9-39, 42],其中英文研究18個(28個Cronbach’s α系數),中文研究16個(25個Cronbach’s α系數)。文獻篩選流程及結果見圖 1。

2.2 納入研究的基本特征
見表 1。

2.3 納入研究的方法學質量評價
結果見表 2。

2.4 Cronbach’s α系數分布
見圖 2。Cronbach’s α系數的偏度系數SKEW為-1.050,標準誤為0.329,Z值為-3.19,P < 0.05,即可認為Cronbach’s α系數是右偏的資料。

2.5 Meta分析結果
由于Cronbach’s α系數呈非正態分布,本研究采用Rodriguez和Maeda提出的Cronbach’s α系數效應量計算方法進行Meta分析。
異質性檢驗采用Q檢驗,Q統計量服從ν=k-1(k為Cronbach’s α系數個數)的χ2分布,固定效應模型分析結果顯示Q值均大于相對應的χ0.10, 172(36.74)、χ0.10, 242(33.20)和χ0.10, 602(74.40),故應拒絕Cronbach’s α系數是同質的原假設,需采用隨機效應模型進行Meta分析(表 3),其中權重wi的計算參考Hedges和Vevea的研究[40]。

3 討論
對于醫學這種實踐性較強的學科來說,傳統醫學考試只能考察學生知道什么,而OSCE不僅能考察學生知道什么,還能考察學生會做什么。OSCE更加關注臨床思維的建立、臨床知識的運用、臨床操作的實踐及綜合能力的提高,促進學生在這些領域實現自我成長。
本研究采用Rodriguez和Maeda提出的Cronbach’s α系數的Meta分析方法對國內外OSCE的Cronbach’s α系數進行綜合評價,判斷國內外進行的OSCE是否可靠,為今后評價OSCE的信度提供參考標準。結果發現,國內外進行的OSCE的可靠性在可接受范圍內,即從信度方面評價OSCE的質量,國內外進行的OSCE的質量較高(總Cronbach’s α系數=0.700),OSCE能可靠地評價醫學生的臨床技能。
本研究異質性檢驗結果顯示各研究之間存在一定異質性。首先,異質性的存在可能與各研究設置的考站數目不同有關,國外設置的考站數目一般較國內多。其次,OSCE考試前準備階段需要培養SP(Standard Patient,標準化病人),SP的招募有嚴格要求,必須符合以下條件[41]:①有一定文化程度;②有較好的語言表達和交流能力;③具有敬業精神;④非醫務人員。其可以是有或無某些陽性體征的病人,也可以是健康人。SP的培養周期較長、管理復雜,故各院校在招募及培養SP的過程中會有差異。
國內和國外OSCE的分層Meta分析結果顯示:國外的OSCE可靠性較高,而國內的OSCE基本可信,這主要與國內進行OSCE時設置的考站數目較國外少,且國外OSCE發展較早,在SP的培訓及考站的合理設置上更成熟有關。
信度是考試可靠性評價的重要指標,諸多研究表明影響OSCE可靠性的主要因素是考站的數量和質量,OSCE包括的臨床站點越少,測驗越短,其測量結果愈容易受試題取樣偶然因素的影響,信度就會降低[42, 43]。Hofer等[44]的研究發現,考站為5個時,Cronbach’s α系數為0.69,而當考站增加到8個時,Cronbach’s α系數為0.8。但隨著OSCE考站數增加,需培訓的SP個數會增加,考前準備時間會延長,人力、物力和資金的投入也將隨之加大。因此,如何利用有限的資源使OSCE考試的信度達到可接受的范圍成為研究重點。David等[45]的研究認為,設置8個問題(16個考站)即可達到可接受的信度0.8,推薦考試時間應設為3個小時。四川大學高鐳等[46]用多元概化模型研究OSCE的信度,得出OSCE設置8個SP考站與14個非SP考站可全面兼顧測量的可靠性與有效性要求的結論。
綜上所述,現有研究顯示國內外進行的OSCE的可靠性均在可接受范圍內,但國外OSCE的Cronbach’s α系數值稍高于國內。客觀結構化臨床考試能可靠地評價醫學生臨床綜合能力。國內OSCE發展較晚,各院校正在努力完善題庫建設、SP培訓及考站設置等方面的內容,爭取提高OSCE的質量,力求更加全面地評估、考核學生的臨床知識、臨床技能、分析和解決問題及合作、交流的能力。
客觀結構化臨床考試(objective structured clinical examination,OSCE)又名臨床多站式考試,是考生通過事先設計好的系列考站,每個考站要求考生在規定時間內根據程式化的臨床技能標準完成一系列臨床操作的臨床能力評估考試。該考試方法由英國鄧迪大學的R. M. Harden博士[1]于1975年提出,并在全世界范圍內被廣泛采用,加拿大和美國相繼將其應用于國家醫師執照考試和國外醫學畢業生醫師執照考試。我國在20世紀90年代初期開始引入OSCE,并在一些高等醫學院校做了有益嘗試。
OSCE作為一種臨床技能測評工具,保證其信度是考試成功與否的關鍵。信度描述的是測驗結果的精確度、一致性和可重復性[2]。測量信度的方法有重測信度法(組內相關系數法)、分半信度法和Cronbach’s α系數,目前最常用的指標是Cronbach’s α系數[3]。Cronbach’s α系數值介于0~1之間,Cronbach’s α值越大表示信度越高,一般而言α大于0.8表示內部一致性極好,α在0.6~0.8表示較好,而低于0.6表示內部一致性較差[4]。然而,目前文獻中報道OSCE的信度不一[5],已報道OSCE的Cronbach’s α系數在0.100 [6]~0.929 [7]之間,差異較大,導致對OSCE考試可信度的質疑,但目前尚缺乏對OSCE信度進行綜合評估的研究。因此,本文收集國內外采用OSCE評價醫學生臨床能力并使用Cronbach’s α系數進行OSCE信度測量的研究,采用Meta分析對OSCE的信度進行整合與探討,以判斷OSCE作為國內外醫學生臨床能力評估考試是否具有較好的可信度。
1 資料與方法
1.1 納入與排除標準
1.1.1 研究類型
國內外公開發表的采用OSCE評價醫學生臨床能力的橫斷面調查研究。
1.1.2 研究對象
醫學生(包括臨床、護理等專業)、臨床醫師、實習醫師等需進行臨床能力評估的人群。
1.1.3 結局指標
Cronbach’s α系數。
1.1.4 排除標準
①僅分開計算各個考站的Cronbach’s α系數,未計算OSCE總Cronbach’s α系數的研究;②采用其他內部一致性評估方法的研究,如重測信度法(組內相關系數法)、分半信度法等;③對重復或資料雷同的研究僅采用數據最全、最新的一個研究。
1.2 檢索策略
計算機檢索PubMed、ScienceDirect、CNKI、WanFang Data和VIP,收集采用OSCE評價醫學生臨床能力并使用Cronbach’s α系數進行OSCE信度測量的研究,檢索時限均為1998年1月至2013年5月。同時追溯納入文獻的參考文獻,根據不同數據庫,采用主題詞與自由詞相結合的方式進行檢索。中文檢索詞包括:客觀結構化考試、信度;英文檢索詞包括objective structured clinical examination、OSCE、reliability、Cronbach's a。以PubMed為例,其具體檢索策略見框1。
框?1?PubMed檢索策略
#1 ? objective structured clinical examination OR OSCE #2? reliability #3 ?Cronbach’s a #4 ?#1 AND #2 AND #3
1.3 文獻篩選、資料提取與質量評價
由2位研究者按納入與排除標準獨立篩選文獻并交叉核對,如遇分歧,討論解決或由第三方裁決。按預先設計的資料提取表,由一位研究者提取和錄入資料,另一位研究者進行核對。資料提取內容包括研究作者、發表年份、調查地點、調查人群的基本特征、人數、考站、Cronbach’s α系數等信息。納入研究的方法學質量采用美國衛生保健質量和研究機構(AHRQ)評價橫斷面研究的標準進行評價,包括11個條目,分別用“是”、“否”及“不清楚”表示。
1.4 統計分析
采用SPSS 17.0軟件進行統計分析。使用Rodriguez和Maeda [8]提出的Cronbach’s α系數效應量計算方法,首先對偏態的α系數進行正態轉換(Ti=(1-rai)^(1/3)),其中rai為第i個研究的Cronbach’s α系數,
2 結果
2.1 文獻檢索結果
初檢出文獻389篇,經逐層篩選后,最終納入34個研究(53個Cronbach’s α系數)[6, 7, 9-39, 42],其中英文研究18個(28個Cronbach’s α系數),中文研究16個(25個Cronbach’s α系數)。文獻篩選流程及結果見圖 1。

2.2 納入研究的基本特征
見表 1。

2.3 納入研究的方法學質量評價
結果見表 2。

2.4 Cronbach’s α系數分布
見圖 2。Cronbach’s α系數的偏度系數SKEW為-1.050,標準誤為0.329,Z值為-3.19,P < 0.05,即可認為Cronbach’s α系數是右偏的資料。

2.5 Meta分析結果
由于Cronbach’s α系數呈非正態分布,本研究采用Rodriguez和Maeda提出的Cronbach’s α系數效應量計算方法進行Meta分析。
異質性檢驗采用Q檢驗,Q統計量服從ν=k-1(k為Cronbach’s α系數個數)的χ2分布,固定效應模型分析結果顯示Q值均大于相對應的χ0.10, 172(36.74)、χ0.10, 242(33.20)和χ0.10, 602(74.40),故應拒絕Cronbach’s α系數是同質的原假設,需采用隨機效應模型進行Meta分析(表 3),其中權重wi的計算參考Hedges和Vevea的研究[40]。

3 討論
對于醫學這種實踐性較強的學科來說,傳統醫學考試只能考察學生知道什么,而OSCE不僅能考察學生知道什么,還能考察學生會做什么。OSCE更加關注臨床思維的建立、臨床知識的運用、臨床操作的實踐及綜合能力的提高,促進學生在這些領域實現自我成長。
本研究采用Rodriguez和Maeda提出的Cronbach’s α系數的Meta分析方法對國內外OSCE的Cronbach’s α系數進行綜合評價,判斷國內外進行的OSCE是否可靠,為今后評價OSCE的信度提供參考標準。結果發現,國內外進行的OSCE的可靠性在可接受范圍內,即從信度方面評價OSCE的質量,國內外進行的OSCE的質量較高(總Cronbach’s α系數=0.700),OSCE能可靠地評價醫學生的臨床技能。
本研究異質性檢驗結果顯示各研究之間存在一定異質性。首先,異質性的存在可能與各研究設置的考站數目不同有關,國外設置的考站數目一般較國內多。其次,OSCE考試前準備階段需要培養SP(Standard Patient,標準化病人),SP的招募有嚴格要求,必須符合以下條件[41]:①有一定文化程度;②有較好的語言表達和交流能力;③具有敬業精神;④非醫務人員。其可以是有或無某些陽性體征的病人,也可以是健康人。SP的培養周期較長、管理復雜,故各院校在招募及培養SP的過程中會有差異。
國內和國外OSCE的分層Meta分析結果顯示:國外的OSCE可靠性較高,而國內的OSCE基本可信,這主要與國內進行OSCE時設置的考站數目較國外少,且國外OSCE發展較早,在SP的培訓及考站的合理設置上更成熟有關。
信度是考試可靠性評價的重要指標,諸多研究表明影響OSCE可靠性的主要因素是考站的數量和質量,OSCE包括的臨床站點越少,測驗越短,其測量結果愈容易受試題取樣偶然因素的影響,信度就會降低[42, 43]。Hofer等[44]的研究發現,考站為5個時,Cronbach’s α系數為0.69,而當考站增加到8個時,Cronbach’s α系數為0.8。但隨著OSCE考站數增加,需培訓的SP個數會增加,考前準備時間會延長,人力、物力和資金的投入也將隨之加大。因此,如何利用有限的資源使OSCE考試的信度達到可接受的范圍成為研究重點。David等[45]的研究認為,設置8個問題(16個考站)即可達到可接受的信度0.8,推薦考試時間應設為3個小時。四川大學高鐳等[46]用多元概化模型研究OSCE的信度,得出OSCE設置8個SP考站與14個非SP考站可全面兼顧測量的可靠性與有效性要求的結論。
綜上所述,現有研究顯示國內外進行的OSCE的可靠性均在可接受范圍內,但國外OSCE的Cronbach’s α系數值稍高于國內。客觀結構化臨床考試能可靠地評價醫學生臨床綜合能力。國內OSCE發展較晚,各院校正在努力完善題庫建設、SP培訓及考站設置等方面的內容,爭取提高OSCE的質量,力求更加全面地評估、考核學生的臨床知識、臨床技能、分析和解決問題及合作、交流的能力。