引用本文: 李雪迎, 王熙誠, 沙若琪, 姚晨, 晉菲斐, 閻小妍, 朱賽楠, 尚美霞. 臨床研究數據安全等級劃分的初步探索. 中國循證醫學雜志, 2021, 21(5): 525-531. doi: 10.7507/1672-2531.202012111 復制
在臨床醫學的發展過程中,臨床研究是推動學科發展,提高臨床醫療能力的重要方法。就臨床研究而言,準確可靠的臨床信息獲取是支撐臨床研究的基石,與科學技術的進展和研究方法學的完善一起推動臨床研究發展。從臨床研究數據應用目標和特征看,臨床研究數據范疇廣泛,不僅包括了來自各種原始臨床研究數據、也有基于臨床保存的生物樣本產生的數據,還包括了基于已發表臨床研究數據的二次研究應用。因此,現有針對臨床醫療過程的數據安全性策略并不適宜直接應用于臨床研究數據的安全性管理。
在信息技術日新月異的今天,臨床研究數據的獲取方式正發生著巨大的變化。來源于臨床醫療數據、健康檔案信息、可穿戴設備直接收集的數據等,可以更便捷地應用于臨床研究。這極大地推動了數據的利用,同時也給數據系統管理提出了更高的要求。就臨床研究本身而言,數據的可利用性和準確性是我們關注的核心,包含可歸因性(attributable)、同時性(contemporaneous)、原始性(original)、準確性(accurate)和完整性(complete)、一致性(consistent)、持久性(enduring)、可用性(available)要求的 ALCOA+CCEA 數據質量標準,成為了臨床研究廣泛接受的數據質量標準,并被多個監管機構制定的指導原則和行業規范所采用[1, 2, 3, 4]。
由于數據的獲取途徑日益豐富,原有針對特定目標設定的計算機系統的數據及現有數據管理模式,因其彼此孤立以及缺乏兼容能力的現實特征,成為了數據利用的瓶頸,特別是在面臨對多系統來源數據實現合并分析的情況下。面對如上問題,數據治理[5-8]在近年來日益受到各數據應用領域工作者的重視。數據治理可以幫助我們實現數據系統的整合優化,通過完善數據管理體系,實現不同來源數據的合并應用,保障數據質量,推動數據的獲取與利用[9]。
數據科學的發展提升了數據的可利用性,也讓更充分的數據共享成為可能。真實世界研究[10-12]也正是在這樣的技術背景下出現并日益受到研究者重視。來源豐富的真實世界數據[13],是我們了解臨床過程,探索臨床規律,優化診療策略的重要數據資源。充分利用真實世界數據是推動學科發展的需要與必然[14, 15]。在數據獲取更便捷的情況下,信息和數據安全也成為了日益關注的重要問題。數據安全是數據治理[16, 17]和信息安全工作的重要任務。是數據準確性、可用性的重要保障。
2016 年 11 月 7 日第十二屆全國人民代表大會常務委員會第二十四次會議通過了《中華人民共和國網絡安全法》[18]。2020 年 6 月 28 日,數據安全法草案已被提請十三屆全國人大常委會第二十次會議審議,其主要內容包括:確立數據分級分類管理以及風險評估、監測預警和應急處置等數據安全管理各項基本制度;明確開展數據活動的組織、個人的數據安全保護義務,落實數據安全保護責任;堅持安全與發展并重,規定支持促進數據安全與發展的措施;建立保障政務數據安全和推動政務數據開放的制度措施[19]。從法律的高度指明了信息安全工作的方向。
在數據應用的眾多領域中,醫療相關數據,因其包含了大量個人隱私信息、健康特征以及醫療決策信息和公共衛生相關信息,從而使醫療信息安全問題備受關注。2019 年 3 月 20 日,國務院第 41 次常務會議通過并發布了《中華人民共和國人類遺傳資源管理條例》,自 2019 年 7 月 1 日起施行[20],從法律層面規范了生物信息領域的信息安全性要求。
信息安全工作包括物理安全、數據安全和應用安全三個方面[21]。從物理性能配置,針對數據本身的安全性措施以及應用過程的安全性策略出發,在保障數據存儲與應用過程安全的情況下實現合理的數據利用,防止信息的泄露、竊取和丟失。在數據安全方面,數據安全性等級劃分和分級管理是保障數據安全和實現合理應用的重要環節。這也是相關法規中對信息安全工作的要求之一。2020 年 12 月 14 日頒布的《信息安全技術健康醫療信息安全指南》(標準號:GB/T 39725-2020)[22]對醫療健康領域相關信息的安全工作提出了全面的方向性指引。不僅指出了健康醫療領域數據信息的范疇和相應的安全等級劃分,特別對臨床研究所涉及的數據范疇及其安全等級劃分提出了工作要求。在具體應用中,仍需要相應的數據等級劃分細則以促進指南中各項要求的落實。但目前尚未見到針對臨床研究數據安全等級劃分的標準或策略研究。本研究將針對臨床研究涉及的安全等級劃分進行初步探索。
1 資料與方法
1.1 臨床研究數據安全性等級劃分的初步構建
以現行標準《計算機信息系統安全保護等級劃分準則》(標準號:GB 17859-1999)[23]、《信息安全技術 健康醫療信息安全指南(征求意見稿)》[24](該指南已于 2020 年 12 月 14 日頒布,標準號:GB/T 39725-2020)[22]以及《信息安全等級保護管理辦法(試行)》[25]的相關要求為基本準則,參考其他專業的數據安全等級劃分技術指南[26],對臨床研究的數據信息特征及其可能設計的數據范疇進行總結,結合臨床數據交換標準協會(Clinical Data Interchange Standards Consortium,CDISC)[27, 28]對于臨床研究數據域的劃分方式與規定,提出臨床研究數據安全等級劃分的等級設定、數據類別歸屬與劃分以及各等級數據安全策略的初步設想。
1.2 專家咨詢問卷調查
根據研究目的,選擇臨床研究各相關領域,具備 10 年以上臨床研究相關工作經驗的專業人員,依據自愿的原則,通過郵件方式開展專家咨詢。共有 15 名專家參與咨詢工作。其中臨床醫學專家 4 人,臨床研究方法學專家 3 人,公共衛生數據應用專家 2 人,臨床研究管理專家 2 人,醫學倫理學專家 2 人,遺傳學專家 1 人,大數據應用與數據管理專家 1 人。對初始形成的數據安全策略中的等級定義、設定以及相應的安全策略等內容,按“等級適當”、“應提高等級”和“應降低等級”3 種意見進行意見征詢。對每一輪的專家咨詢意見進行匯總,根據專家意見對原有數據安全等級劃分方案進行修訂,采用修訂后的等級劃分建議表并進行下一輪次專家咨詢,最終完成 3 輪專家意見咨詢。
匯總各領域專家對等級劃分及定義以及各數據類別的等級歸屬意見。針對初始數據安全等級劃分策略中的各等級安全策略進行完善,對數據類別的安全性等級歸屬進行調整,必要時依據專家意見對數據類別進行拆分或合并。通過逐步完善最終形成臨床研究安全等級劃分策略。
2 結果
2.1 臨床研究數據安全性等級劃分初步建議的形成
臨床研究的信息來源看,可能包括的數據有:來自研究對象的人口學信息、既往史、臨床癥狀、體格檢查、實驗室檢查、病理學檢查、輔助檢查等信息,以及來自診療過程的疾病診斷、藥物及治療處置與相關醫療費用等信息。同時,醫學研究也包括了基于已發表文獻的二次分析。故而以上數據范疇即為臨床研究數據所包括的主要內容。參考 CDISC 標準中關于數據域的規定[27, 28],結合臨床研究數據特點,特別是基于真實世界的臨床研究數據特點,完成數據類別劃分,初始建議表格中共包括 34 個數據類別。
在《計算機信息系統安全保護等級劃分準則》[23]和《信息安全等級保護管理辦法(試行)》[25]中,信息安全等級均被劃分為五個等級。從一級到五級,計算機信息系統的安全保護能力要求逐級提高。在《金融數據安全分級指南》(JR/T 0197-2020)[26]中,依據數據安全性遭到破壞后可能造成的危害及其程度,將數據安全劃分為五個等級。基于以上策略,我們將臨床研究數據的安全性等級劃分為五個級別,自一級至五級,數據中所包括的隱私信息及數據規模和代表性逐級提高,安全性破壞所帶來的危害程度逐級遞增,安全性措施與要求也隨之逐級提升。
2.2 通過專家咨詢問卷調查優化臨床研究數據安全性等級劃分初步建議
第一輪專家意見調研所采用的初始安全性數據劃分方案共包括五個安全等級的 34 個數據類別。共收集建議 73 條,涉及安全等級定義、安全措施、以及數據類別的定義與劃分。近半數的數據類別存在 2 名以上專家對其安全等級存在異議。
針對第一輪專家意見對初始安全性數據劃分方案進行調整,將數據類別通過等級調整及合并處理減少至 32 個。從第二輪意見咨詢中,收集建議 22 條,涉及安全等級定義、安全措施以及數據類別的定義與劃分。約 20% 的條目仍存在 2 名以上專家認為其安全等級策略不適當的情況。
針對第二輪咨詢意見,對安全等級定義及安全策略做出進一步完善,同時針對性調整數據類別的安全性等級,并根據專家意見將其中一個數據類別拆分為兩個獨立的數據類別。因此第三輪調研中包括的數據條目增至 33 個。在第三輪專家咨詢中,專家意見逐步趨于一致。第三輪調查收集建議 8 條,涉及安全等級定義及安全性措施。大多數題目取得一致意見,全部數據類別存在異議的情況均在一人以下。
各輪次調研數據安全等級及數據分類情況見表 1,每輪次調研咨詢結果及修訂概要見表 2。


2.3 提出臨床研究數據安全性等級劃分
最終確定數據類別從初稿的 34 類修訂為 33 類。最終的安全等級劃分建議中,安全等級一級包括數據類別 3 類;二級中包括 3 類;三級包括 14 類;四級包括 9 類;五級包括 4 類。自一級向五級,數據中所包括的個人隱私信息、公眾健康信息、醫療決策信息,數據規模漸次增加。數據泄露所帶來的危害也逐漸嚴重,其相應的安全性策略等級也逐級提升。從一級的公開場合應用到需要通過審核后應用直至五級中的盡可能避免在研究中納入該類信息(表 3)。

3 討論
在信息技術飛速發展的背景下,信息的規模與獲取的方便性給數據應用帶來了可能。同時,保護信息安全成為了備受關注的主題。如何在實現數據合理充分利用的情況下,防止數據被竊取,泄露隱私和不適當應用受到了各應用領域的重視。2006 年頒布的《信息安全等級保護管理辦法(試行)》[24],2016 頒布的《中華人民共和國網絡安全法》[18]和 2020 提請十三屆全國人大常委會第二十次會議審議的數據安全法草案[19]等一系列法律法規均為數據信息安全工作指明了方向。
在眾多領域中,臨床相關數據由于涉及健康狀況、基因特征等一系列重要的隱私信息而備受關注。特別是當醫療數據具有一定規模、具備人群特征表征能力和醫療決策特征的時候,其信息安全考慮顯然需要更多重視。因此醫療相關數據的安全性考慮不僅僅是針對每一個參與醫療活動的個體隱私保護,同時還是關乎醫療行業、公眾健康乃至國家利益的重要安全問題。針對醫療領域的信息安全,2018 年頒布的《國家健康醫療大數據標準、安全和服務管理辦法(試行)》[1]和《信息安全技術 健康醫療信息安全指南》征求意見稿[28]都體現了醫療信息安全的重要性。2020 年頒布的《中華人民共和國民法典》[29]以及同年提請十三屆全國人大常委會第二十二次會議審議的《個人信息保護法草案》[30],則體現了對公民隱私的重視。也為醫療相關數據的數據安全工作提供了方向性指導。數據安全是信息安全工作的重要組成部分[21],以保密性、完整性、可用性[25]為其工作目標。在數據安全工作中,通過數據安全等級劃分,實現數據的分級管理是在確保數據安全的前提下實現合理利用的關鍵措施。
臨床研究過程涉及大量醫療相關數據,特別是在真實世界研究日益蓬勃發展的今天。大量來自醫療過程、健康檔案的數據信息有機會直接應用于研究,使得臨床研究中的數據安全問題更加突出。臨床研究過程所涉及的數據范疇并不與臨床醫療過程的數據范疇一致,故而不能簡單套用臨床醫療數據的安全性措施。從臨床相關研究的內容看,臨床研究的數據不僅涉及診療過程相關數據,還包括了針對已發表數據的二次分析及研究過程相關數據等。數據安全等級劃分主要依據相應數據安全性遭到破壞后所造成的危害、損失以及潛在風險程度劃定。這一評估過程不僅要考慮數據類別、規模、來源等特性,還需要從受損害的對象和影響程度方面綜合考慮。
因臨床研究所涉及的數據廣泛且隨研究的需要呈現不斷變化豐富的特征,故而無法對臨床研究數據項實現窮舉,因此在安全等級劃分工作中,首先對臨床研究數據實現類別劃分,進而明確各類別數據的安全等級。通過以上方式,對于任一臨床研究數據項都可以通過對類別歸屬判定從而獲得其對應的安全性等級。從臨床研究數據角度看,基于公開發表數據的二次分析,安全性風險最低;研究本身過程特征的信息記錄,因不涉及個體患者的隱私信息,風險性略高于公開發表數據;在涉及患者醫療過程及健康數據的隱私相關信息中,癥狀、體征等檢查結果信息風險相對較低;疾病診斷、醫療處置等信息風險程度居中;風險等級最高的是基因組、蛋白質組學等能體現個體生物學遺傳特性的數據。從數據規模上看,隨著數據規模的增大,其受到破壞時可能的危害風險增加,相應的數據安全性等級及安全策略也將隨之提升,特別是當數據足以表征人群特征時,防止信息泄露和不適當應用顯得極其重要,與之相應的安全性措施也一定需要更嚴格的標準。
數據安全等級劃分在中國相關法規要求中均分為五個等級,這也與其他領域的數據安全等級劃分方法相一致。故而在本研究中,我們將臨床研究數據安全等級劃分為五級,從一級所涉及的公開發表數據到五級中的有關基因序列,可以表征區域人口特征的匯總數據等。其安全性要求漸次提高,從一級中的公開應用逐漸提升,到需要經過必要的審批,在脫敏情況下,依據最小化準則情況下應用,直到五級數據的嚴格管控,即盡可能在研究中避免應用。通過以上等級劃分,其相應的安全性措施要求,使數據的應用過程管理更具針對性,同時適應倫理學、遺傳學相關規定的要求,構建研究數據的分級分類管理體系,實現高效精準的數據安全性、可用性管理。幫助我們在保障數據安全的前提下實現合理的數據應用和共享。
總之,本文通過對臨床研究的數據安全等級劃分進行初步的探索,在綜合臨床研究者、管理者、倫理學者、數據科學家、方法學家和遺傳學家從不同角度對安全性等級劃分工作建議并獲得相對統一認識的基礎上,提出了臨床研究數據安全性等級劃分策略。但必須指出的是:本文所提出的安全性等級劃分僅僅是初步探索,雖然考慮了臨床研究相關的各個領域但未納入醫學信息領域的專家。針對臨床研究數據安全策略的工作,仍有待進一步的補充完善。
在臨床醫學的發展過程中,臨床研究是推動學科發展,提高臨床醫療能力的重要方法。就臨床研究而言,準確可靠的臨床信息獲取是支撐臨床研究的基石,與科學技術的進展和研究方法學的完善一起推動臨床研究發展。從臨床研究數據應用目標和特征看,臨床研究數據范疇廣泛,不僅包括了來自各種原始臨床研究數據、也有基于臨床保存的生物樣本產生的數據,還包括了基于已發表臨床研究數據的二次研究應用。因此,現有針對臨床醫療過程的數據安全性策略并不適宜直接應用于臨床研究數據的安全性管理。
在信息技術日新月異的今天,臨床研究數據的獲取方式正發生著巨大的變化。來源于臨床醫療數據、健康檔案信息、可穿戴設備直接收集的數據等,可以更便捷地應用于臨床研究。這極大地推動了數據的利用,同時也給數據系統管理提出了更高的要求。就臨床研究本身而言,數據的可利用性和準確性是我們關注的核心,包含可歸因性(attributable)、同時性(contemporaneous)、原始性(original)、準確性(accurate)和完整性(complete)、一致性(consistent)、持久性(enduring)、可用性(available)要求的 ALCOA+CCEA 數據質量標準,成為了臨床研究廣泛接受的數據質量標準,并被多個監管機構制定的指導原則和行業規范所采用[1, 2, 3, 4]。
由于數據的獲取途徑日益豐富,原有針對特定目標設定的計算機系統的數據及現有數據管理模式,因其彼此孤立以及缺乏兼容能力的現實特征,成為了數據利用的瓶頸,特別是在面臨對多系統來源數據實現合并分析的情況下。面對如上問題,數據治理[5-8]在近年來日益受到各數據應用領域工作者的重視。數據治理可以幫助我們實現數據系統的整合優化,通過完善數據管理體系,實現不同來源數據的合并應用,保障數據質量,推動數據的獲取與利用[9]。
數據科學的發展提升了數據的可利用性,也讓更充分的數據共享成為可能。真實世界研究[10-12]也正是在這樣的技術背景下出現并日益受到研究者重視。來源豐富的真實世界數據[13],是我們了解臨床過程,探索臨床規律,優化診療策略的重要數據資源。充分利用真實世界數據是推動學科發展的需要與必然[14, 15]。在數據獲取更便捷的情況下,信息和數據安全也成為了日益關注的重要問題。數據安全是數據治理[16, 17]和信息安全工作的重要任務。是數據準確性、可用性的重要保障。
2016 年 11 月 7 日第十二屆全國人民代表大會常務委員會第二十四次會議通過了《中華人民共和國網絡安全法》[18]。2020 年 6 月 28 日,數據安全法草案已被提請十三屆全國人大常委會第二十次會議審議,其主要內容包括:確立數據分級分類管理以及風險評估、監測預警和應急處置等數據安全管理各項基本制度;明確開展數據活動的組織、個人的數據安全保護義務,落實數據安全保護責任;堅持安全與發展并重,規定支持促進數據安全與發展的措施;建立保障政務數據安全和推動政務數據開放的制度措施[19]。從法律的高度指明了信息安全工作的方向。
在數據應用的眾多領域中,醫療相關數據,因其包含了大量個人隱私信息、健康特征以及醫療決策信息和公共衛生相關信息,從而使醫療信息安全問題備受關注。2019 年 3 月 20 日,國務院第 41 次常務會議通過并發布了《中華人民共和國人類遺傳資源管理條例》,自 2019 年 7 月 1 日起施行[20],從法律層面規范了生物信息領域的信息安全性要求。
信息安全工作包括物理安全、數據安全和應用安全三個方面[21]。從物理性能配置,針對數據本身的安全性措施以及應用過程的安全性策略出發,在保障數據存儲與應用過程安全的情況下實現合理的數據利用,防止信息的泄露、竊取和丟失。在數據安全方面,數據安全性等級劃分和分級管理是保障數據安全和實現合理應用的重要環節。這也是相關法規中對信息安全工作的要求之一。2020 年 12 月 14 日頒布的《信息安全技術健康醫療信息安全指南》(標準號:GB/T 39725-2020)[22]對醫療健康領域相關信息的安全工作提出了全面的方向性指引。不僅指出了健康醫療領域數據信息的范疇和相應的安全等級劃分,特別對臨床研究所涉及的數據范疇及其安全等級劃分提出了工作要求。在具體應用中,仍需要相應的數據等級劃分細則以促進指南中各項要求的落實。但目前尚未見到針對臨床研究數據安全等級劃分的標準或策略研究。本研究將針對臨床研究涉及的安全等級劃分進行初步探索。
1 資料與方法
1.1 臨床研究數據安全性等級劃分的初步構建
以現行標準《計算機信息系統安全保護等級劃分準則》(標準號:GB 17859-1999)[23]、《信息安全技術 健康醫療信息安全指南(征求意見稿)》[24](該指南已于 2020 年 12 月 14 日頒布,標準號:GB/T 39725-2020)[22]以及《信息安全等級保護管理辦法(試行)》[25]的相關要求為基本準則,參考其他專業的數據安全等級劃分技術指南[26],對臨床研究的數據信息特征及其可能設計的數據范疇進行總結,結合臨床數據交換標準協會(Clinical Data Interchange Standards Consortium,CDISC)[27, 28]對于臨床研究數據域的劃分方式與規定,提出臨床研究數據安全等級劃分的等級設定、數據類別歸屬與劃分以及各等級數據安全策略的初步設想。
1.2 專家咨詢問卷調查
根據研究目的,選擇臨床研究各相關領域,具備 10 年以上臨床研究相關工作經驗的專業人員,依據自愿的原則,通過郵件方式開展專家咨詢。共有 15 名專家參與咨詢工作。其中臨床醫學專家 4 人,臨床研究方法學專家 3 人,公共衛生數據應用專家 2 人,臨床研究管理專家 2 人,醫學倫理學專家 2 人,遺傳學專家 1 人,大數據應用與數據管理專家 1 人。對初始形成的數據安全策略中的等級定義、設定以及相應的安全策略等內容,按“等級適當”、“應提高等級”和“應降低等級”3 種意見進行意見征詢。對每一輪的專家咨詢意見進行匯總,根據專家意見對原有數據安全等級劃分方案進行修訂,采用修訂后的等級劃分建議表并進行下一輪次專家咨詢,最終完成 3 輪專家意見咨詢。
匯總各領域專家對等級劃分及定義以及各數據類別的等級歸屬意見。針對初始數據安全等級劃分策略中的各等級安全策略進行完善,對數據類別的安全性等級歸屬進行調整,必要時依據專家意見對數據類別進行拆分或合并。通過逐步完善最終形成臨床研究安全等級劃分策略。
2 結果
2.1 臨床研究數據安全性等級劃分初步建議的形成
臨床研究的信息來源看,可能包括的數據有:來自研究對象的人口學信息、既往史、臨床癥狀、體格檢查、實驗室檢查、病理學檢查、輔助檢查等信息,以及來自診療過程的疾病診斷、藥物及治療處置與相關醫療費用等信息。同時,醫學研究也包括了基于已發表文獻的二次分析。故而以上數據范疇即為臨床研究數據所包括的主要內容。參考 CDISC 標準中關于數據域的規定[27, 28],結合臨床研究數據特點,特別是基于真實世界的臨床研究數據特點,完成數據類別劃分,初始建議表格中共包括 34 個數據類別。
在《計算機信息系統安全保護等級劃分準則》[23]和《信息安全等級保護管理辦法(試行)》[25]中,信息安全等級均被劃分為五個等級。從一級到五級,計算機信息系統的安全保護能力要求逐級提高。在《金融數據安全分級指南》(JR/T 0197-2020)[26]中,依據數據安全性遭到破壞后可能造成的危害及其程度,將數據安全劃分為五個等級。基于以上策略,我們將臨床研究數據的安全性等級劃分為五個級別,自一級至五級,數據中所包括的隱私信息及數據規模和代表性逐級提高,安全性破壞所帶來的危害程度逐級遞增,安全性措施與要求也隨之逐級提升。
2.2 通過專家咨詢問卷調查優化臨床研究數據安全性等級劃分初步建議
第一輪專家意見調研所采用的初始安全性數據劃分方案共包括五個安全等級的 34 個數據類別。共收集建議 73 條,涉及安全等級定義、安全措施、以及數據類別的定義與劃分。近半數的數據類別存在 2 名以上專家對其安全等級存在異議。
針對第一輪專家意見對初始安全性數據劃分方案進行調整,將數據類別通過等級調整及合并處理減少至 32 個。從第二輪意見咨詢中,收集建議 22 條,涉及安全等級定義、安全措施以及數據類別的定義與劃分。約 20% 的條目仍存在 2 名以上專家認為其安全等級策略不適當的情況。
針對第二輪咨詢意見,對安全等級定義及安全策略做出進一步完善,同時針對性調整數據類別的安全性等級,并根據專家意見將其中一個數據類別拆分為兩個獨立的數據類別。因此第三輪調研中包括的數據條目增至 33 個。在第三輪專家咨詢中,專家意見逐步趨于一致。第三輪調查收集建議 8 條,涉及安全等級定義及安全性措施。大多數題目取得一致意見,全部數據類別存在異議的情況均在一人以下。
各輪次調研數據安全等級及數據分類情況見表 1,每輪次調研咨詢結果及修訂概要見表 2。


2.3 提出臨床研究數據安全性等級劃分
最終確定數據類別從初稿的 34 類修訂為 33 類。最終的安全等級劃分建議中,安全等級一級包括數據類別 3 類;二級中包括 3 類;三級包括 14 類;四級包括 9 類;五級包括 4 類。自一級向五級,數據中所包括的個人隱私信息、公眾健康信息、醫療決策信息,數據規模漸次增加。數據泄露所帶來的危害也逐漸嚴重,其相應的安全性策略等級也逐級提升。從一級的公開場合應用到需要通過審核后應用直至五級中的盡可能避免在研究中納入該類信息(表 3)。

3 討論
在信息技術飛速發展的背景下,信息的規模與獲取的方便性給數據應用帶來了可能。同時,保護信息安全成為了備受關注的主題。如何在實現數據合理充分利用的情況下,防止數據被竊取,泄露隱私和不適當應用受到了各應用領域的重視。2006 年頒布的《信息安全等級保護管理辦法(試行)》[24],2016 頒布的《中華人民共和國網絡安全法》[18]和 2020 提請十三屆全國人大常委會第二十次會議審議的數據安全法草案[19]等一系列法律法規均為數據信息安全工作指明了方向。
在眾多領域中,臨床相關數據由于涉及健康狀況、基因特征等一系列重要的隱私信息而備受關注。特別是當醫療數據具有一定規模、具備人群特征表征能力和醫療決策特征的時候,其信息安全考慮顯然需要更多重視。因此醫療相關數據的安全性考慮不僅僅是針對每一個參與醫療活動的個體隱私保護,同時還是關乎醫療行業、公眾健康乃至國家利益的重要安全問題。針對醫療領域的信息安全,2018 年頒布的《國家健康醫療大數據標準、安全和服務管理辦法(試行)》[1]和《信息安全技術 健康醫療信息安全指南》征求意見稿[28]都體現了醫療信息安全的重要性。2020 年頒布的《中華人民共和國民法典》[29]以及同年提請十三屆全國人大常委會第二十二次會議審議的《個人信息保護法草案》[30],則體現了對公民隱私的重視。也為醫療相關數據的數據安全工作提供了方向性指導。數據安全是信息安全工作的重要組成部分[21],以保密性、完整性、可用性[25]為其工作目標。在數據安全工作中,通過數據安全等級劃分,實現數據的分級管理是在確保數據安全的前提下實現合理利用的關鍵措施。
臨床研究過程涉及大量醫療相關數據,特別是在真實世界研究日益蓬勃發展的今天。大量來自醫療過程、健康檔案的數據信息有機會直接應用于研究,使得臨床研究中的數據安全問題更加突出。臨床研究過程所涉及的數據范疇并不與臨床醫療過程的數據范疇一致,故而不能簡單套用臨床醫療數據的安全性措施。從臨床相關研究的內容看,臨床研究的數據不僅涉及診療過程相關數據,還包括了針對已發表數據的二次分析及研究過程相關數據等。數據安全等級劃分主要依據相應數據安全性遭到破壞后所造成的危害、損失以及潛在風險程度劃定。這一評估過程不僅要考慮數據類別、規模、來源等特性,還需要從受損害的對象和影響程度方面綜合考慮。
因臨床研究所涉及的數據廣泛且隨研究的需要呈現不斷變化豐富的特征,故而無法對臨床研究數據項實現窮舉,因此在安全等級劃分工作中,首先對臨床研究數據實現類別劃分,進而明確各類別數據的安全等級。通過以上方式,對于任一臨床研究數據項都可以通過對類別歸屬判定從而獲得其對應的安全性等級。從臨床研究數據角度看,基于公開發表數據的二次分析,安全性風險最低;研究本身過程特征的信息記錄,因不涉及個體患者的隱私信息,風險性略高于公開發表數據;在涉及患者醫療過程及健康數據的隱私相關信息中,癥狀、體征等檢查結果信息風險相對較低;疾病診斷、醫療處置等信息風險程度居中;風險等級最高的是基因組、蛋白質組學等能體現個體生物學遺傳特性的數據。從數據規模上看,隨著數據規模的增大,其受到破壞時可能的危害風險增加,相應的數據安全性等級及安全策略也將隨之提升,特別是當數據足以表征人群特征時,防止信息泄露和不適當應用顯得極其重要,與之相應的安全性措施也一定需要更嚴格的標準。
數據安全等級劃分在中國相關法規要求中均分為五個等級,這也與其他領域的數據安全等級劃分方法相一致。故而在本研究中,我們將臨床研究數據安全等級劃分為五級,從一級所涉及的公開發表數據到五級中的有關基因序列,可以表征區域人口特征的匯總數據等。其安全性要求漸次提高,從一級中的公開應用逐漸提升,到需要經過必要的審批,在脫敏情況下,依據最小化準則情況下應用,直到五級數據的嚴格管控,即盡可能在研究中避免應用。通過以上等級劃分,其相應的安全性措施要求,使數據的應用過程管理更具針對性,同時適應倫理學、遺傳學相關規定的要求,構建研究數據的分級分類管理體系,實現高效精準的數據安全性、可用性管理。幫助我們在保障數據安全的前提下實現合理的數據應用和共享。
總之,本文通過對臨床研究的數據安全等級劃分進行初步的探索,在綜合臨床研究者、管理者、倫理學者、數據科學家、方法學家和遺傳學家從不同角度對安全性等級劃分工作建議并獲得相對統一認識的基礎上,提出了臨床研究數據安全性等級劃分策略。但必須指出的是:本文所提出的安全性等級劃分僅僅是初步探索,雖然考慮了臨床研究相關的各個領域但未納入醫學信息領域的專家。針對臨床研究數據安全策略的工作,仍有待進一步的補充完善。