“All of Us”研究計劃是由美國國立衛生研究院支持的百萬自然人群隊列研究項目。該項目通過招募 100 萬余名生活在美國本土的志愿者,建立一個強大的研究資源,促進對健康和疾病的生物、臨床、社會和環境決定因素的探索。本文系統全面地介紹“All of Us”的研究設計方案,為我國精準醫學計劃百萬自然人群隊列建設提供可借鑒的思路和經驗。
引用本文: 祁子凡, 張鳳旭, 張玲. 美國精準醫學計劃“All of Us”百萬自然人群隊列設計方案的經驗和啟示. 中國循證醫學雜志, 2021, 21(8): 980-985. doi: 10.7507/1672-2531.202104038 復制
1 “All of Us”研究計劃簡介
精準醫療(precision medicine)是結合個體基因、環境、生活方式,使疾病的預防、診斷、治療效果最大化的衛生保健方法[1]。2015 年 1 月,美國前總統奧巴馬在國情咨文演講中正式提出精準醫學計劃,并在全美范圍建立基礎設施來支持該計劃的開展[2]。精準醫學計劃的基石是由 100 萬參與者構成的隊列研究—精準醫學起始隊列研究計劃(the precision medicine initiative cohort program),現已更名為“我們所有人”研究計劃(“All of Us”research program)[3]。該項目是一項前瞻性隊列研究,計劃在 100 萬名 18 歲以上的個體中收集基線數據和生物樣本。該項目將隨訪至少 10 年,把所有參與者的健康數據和生物樣本匯總到國家中心數據庫,經研究人員檢測基因、環境和生活方式的變異性從而將遺傳、環境暴露、基線數據與疾病聯系起來。建立生物醫藥和行為研究平臺,為收集、儲存、分析、共享患者數據提供全面、復雜的信息技術基礎設施,既有助于改善現有的醫學模式,也能夠對人們如何理解、如何達成家庭、社區、個人的健康產生變革性的影響。其官方網站數據(http//:allofus.nih.org)顯示,截至 2021 年 3 月,已有 467 000 余人完成了注冊,包含 375 000 余名參與者,其中有 275 000 余名參與者已同意共享電子健康記錄,同時提供生物信息并捐贈至少一個生物樣本。此外,該研究計劃獲得 238 000 余份電子健康記錄和 284 000 余份生物樣本。預計該研究計劃將于 2024 年招募到 100 萬核心參與者[4],這些生物醫學數據將通過研究人員工作平臺向研究人員廣泛開放,該工作平臺由谷歌云托管,并由英特爾至強可擴展處理器提供支持。
1.1 實施特點
“All of Us”研究計劃有以下 5 方面特征:① 隊列規模大:預計用 5~6 年的時間,在美國注冊 100 萬名及以上的研究對象。② 人群多樣性:包括但不限于種族、民族、年齡、性別、性別認同、性取向、殘疾狀況、獲得護理的情況、收入、受教育程度和地理因素不同的人群。涵蓋以往生物醫學研究中代表性不足的群體(underrepresented in biomedical research,UBR),如計劃包括 45% 以上來自少數人種和族群,75% 以上來自未得到充分代表的人群[5]。③ 數據種類多:收集覆蓋臨床、生物、社會行為、地理、環境等方面的多方面信息,并充分利用移動醫療技術(mHealth),如各類傳感器,將收集到的健康數據、生活行為、環境資料與健康結局建立對應關系。④ 項目周期長:“All of Us”研究計劃主張將參與者視為長期合作伙伴,即參與者在計劃的管理、監督、設計、實施、傳播和評價環節扮演一定的角色,如參與者在指導委員會、咨詢小組、特別工作組中任職。通過與參與者建立良好的合作伙伴關系,研究計劃會盡可能地延長隨訪時間,預計進行至少 10 年甚至終生隨訪,其中部分研究對象也將受邀加入臨床試驗。參與者不僅作為相關數據的提供者,也是他們自己信息的接收者。⑤ 數據開放性:數據分析平臺在第二年內對有資格的研究者開放,并在整個項目周期里都可使用。
1.2 基線招募
1.2.1 招募途徑與方法
所有參與者都需通過使用智能手機和(或)官方網站進行注冊來參與到研究計劃中。參與者的來源主要包括兩種途徑,即醫療保健提供者組織(health care provider organization,HPO)和直接志愿者(direct volunteers,DVs)。
研究計劃的宣傳場所及途徑集中在 HPO、DVs、支持中心、社區、移動互助資產。宣傳方法見表 1,主要包括:① 發放廣告,如宣傳手冊、電視廣告、動畫、視頻、常見問題、項目領導的致信等。② 借助社會媒體、社區活動、新聞報道等方式。③ 在 HPO 或在募集參與者的現場推廣,如在等候區、臨床護理的過程中推廣,由研究項目受獎者、HPO 或直接參與者組織區域性信息活動、員工邀請、再聯絡現有研究項目中知情同意者。

該研究為充分利用現有和新的當地 HPO 信息學基礎設施,解決了 5 個缺口:注冊工作流程和硬件、臨床工作流程集成、患者參與、實驗室支持和研究團隊報告[6]。此外,考慮到全國水平的可閱讀性,“All of Us”研究計劃的宣傳和注冊材料按照中學年級閱讀水平編寫,并以多種形式的呈現方法(如聽覺、視覺、互動)幫助低識字率人群理解研究項目。部分關鍵主題的信息以高中或大學閱讀水平撰寫。在 HPO 專業人員處、研究項目支持中心和官方網站可獲取更多信息。
1.2.2 納入排除標準
“All of Us”研究計劃的研究對象的納入排除標準見表 2,所有符合標準的研究對象均可納入隊列研究。同時,項目組考慮因受宣傳和知情同意文字資料的限制,目前僅招募英語和西班牙語使用者及可使用數字化填報工具的研究對象。對于弱勢群體,如兒童、服刑人員和認知障礙者,單獨制定的議定書修正案正在研發中。此外,為確保符合入選標準的殘疾人士也能夠注冊參加,將會調整招募的具體地點,還計劃開發更多有助于招募注冊的便利設備。

1.3 參與流程
在研究計劃的實施過程中,參與者首先需要了解研究項目、創建賬戶、確認知情同意后,才能提供個人數據、電子病歷(electronic health records,EHRs)、完成調查問卷、進行體格檢查與樣本采集,參與流程見圖 1。參與者可跟蹤自己的相關數據,也可自主選擇是否接受項目更新。在不包括填寫知情同意的情況下,完成參與流程的時間在 1~3 個小時范圍,詳見表 3。


確認加入研究計劃的參與者需向項目組提供以下 4 個方面的健康信息:參與者提供信息(participant-provided information,PPI)、體格檢查數據、生物樣本、EHRs。
1.4 研究對象資料收集
1.4.1 PPI
參與者在線或現場填寫基線問卷,內容包括社會地理資料、健康概況、生活習慣及醫療保健信息的獲取與使用。
1.4.2 EHRs
美國從 2014 年開始大力推廣和使用 EHRs 系統,目前接近 90% 的門診患者及所有住院患者已經擁有 EHRs。這些前期的鋪墊和投入為該研究項目奠定了基礎[7]。在注冊時,參與者可將自己的 EHRs 授權分享給項目組,此后 EHRs 將由研究對象所屬的健康護理提供者發送到項目組的數據與研究中心,也可通過同步科學或一些數據聚合器發送。初始數據類型包括 EHRs 中所有可用數據,包括人口統計學資料、訪問、診斷、流程、用藥、實驗室訪問,生命體征及醫生注釋,也包括有關心理健康,藥物使用或艾滋病毒感染狀況的數據。
1.4.3 體格檢查
已授權 EHRs 的參與者需要完成基線體格檢查,內容包括血壓、心率、身高、體重、腰圍和臀圍,并自動計算體質指數。
1.4.4 樣本采集
已授權 EHRs 的參與者在現場或通過指定的生物采集設備采集血液、尿液和(或)唾液。
1.4.5 數字化健康數據
參與者可通過健康設備、傳感器或移動端應用軟件傳遞健康資料。
1.4.6 參與者數據獲取方式
體檢數據在完成檢查后打印給參與者,參與者可在研究官網的參與者入口處獲得其他數據,如可穿戴健康設備的數據等。
1.5 數據收集、獲取與儲存
1.5.1 電子核心數據集
研究人員可對參與者的核心數據(PPI、體格檢查、生化分析、EHRs)進行獲取與分析,研究過程中個體數據被隱去明顯的身份標識。此外,通過參與者提供的居住、工作場所,核心數據集可與地理位置建立聯系。未來一些潛在的可鏈接到核心數據集的資源包括社會安全死亡文件、藥房系統數據、索賠數據和健康注冊數據。
1.5.2 獲取核心數據集
科學家、商業組織和學者需要通過申請才可獲取數據,研究門戶網站現已對外開放。獲準的用戶將使用云基礎架構查詢數據并運行分析。將使用基于研究人員(非基于研究)的機制提供數據。授予批準用戶的特定級別數據通行證將允許訪問 3 種不同保密級別的數據層:公共訪問數據、注冊訪問數據和受控訪問數據。
1.5.3 生化樣本的收集和儲存
所有生物樣本最初都在收集現場處理,此后在 4℃ 下運輸至梅奧診所生物銀行。梅奧診所已為該計劃建立了一個專門的支持收集、分析、儲存和分發該項目收集的生物樣本的生物庫。
1.6 隊列隨訪
1.6.1 隨訪期限及形式
“All of Us”研究計劃預計至少持續 10 年,預計通過 5 年時間,構建百萬自然人群隊列。隊列建成后,隨訪工作將持續進行。例如,對授權使用 HER 信息的參與者,可充分利用其 EHR 數據,將更新的數據添加到其原有數據中,每年至少兩次。隊列建成后,會通過雙向溝通的方式與參與者保持持續聯系。其核心原則是將參與者作為真正的合作伙伴納入計劃的各個方面,從研究設計到治理。參與者將幫助設定該計劃的標準,以反映參與者的不同需求、偏好和優先事項,包括美國個人的年齡、社會、種族、族裔、文化、地理、性、性別、身體能力和健康狀況等。
1.6.2 退出
“All of Us”研究計劃設置了退出選項,為希望退出該項目且不希望他們的數據和生物樣本用于后續研究的參與者提供選擇。參與者確定退出后,不會收集新的數據或樣本,后續也不會繼續聯系參與者。已包含在研究數據庫現有版本中的退出參與者的數據將保持可用,以促進再現性,但將從研究數據庫的后續版本中刪除。未經分析的儲存生物樣本將被銷毀。因死亡而退出的參與者,其在系統中的數據可繼續使用。參與者選擇退出后,在重新簽署知情同意書后,仍可加入該研究。
1.7 質量控制
PPI 模塊將通過使用標準認知訪談和在線用戶評估的測試來進一步完善,并探索調查的可理解性、不同群體成員答復的準確性,使用 Flesch–Kincaid 等級量表進行可讀性評估,并由閱讀水平專家進行完善,以確保其能被盡可能多的美國居民廣泛理解。參與者將在 HPO 中收集和記錄一套標準化的身體測量值。在某些情況下,可能需要由經過培訓的項目工作人員進行家訪,以便進行身體測量。項目組人員經培訓后,將在專用的健康專業平臺上記錄信息。所有生物樣本的收集、初步處理及轉移到生物庫均執行制定的標準操作程序。樣本處理過程中使用的耗材盡量保證為同一批次。
1.8 知情同意
知情同意可通過研究項目網站和移動端應用軟件填寫,也可在招募現場填寫。知情同意分兩個模塊,分別為加入研究項目知情同意及健康保險流通與責任法案/EHRs 授權。每個模塊包括電子同意書、視頻、電子簽名和形成性評價。在注冊過程中,會對知情同意進行比較詳細的科普,并配以動畫詳細解釋。如果在科研過程中改變想法,可隨時退出并刪除已提供的數據。每一段科普動畫后均有小測驗,如果不能準確回答問題,即認為參與者不能理解研究中隱私保護的措施和后果,就不能升級進入下一階段的注冊。研究對象有權選擇不提供 EHRs,同時他們將不會受邀做相關化驗和基因分析。所有項目參與者都將采用電子知情同意程序,以確保一致性并使同意信息標準化。鑒于該研究持續時間長,及美國人口流動性大的特點,該項目得到美國國立衛生研究院總法律顧問辦公室和民權辦公室的指導,并在所有提交的參與者材料、同意書和工作流程的修訂中加以貫徹。除此之外,由于 EHR 信息可能包括精神健康、艾滋病毒狀況、物質和酒精使用及儲存在 EHR 的基因/基因組信息。參與者需要根據相關國家法規完成并簽署一個單獨的知情同意模塊,以授權訪問其 HER。
2 “All of Us”研究計劃的經驗和啟示
從觀察性隊列研究中獲得的數據和資料極大地促進了疾病的預防和治療。然而,由于自身規模的限制,大多數隊列研究不能提供全面的基因表型數據。“All of Us”研究計劃擬在美國招募 100 萬人以上的多樣化群體,以加快生物醫學研究和改善健康。在精準醫學和大數據時代背景下,該研究搭建了一個全面的、大規模的、涉及到更多細節的臨床研究平臺,為研究人群健康與疾病,為大數據和精準醫療計劃結合實施提供了一個范例。同時,“All of Us”研究計劃將創建一個信息基礎設施,將來自全美國不同 EHRs 系統的數據進行清理和標準化,這個廣泛適用的系統也會對全國衛生信息學研究工作做出重要貢獻。但由于其作為觀察性研究的局限性,所提供的信息都不構成臨床建議。返回給參與者的信息,包括那些被認為需要就醫的信息,均需要進一步確認。
“All of Us”研究計劃方案對我國精準醫學百萬自然人群隊列建設提供了很多可借鑒的經驗。在資料收集方面,可借鑒“All of Us”研究計劃運用植入智能手機型、可佩帶式、放置于居住地或汽車型的移動醫療設備收集參與者的情緒、聲音、睡眠、心率、呼吸等;收集空氣質量、溫度等環境信息,主動、被動地收集多種組學、生物標志、圖像、環境、參與者自報的電子健康數據等豐富資源。在人群代表性方面,要注重招募生物醫學研究中一直并將持續處于代表性不足的人群,以確保其能反映了研究源人群的廣泛多樣性,并保證大多數人都能參與精確醫學研究[8, 9]。在研究中,有專門為非裔美國人、亞裔美國人和西班牙裔美國人社區及其他普通人群設計的可下載手冊,以使其充分參與該研究[10, 11]。美國有著豐富的多樣性人種,我國亦是多元多樣的大國,在構建我國百萬人群自然隊列的過程中,要充分考慮種族、年齡、性別、性別認同、性取向、殘疾狀況、獲得保健的機會、收入、教育程度和地理位置等因素。因為種族和民族身份不僅僅是一種基因構造,更是人群健康的社會和行為決定因素,應充分利用這些多樣性來了解影響整個人口健康和疾病的因素。在提高依從性方面,“All of Us”研究計劃通過雙向溝通的方式與參與者聯絡,如利用電子郵件、應用程序消息、參與者門戶網站的通知中心及發送體格測量和生物樣本收集的邀請等。在倫理學方面,可采取“All of Us”研究計劃的形成性評價方式取得參與者的同意,最大程度地保護參與者的隱私。在數據安全方面,可借鑒該研究項目的管理模式,為項目招募獨立的評審員測試數據系統,保證其各項措施安全,并能有效應對新出現的威脅。此外,還可對使用者的訪問級別進行限制,如總體人口統計數據和風險較低的一般數據向公眾開放,而經注冊的科研人員除能夠滿足嚴格的數據安全標準外,還要接受倫理道德培訓,并簽署負責數據使用的行為準則,才能訪問相應級別的數據。此外,可對研究人員的研究活動進行限制,嚴格禁止將任何數據下載到自己的系統中,以便對所有使用者的活動進行監督。建立大規模的數據集并通過長期隨訪,“All of Us”研究計劃不僅能夠識別疾病的致病因素,也能通過疾病發生前的生物標志物為疾病預防預測提供可能。
雖然相關性不一定轉化為因果關系,但在大數據時代,利用“All of Us”研究計劃前瞻性收集的信息,使用如孟德爾隨機化、全基因組多基因風險評分及深度學習[12]等方法,可為臨床試驗提供病因假說。充分利用利用“All of Us”研究計劃收集的數據,有助于疾病危險因素及生物標志物(環境暴露、習慣及社會決定因素)的識別[13],有助于提高診斷和篩查試驗的準確性。
建立百萬自然人群隊列存在一定的挑戰,一方面是面臨道德、法律和社會層面存在的隱患,比如大量數據被獲取后的使用途徑和目的是什么,移動醫療、社交媒體所記錄到的參與者的日常生活,或存在著項目計劃的方案和信息技術保護不到的地方[2, 14]。同時,因為“All of Us”研究計劃不是采用常規的統計抽樣方法設計的,它在一些流行病學研究中的使用可能是有限的。此外,直接參與者提供的 HER 數據可能是零散的、不完整、不準確的,除非能解決準確和測量一致性的基本問題,否則收集到的任何數據及嘗試進行分析的適用性都將受到限制,并且內部有效性也有一定的局限。
在我國精準醫學百萬自然人群隊列建設中,會面臨著關鍵技術薄弱、數據庫與生物樣本共享機制不完善、貼合國際標準的大型前瞻性隊列研究設計方案面臨一定的挑戰。參考國際精準醫學隊列建設的成功經驗,并考慮我國國情現狀,完善適合我國的百萬自然人群隊列建設設計方案將有助于我國精準醫學事業建設。
聲明 本研究不存在任何利益沖突。
1 “All of Us”研究計劃簡介
精準醫療(precision medicine)是結合個體基因、環境、生活方式,使疾病的預防、診斷、治療效果最大化的衛生保健方法[1]。2015 年 1 月,美國前總統奧巴馬在國情咨文演講中正式提出精準醫學計劃,并在全美范圍建立基礎設施來支持該計劃的開展[2]。精準醫學計劃的基石是由 100 萬參與者構成的隊列研究—精準醫學起始隊列研究計劃(the precision medicine initiative cohort program),現已更名為“我們所有人”研究計劃(“All of Us”research program)[3]。該項目是一項前瞻性隊列研究,計劃在 100 萬名 18 歲以上的個體中收集基線數據和生物樣本。該項目將隨訪至少 10 年,把所有參與者的健康數據和生物樣本匯總到國家中心數據庫,經研究人員檢測基因、環境和生活方式的變異性從而將遺傳、環境暴露、基線數據與疾病聯系起來。建立生物醫藥和行為研究平臺,為收集、儲存、分析、共享患者數據提供全面、復雜的信息技術基礎設施,既有助于改善現有的醫學模式,也能夠對人們如何理解、如何達成家庭、社區、個人的健康產生變革性的影響。其官方網站數據(http//:allofus.nih.org)顯示,截至 2021 年 3 月,已有 467 000 余人完成了注冊,包含 375 000 余名參與者,其中有 275 000 余名參與者已同意共享電子健康記錄,同時提供生物信息并捐贈至少一個生物樣本。此外,該研究計劃獲得 238 000 余份電子健康記錄和 284 000 余份生物樣本。預計該研究計劃將于 2024 年招募到 100 萬核心參與者[4],這些生物醫學數據將通過研究人員工作平臺向研究人員廣泛開放,該工作平臺由谷歌云托管,并由英特爾至強可擴展處理器提供支持。
1.1 實施特點
“All of Us”研究計劃有以下 5 方面特征:① 隊列規模大:預計用 5~6 年的時間,在美國注冊 100 萬名及以上的研究對象。② 人群多樣性:包括但不限于種族、民族、年齡、性別、性別認同、性取向、殘疾狀況、獲得護理的情況、收入、受教育程度和地理因素不同的人群。涵蓋以往生物醫學研究中代表性不足的群體(underrepresented in biomedical research,UBR),如計劃包括 45% 以上來自少數人種和族群,75% 以上來自未得到充分代表的人群[5]。③ 數據種類多:收集覆蓋臨床、生物、社會行為、地理、環境等方面的多方面信息,并充分利用移動醫療技術(mHealth),如各類傳感器,將收集到的健康數據、生活行為、環境資料與健康結局建立對應關系。④ 項目周期長:“All of Us”研究計劃主張將參與者視為長期合作伙伴,即參與者在計劃的管理、監督、設計、實施、傳播和評價環節扮演一定的角色,如參與者在指導委員會、咨詢小組、特別工作組中任職。通過與參與者建立良好的合作伙伴關系,研究計劃會盡可能地延長隨訪時間,預計進行至少 10 年甚至終生隨訪,其中部分研究對象也將受邀加入臨床試驗。參與者不僅作為相關數據的提供者,也是他們自己信息的接收者。⑤ 數據開放性:數據分析平臺在第二年內對有資格的研究者開放,并在整個項目周期里都可使用。
1.2 基線招募
1.2.1 招募途徑與方法
所有參與者都需通過使用智能手機和(或)官方網站進行注冊來參與到研究計劃中。參與者的來源主要包括兩種途徑,即醫療保健提供者組織(health care provider organization,HPO)和直接志愿者(direct volunteers,DVs)。
研究計劃的宣傳場所及途徑集中在 HPO、DVs、支持中心、社區、移動互助資產。宣傳方法見表 1,主要包括:① 發放廣告,如宣傳手冊、電視廣告、動畫、視頻、常見問題、項目領導的致信等。② 借助社會媒體、社區活動、新聞報道等方式。③ 在 HPO 或在募集參與者的現場推廣,如在等候區、臨床護理的過程中推廣,由研究項目受獎者、HPO 或直接參與者組織區域性信息活動、員工邀請、再聯絡現有研究項目中知情同意者。

該研究為充分利用現有和新的當地 HPO 信息學基礎設施,解決了 5 個缺口:注冊工作流程和硬件、臨床工作流程集成、患者參與、實驗室支持和研究團隊報告[6]。此外,考慮到全國水平的可閱讀性,“All of Us”研究計劃的宣傳和注冊材料按照中學年級閱讀水平編寫,并以多種形式的呈現方法(如聽覺、視覺、互動)幫助低識字率人群理解研究項目。部分關鍵主題的信息以高中或大學閱讀水平撰寫。在 HPO 專業人員處、研究項目支持中心和官方網站可獲取更多信息。
1.2.2 納入排除標準
“All of Us”研究計劃的研究對象的納入排除標準見表 2,所有符合標準的研究對象均可納入隊列研究。同時,項目組考慮因受宣傳和知情同意文字資料的限制,目前僅招募英語和西班牙語使用者及可使用數字化填報工具的研究對象。對于弱勢群體,如兒童、服刑人員和認知障礙者,單獨制定的議定書修正案正在研發中。此外,為確保符合入選標準的殘疾人士也能夠注冊參加,將會調整招募的具體地點,還計劃開發更多有助于招募注冊的便利設備。

1.3 參與流程
在研究計劃的實施過程中,參與者首先需要了解研究項目、創建賬戶、確認知情同意后,才能提供個人數據、電子病歷(electronic health records,EHRs)、完成調查問卷、進行體格檢查與樣本采集,參與流程見圖 1。參與者可跟蹤自己的相關數據,也可自主選擇是否接受項目更新。在不包括填寫知情同意的情況下,完成參與流程的時間在 1~3 個小時范圍,詳見表 3。


確認加入研究計劃的參與者需向項目組提供以下 4 個方面的健康信息:參與者提供信息(participant-provided information,PPI)、體格檢查數據、生物樣本、EHRs。
1.4 研究對象資料收集
1.4.1 PPI
參與者在線或現場填寫基線問卷,內容包括社會地理資料、健康概況、生活習慣及醫療保健信息的獲取與使用。
1.4.2 EHRs
美國從 2014 年開始大力推廣和使用 EHRs 系統,目前接近 90% 的門診患者及所有住院患者已經擁有 EHRs。這些前期的鋪墊和投入為該研究項目奠定了基礎[7]。在注冊時,參與者可將自己的 EHRs 授權分享給項目組,此后 EHRs 將由研究對象所屬的健康護理提供者發送到項目組的數據與研究中心,也可通過同步科學或一些數據聚合器發送。初始數據類型包括 EHRs 中所有可用數據,包括人口統計學資料、訪問、診斷、流程、用藥、實驗室訪問,生命體征及醫生注釋,也包括有關心理健康,藥物使用或艾滋病毒感染狀況的數據。
1.4.3 體格檢查
已授權 EHRs 的參與者需要完成基線體格檢查,內容包括血壓、心率、身高、體重、腰圍和臀圍,并自動計算體質指數。
1.4.4 樣本采集
已授權 EHRs 的參與者在現場或通過指定的生物采集設備采集血液、尿液和(或)唾液。
1.4.5 數字化健康數據
參與者可通過健康設備、傳感器或移動端應用軟件傳遞健康資料。
1.4.6 參與者數據獲取方式
體檢數據在完成檢查后打印給參與者,參與者可在研究官網的參與者入口處獲得其他數據,如可穿戴健康設備的數據等。
1.5 數據收集、獲取與儲存
1.5.1 電子核心數據集
研究人員可對參與者的核心數據(PPI、體格檢查、生化分析、EHRs)進行獲取與分析,研究過程中個體數據被隱去明顯的身份標識。此外,通過參與者提供的居住、工作場所,核心數據集可與地理位置建立聯系。未來一些潛在的可鏈接到核心數據集的資源包括社會安全死亡文件、藥房系統數據、索賠數據和健康注冊數據。
1.5.2 獲取核心數據集
科學家、商業組織和學者需要通過申請才可獲取數據,研究門戶網站現已對外開放。獲準的用戶將使用云基礎架構查詢數據并運行分析。將使用基于研究人員(非基于研究)的機制提供數據。授予批準用戶的特定級別數據通行證將允許訪問 3 種不同保密級別的數據層:公共訪問數據、注冊訪問數據和受控訪問數據。
1.5.3 生化樣本的收集和儲存
所有生物樣本最初都在收集現場處理,此后在 4℃ 下運輸至梅奧診所生物銀行。梅奧診所已為該計劃建立了一個專門的支持收集、分析、儲存和分發該項目收集的生物樣本的生物庫。
1.6 隊列隨訪
1.6.1 隨訪期限及形式
“All of Us”研究計劃預計至少持續 10 年,預計通過 5 年時間,構建百萬自然人群隊列。隊列建成后,隨訪工作將持續進行。例如,對授權使用 HER 信息的參與者,可充分利用其 EHR 數據,將更新的數據添加到其原有數據中,每年至少兩次。隊列建成后,會通過雙向溝通的方式與參與者保持持續聯系。其核心原則是將參與者作為真正的合作伙伴納入計劃的各個方面,從研究設計到治理。參與者將幫助設定該計劃的標準,以反映參與者的不同需求、偏好和優先事項,包括美國個人的年齡、社會、種族、族裔、文化、地理、性、性別、身體能力和健康狀況等。
1.6.2 退出
“All of Us”研究計劃設置了退出選項,為希望退出該項目且不希望他們的數據和生物樣本用于后續研究的參與者提供選擇。參與者確定退出后,不會收集新的數據或樣本,后續也不會繼續聯系參與者。已包含在研究數據庫現有版本中的退出參與者的數據將保持可用,以促進再現性,但將從研究數據庫的后續版本中刪除。未經分析的儲存生物樣本將被銷毀。因死亡而退出的參與者,其在系統中的數據可繼續使用。參與者選擇退出后,在重新簽署知情同意書后,仍可加入該研究。
1.7 質量控制
PPI 模塊將通過使用標準認知訪談和在線用戶評估的測試來進一步完善,并探索調查的可理解性、不同群體成員答復的準確性,使用 Flesch–Kincaid 等級量表進行可讀性評估,并由閱讀水平專家進行完善,以確保其能被盡可能多的美國居民廣泛理解。參與者將在 HPO 中收集和記錄一套標準化的身體測量值。在某些情況下,可能需要由經過培訓的項目工作人員進行家訪,以便進行身體測量。項目組人員經培訓后,將在專用的健康專業平臺上記錄信息。所有生物樣本的收集、初步處理及轉移到生物庫均執行制定的標準操作程序。樣本處理過程中使用的耗材盡量保證為同一批次。
1.8 知情同意
知情同意可通過研究項目網站和移動端應用軟件填寫,也可在招募現場填寫。知情同意分兩個模塊,分別為加入研究項目知情同意及健康保險流通與責任法案/EHRs 授權。每個模塊包括電子同意書、視頻、電子簽名和形成性評價。在注冊過程中,會對知情同意進行比較詳細的科普,并配以動畫詳細解釋。如果在科研過程中改變想法,可隨時退出并刪除已提供的數據。每一段科普動畫后均有小測驗,如果不能準確回答問題,即認為參與者不能理解研究中隱私保護的措施和后果,就不能升級進入下一階段的注冊。研究對象有權選擇不提供 EHRs,同時他們將不會受邀做相關化驗和基因分析。所有項目參與者都將采用電子知情同意程序,以確保一致性并使同意信息標準化。鑒于該研究持續時間長,及美國人口流動性大的特點,該項目得到美國國立衛生研究院總法律顧問辦公室和民權辦公室的指導,并在所有提交的參與者材料、同意書和工作流程的修訂中加以貫徹。除此之外,由于 EHR 信息可能包括精神健康、艾滋病毒狀況、物質和酒精使用及儲存在 EHR 的基因/基因組信息。參與者需要根據相關國家法規完成并簽署一個單獨的知情同意模塊,以授權訪問其 HER。
2 “All of Us”研究計劃的經驗和啟示
從觀察性隊列研究中獲得的數據和資料極大地促進了疾病的預防和治療。然而,由于自身規模的限制,大多數隊列研究不能提供全面的基因表型數據。“All of Us”研究計劃擬在美國招募 100 萬人以上的多樣化群體,以加快生物醫學研究和改善健康。在精準醫學和大數據時代背景下,該研究搭建了一個全面的、大規模的、涉及到更多細節的臨床研究平臺,為研究人群健康與疾病,為大數據和精準醫療計劃結合實施提供了一個范例。同時,“All of Us”研究計劃將創建一個信息基礎設施,將來自全美國不同 EHRs 系統的數據進行清理和標準化,這個廣泛適用的系統也會對全國衛生信息學研究工作做出重要貢獻。但由于其作為觀察性研究的局限性,所提供的信息都不構成臨床建議。返回給參與者的信息,包括那些被認為需要就醫的信息,均需要進一步確認。
“All of Us”研究計劃方案對我國精準醫學百萬自然人群隊列建設提供了很多可借鑒的經驗。在資料收集方面,可借鑒“All of Us”研究計劃運用植入智能手機型、可佩帶式、放置于居住地或汽車型的移動醫療設備收集參與者的情緒、聲音、睡眠、心率、呼吸等;收集空氣質量、溫度等環境信息,主動、被動地收集多種組學、生物標志、圖像、環境、參與者自報的電子健康數據等豐富資源。在人群代表性方面,要注重招募生物醫學研究中一直并將持續處于代表性不足的人群,以確保其能反映了研究源人群的廣泛多樣性,并保證大多數人都能參與精確醫學研究[8, 9]。在研究中,有專門為非裔美國人、亞裔美國人和西班牙裔美國人社區及其他普通人群設計的可下載手冊,以使其充分參與該研究[10, 11]。美國有著豐富的多樣性人種,我國亦是多元多樣的大國,在構建我國百萬人群自然隊列的過程中,要充分考慮種族、年齡、性別、性別認同、性取向、殘疾狀況、獲得保健的機會、收入、教育程度和地理位置等因素。因為種族和民族身份不僅僅是一種基因構造,更是人群健康的社會和行為決定因素,應充分利用這些多樣性來了解影響整個人口健康和疾病的因素。在提高依從性方面,“All of Us”研究計劃通過雙向溝通的方式與參與者聯絡,如利用電子郵件、應用程序消息、參與者門戶網站的通知中心及發送體格測量和生物樣本收集的邀請等。在倫理學方面,可采取“All of Us”研究計劃的形成性評價方式取得參與者的同意,最大程度地保護參與者的隱私。在數據安全方面,可借鑒該研究項目的管理模式,為項目招募獨立的評審員測試數據系統,保證其各項措施安全,并能有效應對新出現的威脅。此外,還可對使用者的訪問級別進行限制,如總體人口統計數據和風險較低的一般數據向公眾開放,而經注冊的科研人員除能夠滿足嚴格的數據安全標準外,還要接受倫理道德培訓,并簽署負責數據使用的行為準則,才能訪問相應級別的數據。此外,可對研究人員的研究活動進行限制,嚴格禁止將任何數據下載到自己的系統中,以便對所有使用者的活動進行監督。建立大規模的數據集并通過長期隨訪,“All of Us”研究計劃不僅能夠識別疾病的致病因素,也能通過疾病發生前的生物標志物為疾病預防預測提供可能。
雖然相關性不一定轉化為因果關系,但在大數據時代,利用“All of Us”研究計劃前瞻性收集的信息,使用如孟德爾隨機化、全基因組多基因風險評分及深度學習[12]等方法,可為臨床試驗提供病因假說。充分利用利用“All of Us”研究計劃收集的數據,有助于疾病危險因素及生物標志物(環境暴露、習慣及社會決定因素)的識別[13],有助于提高診斷和篩查試驗的準確性。
建立百萬自然人群隊列存在一定的挑戰,一方面是面臨道德、法律和社會層面存在的隱患,比如大量數據被獲取后的使用途徑和目的是什么,移動醫療、社交媒體所記錄到的參與者的日常生活,或存在著項目計劃的方案和信息技術保護不到的地方[2, 14]。同時,因為“All of Us”研究計劃不是采用常規的統計抽樣方法設計的,它在一些流行病學研究中的使用可能是有限的。此外,直接參與者提供的 HER 數據可能是零散的、不完整、不準確的,除非能解決準確和測量一致性的基本問題,否則收集到的任何數據及嘗試進行分析的適用性都將受到限制,并且內部有效性也有一定的局限。
在我國精準醫學百萬自然人群隊列建設中,會面臨著關鍵技術薄弱、數據庫與生物樣本共享機制不完善、貼合國際標準的大型前瞻性隊列研究設計方案面臨一定的挑戰。參考國際精準醫學隊列建設的成功經驗,并考慮我國國情現狀,完善適合我國的百萬自然人群隊列建設設計方案將有助于我國精準醫學事業建設。
聲明 本研究不存在任何利益沖突。