引用本文: 汪曉東, 朱佳怡, 李立. 數據庫建設第十一部分:結直腸癌隨訪的標簽與結構化. 中國普外基礎與臨床雜志, 2021, 28(10): 1353-1359. doi: 10.7507/1007-9424.202107120 復制
筆者團隊在《中國普外基礎與臨床雜志》上發表了一系列報道,對四川大學華西醫院腸癌數據庫(Database from Colorectal Cancer,DACCA)的構建思路進行了詳細闡述[1-2]。在本研究中主要闡述 DACCA 中結直腸癌隨訪模塊中的相關內容。
1 結直腸癌隨訪模塊的整體框架
結直腸癌隨訪是對于全生命周期結直腸癌診治效果的最終判斷方式。在統計學技術的處理過程中,盡管我們可以通過疾病特異性生存率和無病生存率指標作為參考,但是最主要的評價指標還是患者的總生存率,也就是除去所有原因所致結直腸癌患者死亡后的總體生存結果[3-5],而這個生存結果才是用于判斷患者在承擔結直腸癌患病負擔下最具有指導意義的預后指標。
在 DACCA 的構建過程中,筆者團隊針對結直腸癌隨訪過程中涉及的細節進行了設計,由于考慮到隨訪中患者因素的可變性和不確定性,因而從隨訪設計–過程管理–隨訪結果評價等方面進行數據框架構建。從數據庫的總體結構上分析,每一個惡性腫瘤全生命周期專病數據庫都是由固定板塊和可延展板塊組成:① 固定板塊。此是按照數據庫結構化要求而需相對固定的部分,這一部分的內容就是一旦有信息就可以及時填寫完成,或者通過臨床行為的分析后也可以填寫完成的數據內容,并且這些數據一旦納入數據庫的管理后則相對固定,除非進行必要的糾錯與更新,否則都是不會再更改的,包括在數據庫的清洗過程中都是可以實現清洗后反復使用的,主要是指隨訪設計、隨訪管理記錄、隨訪終期、生存狀態、隨訪策略、隨訪重點、隨訪計劃等。② 可延展板塊。在數據庫中,構建者只會構建每一次隨訪發生后需要填寫的數據框架,然后隨著后續的隨訪行為的發生需要不斷地反復填寫(可以反復疊加隨訪數據,主要是患者每次與結直腸癌相關的隨訪信息),同時伴隨隨訪日期的增多,最終會形成一個長期的隨訪記錄結果的變化圖。而數據的應用則是根據這個隨訪記錄結果的變化產生價值,如多次 CEA 的變化趨勢、多次全腹部增強 CT 掃描的圖像變化等。由于每次需要單次記錄隨訪信息,這是數據庫長期更新的關鍵,這種關鍵的更新,也展示了專業醫生在長期追蹤患者、動態地提供臨床決策的過程,是全生命周期專病數據中橋接隨訪前諸多板塊和預后結局的關鍵鏈條,是結直腸癌動態數據鏈的關鍵點。在這個鏈條中,單純地針對某種治療方案或者是特定藥物的使用,只能代表藥物或治療措施的真實世界場景;然而一旦融入腫瘤標志物數據、異常臨床表現、影像關注點、治療策略、費用等,就可以更為全面地展示隨訪的真實場景,是結直腸癌診治后長期狀態的最有力的依據,但這也是結直腸癌數據庫長期維護和更新的難點。
2 結直腸癌隨訪模塊的具體內容
在 DACCA 中,結直腸癌隨訪模塊中主要包括:隨訪終期、生存狀態、隨訪策略、隨訪重點、隨訪計劃、利用通訊工具進行的隨訪記錄、隨訪頻次、年度隨訪次數、單次隨訪記錄等內容,下面將具體對其內容的定義、分類、標簽、結構化及解讀進行詳細介紹。
2.1 隨訪終期
2.1.1 定義
DACCA 中的“隨訪終期”是指結直腸癌患者在納入數據庫管理后進行隨訪追蹤過程中的最后一次隨訪結果日期。隨訪追蹤方式如電話、微信、門診等與隨訪結果無關,采用任一隨訪方式下獲取的最終日期都可以作為此數據登記。在隨訪時刻,若追蹤到患者已經死亡時,隨訪終期的內容填寫的是患者死亡日期而非進行電話等方式進行隨訪當天的日期;對于隨訪時刻未死亡的患者,則填寫的日期則為隨訪當天的日期。
2.1.2 標簽與結構化
DACCA 中隨訪終期采用日期格式作為標簽,數據記錄格式為“yy-mm-dd”。在結構化分析時按照日期類型數據進行數據分析,可以通過計算與其他日期間的時間差進行相應的數據分析。
2.1.3 糾錯與更新
隨訪終期是 DACCA 中最重要的數據信息之一,是判定結直腸癌患者預后效果的關鍵。在 DACCA 數據的長期、動態更新中,需要隨時對隨訪終期進行更新。在基于 DACCA 的研究進行過程中,如果對 DACCA 中一些數據進行了補充和更新,那么這些數據也需要更新到 DACCA 隨訪終期數據中,并且一旦出現死亡信息則需要明確記錄死亡日期。所以該數據的記錄最重要的是及時性,而且需要實時地與隨訪日期進行關聯更新。需要注意的是,一定要避免死亡日期即是隨訪日期這種情況的記錄準確性,由于數據庫的持續更新并不是所有隨訪人員都能了解到數據隨時的更新狀態,比如,若有其他隨訪人員在隨訪到 1 例已死亡患者的家屬時,若此時患者家屬不告知患者已死亡,則會導致隨訪人員認為患者還處于生存狀態,此時記錄的就是一條不準確的隨訪終期結果。在對隨訪終期數據的更新中,還需要注意及時更新來自于實時溝通的一些隨訪方式如微信、QQ 的隨訪信息。當通過這些渠道臨時獲取隨訪信息時,應同時更新隨訪終期。隨訪工作由 DACCA 隨訪團隊跟進。
2.2 生存狀態
2.2.1 定義
在 DACCA 中的“生存狀態”是對對應于隨訪終期記錄時間點時患者所處生存狀態的描述。經典的生存狀態定義是指結直腸癌患者的無瘤、帶瘤、死亡 3 種狀態,與此對應采用無病生存率和總生存率指標計算[6]。但是這種生存狀態的定義無法為專科醫生提供隨訪干預建議,比如,結直腸癌患者原發病灶術后的帶瘤狀態可能是隨訪時新發現的新轉移病灶,也可能是長期存在的既有轉移灶且處于治療過程中,對這種不同的帶瘤狀態專業醫生需要給出的處理是不同的。因此,在 DACCA 中,對患者的生存狀態進行了更為詳細的細分(有 5 個大類,23 個亞類,表1),以達到生存狀態提供的數據可以成為“行為–結果”有價值的信息,同時為對于后期進行結直腸癌全生命周期預后的精細化測算以及應用型預后決策的轉化研究提供基礎。

2.2.2 標簽與結構化
在 DACCA 中,生存狀態用“生存”作為條目名稱,采用短文本形式以表1 中的分類結果作為標簽進行記錄。在進行結構化分析時,按照分類有序資料進行數據分析。
2.2.3 糾錯與更新
對于生存狀態的記錄需要注意準確性。由于在 DACCA 中對于生存狀態的分類非常詳細,而且對應不同的生存狀態,對于結直腸癌患者的預后預測評估都可能造成較大的影響,所以盡管是在同一個大類中如“無瘤”的狀態都需要詳細界定無瘤的具體方式。因此,這里的數據錄入目前都是由筆者團隊的高年資專業醫生進行填寫,以確保填寫的準確性。同時需要注意,在每次對隨訪信息進行更新時,患者的生存狀態是否有變化都應該及時做出判斷并更新在此數據條目內。當然,由于隨訪過程數據的詳細記錄,部分患者的既往隨訪節點的生存狀態可以通過回顧的方式進行補充,但是對于數據庫中數據動態指導醫師隨訪的行為則沒有幫助,所以仍舊建議及時、準確地錄入生存狀態數據。
2.3 隨訪策略
2.3.1 定義
DACCA 中的“隨訪策略”是指專科醫生在對結直腸癌患者進行隨訪時的總體策略。隨訪策略主要用于對于患者完成主要治療如手術后需要后期隨訪開始的時間、制訂的隨訪主要計劃,用于指導醫生是否需要對于某一患者做出高度的隨訪關注,其分類方式見表2。

2.3.2 標簽與結構化
在 DACCA 中,隨訪策略采用“隨策”作為條目名稱,采用短文本形式以表2 中的代碼作為標簽進行記錄。在進行結構化分析時,采用分類資料的方式進行分析。需要注意的是,在 DACCA 設計的過程中,隨訪策略更多是用于對于醫生的指導建議,更多的結構化分析會出現在結直腸癌標準化隨訪方式的研究中。
2.3.3 糾錯與更新
隨訪策略的制訂是不能通過后期補充的形式進行糾錯和更新的,都是在結直腸癌患者主要治療完成后且獲取了腫瘤嚴重程度的評估后就需要制訂并進行分類的,這個分類過程需要參考如術前治療、手術細節、手術質量、康復等多個模板的內容,強調及時進行隨訪策略的制訂。
2.4 隨訪重點
2.4.1 定義
在 DACCA 中,隨訪重點分為兩個數據框內填寫,分別是“術后隨訪重點”和“目前隨訪重點”。“術后隨訪重點”是專科醫生結合患者隨訪開始前的狀態綜合評價并提出需要在隨訪中關注的問題;“目前隨訪重點”是截至某一個時間點時專業醫生結合患者的隨訪狀態,同時提出需要在后續隨訪中關注的問題。
2.4.2 標簽與結構化
此部分內容不作為標簽和結構化的處理,采用全文字的形式進行記錄。主要是利用 DACCA 來關注患者的隨訪醫生,可以借助這些信息在隨訪過程中提供有價值的隨訪處置。在未來的應用型數據庫中將以注解(notes)的形式出現。
2.5 隨訪計劃
2.5.1 定義
在 DACCA 中,隨訪計劃是利用數據庫中的數據提供隨訪建議時,提示專業醫生需要對結直腸癌患者進行下一次隨訪時的處置安排,主要用于確定隨訪方向和數據庫的多數據完善。隨訪計劃的具體分類方式見表3。

2.5.2 標簽與結構化
在 DACCA 中,隨訪計劃以表3 中的分類標簽采用短文本形式記錄。在進行結構化分析時,可以按照分類無序資料進行數據分析,其分析的臨床應用價值仍舊重在指導。
2.5.3 糾錯與更新
隨訪計劃的制訂在 DACCA 中也是屬于指導性的信息,更多時不需后期進行更新或糾錯,但需要及時地進行隨訪計劃的擬定,所以在數據庫中應注意及時完成數據的填寫。多數時,專業醫生在利用數據庫進行臨床行為時,首先需要參考數據庫多個模塊中所關注的問題且結合患者隨訪過程發現隨訪還存在問題,尤其是失訪或潛在失訪的結直腸癌患者,此時就需要擬定該隨訪計劃,便于數據團隊及時對患者的數據進行處理。
2.6 利用通訊工具進行的隨訪記錄
2.6.1 解讀
在 DACCA 中,“利用通訊工具進行的隨訪”并不是單獨的一列數據,而是由“應對方式”“最近隨訪日”“隨訪方式”“應答”和“隨訪現狀”共同組成,反映了一次利用通訊工具進行隨訪的整個過程。需要說明的是,該部分數據需要記錄最新的一次,是專業醫生或其團隊(包括臨床科研過程中隨訪患者的研究人員)在利用電話、短信、微信、QQ 及手機應用 app(如華醫通等)方式對患者或家屬進行的隨訪,也可以是患者或家屬應用上述方式向專業醫生反饋病情的隨訪。“應對方式”是指在此次隨訪過程中醫生和患者誰作為隨訪的發起方,結果分為主動和被動,主動表示患者主動發起的隨訪,被動表示醫生發起的隨訪而患者被動接受。“最近隨訪日”是指這個隨訪過程發生的日期。“隨訪方式”是指在此次隨訪過程中采用的通訊方式,包括電話、短信、微信、QQ 或手機應用 app。“應答”是指患者對此次隨訪的態度,包括回避(患者及家屬都極度避免討論病情)、消極(患者及家屬對于隨訪的態度比較冷漠)、一般(經過隨訪人員的溝通可以被動回答一些問題,不是很配合)、積極(積極配合隨訪人員的各種問題)、過度(熱情過度,提許多其他或相關話題)、過激(借機發泄不滿,有過激言語)。“隨訪現狀”是指本次隨訪所反映的結直腸癌相關的疾病信息,包括治療、監測、預后等,在數據庫中利用文字描述的方式記錄,此項不作為標簽和結構化處理的內容。
2.6.2 標簽與結構化
在 DACCA 中,“利用通訊工具進行的隨訪記錄”中的內容如“應對方式”“隨訪方式”和“應答”均采用短文本形式記錄標簽,標簽的分類方式見其解讀中詳述,在進行結構化分析時,都采用分類無序資料進行數據分析;而“最近隨訪日”采用日期格式作為標簽,其數據記錄格式為“yy-mm-dd”,在結構化分析時按照日期類型數據進行數據分析,可以通過計算與其他日期間的時間差進行相應的數據分析。
2.6.3 糾錯與更新
“利用通訊工具進行的隨訪記錄”可以理解為一次互動式的隨訪,每一次隨訪的信息則需要將對應的信息進行記錄。在 DACCA 中將其內容進行了拆分,是為了更好地展示行為在隨訪中的價值;通過這些記錄的數據也可以分析患者隨訪的特點以及可能失訪的情況。因此,對“利用通訊工具進行的隨訪記錄”的內容需要在隨訪完成后立刻進行記錄并更新,因為這些信息通過后續進行糾錯和更新非常困難,同時也提示每一個隨訪時間點的數據錄入的重要性。通過 DACCA 項目組前期的管理程序搭建,雖然現在已經有相對比較完善的隨訪流程,但仍不能避免失訪,所以數據錄入過程仍高度強調及時性。對于關注結直腸癌數據庫構建的同行來說,提高隨訪率和隨訪質量是非常重要的,而實現這一點需要投入大量的人力。設置隨訪團隊是一個有效的方式,但是增加隨訪行為對于患者的吸引力以及有效地實施隨訪才是關鍵[7-8]。單純為了隨訪一個結果才與患者進行聯系的隨訪方式所得到的結果,人為誤差較大,而且并不會增加患者對于醫生隨訪的黏滯度,失訪就會成為必然。
2.7 隨訪頻次
2.7.1 解讀
在 DACCA 中,對于“隨訪頻次”按照隨訪方式的不同在數據庫中設置了不同的數據列,包括:病房(患者和醫生在病房內完成的隨訪)、本組(患者在原手術醫療組門診完成的隨訪)、專科(患者在結直腸癌相關專業但是非原手術醫療組門診完成的隨訪)、便民(患者自行在隨訪門診完成的隨訪,主要是指隨訪監測相關的檢查)、專家(患者在非結直腸癌相關專業,但是提供了隨訪監測信息的門診完成的隨訪)、電話(患者通過電話進行主動隨訪)、微信(患者通過微信進行主動隨訪,若每天多次微信聯系,則只算作 1 次)、QQ(患者通過 QQ 進行主動隨訪)、短信(患者通過手機短信進行主動隨訪)和手機應用 app(患者通過各類手機應用進行主動隨訪)。所有的數據列內顯示的均是隨訪的次數,只記錄數值,單位為“次”。在長期的隨訪中,這些數值可以持續的疊加。
2.7.2 標簽與結構化
在 DACCA 中,“隨訪頻次”設置的數據列條目下記錄的都是隨訪的次數,以數值記錄(單位為“次”),在長期隨訪中,這些數值可以持續疊加。在結構化分析中,按照定量數據進行數據分析。
2.7.3 糾錯與更新
在采用更為深度的互聯互通技術前,DACCA 中的隨訪頻次計算更多是依賴于人工或比較簡單的計算機工具,因此,為了降低錯誤率及保證有效的數據更新,這部分的數據信息仍需要通過計算機手段來協助。在沒有達到有效互聯互通的技術前期的數據內容,重點關注人為計算中導致的錯誤并注意按照定義區分需要計算歸納的數據內容,這些計算式可以通過后期的核查進行糾正,但是從結直腸癌數據庫構建的目標來看,若數據來自多醫療機構,這種數據的采集就可能無法通過在單一的系統內完成,還需要介入更多的數據模塊技術等。
2.8 年度隨訪次數
2.8.1 解讀
在 DACCA 中,“年度隨訪次數”是針對隨訪強度的描述,是指每年針對結直腸癌的門診或病房隨訪次數。共設置了 6 列數據條目,分別為“1y”“2y”“3y”“4y”“5y”“6y”。
2.8.2 標簽與結構化
在 DACCA 中,“年度隨訪次數”設置的數據列條目下記錄的都是隨訪的次數,其中“1y~5y”列下記錄的內容是指術后第 1 年到第 5 年每年內的隨訪總次數,“6y”列下記錄的內容是指術后第 6 年到長期隨訪的隨訪總次數。以數值記錄,單位為“次”。在結構化分析中,按照定量數據進行數據分析。
2.8.3 糾錯與更新
“年度隨訪次數”的記錄與“隨訪頻次”之間有類似之處,所以還是重在對于隨訪過程的計數。雖然可以通過后期的回顧核查進行糾正,但是更依賴的還是數據的及時采集和匯總。
2.9 單次隨訪記錄
2.9.1 解讀
單次隨訪記錄作為在 DACCA 中最后的一個數據模塊,它是指針對患者長期隨訪過程中每一次隨訪記錄的詳細信息。從臨床實際的表現上,這些每一次的隨訪記錄可以是來自患者門診的隨訪問診,也可以是來自患者于外院進行檢查后主動的隨訪咨詢。只要是具有監測和評估價值的每一次隨訪都可以認為是一次單獨的隨訪記錄。在 DACCA 中,筆者團隊將結直腸癌患者的單次隨訪記錄拆分為 7 個內容。① 隨訪-x。這里的“x”表示次數,如“隨訪-2”表示第 2 次隨訪,對應的數據列下方填寫的是這一次隨訪的日期,用“yy-mm-dd”格式表示。目前數據庫構建的隨訪次數預設值為 60 次,在超出 60 次的情況出現時,數據表頭直接按照順序增加數字。②CEA。單獨在此列下記錄 CEA 的數值,不記錄單位,默認單位為“ng/mL”。需要注意的是,可能不同醫院檢測的 CEA 參考值不同,若出現此種情況時需要在記錄數值后用括號“()”記錄參考值,如“5.6(<7)”。后期在使用該數據時將通過計算機技術進行轉換處理。③ 異常。這一欄記錄的是患者出現的異常臨床癥狀,既可以是隨訪的原因,也可以是隨訪中專業醫生發現的問題,但是一定要與結直腸癌存在一定關系,當不確定是否存在關系時以可疑有關系的方式記錄,以文本形式記錄。④ 影像。此欄記錄的是患者在隨訪中的任何影像發現的與結直腸癌有關的信息。正常影像用“0-”表示,可疑用“1-”表示,確診用“2-”表示,連字符號“-”后連接的是具體的影像檢查方式,括號“()”內說明可疑或者確診的臨床問題,如:0-胸腹CT,1-胸CT(左肺),2-盆腔MR(右腹股溝淋巴結)。⑤ 生存。此欄記錄的是患者的生存狀態,其表達的形式同前面的“生存狀態”表達一致。⑥ 治療。此欄記錄的是本次隨訪中針對前述“CEA”“異常”“影像”的發現結果所對應的處理措施,若本次隨訪是來自某一次輔助治療的記錄,則在此欄內填寫治療的總體方案。⑦ 費用。此欄記錄的是本次治療措施在醫保報銷費用扣除后患者的自付費用。記錄的數據為整數數字,單位為“元”。
2.9.2 標簽與結構化
在 DACCA 中,針對單次隨訪記錄中 7 個數據組成部分,需要標簽和結構化處理的有“隨訪-x”“CEA”和“費用”,其中“隨訪-x”以日期形式記錄數據,結構化分析時采用日期類型數據進行數據分析;“CEA”以短文本形式記錄數據,包含 CEA 的數值及參考范圍,結構化分析時將 CEA 數值通過參考范圍進行轉換后以定量數據進行分析;“費用”以數值形式記錄數據,結構化分析時以定量數據進行分析。
2.9.3 糾錯與更新
在 DACCA 中,每個單次的隨訪記錄均要求在隨訪發生后就及時記錄,特別是來自非數據庫構建團隊所在醫療機構的信息,需要獲取時及時添加。在數據庫應用管理中,此項內容通過錄入隨訪記錄的軟件終端可以完成,此形式也可以通過把軟件終端在法律允許的情況下設置在相應的醫療機構的安全網絡區域內實現[9-10]。對于醫療機構的安全網絡區域內,可以通過回顧的方式檢查每次隨訪的記錄,以達到糾錯的目的。而每一次隨訪記錄的數據采集都可以界定在一個時間段內進行更新。比如 1 周內患者進行了 CEA 的檢測,也進行了胸腹部增強 CT 的檢查,那么這些結果可以在一次隨訪時間點內記錄,不用額外增加隨訪時間點。
3 總結與未來規劃
筆者團隊通過連續 11 部分的 DACCA 數據庫建設和數據庫研究的報道,已經較為全面地向讀者展示了基于四川大學華西醫院及其醫聯體并由結直腸癌專業組牽頭搭建的結直腸癌專病數據庫或數據隊列。
專病數據庫或數據隊列是區別于人群健康數據庫或數據隊列的一種特有的數據庫,其構架的內涵也區別于源自醫院信息系統(HIS)所提取的數據庫,它需要充分展示出某一特定專病所獨有的特征,如診斷方式、治療措施、決策思維等。因此,試圖通過直接利用 HIS 的框架實現專病數據庫或數據隊列的想法是不適合于專病數據庫構建理念的。
為了構建一套可以動態關聯的、完善的、運行良好的、具有全生命周期特征的專病數據庫,需要有對某一特定疾病的專業深耕,應建立在豐富專病診療的基礎上,既不偏駁于外科治療為主的數據,也不是以內科治療為主的數據;需要通過認真剖析結直腸癌從診斷到治療再到隨訪中的每一個細節,既可以參考經典知識體系以及國際國內指南所提供的數據元素,又需要將專業行為進行詳細拆解,把專業醫生、護士、患者、家庭乃至所處環境所存在的關聯利用數據元素進行表示;還需要將諸多存在爭議、懸而未決的專業問題通過直接或間接的參數進行表達。只有遵照以上情況構建的專病數據庫,才能將零散的臨床數據描繪成全生命周期的診治“圖卷”,才可以為后期其他理工科學的有機整合奠定基礎,真正實現臨床數據的價值化,從而呈現出具備價值醫療特點的“產–學–研”乃是“數據市場”的完整閉環。
在本期內容發表之后,筆者團隊后期將通過數據庫解讀、數據庫決策等后續章節,由淺入深地向讀者闡述 DACCA 數據庫的科研應用示范、“醫–工”合作的場景等。
重要聲明
利益沖突聲明:本文全體作者閱讀并理解了《中國普外基礎與臨床雜志》的政策聲明,我們沒有相互競爭的利益。
作者貢獻聲明:汪曉東負責文章的主要撰寫工作;朱佳怡負責文章的部分撰寫工作;汪曉東和李立共同為華西 DACCA 的構建者和主要應用分析人員。
倫理聲明:本研究已通過四川大學華西醫院生物醫學倫理學委員會的審核并同意[批文編號:2019 年審(140)號]。
筆者團隊在《中國普外基礎與臨床雜志》上發表了一系列報道,對四川大學華西醫院腸癌數據庫(Database from Colorectal Cancer,DACCA)的構建思路進行了詳細闡述[1-2]。在本研究中主要闡述 DACCA 中結直腸癌隨訪模塊中的相關內容。
1 結直腸癌隨訪模塊的整體框架
結直腸癌隨訪是對于全生命周期結直腸癌診治效果的最終判斷方式。在統計學技術的處理過程中,盡管我們可以通過疾病特異性生存率和無病生存率指標作為參考,但是最主要的評價指標還是患者的總生存率,也就是除去所有原因所致結直腸癌患者死亡后的總體生存結果[3-5],而這個生存結果才是用于判斷患者在承擔結直腸癌患病負擔下最具有指導意義的預后指標。
在 DACCA 的構建過程中,筆者團隊針對結直腸癌隨訪過程中涉及的細節進行了設計,由于考慮到隨訪中患者因素的可變性和不確定性,因而從隨訪設計–過程管理–隨訪結果評價等方面進行數據框架構建。從數據庫的總體結構上分析,每一個惡性腫瘤全生命周期專病數據庫都是由固定板塊和可延展板塊組成:① 固定板塊。此是按照數據庫結構化要求而需相對固定的部分,這一部分的內容就是一旦有信息就可以及時填寫完成,或者通過臨床行為的分析后也可以填寫完成的數據內容,并且這些數據一旦納入數據庫的管理后則相對固定,除非進行必要的糾錯與更新,否則都是不會再更改的,包括在數據庫的清洗過程中都是可以實現清洗后反復使用的,主要是指隨訪設計、隨訪管理記錄、隨訪終期、生存狀態、隨訪策略、隨訪重點、隨訪計劃等。② 可延展板塊。在數據庫中,構建者只會構建每一次隨訪發生后需要填寫的數據框架,然后隨著后續的隨訪行為的發生需要不斷地反復填寫(可以反復疊加隨訪數據,主要是患者每次與結直腸癌相關的隨訪信息),同時伴隨隨訪日期的增多,最終會形成一個長期的隨訪記錄結果的變化圖。而數據的應用則是根據這個隨訪記錄結果的變化產生價值,如多次 CEA 的變化趨勢、多次全腹部增強 CT 掃描的圖像變化等。由于每次需要單次記錄隨訪信息,這是數據庫長期更新的關鍵,這種關鍵的更新,也展示了專業醫生在長期追蹤患者、動態地提供臨床決策的過程,是全生命周期專病數據中橋接隨訪前諸多板塊和預后結局的關鍵鏈條,是結直腸癌動態數據鏈的關鍵點。在這個鏈條中,單純地針對某種治療方案或者是特定藥物的使用,只能代表藥物或治療措施的真實世界場景;然而一旦融入腫瘤標志物數據、異常臨床表現、影像關注點、治療策略、費用等,就可以更為全面地展示隨訪的真實場景,是結直腸癌診治后長期狀態的最有力的依據,但這也是結直腸癌數據庫長期維護和更新的難點。
2 結直腸癌隨訪模塊的具體內容
在 DACCA 中,結直腸癌隨訪模塊中主要包括:隨訪終期、生存狀態、隨訪策略、隨訪重點、隨訪計劃、利用通訊工具進行的隨訪記錄、隨訪頻次、年度隨訪次數、單次隨訪記錄等內容,下面將具體對其內容的定義、分類、標簽、結構化及解讀進行詳細介紹。
2.1 隨訪終期
2.1.1 定義
DACCA 中的“隨訪終期”是指結直腸癌患者在納入數據庫管理后進行隨訪追蹤過程中的最后一次隨訪結果日期。隨訪追蹤方式如電話、微信、門診等與隨訪結果無關,采用任一隨訪方式下獲取的最終日期都可以作為此數據登記。在隨訪時刻,若追蹤到患者已經死亡時,隨訪終期的內容填寫的是患者死亡日期而非進行電話等方式進行隨訪當天的日期;對于隨訪時刻未死亡的患者,則填寫的日期則為隨訪當天的日期。
2.1.2 標簽與結構化
DACCA 中隨訪終期采用日期格式作為標簽,數據記錄格式為“yy-mm-dd”。在結構化分析時按照日期類型數據進行數據分析,可以通過計算與其他日期間的時間差進行相應的數據分析。
2.1.3 糾錯與更新
隨訪終期是 DACCA 中最重要的數據信息之一,是判定結直腸癌患者預后效果的關鍵。在 DACCA 數據的長期、動態更新中,需要隨時對隨訪終期進行更新。在基于 DACCA 的研究進行過程中,如果對 DACCA 中一些數據進行了補充和更新,那么這些數據也需要更新到 DACCA 隨訪終期數據中,并且一旦出現死亡信息則需要明確記錄死亡日期。所以該數據的記錄最重要的是及時性,而且需要實時地與隨訪日期進行關聯更新。需要注意的是,一定要避免死亡日期即是隨訪日期這種情況的記錄準確性,由于數據庫的持續更新并不是所有隨訪人員都能了解到數據隨時的更新狀態,比如,若有其他隨訪人員在隨訪到 1 例已死亡患者的家屬時,若此時患者家屬不告知患者已死亡,則會導致隨訪人員認為患者還處于生存狀態,此時記錄的就是一條不準確的隨訪終期結果。在對隨訪終期數據的更新中,還需要注意及時更新來自于實時溝通的一些隨訪方式如微信、QQ 的隨訪信息。當通過這些渠道臨時獲取隨訪信息時,應同時更新隨訪終期。隨訪工作由 DACCA 隨訪團隊跟進。
2.2 生存狀態
2.2.1 定義
在 DACCA 中的“生存狀態”是對對應于隨訪終期記錄時間點時患者所處生存狀態的描述。經典的生存狀態定義是指結直腸癌患者的無瘤、帶瘤、死亡 3 種狀態,與此對應采用無病生存率和總生存率指標計算[6]。但是這種生存狀態的定義無法為專科醫生提供隨訪干預建議,比如,結直腸癌患者原發病灶術后的帶瘤狀態可能是隨訪時新發現的新轉移病灶,也可能是長期存在的既有轉移灶且處于治療過程中,對這種不同的帶瘤狀態專業醫生需要給出的處理是不同的。因此,在 DACCA 中,對患者的生存狀態進行了更為詳細的細分(有 5 個大類,23 個亞類,表1),以達到生存狀態提供的數據可以成為“行為–結果”有價值的信息,同時為對于后期進行結直腸癌全生命周期預后的精細化測算以及應用型預后決策的轉化研究提供基礎。

2.2.2 標簽與結構化
在 DACCA 中,生存狀態用“生存”作為條目名稱,采用短文本形式以表1 中的分類結果作為標簽進行記錄。在進行結構化分析時,按照分類有序資料進行數據分析。
2.2.3 糾錯與更新
對于生存狀態的記錄需要注意準確性。由于在 DACCA 中對于生存狀態的分類非常詳細,而且對應不同的生存狀態,對于結直腸癌患者的預后預測評估都可能造成較大的影響,所以盡管是在同一個大類中如“無瘤”的狀態都需要詳細界定無瘤的具體方式。因此,這里的數據錄入目前都是由筆者團隊的高年資專業醫生進行填寫,以確保填寫的準確性。同時需要注意,在每次對隨訪信息進行更新時,患者的生存狀態是否有變化都應該及時做出判斷并更新在此數據條目內。當然,由于隨訪過程數據的詳細記錄,部分患者的既往隨訪節點的生存狀態可以通過回顧的方式進行補充,但是對于數據庫中數據動態指導醫師隨訪的行為則沒有幫助,所以仍舊建議及時、準確地錄入生存狀態數據。
2.3 隨訪策略
2.3.1 定義
DACCA 中的“隨訪策略”是指專科醫生在對結直腸癌患者進行隨訪時的總體策略。隨訪策略主要用于對于患者完成主要治療如手術后需要后期隨訪開始的時間、制訂的隨訪主要計劃,用于指導醫生是否需要對于某一患者做出高度的隨訪關注,其分類方式見表2。

2.3.2 標簽與結構化
在 DACCA 中,隨訪策略采用“隨策”作為條目名稱,采用短文本形式以表2 中的代碼作為標簽進行記錄。在進行結構化分析時,采用分類資料的方式進行分析。需要注意的是,在 DACCA 設計的過程中,隨訪策略更多是用于對于醫生的指導建議,更多的結構化分析會出現在結直腸癌標準化隨訪方式的研究中。
2.3.3 糾錯與更新
隨訪策略的制訂是不能通過后期補充的形式進行糾錯和更新的,都是在結直腸癌患者主要治療完成后且獲取了腫瘤嚴重程度的評估后就需要制訂并進行分類的,這個分類過程需要參考如術前治療、手術細節、手術質量、康復等多個模板的內容,強調及時進行隨訪策略的制訂。
2.4 隨訪重點
2.4.1 定義
在 DACCA 中,隨訪重點分為兩個數據框內填寫,分別是“術后隨訪重點”和“目前隨訪重點”。“術后隨訪重點”是專科醫生結合患者隨訪開始前的狀態綜合評價并提出需要在隨訪中關注的問題;“目前隨訪重點”是截至某一個時間點時專業醫生結合患者的隨訪狀態,同時提出需要在后續隨訪中關注的問題。
2.4.2 標簽與結構化
此部分內容不作為標簽和結構化的處理,采用全文字的形式進行記錄。主要是利用 DACCA 來關注患者的隨訪醫生,可以借助這些信息在隨訪過程中提供有價值的隨訪處置。在未來的應用型數據庫中將以注解(notes)的形式出現。
2.5 隨訪計劃
2.5.1 定義
在 DACCA 中,隨訪計劃是利用數據庫中的數據提供隨訪建議時,提示專業醫生需要對結直腸癌患者進行下一次隨訪時的處置安排,主要用于確定隨訪方向和數據庫的多數據完善。隨訪計劃的具體分類方式見表3。

2.5.2 標簽與結構化
在 DACCA 中,隨訪計劃以表3 中的分類標簽采用短文本形式記錄。在進行結構化分析時,可以按照分類無序資料進行數據分析,其分析的臨床應用價值仍舊重在指導。
2.5.3 糾錯與更新
隨訪計劃的制訂在 DACCA 中也是屬于指導性的信息,更多時不需后期進行更新或糾錯,但需要及時地進行隨訪計劃的擬定,所以在數據庫中應注意及時完成數據的填寫。多數時,專業醫生在利用數據庫進行臨床行為時,首先需要參考數據庫多個模塊中所關注的問題且結合患者隨訪過程發現隨訪還存在問題,尤其是失訪或潛在失訪的結直腸癌患者,此時就需要擬定該隨訪計劃,便于數據團隊及時對患者的數據進行處理。
2.6 利用通訊工具進行的隨訪記錄
2.6.1 解讀
在 DACCA 中,“利用通訊工具進行的隨訪”并不是單獨的一列數據,而是由“應對方式”“最近隨訪日”“隨訪方式”“應答”和“隨訪現狀”共同組成,反映了一次利用通訊工具進行隨訪的整個過程。需要說明的是,該部分數據需要記錄最新的一次,是專業醫生或其團隊(包括臨床科研過程中隨訪患者的研究人員)在利用電話、短信、微信、QQ 及手機應用 app(如華醫通等)方式對患者或家屬進行的隨訪,也可以是患者或家屬應用上述方式向專業醫生反饋病情的隨訪。“應對方式”是指在此次隨訪過程中醫生和患者誰作為隨訪的發起方,結果分為主動和被動,主動表示患者主動發起的隨訪,被動表示醫生發起的隨訪而患者被動接受。“最近隨訪日”是指這個隨訪過程發生的日期。“隨訪方式”是指在此次隨訪過程中采用的通訊方式,包括電話、短信、微信、QQ 或手機應用 app。“應答”是指患者對此次隨訪的態度,包括回避(患者及家屬都極度避免討論病情)、消極(患者及家屬對于隨訪的態度比較冷漠)、一般(經過隨訪人員的溝通可以被動回答一些問題,不是很配合)、積極(積極配合隨訪人員的各種問題)、過度(熱情過度,提許多其他或相關話題)、過激(借機發泄不滿,有過激言語)。“隨訪現狀”是指本次隨訪所反映的結直腸癌相關的疾病信息,包括治療、監測、預后等,在數據庫中利用文字描述的方式記錄,此項不作為標簽和結構化處理的內容。
2.6.2 標簽與結構化
在 DACCA 中,“利用通訊工具進行的隨訪記錄”中的內容如“應對方式”“隨訪方式”和“應答”均采用短文本形式記錄標簽,標簽的分類方式見其解讀中詳述,在進行結構化分析時,都采用分類無序資料進行數據分析;而“最近隨訪日”采用日期格式作為標簽,其數據記錄格式為“yy-mm-dd”,在結構化分析時按照日期類型數據進行數據分析,可以通過計算與其他日期間的時間差進行相應的數據分析。
2.6.3 糾錯與更新
“利用通訊工具進行的隨訪記錄”可以理解為一次互動式的隨訪,每一次隨訪的信息則需要將對應的信息進行記錄。在 DACCA 中將其內容進行了拆分,是為了更好地展示行為在隨訪中的價值;通過這些記錄的數據也可以分析患者隨訪的特點以及可能失訪的情況。因此,對“利用通訊工具進行的隨訪記錄”的內容需要在隨訪完成后立刻進行記錄并更新,因為這些信息通過后續進行糾錯和更新非常困難,同時也提示每一個隨訪時間點的數據錄入的重要性。通過 DACCA 項目組前期的管理程序搭建,雖然現在已經有相對比較完善的隨訪流程,但仍不能避免失訪,所以數據錄入過程仍高度強調及時性。對于關注結直腸癌數據庫構建的同行來說,提高隨訪率和隨訪質量是非常重要的,而實現這一點需要投入大量的人力。設置隨訪團隊是一個有效的方式,但是增加隨訪行為對于患者的吸引力以及有效地實施隨訪才是關鍵[7-8]。單純為了隨訪一個結果才與患者進行聯系的隨訪方式所得到的結果,人為誤差較大,而且并不會增加患者對于醫生隨訪的黏滯度,失訪就會成為必然。
2.7 隨訪頻次
2.7.1 解讀
在 DACCA 中,對于“隨訪頻次”按照隨訪方式的不同在數據庫中設置了不同的數據列,包括:病房(患者和醫生在病房內完成的隨訪)、本組(患者在原手術醫療組門診完成的隨訪)、專科(患者在結直腸癌相關專業但是非原手術醫療組門診完成的隨訪)、便民(患者自行在隨訪門診完成的隨訪,主要是指隨訪監測相關的檢查)、專家(患者在非結直腸癌相關專業,但是提供了隨訪監測信息的門診完成的隨訪)、電話(患者通過電話進行主動隨訪)、微信(患者通過微信進行主動隨訪,若每天多次微信聯系,則只算作 1 次)、QQ(患者通過 QQ 進行主動隨訪)、短信(患者通過手機短信進行主動隨訪)和手機應用 app(患者通過各類手機應用進行主動隨訪)。所有的數據列內顯示的均是隨訪的次數,只記錄數值,單位為“次”。在長期的隨訪中,這些數值可以持續的疊加。
2.7.2 標簽與結構化
在 DACCA 中,“隨訪頻次”設置的數據列條目下記錄的都是隨訪的次數,以數值記錄(單位為“次”),在長期隨訪中,這些數值可以持續疊加。在結構化分析中,按照定量數據進行數據分析。
2.7.3 糾錯與更新
在采用更為深度的互聯互通技術前,DACCA 中的隨訪頻次計算更多是依賴于人工或比較簡單的計算機工具,因此,為了降低錯誤率及保證有效的數據更新,這部分的數據信息仍需要通過計算機手段來協助。在沒有達到有效互聯互通的技術前期的數據內容,重點關注人為計算中導致的錯誤并注意按照定義區分需要計算歸納的數據內容,這些計算式可以通過后期的核查進行糾正,但是從結直腸癌數據庫構建的目標來看,若數據來自多醫療機構,這種數據的采集就可能無法通過在單一的系統內完成,還需要介入更多的數據模塊技術等。
2.8 年度隨訪次數
2.8.1 解讀
在 DACCA 中,“年度隨訪次數”是針對隨訪強度的描述,是指每年針對結直腸癌的門診或病房隨訪次數。共設置了 6 列數據條目,分別為“1y”“2y”“3y”“4y”“5y”“6y”。
2.8.2 標簽與結構化
在 DACCA 中,“年度隨訪次數”設置的數據列條目下記錄的都是隨訪的次數,其中“1y~5y”列下記錄的內容是指術后第 1 年到第 5 年每年內的隨訪總次數,“6y”列下記錄的內容是指術后第 6 年到長期隨訪的隨訪總次數。以數值記錄,單位為“次”。在結構化分析中,按照定量數據進行數據分析。
2.8.3 糾錯與更新
“年度隨訪次數”的記錄與“隨訪頻次”之間有類似之處,所以還是重在對于隨訪過程的計數。雖然可以通過后期的回顧核查進行糾正,但是更依賴的還是數據的及時采集和匯總。
2.9 單次隨訪記錄
2.9.1 解讀
單次隨訪記錄作為在 DACCA 中最后的一個數據模塊,它是指針對患者長期隨訪過程中每一次隨訪記錄的詳細信息。從臨床實際的表現上,這些每一次的隨訪記錄可以是來自患者門診的隨訪問診,也可以是來自患者于外院進行檢查后主動的隨訪咨詢。只要是具有監測和評估價值的每一次隨訪都可以認為是一次單獨的隨訪記錄。在 DACCA 中,筆者團隊將結直腸癌患者的單次隨訪記錄拆分為 7 個內容。① 隨訪-x。這里的“x”表示次數,如“隨訪-2”表示第 2 次隨訪,對應的數據列下方填寫的是這一次隨訪的日期,用“yy-mm-dd”格式表示。目前數據庫構建的隨訪次數預設值為 60 次,在超出 60 次的情況出現時,數據表頭直接按照順序增加數字。②CEA。單獨在此列下記錄 CEA 的數值,不記錄單位,默認單位為“ng/mL”。需要注意的是,可能不同醫院檢測的 CEA 參考值不同,若出現此種情況時需要在記錄數值后用括號“()”記錄參考值,如“5.6(<7)”。后期在使用該數據時將通過計算機技術進行轉換處理。③ 異常。這一欄記錄的是患者出現的異常臨床癥狀,既可以是隨訪的原因,也可以是隨訪中專業醫生發現的問題,但是一定要與結直腸癌存在一定關系,當不確定是否存在關系時以可疑有關系的方式記錄,以文本形式記錄。④ 影像。此欄記錄的是患者在隨訪中的任何影像發現的與結直腸癌有關的信息。正常影像用“0-”表示,可疑用“1-”表示,確診用“2-”表示,連字符號“-”后連接的是具體的影像檢查方式,括號“()”內說明可疑或者確診的臨床問題,如:0-胸腹CT,1-胸CT(左肺),2-盆腔MR(右腹股溝淋巴結)。⑤ 生存。此欄記錄的是患者的生存狀態,其表達的形式同前面的“生存狀態”表達一致。⑥ 治療。此欄記錄的是本次隨訪中針對前述“CEA”“異常”“影像”的發現結果所對應的處理措施,若本次隨訪是來自某一次輔助治療的記錄,則在此欄內填寫治療的總體方案。⑦ 費用。此欄記錄的是本次治療措施在醫保報銷費用扣除后患者的自付費用。記錄的數據為整數數字,單位為“元”。
2.9.2 標簽與結構化
在 DACCA 中,針對單次隨訪記錄中 7 個數據組成部分,需要標簽和結構化處理的有“隨訪-x”“CEA”和“費用”,其中“隨訪-x”以日期形式記錄數據,結構化分析時采用日期類型數據進行數據分析;“CEA”以短文本形式記錄數據,包含 CEA 的數值及參考范圍,結構化分析時將 CEA 數值通過參考范圍進行轉換后以定量數據進行分析;“費用”以數值形式記錄數據,結構化分析時以定量數據進行分析。
2.9.3 糾錯與更新
在 DACCA 中,每個單次的隨訪記錄均要求在隨訪發生后就及時記錄,特別是來自非數據庫構建團隊所在醫療機構的信息,需要獲取時及時添加。在數據庫應用管理中,此項內容通過錄入隨訪記錄的軟件終端可以完成,此形式也可以通過把軟件終端在法律允許的情況下設置在相應的醫療機構的安全網絡區域內實現[9-10]。對于醫療機構的安全網絡區域內,可以通過回顧的方式檢查每次隨訪的記錄,以達到糾錯的目的。而每一次隨訪記錄的數據采集都可以界定在一個時間段內進行更新。比如 1 周內患者進行了 CEA 的檢測,也進行了胸腹部增強 CT 的檢查,那么這些結果可以在一次隨訪時間點內記錄,不用額外增加隨訪時間點。
3 總結與未來規劃
筆者團隊通過連續 11 部分的 DACCA 數據庫建設和數據庫研究的報道,已經較為全面地向讀者展示了基于四川大學華西醫院及其醫聯體并由結直腸癌專業組牽頭搭建的結直腸癌專病數據庫或數據隊列。
專病數據庫或數據隊列是區別于人群健康數據庫或數據隊列的一種特有的數據庫,其構架的內涵也區別于源自醫院信息系統(HIS)所提取的數據庫,它需要充分展示出某一特定專病所獨有的特征,如診斷方式、治療措施、決策思維等。因此,試圖通過直接利用 HIS 的框架實現專病數據庫或數據隊列的想法是不適合于專病數據庫構建理念的。
為了構建一套可以動態關聯的、完善的、運行良好的、具有全生命周期特征的專病數據庫,需要有對某一特定疾病的專業深耕,應建立在豐富專病診療的基礎上,既不偏駁于外科治療為主的數據,也不是以內科治療為主的數據;需要通過認真剖析結直腸癌從診斷到治療再到隨訪中的每一個細節,既可以參考經典知識體系以及國際國內指南所提供的數據元素,又需要將專業行為進行詳細拆解,把專業醫生、護士、患者、家庭乃至所處環境所存在的關聯利用數據元素進行表示;還需要將諸多存在爭議、懸而未決的專業問題通過直接或間接的參數進行表達。只有遵照以上情況構建的專病數據庫,才能將零散的臨床數據描繪成全生命周期的診治“圖卷”,才可以為后期其他理工科學的有機整合奠定基礎,真正實現臨床數據的價值化,從而呈現出具備價值醫療特點的“產–學–研”乃是“數據市場”的完整閉環。
在本期內容發表之后,筆者團隊后期將通過數據庫解讀、數據庫決策等后續章節,由淺入深地向讀者闡述 DACCA 數據庫的科研應用示范、“醫–工”合作的場景等。
重要聲明
利益沖突聲明:本文全體作者閱讀并理解了《中國普外基礎與臨床雜志》的政策聲明,我們沒有相互競爭的利益。
作者貢獻聲明:汪曉東負責文章的主要撰寫工作;朱佳怡負責文章的部分撰寫工作;汪曉東和李立共同為華西 DACCA 的構建者和主要應用分析人員。
倫理聲明:本研究已通過四川大學華西醫院生物醫學倫理學委員會的審核并同意[批文編號:2019 年審(140)號]。