隨著人工智能和自然語言處理技術的飛速發展,ChatGPT(Chat Generative Pre-trained Transformer)已在醫學領域初步應用。ChatGPT 具有基于大數據、生成連貫且邏輯合理的自然語言的優勢,一些學者已就其在醫療領域的應用及其效果進行了初步探討。該文將結合筆者應用 ChatGPT 的體驗,綜述 ChatGPT 在醫學教育、輔助臨床決策及醫學研究中的應用進展,展望其未來的發展趨勢,同時也將對其在實際醫療應用中的挑戰和限制進行深入分析,為在醫學領域規范地使用 ChatGPT 奠定基礎。
引用本文: 李佩芳, 陳佳麗, 寧寧, 王立群, 張涵旎. ChatGPT 在醫學領域的應用進展及思考. 華西醫學, 2023, 38(10): 1456-1460. doi: 10.7507/1002-0179.202309179 復制
隨著人民對醫療需求的不斷提升及科技的發展,現代醫學已從之前的經驗醫學、循證醫學發展到當下的個體化精準醫學。人工智能+大數據算法的發展有利于更好地處理和分析大量的醫學數據,發現疾病和治療之間的新關聯,構建關系模型,助力個體化精準醫學的發展[1]。ChatGPT(Chat Generative Pre-trained Transformer)作為一種先進的處理自然語言的人工智能模型,一經發布,引起了醫學界的廣泛關注,在醫學領域顯示了其獨特的價值,其不僅為患者和醫生提供了新的互動方式,還在輔助醫療決策、教育、研究等領域得到應用[2-3]。ChatGPT 在醫療領域已展現了廣泛的應用前景,本文將結合筆者應用 ChatGPT 的體驗,綜述 ChatGPT 在醫學教育、輔助臨床決策及醫學研究中的應用方法、效果及優缺點,展望其未來的發展趨勢,同時也將對其在實際醫療應用中的挑戰和限制進行深入分析,為在醫學領域規范地使用 ChatGPT 奠定基礎。
1 ChatGPT 概述
ChatGPT 是由 OpenAI 公司開發的一種基于變形器(transformer)架構進行自然語言處理的人工智能預訓練語言模型,旨在通過訓練大規模數據集來學習自然語言,從而生成連貫、邏輯合理的自然語言,包括文本生成、代碼生成、視頻生成、文本問答、圖像生成、影視創作、科學實驗設計等[4]。
變形器架構在 2017 年被提出,是一種基于注意力機制的神經網絡架構,其突破了傳統的循環神經網絡和卷積神經網絡在處理長期依賴和全局關系時存在的一些限制,在自然語言處理任務中取得了重大的突破,尤其是在機器翻譯任務中表現出色[5-6]。基于變形器架構,GPT 模型采用了預訓練和微調 2 個步驟[7-8]。在預訓練階段,模型使用大量的無標簽文本數據進行訓練,形成預測下一個詞或句子的能力,這使得模型能夠捕捉到自然語言中的語法、語義和上下文信息。在微調階段,模型通過在特定任務上進行有監督的訓練來進一步優化,使用帶有標注的文本數據對模型進行微調,以完成翻譯、問答系統或文本生成等任務,提高精準度。故 GPT 是基于變形器架構的經過預訓練及微調的生成自然語言的模型。
ChatGPT 一經發布,就受到廣大用戶的歡迎和關注,已經被廣泛應用于多個領域,包括在線客服、內容創作、教育、娛樂等領域,為客戶提供全天候即時的響應,提升了內容創作的效率,提供了快速獲取知識的途徑。但是需要注意的是,盡管 ChatGPT 在許多方面都很有用,但它不是萬能的,還存在一些限制和挑戰,如偏見、錯誤輸出或過度依賴等問題。
2 ChatGPT 在醫學領域的應用現狀
2.1 ChatGPT 在醫學教育方面的應用
總結現有 ChatGPT 在全國醫學考試試題中的準確率研究,可以發現 ChatGPT-4.0 較 ChatGPT-3.5 表現更好,英語版本的試題正確率更高,醫學一般通識知識及單選題準確率更高。筆者前期測試發現,對于 ChatGPT 回答正確的醫學試題,請它給出詳細的答案解析,則該解析也是正確的,這就為醫學生輔助考試奠定了基礎。全國醫學資格考試涉及的醫學內容范圍廣、聚焦細節,學生在復習過程中很難精準找到一位老師來解答疑問。ChatGPT 將有助于提高學生的備考效率和對知識點的理解。然而,目前 ChatGPT 做題的正確率受題型、語言、GPT 版本等影響,故現階段將 ChatGPT 用于輔助學習時需要保持評判性思維,對其提供的答案及解析進行核實。
還有其他學者指出可將 ChatGPT 應用于醫學生個性化學習(根據學生的先前知識和學習進度,定制化地提供答案和解釋)、互動式學習(提出問題、探討問題、深入思考和理解醫學概念)、實踐模擬訓練(在與 ChatGPT 的對話中練習問題提問、溝通技巧和病例分析等能力)[3, 13]。然而,這些在醫學教學過程中的實現都需基于 ChatGPT 可以輸出正確率極高的醫學知識。現階段將 ChatGPT 應用于醫學教學中需要有高水平的教師對教學過程進行監控和評判,此外,還需要輸入大量醫學相關數據對 GPT 模型進行微調,提高其輸出醫學知識的準確率。
2.2 ChatGPT 在輔助臨床決策方面的應用
已有一些學者將 ChatGPT 用于輔助臨床疾病的診斷、治療、康復、護理等,并總結了其應用的優勢及不足,例如 Chee 等[14]將 ChatGPT 用于頭暈的病因分析,結果發現 ChatGPT 提供的回答是連貫和合乎邏輯的,并給出了大體的建議,包括補充病史采集、完善檢查和對癥治療措施,最后還包括了免責申明;但是,它缺乏處理臨床決策中某些細微差別的能力。Rao 等[15]將臨床手冊中 36 個成熟的案例輸入 ChatGPT,讓其進行輔助診斷及鑒別診斷,結果發現 ChatGPT 的總體準確率為 71.1%,與回答一般醫學知識相關的問題相比,ChatGPT 在鑒別診斷及臨床管理等方面的答案正確率較差。Howard 等[16]將 ChatGPT 用于感染患者輔助抗菌藥物的選擇,ChatGPT 的答案拼寫正確、語法連貫、句意明確,答案總結了 ChatGPT 對場景和問題的理解,提供了抗菌藥物的選項,在句尾包含建議咨詢感染專家的免責聲明;但是,ChatGPT 并不能識別病例中的重要因素,有時建議會因反復詢問而改變,說明 ChatGPT 的情景意識、推理和一致性有待進一步提高。Ruksakulpiwat 等[17]的研究顯示 ChatGPT 可以為肩關節撞擊綜合征提供醫療信息和治療方案,ChatGPT 輸出的內容為肩關節撞擊綜合征提供了基本且無爭議的治療方案;然而,ChatGPT 對鐘擺運動的姿勢和動作的描述是不準確的,仍然需要醫療專業人員來提供更多的細節和具體的治療方案。
ChatGPT 模型的訓練過程是基于互聯網的數據集,而在互聯網上的通常為醫學通識知識。由于醫學數據涉及患者隱私,故收集大量患者數據用于 ChatGPT 語言模型進行練習具有較大的難度。基于此,ChatGPT 給出的醫學相關回答缺乏科學性。同時由于 ChatGPT 具有一定的推理和演繹能力,故針對不同的提問方式、上下文環境乃至提問時間,ChatGPT 會給出不同的回答[18],而回答的準確性需進一步評價,故 ChatGPT 的穩定性存在一定的問題。然而,我們向 ChatGPT 輸入個性化的患者癥狀以輔助診療護理時,ChatGPT 會給出條理清晰的綜合管理方案,展示盡可能多的病因、輔助檢查及治療護理措施建議。這為臨床疑難病例的診治、護理提供了強有力的支持,由于年輕的臨床醫護人員受專科限制且臨床經驗有限,通過充分篩選 ChatGPT 對臨床疑難病例的診治、護理措施,可以提高診療效率,造福患者。
2.3 ChatGPT 在醫學研究中的應用
ChatGPT 可以通過回答問題和提供研究提綱來輔助研究,由于其生成的答案條理清晰,故可讓 ChatGPT 提供相關研究及具體實施方案的大綱[3],為研究提供思路。此外,ChatGPT 具有較強的語言翻譯能力,由于 ChatGPT 生成的文字邏輯性和連貫性較強,故其在翻譯的過程中對文字進行了重組,翻譯后的文字可讀性較高,容易理解。此外,將 1 篇文獻上傳至 ChatGPT,其可以較準確地對文獻中的重點及讀者提出來的相關問題進行歸納總結,有利于讀者更好地理解文獻,使醫學研究突破語言的障礙。
有學者指出 ChatGPT 能夠協助進行文獻綜述或者研究現狀總結,但是在沒有提供更多上下文信息,只向 ChatGPT 輸入開放性問題時,回答的結果中的數據和細節存在明顯的錯誤[3]。讓 ChatGPT 對相關的綜述結果補充參考文獻時,生成的參考文獻存在較嚴重的錯誤,例如網址不存在、題目、頁碼、雜志、doi 號虛構等情況[19]。故 ChatGPT 對開放性的醫學科研相關問題進行回答時,科學性欠佳且答案來源未知。此外,一些網頁推薦了將 ChatGPT 用于數據轉換及代碼撰寫的方法,但此功能僅僅是一種理念上的認知,ChatGPT 用于數據統計分析的具體實現方法及其正確性還有待進一步探討。
2.4 其他
目前還有學者將 ChatGPT 用于醫學影像資料的識別,但是結果發現 ChatGPT 的識別正確率較有經驗的影像科醫師差[20]。說明 ChatGPT 用于影像資料的識別還需要通過大量的醫學文本進行進一步的訓練。此外,將 ChatGPT 嵌入醫院電子信息系統或用于幫助生成臨床記錄、總結文檔等,將有助于縮短撰寫醫療文書的時間并降低人為錯誤的風險。但是這也僅僅存在于理論層面,實現此功能還需要更多的技術支持以及醫療數據的訓練。
3 ChatGPT 應用于醫學領域的局限性
ChatGPT 在醫學領域的應用存在一定的局限性:首先,它生成一些似是而非的信息,即從邏輯和表達方式層面是沒有問題的,但在內容方面提供了虛假信息,故其生成的答案缺乏科學性[2]。因為我們不知道它是如何生成的這樣的答案,即生成過程缺乏透明度,它給出的參考文獻也存在問題[19]。其次,不同用戶、不同的提問方式,甚至是不同的時間或者反復強化,ChatGPT 給出的答案存在不一致的情況[18, 21]。這就提示我們如果要在臨床醫療決策或者醫學研究中使 ChatGPT,必須對其給出的答案進行嚴格的審核。再次,ChatGPT 并不是為了醫學應用而開發。因此,它缺乏疾病和治療機制等相關醫學知識的精細度和深度[17]。然而,它在臨床環境和醫學研究中提供基本支持方面表現良好。如果將 ChatGPT 與醫療領域進一步結合,可能為醫學界帶來新的機遇。最后,ChatGPT 在醫學領域的應用存在一些倫理道德問題。如果 ChatGPT 給出的臨床決策發生過失,那么責任很難界定,在現階段,ChatGPT 并不能代替醫護人員給出醫療決策。此外,ChatGPT 生成的一些論文相關信息涉及版權問題[22-23],部分雜志目前并不接受將 ChatGPT 作為作者[24-25],因此,研究人員在寫作中使用 ChatGPT 之前,應該仔細考慮研究機構和期刊的政策。
4 小結
本文總結了現階段 ChatGPT 在醫學領域的應用現狀,分析了現存的問題及其可能的解釋。作為自然語言處理人工智能模型的杰出代表,ChatGPT 在醫學領域的應用有利于提高醫學教育水平、醫療照護質量、醫學研究水平和效率,但是仍需要大量的醫療數據來訓練模型,進一步提高模型的效果。同時,我國各大科技公司也在構建自己的大預言模型:科大訊飛股份有限公司發布了星火軟件,進入全民公測階段;百度公司發布了文心一言;阿里云科技有限公司發布了通義千問,三六零數字安全科技集團有限公司發布了智庫。各大自然語言處理模型在醫學領域的應用效果及其之間的差異有待進一步研究。未來,在確保患者安全和數據隱私的前提下,我們預期 ChatGPT 和類似的人工智能模型將進一步融入醫學實踐中,促進醫學的縱深發展。
利益沖突:所有作者聲明不存在利益沖突。
隨著人民對醫療需求的不斷提升及科技的發展,現代醫學已從之前的經驗醫學、循證醫學發展到當下的個體化精準醫學。人工智能+大數據算法的發展有利于更好地處理和分析大量的醫學數據,發現疾病和治療之間的新關聯,構建關系模型,助力個體化精準醫學的發展[1]。ChatGPT(Chat Generative Pre-trained Transformer)作為一種先進的處理自然語言的人工智能模型,一經發布,引起了醫學界的廣泛關注,在醫學領域顯示了其獨特的價值,其不僅為患者和醫生提供了新的互動方式,還在輔助醫療決策、教育、研究等領域得到應用[2-3]。ChatGPT 在醫療領域已展現了廣泛的應用前景,本文將結合筆者應用 ChatGPT 的體驗,綜述 ChatGPT 在醫學教育、輔助臨床決策及醫學研究中的應用方法、效果及優缺點,展望其未來的發展趨勢,同時也將對其在實際醫療應用中的挑戰和限制進行深入分析,為在醫學領域規范地使用 ChatGPT 奠定基礎。
1 ChatGPT 概述
ChatGPT 是由 OpenAI 公司開發的一種基于變形器(transformer)架構進行自然語言處理的人工智能預訓練語言模型,旨在通過訓練大規模數據集來學習自然語言,從而生成連貫、邏輯合理的自然語言,包括文本生成、代碼生成、視頻生成、文本問答、圖像生成、影視創作、科學實驗設計等[4]。
變形器架構在 2017 年被提出,是一種基于注意力機制的神經網絡架構,其突破了傳統的循環神經網絡和卷積神經網絡在處理長期依賴和全局關系時存在的一些限制,在自然語言處理任務中取得了重大的突破,尤其是在機器翻譯任務中表現出色[5-6]。基于變形器架構,GPT 模型采用了預訓練和微調 2 個步驟[7-8]。在預訓練階段,模型使用大量的無標簽文本數據進行訓練,形成預測下一個詞或句子的能力,這使得模型能夠捕捉到自然語言中的語法、語義和上下文信息。在微調階段,模型通過在特定任務上進行有監督的訓練來進一步優化,使用帶有標注的文本數據對模型進行微調,以完成翻譯、問答系統或文本生成等任務,提高精準度。故 GPT 是基于變形器架構的經過預訓練及微調的生成自然語言的模型。
ChatGPT 一經發布,就受到廣大用戶的歡迎和關注,已經被廣泛應用于多個領域,包括在線客服、內容創作、教育、娛樂等領域,為客戶提供全天候即時的響應,提升了內容創作的效率,提供了快速獲取知識的途徑。但是需要注意的是,盡管 ChatGPT 在許多方面都很有用,但它不是萬能的,還存在一些限制和挑戰,如偏見、錯誤輸出或過度依賴等問題。
2 ChatGPT 在醫學領域的應用現狀
2.1 ChatGPT 在醫學教育方面的應用
總結現有 ChatGPT 在全國醫學考試試題中的準確率研究,可以發現 ChatGPT-4.0 較 ChatGPT-3.5 表現更好,英語版本的試題正確率更高,醫學一般通識知識及單選題準確率更高。筆者前期測試發現,對于 ChatGPT 回答正確的醫學試題,請它給出詳細的答案解析,則該解析也是正確的,這就為醫學生輔助考試奠定了基礎。全國醫學資格考試涉及的醫學內容范圍廣、聚焦細節,學生在復習過程中很難精準找到一位老師來解答疑問。ChatGPT 將有助于提高學生的備考效率和對知識點的理解。然而,目前 ChatGPT 做題的正確率受題型、語言、GPT 版本等影響,故現階段將 ChatGPT 用于輔助學習時需要保持評判性思維,對其提供的答案及解析進行核實。
還有其他學者指出可將 ChatGPT 應用于醫學生個性化學習(根據學生的先前知識和學習進度,定制化地提供答案和解釋)、互動式學習(提出問題、探討問題、深入思考和理解醫學概念)、實踐模擬訓練(在與 ChatGPT 的對話中練習問題提問、溝通技巧和病例分析等能力)[3, 13]。然而,這些在醫學教學過程中的實現都需基于 ChatGPT 可以輸出正確率極高的醫學知識。現階段將 ChatGPT 應用于醫學教學中需要有高水平的教師對教學過程進行監控和評判,此外,還需要輸入大量醫學相關數據對 GPT 模型進行微調,提高其輸出醫學知識的準確率。
2.2 ChatGPT 在輔助臨床決策方面的應用
已有一些學者將 ChatGPT 用于輔助臨床疾病的診斷、治療、康復、護理等,并總結了其應用的優勢及不足,例如 Chee 等[14]將 ChatGPT 用于頭暈的病因分析,結果發現 ChatGPT 提供的回答是連貫和合乎邏輯的,并給出了大體的建議,包括補充病史采集、完善檢查和對癥治療措施,最后還包括了免責申明;但是,它缺乏處理臨床決策中某些細微差別的能力。Rao 等[15]將臨床手冊中 36 個成熟的案例輸入 ChatGPT,讓其進行輔助診斷及鑒別診斷,結果發現 ChatGPT 的總體準確率為 71.1%,與回答一般醫學知識相關的問題相比,ChatGPT 在鑒別診斷及臨床管理等方面的答案正確率較差。Howard 等[16]將 ChatGPT 用于感染患者輔助抗菌藥物的選擇,ChatGPT 的答案拼寫正確、語法連貫、句意明確,答案總結了 ChatGPT 對場景和問題的理解,提供了抗菌藥物的選項,在句尾包含建議咨詢感染專家的免責聲明;但是,ChatGPT 并不能識別病例中的重要因素,有時建議會因反復詢問而改變,說明 ChatGPT 的情景意識、推理和一致性有待進一步提高。Ruksakulpiwat 等[17]的研究顯示 ChatGPT 可以為肩關節撞擊綜合征提供醫療信息和治療方案,ChatGPT 輸出的內容為肩關節撞擊綜合征提供了基本且無爭議的治療方案;然而,ChatGPT 對鐘擺運動的姿勢和動作的描述是不準確的,仍然需要醫療專業人員來提供更多的細節和具體的治療方案。
ChatGPT 模型的訓練過程是基于互聯網的數據集,而在互聯網上的通常為醫學通識知識。由于醫學數據涉及患者隱私,故收集大量患者數據用于 ChatGPT 語言模型進行練習具有較大的難度。基于此,ChatGPT 給出的醫學相關回答缺乏科學性。同時由于 ChatGPT 具有一定的推理和演繹能力,故針對不同的提問方式、上下文環境乃至提問時間,ChatGPT 會給出不同的回答[18],而回答的準確性需進一步評價,故 ChatGPT 的穩定性存在一定的問題。然而,我們向 ChatGPT 輸入個性化的患者癥狀以輔助診療護理時,ChatGPT 會給出條理清晰的綜合管理方案,展示盡可能多的病因、輔助檢查及治療護理措施建議。這為臨床疑難病例的診治、護理提供了強有力的支持,由于年輕的臨床醫護人員受專科限制且臨床經驗有限,通過充分篩選 ChatGPT 對臨床疑難病例的診治、護理措施,可以提高診療效率,造福患者。
2.3 ChatGPT 在醫學研究中的應用
ChatGPT 可以通過回答問題和提供研究提綱來輔助研究,由于其生成的答案條理清晰,故可讓 ChatGPT 提供相關研究及具體實施方案的大綱[3],為研究提供思路。此外,ChatGPT 具有較強的語言翻譯能力,由于 ChatGPT 生成的文字邏輯性和連貫性較強,故其在翻譯的過程中對文字進行了重組,翻譯后的文字可讀性較高,容易理解。此外,將 1 篇文獻上傳至 ChatGPT,其可以較準確地對文獻中的重點及讀者提出來的相關問題進行歸納總結,有利于讀者更好地理解文獻,使醫學研究突破語言的障礙。
有學者指出 ChatGPT 能夠協助進行文獻綜述或者研究現狀總結,但是在沒有提供更多上下文信息,只向 ChatGPT 輸入開放性問題時,回答的結果中的數據和細節存在明顯的錯誤[3]。讓 ChatGPT 對相關的綜述結果補充參考文獻時,生成的參考文獻存在較嚴重的錯誤,例如網址不存在、題目、頁碼、雜志、doi 號虛構等情況[19]。故 ChatGPT 對開放性的醫學科研相關問題進行回答時,科學性欠佳且答案來源未知。此外,一些網頁推薦了將 ChatGPT 用于數據轉換及代碼撰寫的方法,但此功能僅僅是一種理念上的認知,ChatGPT 用于數據統計分析的具體實現方法及其正確性還有待進一步探討。
2.4 其他
目前還有學者將 ChatGPT 用于醫學影像資料的識別,但是結果發現 ChatGPT 的識別正確率較有經驗的影像科醫師差[20]。說明 ChatGPT 用于影像資料的識別還需要通過大量的醫學文本進行進一步的訓練。此外,將 ChatGPT 嵌入醫院電子信息系統或用于幫助生成臨床記錄、總結文檔等,將有助于縮短撰寫醫療文書的時間并降低人為錯誤的風險。但是這也僅僅存在于理論層面,實現此功能還需要更多的技術支持以及醫療數據的訓練。
3 ChatGPT 應用于醫學領域的局限性
ChatGPT 在醫學領域的應用存在一定的局限性:首先,它生成一些似是而非的信息,即從邏輯和表達方式層面是沒有問題的,但在內容方面提供了虛假信息,故其生成的答案缺乏科學性[2]。因為我們不知道它是如何生成的這樣的答案,即生成過程缺乏透明度,它給出的參考文獻也存在問題[19]。其次,不同用戶、不同的提問方式,甚至是不同的時間或者反復強化,ChatGPT 給出的答案存在不一致的情況[18, 21]。這就提示我們如果要在臨床醫療決策或者醫學研究中使 ChatGPT,必須對其給出的答案進行嚴格的審核。再次,ChatGPT 并不是為了醫學應用而開發。因此,它缺乏疾病和治療機制等相關醫學知識的精細度和深度[17]。然而,它在臨床環境和醫學研究中提供基本支持方面表現良好。如果將 ChatGPT 與醫療領域進一步結合,可能為醫學界帶來新的機遇。最后,ChatGPT 在醫學領域的應用存在一些倫理道德問題。如果 ChatGPT 給出的臨床決策發生過失,那么責任很難界定,在現階段,ChatGPT 并不能代替醫護人員給出醫療決策。此外,ChatGPT 生成的一些論文相關信息涉及版權問題[22-23],部分雜志目前并不接受將 ChatGPT 作為作者[24-25],因此,研究人員在寫作中使用 ChatGPT 之前,應該仔細考慮研究機構和期刊的政策。
4 小結
本文總結了現階段 ChatGPT 在醫學領域的應用現狀,分析了現存的問題及其可能的解釋。作為自然語言處理人工智能模型的杰出代表,ChatGPT 在醫學領域的應用有利于提高醫學教育水平、醫療照護質量、醫學研究水平和效率,但是仍需要大量的醫療數據來訓練模型,進一步提高模型的效果。同時,我國各大科技公司也在構建自己的大預言模型:科大訊飛股份有限公司發布了星火軟件,進入全民公測階段;百度公司發布了文心一言;阿里云科技有限公司發布了通義千問,三六零數字安全科技集團有限公司發布了智庫。各大自然語言處理模型在醫學領域的應用效果及其之間的差異有待進一步研究。未來,在確保患者安全和數據隱私的前提下,我們預期 ChatGPT 和類似的人工智能模型將進一步融入醫學實踐中,促進醫學的縱深發展。
利益沖突:所有作者聲明不存在利益沖突。