引用本文: 車忠麗. 基于 CiteSpace 的川崎病研究文獻的可視化分析. 華西醫學, 2022, 37(6): 909-915. doi: 10.7507/1002-0179.202006027 復制
川崎病,又稱皮膚黏膜淋巴結綜合征,是一種常見的兒童血管炎,通常影響 5 歲以下的兒童,最嚴重的并發癥是冠狀動脈擴張和冠狀動脈瘤[1],該病已逐漸發展為發達國家/地區嬰幼兒獲得性心臟病的主要病因之一[2]。自 1967 年第 1 例川崎病患者[3]被報道以來,川崎病的診治不斷取得進展,但其發病機制至今仍不完全清楚[4],對川崎病的探索仍在不斷進行。近 10 年來,隨著免疫抑制劑、腫瘤壞死因子α阻滯藥的應用,川崎病的治療方案也在不斷豐富,相關文獻也有大量報道,但迄今為止,國內尚無對川崎病近 10 年研究文獻的梳理和回顧研究,尤其在新型冠狀病毒肺炎(以下簡稱“新冠肺炎”)暴發以來,感染新冠肺炎的兒童中部分出現多系統炎癥綜合征,其表現出類川崎病樣的癥狀[5]。為更好地了解近 10 年川崎病的研究進展,本文以 Web of Science 核心數據文獻為基礎,應用 CiteSpace 5.5.R2[6]軟件對川崎病研究文獻進行可視化分析,旨在了解川崎病的研究現狀、熱點及發展趨勢,為今后研究的開展提供參考和借鑒作用。現報告如下。
1 資料與方法
1.1 納入與排除標準
1.1.1 納入標準
① 符合主題“川崎病”或“皮膚黏膜淋巴結綜合征”的相關文獻,包括流行病學、發病機制、治療等;② 文獻題錄信息完整。
1.1.2 排除標準
① 非論文形式但與主題“川崎病”或“皮膚黏膜淋巴結綜合征”有關的文章,如會議論文、報紙、專利、成果等;② 重復發表的文獻;③ 與主題“川崎病”或“皮膚黏膜淋巴結綜合征”無關的文獻。
1.2 檢索策略
在 Web of Science 核心合集中以:主題=(Kawasaki disease) OR (Mucocutaneous lymph node syndrome) 進行檢索,限定檢索年限為 2010 年 1 月 1 日—2021 年 12 月 31 日,文獻類型限定為“Article”,語種為“English”,檢索日期為 2022 年 5 月 1 日。
1.3 研究工具
本研究工具主要采用 CiteSpace 5.5.R2,該軟件是由陳超美教授基于 Java 語言而開發的一款可繪制直觀的圖譜來展示某一研究領域發展趨勢和熱點的可視化軟件[6]。
1.4 分析方法
將 Web of Science 核心數據檢索的文獻按照 CiteSpaceV(5.5.R2)軟件所需格式(“download_XX”命名)保存并導入該軟件。軟件設置如下:① Time Slicing:選擇 2010 年—2021 年,選擇“1 year”作為時間分割;② Text processing:term source 默認選項即勾選“Title”“Abstract”“Author Keywords”“Keywords Plus”;③ Node Types:分別選擇作者、國家、機構、被引文獻、被引期刊、關鍵詞等作為節點類型進行分析;④ Links:Strength 選擇“cosine”,Scope 選擇“Within Slices”;⑤ Selection criteria:閾值選項 Top N=50;Pruning 選擇“Pathfinder”剪枝功能繪制可視化知識圖譜。
對作者、國家、機構進行合作網絡分析及中心度分析,并觀察排名前 5 位,繪制合作網絡圖譜,其中對核心作者的確定采用賴普斯定律[7];對被引期刊、被引文獻進行共被引分析及中心度分析,同時繪制網絡圖譜。并觀察頻次和中心度排名前 5 位的被引期刊和被引文獻的影響因子(impact factor,IF),選用 2021 年《期刊引證報告》(journal citation reports,JCR)發布的 2020 年的 IF 值。對關鍵詞進行聚類分析、突現分析并繪制圖譜,并觀察頻次和中心度排名前 10 位的關鍵詞和 LLR 對數似然標簽值最大的 3 個關鍵詞。頻次是節點出現的次數,頻次越大,說明該節點出現的次數越多。中心度是指其所在網絡中通過該點的任意最短路徑的條數,是網絡中節點在整體網絡中所起連接作用大小的度量;中心度越高,說明其在整體網絡中最短路徑上出現的次數越多,影響力和重要程度越大。
在 CiteSace 軟件中形成的網絡圖中,每個節點分別代表不同元素,包括作者、國家/地區、組織機構以及關鍵詞等,節點的大小則代表該元素出版物的數量或者頻次,節點與節點間的連線則代表合作、共現或者共被引等關系;而每個節點的外圈的紫色的厚度則是反映出該元素的中心度大小,表示該元素作為媒介的能力[8]。
1.5 統計學方法
采用 Citespace 5.5.R2 軟件分別對符合納入標準的文獻進行分析,包括對作者、國家、機構、出版刊物及關鍵詞等進行文獻計量學分析。將文獻年度發文量導入 Excel 2017,對川崎病研究文獻進行年度發文量分析。計數資料以篇、次數表示。
2 結果
2.1 檢索情況
2010 年 1 月 1 日—2021 年 12 月 31 日共檢索出文獻 3 041 篇,年均發文數量約為 300 篇,2021 年發文最多(574 篇),2011 年最少(143 篇)。各年度文獻分布情況見圖1。

2.2 作者
共納入 579 位作者。以發文 8 篇(N=7.99)為核心作者,共 114 位。發文量排名前 5 位作者見表1。高產作者是 Burns JC,發文量 114 篇。579 位作者的中心度均為 0。

2.3 國家及機構
頻次排名前 5 位的國家是美國、日本、中國、韓國、加拿大;中心度排名前 5 位的國家是美國、澳大利亞、荷蘭、加拿大、西班牙;見表2、3。頻次及中心度排名前 5 位的機構分別見表4、5,頻次第 1 的是美國的加州大學圣地亞哥分校(頻次 143),中心度最高的是加拿大的蒙特利爾大學(中心度 0.14)。




2.4 期刊和引文分析
2.4.1 被引期刊
被引頻次及中心度排名第 1 的期刊均是 Circulation,見表6、7。綜合分析,Circulation 是該領域研究的核心期刊,該期刊位于 JCR 一區,具有較高的影響力。


2.4.2 被引文獻分析
被引頻次及中心性排名前 5 位的文獻分別見表8、9。通過對共被引頻次和中心度均較高的文獻進行分析可以了解該研究領域的知識基礎[9]。研究內容主要集中在川崎病的診斷、治療和長期管理[10-11]、流行病學特征[12]、新冠肺炎疫情期間兒童炎癥性多系統綜合征[5,13-14]、機制[15]等方面。


2.5 關鍵詞
2.5.1 關鍵詞共現圖譜
得到節點數 N=160、連線數 E=547 的關鍵詞共現圖譜,見圖2。采用關鍵詞聚類,共有 7 個聚類(圖3),模塊值 Modularity Q=0.4616,平均輪廓值 Mean S=0.524 1,聚類標簽為“#0 covid-19”“#1 intravenous immunoglobulin”“#2 case report”“#3 human coronavirus”“#4 epidemiology”“#5 long term management”“#6 covid-19”,標簽名取決該聚類中 LLR 對數似然標簽值最大的關鍵詞,聚類明細見表10。其中聚類標簽#0 和#6 同名,由表10 中聚類明細可見,標簽雖相同,但內涵有差別,covid-19 剛好為這兩個聚類中 LLR 對數似然標簽值最大的關鍵詞,因此,這兩個聚類標簽名相同,但可作為兩個聚類。由表11、12,可見頻次及中心度排名前 10 位的關鍵詞,同時也是該領域的熱點關鍵詞。

紅色英文為關鍵詞,每個十字圖形為其所代表的關鍵詞,圖形的大小表示該關鍵詞出現的頻次多少,圖形外周的紫色的厚度則是反映出該元素的中心度大小,而圖形間的連線代表關鍵詞間共現情況

每個顏色的色塊代表一個關鍵詞聚類,紅色英文為各個聚類的標簽



2.5.2 突現詞
突現詞是從大量的主題詞中探測出來,根據詞頻的變動趨勢,來確定某一研究領域的發展趨勢。在近 10 年川崎病研究文獻中共抽取出 62 個突現詞,圖4 列出突現強度 top30 的突現詞,圖中每個關鍵詞后有一根據時間顯示的突現條,藍色線條代表該詞沒有突現的年份,紅色條表明關鍵詞在該年份突現明顯,紅色線條的長度代表關鍵詞突現持續的時間[16]。由圖4 可知,突現強度排名前 3 位的關鍵詞是“health professional”“long term management”“statement ”,而突現強度持續至今的關鍵詞有“health professional”“long term management”“statement”“resistance”“Kawasaki disease”“cytokine”。

3 討論
3.1 川崎病研究文獻的基本概況
本研究顯示,關于川崎病的研究文獻總體呈上升趨勢,年均發文數量約為 300 篇,其中 2021 年發文最多(574 篇),反映了川崎病受關注的程度不斷提高。尤其 2020 年新冠肺炎疫情以來,川崎病的研究文獻量增長迅速,這可能與兒童新冠肺炎發生類川崎病樣表現的多系統炎癥綜合征有關。高產作者共 114 位,其中 Burns JC 是影響力較高的作者。北美、亞洲、歐洲是研究川崎病地域分布最多的國家,美國是川崎病研究的核心國家,中國占有一席之地;加州大學圣地亞哥分校和蒙特利爾大學是核心研究機構。Circulation 是該領域的代表期刊,可以反映川崎病相關的研究基礎,同時也可以幫助了解川崎病研究的新動態。
3.2 研究熱點及前沿
通過對高被引文獻的分析以及高頻關鍵詞分析,可以了解該領域研究熱點。高被引文獻內容主要集中在川崎病的診斷及治療、流行病學特征以及新冠肺炎疫情期間兒童炎癥性多系統綜合征等研究。通過對關鍵詞分析,可分為 7 個聚類,對高頻關鍵詞及高中心度關鍵詞分析,總結出熱點關鍵詞共 18 個。而通過關鍵詞聚類分析及熱點關鍵詞可以看出,與高被引文獻基本一致。由此可見,有關川崎病診斷及治療、管理、發病機制、流行病學研究、新冠肺炎疫情期間類川崎病樣疾病研究是該領域研究熱點。
某階段具有高突現強度的詞,代表了這一階段的前沿領域。根據關鍵詞突現分析,health professional、long term management、statement、resistance、kawasaki disease(kd)、cytokine 是持續至今的關鍵詞,綜合分析可以看出,有關川崎病的遠期管理、靜脈注射丙種球蛋白抵抗的相關研究、細胞因子是目前該領域的研究前沿。
3.3 本研究局限和不足
本研究以 CiteSpace 5.5.R2 為處理數據的可視化軟件,該軟件對于數據庫及文獻格式均有特定要求,因此,本研究搜索的文獻均選取自 Web of Science 核心數據,未納入其他數據庫文獻,對數據的完整性難免造成一定影響,因而結果可能會受到一定的影響。盡管如此,Web of Science 作為具有全球影響力的數據庫,收入了該領域大多數具有高影響力的研究文獻,因此,本研究雖有一定的局限,但研究結論仍有一定的參考借鑒意義。其次,本研究僅選取了近 10 年的研究文獻,難以展現自發現川崎病以來該領域研究的數十年的演進變化情況,未來可結合更長時間段的研究文獻來展示研究的演進變化概況,有利于更好地了解該領域的研究發展動向。另一方面,本研究以英文文獻為主,未結合我國國內情況對比分析,未來可結合我國國內研究進一步分析,以了解我國在川崎病研究領域的實際情況。
綜上,本研究選取了 Web of Science 數據庫核心集合中有關川崎病研究的文獻,運用可視化分析軟件 CiteSpace 直觀展示了有關川崎病研究領域的研究現狀、熱點及研究趨勢,雖存在一定的局限,但研究結論仍有一定的參考借鑒意義,希望能為研究者對該領域有一個直觀而具體的認識,能夠及時地跟蹤研究動態。
利益沖突:所有作者聲明不存在利益沖突。
川崎病,又稱皮膚黏膜淋巴結綜合征,是一種常見的兒童血管炎,通常影響 5 歲以下的兒童,最嚴重的并發癥是冠狀動脈擴張和冠狀動脈瘤[1],該病已逐漸發展為發達國家/地區嬰幼兒獲得性心臟病的主要病因之一[2]。自 1967 年第 1 例川崎病患者[3]被報道以來,川崎病的診治不斷取得進展,但其發病機制至今仍不完全清楚[4],對川崎病的探索仍在不斷進行。近 10 年來,隨著免疫抑制劑、腫瘤壞死因子α阻滯藥的應用,川崎病的治療方案也在不斷豐富,相關文獻也有大量報道,但迄今為止,國內尚無對川崎病近 10 年研究文獻的梳理和回顧研究,尤其在新型冠狀病毒肺炎(以下簡稱“新冠肺炎”)暴發以來,感染新冠肺炎的兒童中部分出現多系統炎癥綜合征,其表現出類川崎病樣的癥狀[5]。為更好地了解近 10 年川崎病的研究進展,本文以 Web of Science 核心數據文獻為基礎,應用 CiteSpace 5.5.R2[6]軟件對川崎病研究文獻進行可視化分析,旨在了解川崎病的研究現狀、熱點及發展趨勢,為今后研究的開展提供參考和借鑒作用。現報告如下。
1 資料與方法
1.1 納入與排除標準
1.1.1 納入標準
① 符合主題“川崎病”或“皮膚黏膜淋巴結綜合征”的相關文獻,包括流行病學、發病機制、治療等;② 文獻題錄信息完整。
1.1.2 排除標準
① 非論文形式但與主題“川崎病”或“皮膚黏膜淋巴結綜合征”有關的文章,如會議論文、報紙、專利、成果等;② 重復發表的文獻;③ 與主題“川崎病”或“皮膚黏膜淋巴結綜合征”無關的文獻。
1.2 檢索策略
在 Web of Science 核心合集中以:主題=(Kawasaki disease) OR (Mucocutaneous lymph node syndrome) 進行檢索,限定檢索年限為 2010 年 1 月 1 日—2021 年 12 月 31 日,文獻類型限定為“Article”,語種為“English”,檢索日期為 2022 年 5 月 1 日。
1.3 研究工具
本研究工具主要采用 CiteSpace 5.5.R2,該軟件是由陳超美教授基于 Java 語言而開發的一款可繪制直觀的圖譜來展示某一研究領域發展趨勢和熱點的可視化軟件[6]。
1.4 分析方法
將 Web of Science 核心數據檢索的文獻按照 CiteSpaceV(5.5.R2)軟件所需格式(“download_XX”命名)保存并導入該軟件。軟件設置如下:① Time Slicing:選擇 2010 年—2021 年,選擇“1 year”作為時間分割;② Text processing:term source 默認選項即勾選“Title”“Abstract”“Author Keywords”“Keywords Plus”;③ Node Types:分別選擇作者、國家、機構、被引文獻、被引期刊、關鍵詞等作為節點類型進行分析;④ Links:Strength 選擇“cosine”,Scope 選擇“Within Slices”;⑤ Selection criteria:閾值選項 Top N=50;Pruning 選擇“Pathfinder”剪枝功能繪制可視化知識圖譜。
對作者、國家、機構進行合作網絡分析及中心度分析,并觀察排名前 5 位,繪制合作網絡圖譜,其中對核心作者的確定采用賴普斯定律[7];對被引期刊、被引文獻進行共被引分析及中心度分析,同時繪制網絡圖譜。并觀察頻次和中心度排名前 5 位的被引期刊和被引文獻的影響因子(impact factor,IF),選用 2021 年《期刊引證報告》(journal citation reports,JCR)發布的 2020 年的 IF 值。對關鍵詞進行聚類分析、突現分析并繪制圖譜,并觀察頻次和中心度排名前 10 位的關鍵詞和 LLR 對數似然標簽值最大的 3 個關鍵詞。頻次是節點出現的次數,頻次越大,說明該節點出現的次數越多。中心度是指其所在網絡中通過該點的任意最短路徑的條數,是網絡中節點在整體網絡中所起連接作用大小的度量;中心度越高,說明其在整體網絡中最短路徑上出現的次數越多,影響力和重要程度越大。
在 CiteSace 軟件中形成的網絡圖中,每個節點分別代表不同元素,包括作者、國家/地區、組織機構以及關鍵詞等,節點的大小則代表該元素出版物的數量或者頻次,節點與節點間的連線則代表合作、共現或者共被引等關系;而每個節點的外圈的紫色的厚度則是反映出該元素的中心度大小,表示該元素作為媒介的能力[8]。
1.5 統計學方法
采用 Citespace 5.5.R2 軟件分別對符合納入標準的文獻進行分析,包括對作者、國家、機構、出版刊物及關鍵詞等進行文獻計量學分析。將文獻年度發文量導入 Excel 2017,對川崎病研究文獻進行年度發文量分析。計數資料以篇、次數表示。
2 結果
2.1 檢索情況
2010 年 1 月 1 日—2021 年 12 月 31 日共檢索出文獻 3 041 篇,年均發文數量約為 300 篇,2021 年發文最多(574 篇),2011 年最少(143 篇)。各年度文獻分布情況見圖1。

2.2 作者
共納入 579 位作者。以發文 8 篇(N=7.99)為核心作者,共 114 位。發文量排名前 5 位作者見表1。高產作者是 Burns JC,發文量 114 篇。579 位作者的中心度均為 0。

2.3 國家及機構
頻次排名前 5 位的國家是美國、日本、中國、韓國、加拿大;中心度排名前 5 位的國家是美國、澳大利亞、荷蘭、加拿大、西班牙;見表2、3。頻次及中心度排名前 5 位的機構分別見表4、5,頻次第 1 的是美國的加州大學圣地亞哥分校(頻次 143),中心度最高的是加拿大的蒙特利爾大學(中心度 0.14)。




2.4 期刊和引文分析
2.4.1 被引期刊
被引頻次及中心度排名第 1 的期刊均是 Circulation,見表6、7。綜合分析,Circulation 是該領域研究的核心期刊,該期刊位于 JCR 一區,具有較高的影響力。


2.4.2 被引文獻分析
被引頻次及中心性排名前 5 位的文獻分別見表8、9。通過對共被引頻次和中心度均較高的文獻進行分析可以了解該研究領域的知識基礎[9]。研究內容主要集中在川崎病的診斷、治療和長期管理[10-11]、流行病學特征[12]、新冠肺炎疫情期間兒童炎癥性多系統綜合征[5,13-14]、機制[15]等方面。


2.5 關鍵詞
2.5.1 關鍵詞共現圖譜
得到節點數 N=160、連線數 E=547 的關鍵詞共現圖譜,見圖2。采用關鍵詞聚類,共有 7 個聚類(圖3),模塊值 Modularity Q=0.4616,平均輪廓值 Mean S=0.524 1,聚類標簽為“#0 covid-19”“#1 intravenous immunoglobulin”“#2 case report”“#3 human coronavirus”“#4 epidemiology”“#5 long term management”“#6 covid-19”,標簽名取決該聚類中 LLR 對數似然標簽值最大的關鍵詞,聚類明細見表10。其中聚類標簽#0 和#6 同名,由表10 中聚類明細可見,標簽雖相同,但內涵有差別,covid-19 剛好為這兩個聚類中 LLR 對數似然標簽值最大的關鍵詞,因此,這兩個聚類標簽名相同,但可作為兩個聚類。由表11、12,可見頻次及中心度排名前 10 位的關鍵詞,同時也是該領域的熱點關鍵詞。

紅色英文為關鍵詞,每個十字圖形為其所代表的關鍵詞,圖形的大小表示該關鍵詞出現的頻次多少,圖形外周的紫色的厚度則是反映出該元素的中心度大小,而圖形間的連線代表關鍵詞間共現情況

每個顏色的色塊代表一個關鍵詞聚類,紅色英文為各個聚類的標簽



2.5.2 突現詞
突現詞是從大量的主題詞中探測出來,根據詞頻的變動趨勢,來確定某一研究領域的發展趨勢。在近 10 年川崎病研究文獻中共抽取出 62 個突現詞,圖4 列出突現強度 top30 的突現詞,圖中每個關鍵詞后有一根據時間顯示的突現條,藍色線條代表該詞沒有突現的年份,紅色條表明關鍵詞在該年份突現明顯,紅色線條的長度代表關鍵詞突現持續的時間[16]。由圖4 可知,突現強度排名前 3 位的關鍵詞是“health professional”“long term management”“statement ”,而突現強度持續至今的關鍵詞有“health professional”“long term management”“statement”“resistance”“Kawasaki disease”“cytokine”。

3 討論
3.1 川崎病研究文獻的基本概況
本研究顯示,關于川崎病的研究文獻總體呈上升趨勢,年均發文數量約為 300 篇,其中 2021 年發文最多(574 篇),反映了川崎病受關注的程度不斷提高。尤其 2020 年新冠肺炎疫情以來,川崎病的研究文獻量增長迅速,這可能與兒童新冠肺炎發生類川崎病樣表現的多系統炎癥綜合征有關。高產作者共 114 位,其中 Burns JC 是影響力較高的作者。北美、亞洲、歐洲是研究川崎病地域分布最多的國家,美國是川崎病研究的核心國家,中國占有一席之地;加州大學圣地亞哥分校和蒙特利爾大學是核心研究機構。Circulation 是該領域的代表期刊,可以反映川崎病相關的研究基礎,同時也可以幫助了解川崎病研究的新動態。
3.2 研究熱點及前沿
通過對高被引文獻的分析以及高頻關鍵詞分析,可以了解該領域研究熱點。高被引文獻內容主要集中在川崎病的診斷及治療、流行病學特征以及新冠肺炎疫情期間兒童炎癥性多系統綜合征等研究。通過對關鍵詞分析,可分為 7 個聚類,對高頻關鍵詞及高中心度關鍵詞分析,總結出熱點關鍵詞共 18 個。而通過關鍵詞聚類分析及熱點關鍵詞可以看出,與高被引文獻基本一致。由此可見,有關川崎病診斷及治療、管理、發病機制、流行病學研究、新冠肺炎疫情期間類川崎病樣疾病研究是該領域研究熱點。
某階段具有高突現強度的詞,代表了這一階段的前沿領域。根據關鍵詞突現分析,health professional、long term management、statement、resistance、kawasaki disease(kd)、cytokine 是持續至今的關鍵詞,綜合分析可以看出,有關川崎病的遠期管理、靜脈注射丙種球蛋白抵抗的相關研究、細胞因子是目前該領域的研究前沿。
3.3 本研究局限和不足
本研究以 CiteSpace 5.5.R2 為處理數據的可視化軟件,該軟件對于數據庫及文獻格式均有特定要求,因此,本研究搜索的文獻均選取自 Web of Science 核心數據,未納入其他數據庫文獻,對數據的完整性難免造成一定影響,因而結果可能會受到一定的影響。盡管如此,Web of Science 作為具有全球影響力的數據庫,收入了該領域大多數具有高影響力的研究文獻,因此,本研究雖有一定的局限,但研究結論仍有一定的參考借鑒意義。其次,本研究僅選取了近 10 年的研究文獻,難以展現自發現川崎病以來該領域研究的數十年的演進變化情況,未來可結合更長時間段的研究文獻來展示研究的演進變化概況,有利于更好地了解該領域的研究發展動向。另一方面,本研究以英文文獻為主,未結合我國國內情況對比分析,未來可結合我國國內研究進一步分析,以了解我國在川崎病研究領域的實際情況。
綜上,本研究選取了 Web of Science 數據庫核心集合中有關川崎病研究的文獻,運用可視化分析軟件 CiteSpace 直觀展示了有關川崎病研究領域的研究現狀、熱點及研究趨勢,雖存在一定的局限,但研究結論仍有一定的參考借鑒意義,希望能為研究者對該領域有一個直觀而具體的認識,能夠及時地跟蹤研究動態。
利益沖突:所有作者聲明不存在利益沖突。