利用偏最小二乘法(PLS)結合拉曼光譜技術,建立了血液中紫杉醇含量的預測模型。本實驗利用拉曼光譜對 312 個樣本進行了掃描,采用高效液相色譜技術(HPLC)對血液中紫杉醇含量進行了常規分析,利用蒙特卡羅偏最小二乘法(MCPLS)剔除異常樣本,確定了校準集和預測集,采用可移動窗口偏最小二乘法(MWPLS)以逼近度(Da)為指標優化了最佳預處理方法、波長變量和隱變量數等參數,并最終建立了紫杉醇的預測模型。其校準集和預測集的預測值與真實值之間的相關系數(Rc2 和 Rp2)分別為 0.933 1 和 0.926 4。最后對預測模型進行了獨立驗證實驗,結果表明 20 個驗證樣本的相關誤差為 9.36%±2.03%,表明模型具有很好的擬合度和預測能力。
引用本文: 滕美玉, 宋佳, 趙毅, 逯城宇, 邢高楊, 李蘭洲, 閆國棟, 王迪. 拉曼光譜結合偏最小二乘法分析大鼠血液中紫杉醇含量. 生物醫學工程學雜志, 2018, 35(4): 578-582. doi: 10.7507/1001-5515.201607051 復制
引言
紫杉醇為紅豆杉的次級代謝產物,是從紅豆杉中獲得的復合雙萜。紫杉醇化學名為 5β,20-環氧-1,2α,4,7β,10β,13α-六羥基紫杉烷-11-烯-9-酮-4,10-二乙酸酯-2-苯甲酸酯-13[(2‘R,3’S)-N-苯甲酰-3-苯基異絲氨酸酯]。紫杉醇的分子量為 853.92 Da,分子式為 C47H51NO14[1]。它可以與促進微管聚合的 β 微管蛋白相互作用產生細胞毒性進而達到抗癌活性[2]。即使在不存在鳥苷三磷酸的條件下,紫杉醇也可以結合到微管蛋白 β 亞單位,促進微管蛋白 α 和 β 亞單位聚合,穩定微管,從而發揮抗癌作用[3]。紫杉醇是臨床上廣泛應用的抗癌藥物,已用于治療卵巢轉移癌、膀胱癌、肺癌、食管癌等[4]。準確而快速地測定紫杉醇含量,對于紫杉醇的臨床應用具有重要意義。
拉曼光譜是印度物理學家拉曼(Sir C. V. Raman)于 1928 年首次發現的。拉曼光譜是一種非彈性散射的電磁輻射,是分子振動和輻射之間能量交換的結果[5]。在入射光和樣本分子中發生能量交換,這種非彈性的散射稱為拉曼反應。拉曼光譜具有無損傷和高特異性的優點[6],是快速檢測及鑒定領域的新興技術。在目前的研究中,拉曼光譜已在各個領域當中得到應用。在食品檢測中,拉曼光譜已被用于牛奶中三聚氰胺的檢測[7];在食品加工產業中,拉曼光譜已被用于對豬肉質量的檢測[8]以及對肉制品烹制溫度的預測[9]。
偏最小二乘法(partial least square,PLS)具有很好的選擇性和預測準確性,適用于復雜的多組分光譜[10],是使用最廣泛的多變量校準方法之一。PLS 能夠消除數據中共線性的影響,有效降低光譜數據維度。在目前的研究中,PLS 被用于建立物質含量預測模型,例如對總花色苷含量的預測[11]。此外,波長的選擇、異常值的剔除、校準集和預測集的選擇都決定了模型的預測精準度,而蒙特卡羅偏最小二乘法(Monte Carlo partial least square,MCPLS)常用于剔除光譜樣本中的異常值。
本文嘗試采用 PLS 結合拉曼光譜建立紫杉醇含量的定量分析技術,通過對最優光譜預處理的篩選,篩選波長變量和隱含層數,獲得最優的逼近度(degree of approach,Da)值,進而篩選出最優的預測模型,以達到準確和快速地測定紫杉醇含量。
1 實驗部分
1.1 材料
紫杉醇(江蘇紅豆杉藥業有限公司);聚氧乙烯蓖麻油(上海共振生物科技有限公司);乙醇(北京化工廠);乙酸乙酯(國藥集團化學試劑有限公司);乙腈(北京化工廠)。
1.2 動物飼養
實驗方案經吉林大學實驗動物中心許可(許可證號 SCXK-(JI)2013-0003)。SD 大鼠(6 周齡,180~220 g,雄性)容納在透明塑料籠中,并保持在 12 h 明/暗循環光照中(開燈時間 7:00–19:00),溫度(23 ± 1)℃,自由飲水進食。實驗 8 h 前,動物禁食、自由飲水。所有的實驗均在安靜的房間內進行,并且單鼠單籠。共納入 26 只 SD 大鼠,每只取 12 份血樣,共計 312 份血樣。
1.3 血漿樣品制備
將 100~600 ng 的紫杉醇溶解在混合溶液[聚氧乙烯蓖麻油∶乙醇(體積/體積) = 1∶1]中,然后將一定量的紫杉醇溶液加入到大鼠血漿中。振蕩數次,在 37℃ 下孵育 30 min,血漿樣品的處理參照之前發表過的方法[12]稍作修改。取 800 μL 乙酸乙酯,加入到 100 μL 的血漿樣品中,經 1 min 渦旋混合后,將溶液以 10 000 r·min–1 離心 10 min,共離心兩次。將有機層分離并在 37℃ 氮氣下蒸干,殘余物溶解于 100 μL 乙腈,渦旋混合 1 min。溶液以 10 000 r·min–1 離心 10 min 后,將離心液轉移到注射瓶中進行高效液相色譜(high performance liquid chromatography,HPLC)分析。
1.4 紫杉醇含量的測定
本實驗所用的色譜柱為 Agilent ZORBAX Ecipse XDB-C18 柱(4.6 mm × 250 mm,5 μm),配制流動相為甲醇∶水∶乙腈的體積比為 23∶41∶36,液相流速為 1.0 mL·min–1,檢測波長為 227 nm,柱溫為 40℃,樣品的進樣量為 20 μL。高效液相色譜圖如圖 1 所示。

1.5 拉曼光譜數據
本實驗利用 InVia Raman Microscope 光譜對 312 個紫杉醇血漿樣本進行隨機掃描,掃描波長范圍為 0~4 500 nm,掃描間隔為 1 nm,入射夾縫寬為 12 nm。每個樣本掃描三次,取平均值(如圖 2 所示)。

1.6 建立 PLS 定量分析模型
程序腳本的編寫采用 Matlab2010Ra(美國 Math Works)軟件。
1.6.1 MCPLS 對異常樣本的剔除
樣本進行留一交互驗證用來篩選初始隱變量數(hidden variables,nLV),如式(1)所示,當為校準集時,結果為校準集均方根誤差(root mean square errors of calibration,RMSEC);當為預測集時,結果為預測集均方根誤差(root mean square errors of prediction,RMSEP)。
![]() |
式中 n 為樣品數量,yp 為實驗值,yr 為預測值。
利用 MCPLS 進行樣品異常值的剔除,隨機選擇 50% 的樣品作為校準集建立 PLS 模型,其余的樣品作為預測集,反復進行 10 000 次,保證每個樣品都充當過預測集。計算預測集樣品中的預測殘差(predictive residual error,PRE)、平均預測殘差(the mean of the PRE,MPRE)和標準偏差(standard deviation of PRE,SDPRE)。根據散點圖,將同時具有較高 MPRE 和較高 SDPRE 的數值作為異常值剔除。
1.6.2 校準集的建立
為了防止過擬合現象,隨機選取樣品數的 10%、20%、30%、40%、50%、60%、70%、80%、90% 作為校準集進行 PLS 模型的建立,其余作為預測集,反復進行 50 000 次計算,計算擬合度(degree of fitting,Df)如式(2)所示,擬合度的相對標準偏差(relative standard deviation,RSDDa)與對應的校準集數作圖(其中 c 值為 10),選擇 RSDDa 最小的校準集數作為校準集的樣品數。
![]() |
式中,nc 為校準集樣品數,np 為預測集樣品數,c 為常數。
1.6.3 PLS 定量分析模型的建立
采用快速傅里葉變換(fast Fourier transform,FFT)、卷積平滑(savitzky-golay smoothing)、一階導數(first derivative,1st)和二階導數(second derivative,2nd)對原始光譜進行除噪處理,選擇窗口為 5、7、9、11、13 和 15 時的除噪效果,利用可移動偏最小二乘法(moving window partial least square,MWPLS)優選 PLS 模型建立中的窗口(W)和隱變量數(nLV)等,獲得 PLS 定量分析模型。模型篩選中以逼近度 Da 為評價指標[如式(3)所示],最高值則為模型參數最優。其中 nLV 值范圍為 1~20,間隔為 1;W 值分別為 25、49、74、98、123、148、172、197、221、246、271、295、320、345 和 369(所有波長點數 1%~15%);nW 范圍值為 5~75,間隔為 5。
![]() |
1.6.4 獨立驗證實驗
20 只大鼠分別給予 1~5 mg·kg–1 紫杉醇隨機尾靜脈注射。大鼠尾靜脈取約 1.0 mL 血。將樣品 4 000 r·min–1 離心 10 min。取上清轉移到新的 1.5 mL EP 管并儲存于–80℃ 用于分析。20 個血漿樣品作為獨立驗證集來測試性能最佳的定量分析模型。對實驗值和預測值進行線性擬合分析,以可決系數(亦稱確定系數)R2 為模型預測效果的評價指標。R2 的值越接近 1,說明回歸直線對觀測值的擬合程度越好,模型的預測效果越好。
2 結果與討論
2.1 異常值的剔除及校準集樣本的選擇
在實驗的過程中,人為因素、儀器誤差均有可能造成對樣本信息的采集錯誤,這些錯誤數據對模型的建立產生了不利的影響,需要予以剔除[13]。利用 MCPLS 對樣本進行篩選,MPRE 和 SDPRE 值較高的樣本數據被視為異常值并剔除,本實驗中共剔除了 11 個異常樣本(見圖 3)。

為了防止模型的過擬合[14],實驗中按照 1.6.2 所述,以 RSDDa 為評價指標,采用 MCPLS 建立血漿中紫杉醇拉曼光譜定量分析模型的校準集樣本數,通過計算,當校準集為總樣本的 50% 時 RSDDa 最低(見圖 4)。校準集和預測集樣本的紫杉醇含量統計結果如表 1 所示。


2.2 血漿中的紫杉醇濃度 PLS 預測模型
為了獲得最優的定量 PLS 模型,根據 Da 值,進一步篩選隱變量數(nLV,1~20)、窗口大小(W,25~369)和波長變量(nW,5~75)。為了消除人為和儀器對樣本信息采集的干擾[15],實驗中分別運用卷積平滑、導數變換和快速傅里葉變換進行光譜除噪和消除基線漂移。通過 MWPLS 確定波長和 Da 值之間的關系,在 1%~15% 波長變量范圍內,共選擇 125 個波長變量用來建立紫杉醇含量的質量分析模型(見圖 5)。

如表 2 所示,卷積平滑處理可有效去除光譜噪音,使模型的擬合度及預測能力達到良好平衡。當 W 為 49、nLV 為 5、nW 為 5 時,Da 最大,模型效果最佳。
在得到紫杉醇含量的最優 PLS 模型基礎上,進行模型的預測值與真實值之間的相關性考察。結果顯示,模型的預測能力很好,并且未出現過擬合現象,模型的 Rc2 和 Rp2 分別為 0.933 1 和 0.926 4(見圖 6)。


2.3 獨立驗證
采用 20 個獨立的紫杉醇血漿樣本驗證模型的預測性能,結果表明,20 個樣本的實驗值為 (24.42 ± 16.18) ng·mL–1,預測值為 (24.80 ± 15.57) ng·mL–1。20 個驗證樣本的相關誤差為 9.36% ± 2.03%。實驗表明,拉曼光譜結合 PLS 可以很成功地分析血液中紫杉醇的含量(見圖 7)。

3 結論
已有研究表明,拉曼光譜在物質含量的預測中已有很廣泛的應用,例如在食品生產和檢測行業[7-9],而在紫杉醇含量的預測上,還沒有相關報道。本實驗第一次利用拉曼光譜對大鼠血液中紫杉醇代謝進行預測,采用 PLS 結合拉曼光譜建立血液中紫杉醇含量的定量分析模型,經過優化篩選,最優分析模型的預測能力能達到 92.46%。
本實驗證實了利用拉曼光譜結合化學計量學的方法,能夠有效地篩選信息,去除噪音以及無效波長變量,大大減少輸入矩陣,從而減少計算量,縮短計算時間,進而達到對血液中的紫杉醇含量進行快速、無損的分析;并且,模型的泛化能力強、預測精準度高,能夠滿足實際檢測的應用。
引言
紫杉醇為紅豆杉的次級代謝產物,是從紅豆杉中獲得的復合雙萜。紫杉醇化學名為 5β,20-環氧-1,2α,4,7β,10β,13α-六羥基紫杉烷-11-烯-9-酮-4,10-二乙酸酯-2-苯甲酸酯-13[(2‘R,3’S)-N-苯甲酰-3-苯基異絲氨酸酯]。紫杉醇的分子量為 853.92 Da,分子式為 C47H51NO14[1]。它可以與促進微管聚合的 β 微管蛋白相互作用產生細胞毒性進而達到抗癌活性[2]。即使在不存在鳥苷三磷酸的條件下,紫杉醇也可以結合到微管蛋白 β 亞單位,促進微管蛋白 α 和 β 亞單位聚合,穩定微管,從而發揮抗癌作用[3]。紫杉醇是臨床上廣泛應用的抗癌藥物,已用于治療卵巢轉移癌、膀胱癌、肺癌、食管癌等[4]。準確而快速地測定紫杉醇含量,對于紫杉醇的臨床應用具有重要意義。
拉曼光譜是印度物理學家拉曼(Sir C. V. Raman)于 1928 年首次發現的。拉曼光譜是一種非彈性散射的電磁輻射,是分子振動和輻射之間能量交換的結果[5]。在入射光和樣本分子中發生能量交換,這種非彈性的散射稱為拉曼反應。拉曼光譜具有無損傷和高特異性的優點[6],是快速檢測及鑒定領域的新興技術。在目前的研究中,拉曼光譜已在各個領域當中得到應用。在食品檢測中,拉曼光譜已被用于牛奶中三聚氰胺的檢測[7];在食品加工產業中,拉曼光譜已被用于對豬肉質量的檢測[8]以及對肉制品烹制溫度的預測[9]。
偏最小二乘法(partial least square,PLS)具有很好的選擇性和預測準確性,適用于復雜的多組分光譜[10],是使用最廣泛的多變量校準方法之一。PLS 能夠消除數據中共線性的影響,有效降低光譜數據維度。在目前的研究中,PLS 被用于建立物質含量預測模型,例如對總花色苷含量的預測[11]。此外,波長的選擇、異常值的剔除、校準集和預測集的選擇都決定了模型的預測精準度,而蒙特卡羅偏最小二乘法(Monte Carlo partial least square,MCPLS)常用于剔除光譜樣本中的異常值。
本文嘗試采用 PLS 結合拉曼光譜建立紫杉醇含量的定量分析技術,通過對最優光譜預處理的篩選,篩選波長變量和隱含層數,獲得最優的逼近度(degree of approach,Da)值,進而篩選出最優的預測模型,以達到準確和快速地測定紫杉醇含量。
1 實驗部分
1.1 材料
紫杉醇(江蘇紅豆杉藥業有限公司);聚氧乙烯蓖麻油(上海共振生物科技有限公司);乙醇(北京化工廠);乙酸乙酯(國藥集團化學試劑有限公司);乙腈(北京化工廠)。
1.2 動物飼養
實驗方案經吉林大學實驗動物中心許可(許可證號 SCXK-(JI)2013-0003)。SD 大鼠(6 周齡,180~220 g,雄性)容納在透明塑料籠中,并保持在 12 h 明/暗循環光照中(開燈時間 7:00–19:00),溫度(23 ± 1)℃,自由飲水進食。實驗 8 h 前,動物禁食、自由飲水。所有的實驗均在安靜的房間內進行,并且單鼠單籠。共納入 26 只 SD 大鼠,每只取 12 份血樣,共計 312 份血樣。
1.3 血漿樣品制備
將 100~600 ng 的紫杉醇溶解在混合溶液[聚氧乙烯蓖麻油∶乙醇(體積/體積) = 1∶1]中,然后將一定量的紫杉醇溶液加入到大鼠血漿中。振蕩數次,在 37℃ 下孵育 30 min,血漿樣品的處理參照之前發表過的方法[12]稍作修改。取 800 μL 乙酸乙酯,加入到 100 μL 的血漿樣品中,經 1 min 渦旋混合后,將溶液以 10 000 r·min–1 離心 10 min,共離心兩次。將有機層分離并在 37℃ 氮氣下蒸干,殘余物溶解于 100 μL 乙腈,渦旋混合 1 min。溶液以 10 000 r·min–1 離心 10 min 后,將離心液轉移到注射瓶中進行高效液相色譜(high performance liquid chromatography,HPLC)分析。
1.4 紫杉醇含量的測定
本實驗所用的色譜柱為 Agilent ZORBAX Ecipse XDB-C18 柱(4.6 mm × 250 mm,5 μm),配制流動相為甲醇∶水∶乙腈的體積比為 23∶41∶36,液相流速為 1.0 mL·min–1,檢測波長為 227 nm,柱溫為 40℃,樣品的進樣量為 20 μL。高效液相色譜圖如圖 1 所示。

1.5 拉曼光譜數據
本實驗利用 InVia Raman Microscope 光譜對 312 個紫杉醇血漿樣本進行隨機掃描,掃描波長范圍為 0~4 500 nm,掃描間隔為 1 nm,入射夾縫寬為 12 nm。每個樣本掃描三次,取平均值(如圖 2 所示)。

1.6 建立 PLS 定量分析模型
程序腳本的編寫采用 Matlab2010Ra(美國 Math Works)軟件。
1.6.1 MCPLS 對異常樣本的剔除
樣本進行留一交互驗證用來篩選初始隱變量數(hidden variables,nLV),如式(1)所示,當為校準集時,結果為校準集均方根誤差(root mean square errors of calibration,RMSEC);當為預測集時,結果為預測集均方根誤差(root mean square errors of prediction,RMSEP)。
![]() |
式中 n 為樣品數量,yp 為實驗值,yr 為預測值。
利用 MCPLS 進行樣品異常值的剔除,隨機選擇 50% 的樣品作為校準集建立 PLS 模型,其余的樣品作為預測集,反復進行 10 000 次,保證每個樣品都充當過預測集。計算預測集樣品中的預測殘差(predictive residual error,PRE)、平均預測殘差(the mean of the PRE,MPRE)和標準偏差(standard deviation of PRE,SDPRE)。根據散點圖,將同時具有較高 MPRE 和較高 SDPRE 的數值作為異常值剔除。
1.6.2 校準集的建立
為了防止過擬合現象,隨機選取樣品數的 10%、20%、30%、40%、50%、60%、70%、80%、90% 作為校準集進行 PLS 模型的建立,其余作為預測集,反復進行 50 000 次計算,計算擬合度(degree of fitting,Df)如式(2)所示,擬合度的相對標準偏差(relative standard deviation,RSDDa)與對應的校準集數作圖(其中 c 值為 10),選擇 RSDDa 最小的校準集數作為校準集的樣品數。
![]() |
式中,nc 為校準集樣品數,np 為預測集樣品數,c 為常數。
1.6.3 PLS 定量分析模型的建立
采用快速傅里葉變換(fast Fourier transform,FFT)、卷積平滑(savitzky-golay smoothing)、一階導數(first derivative,1st)和二階導數(second derivative,2nd)對原始光譜進行除噪處理,選擇窗口為 5、7、9、11、13 和 15 時的除噪效果,利用可移動偏最小二乘法(moving window partial least square,MWPLS)優選 PLS 模型建立中的窗口(W)和隱變量數(nLV)等,獲得 PLS 定量分析模型。模型篩選中以逼近度 Da 為評價指標[如式(3)所示],最高值則為模型參數最優。其中 nLV 值范圍為 1~20,間隔為 1;W 值分別為 25、49、74、98、123、148、172、197、221、246、271、295、320、345 和 369(所有波長點數 1%~15%);nW 范圍值為 5~75,間隔為 5。
![]() |
1.6.4 獨立驗證實驗
20 只大鼠分別給予 1~5 mg·kg–1 紫杉醇隨機尾靜脈注射。大鼠尾靜脈取約 1.0 mL 血。將樣品 4 000 r·min–1 離心 10 min。取上清轉移到新的 1.5 mL EP 管并儲存于–80℃ 用于分析。20 個血漿樣品作為獨立驗證集來測試性能最佳的定量分析模型。對實驗值和預測值進行線性擬合分析,以可決系數(亦稱確定系數)R2 為模型預測效果的評價指標。R2 的值越接近 1,說明回歸直線對觀測值的擬合程度越好,模型的預測效果越好。
2 結果與討論
2.1 異常值的剔除及校準集樣本的選擇
在實驗的過程中,人為因素、儀器誤差均有可能造成對樣本信息的采集錯誤,這些錯誤數據對模型的建立產生了不利的影響,需要予以剔除[13]。利用 MCPLS 對樣本進行篩選,MPRE 和 SDPRE 值較高的樣本數據被視為異常值并剔除,本實驗中共剔除了 11 個異常樣本(見圖 3)。

為了防止模型的過擬合[14],實驗中按照 1.6.2 所述,以 RSDDa 為評價指標,采用 MCPLS 建立血漿中紫杉醇拉曼光譜定量分析模型的校準集樣本數,通過計算,當校準集為總樣本的 50% 時 RSDDa 最低(見圖 4)。校準集和預測集樣本的紫杉醇含量統計結果如表 1 所示。


2.2 血漿中的紫杉醇濃度 PLS 預測模型
為了獲得最優的定量 PLS 模型,根據 Da 值,進一步篩選隱變量數(nLV,1~20)、窗口大小(W,25~369)和波長變量(nW,5~75)。為了消除人為和儀器對樣本信息采集的干擾[15],實驗中分別運用卷積平滑、導數變換和快速傅里葉變換進行光譜除噪和消除基線漂移。通過 MWPLS 確定波長和 Da 值之間的關系,在 1%~15% 波長變量范圍內,共選擇 125 個波長變量用來建立紫杉醇含量的質量分析模型(見圖 5)。

如表 2 所示,卷積平滑處理可有效去除光譜噪音,使模型的擬合度及預測能力達到良好平衡。當 W 為 49、nLV 為 5、nW 為 5 時,Da 最大,模型效果最佳。
在得到紫杉醇含量的最優 PLS 模型基礎上,進行模型的預測值與真實值之間的相關性考察。結果顯示,模型的預測能力很好,并且未出現過擬合現象,模型的 Rc2 和 Rp2 分別為 0.933 1 和 0.926 4(見圖 6)。


2.3 獨立驗證
采用 20 個獨立的紫杉醇血漿樣本驗證模型的預測性能,結果表明,20 個樣本的實驗值為 (24.42 ± 16.18) ng·mL–1,預測值為 (24.80 ± 15.57) ng·mL–1。20 個驗證樣本的相關誤差為 9.36% ± 2.03%。實驗表明,拉曼光譜結合 PLS 可以很成功地分析血液中紫杉醇的含量(見圖 7)。

3 結論
已有研究表明,拉曼光譜在物質含量的預測中已有很廣泛的應用,例如在食品生產和檢測行業[7-9],而在紫杉醇含量的預測上,還沒有相關報道。本實驗第一次利用拉曼光譜對大鼠血液中紫杉醇代謝進行預測,采用 PLS 結合拉曼光譜建立血液中紫杉醇含量的定量分析模型,經過優化篩選,最優分析模型的預測能力能達到 92.46%。
本實驗證實了利用拉曼光譜結合化學計量學的方法,能夠有效地篩選信息,去除噪音以及無效波長變量,大大減少輸入矩陣,從而減少計算量,縮短計算時間,進而達到對血液中的紫杉醇含量進行快速、無損的分析;并且,模型的泛化能力強、預測精準度高,能夠滿足實際檢測的應用。