目前顆粒物(尤其是 PM2.5)污染問題日趨嚴重,人們對其關注度越來越高。本文提出一種結合三次樣條插值方法的卡爾曼預測模型并將其應用于微區域校園環境 PM2.5 濃度的預測,以及實現 PM2.5 濃度的插值模擬圖,模擬 PM2.5 的空間分布。本文實驗基于實驗室已搭建的環境信息監測系統服務器數據,其 PM2.5 濃度數據預測值和實際值通過 Wilcoxon 帶符號秩檢驗后,雙側漸進顯著性概率為 0.527,遠大于顯著性水平 α = 0.05。同時,與神經網絡模型預測方法(BP 預測)和支持向量機預測方法(SVM 預測)對比,卡爾曼預測模型的結果更理想,其日均值 PM2.5 濃度數據預測值和監測值的平均絕對誤差(MEA)為 1.8 μg/m3,平均相對誤差(MER)為 6%,相關系數 R 為 0.87。實驗結果表明:卡爾曼預測模型能有效地用于 PM2.5 濃度預測,結合樣條插值方法可以較好地模擬 PM2.5 的空間分布及局部污染特征。
引用本文: 王偉, 鄭斌, 陳彬林, 安耀明, 姜小明, 李章勇. 基于微區域 PM2.5 濃度卡爾曼插值預測模型的研究. 生物醫學工程學雜志, 2018, 35(1): 64-69. doi: 10.7507/1001-5515.201609050 復制
引言
環境問題是當今國際社會的普遍問題。中國城市化和工業化的快速發展與能源消耗的迅速增加,造成了嚴重的環境污染問題。其中顆粒物污染問題較為嚴重,如北京、天津等地多次出現霧霾[1-2],對人們的健康生活造成了巨大影響。Gatto 等[3]研究表明可入肺顆粒物和認知功能下降之間是正向關聯的;Vierk?tter 等[4]發現顆粒物污染與人皮膚老化、產生色斑等也是正向關聯的;Cai 等[5]研究分析出短期或長期暴露于一些高濃度顆粒污染物環境可能會增加高血壓的風險;通過短期可入肺顆粒物效應分析,Zanobetti 等[6]報道了它與帕金森病有明顯的相關性。另外,PM2.5 濃度過高也會對人體心肺等器官造成嚴重的危害[7-9]。
目前,PM2.5 濃度引起了人們的廣泛關注。然而當前許多城市的環境監測中心站點較少,分布分散,環境監測的數據僅從宏觀上反映城市整體的空氣環境質量,不能從微觀上反映局部區域、特定區域的環境信息。并且,PM2.5 數據是典型的動態變化數據,在時間域上具有一定的周期性和趨勢性,在空間域上有區域分布特征,很難準確預報。目前對于 PM2.5 濃度預測常采用誤差逆向傳播算法訓練的多層前饋神經網絡(back propagation neural network,BP)和支持向量機(support vector machine,SVM)等預測方法。李龍等[10]利用特征向量和 PM2.5 濃度數據建立最小二乘 SVM 預測模型,該模型具有較高的泛化能力,但該方法在大數據量預測時較困難。孫榮基等[11]利用主成分分析和提前終止訓練方法改進 BP 模型,提高了 BP 神經網絡的預測精度,但是需要較多的樣本數量,而且其動態預測效果不好。相比較而言,采用卡爾曼預測方法可以更方便、準確地得到實時數據。故本研究通過卡爾曼插值模型來分析微區域顆粒物濃度變化情況。
1 數據來源
目前實驗室已在重慶郵電大學(以下簡稱為重郵)建立了 15 個監測站點(其分布如圖 1 所示),并搭建了微區域環境信息監測系統平臺。本文數據來源于該系統 15 個環境空氣質量自動監測站點。監測站設備自動實時監測并記錄 PM2.5 濃度、溫度、濕度等數據。收集的時間為 2015 年 7 月 1 日至 2016 年 7 月 1 日,每隔 3 s 記錄校園的 PM2.5 濃度、溫度、濕度等氣象因素的實時監測數據,并將其處理成 24 小時平均值或者每月平均值等。如取服務器數據中 2016 年 5 月 13 日(天氣:陰;無持續風向;溫度:19~25 ℃;濕度:37%RH)數據作為示例,見圖 2。


2 模型建立
由監測站點采集到的系列數據為離散采樣數據,且 PM2.5 數據具有動態性,隨著時間的變化有一定的波動。為了能較好地預測 PM2.5 濃度,并準確反映這種波動,采用卡爾曼預測方法[12]來進行 PM2.5 濃度的預測。卡爾曼預測的實質是用遞歸思想,采用均方差最小準則得到過程的最優估計值。卡爾曼預測方法是由已知測量數據的值來得到狀態矢量的最佳初值和狀態協方差矩陣初值,進而獲得預測的一系列數值。卡爾曼預測方法既可用于平穩和不平穩狀態,也可用于時變和時不變系統。由于三次樣條插值方法必須給出兩項邊值條件,而卡爾曼預測方法處理監測數據后,可以正向或者反向進行預測獲得兩端值,從而將數據處理變成連續光滑的時空曲線輸出。故本文采用基于樣條插值的卡爾曼預測方法,該方法收斂性好、穩定、易實現。
2.1 卡爾曼預測模型
本文通過如下的狀態方程和測量方程模擬了一個非線性 PM2.5 濃度預測系統模型:
![]() |
![]() |
其中 Sk 表示在離散時間參數 k 時的系統狀態向量,
表示系統函數在 k – 1 時刻的狀態函數,
是系統在 k – 1 時刻的輸入變量,
是時間變化協變量;yk 是系統輸出,
表示系統函數在 k 時刻的狀態,
是方差。
將
、
分別進行線性化展開,模型可簡化為:
![]() |
![]() |
其中系數A是參數矩陣;B 為空間平滑系數;C指輸出系數矩陣;
是方差。
2.2 具體算法思想
(1)由已知的 k – 1 時刻的最優 PM2.5 濃度值 Sk–1 去預測 k 時刻系統的狀態值
,其中
![]() |
(2)由上一次的誤差協方差
和過程噪聲
預測新的誤差
,其中
![]() |
(3)計算卡爾曼增益
![]() |
(4)進行校正更新
![]() |
(5)為下一步估計 k + 1 時刻的最優 PM 值的迭代進行更新操作,更新
:
![]() |
卡爾曼預測是一種遞歸的估計,即只要獲知上一時刻狀態的估計值以及當前狀態的觀測值,就可以計算出當前狀態的估計值。本論文實驗的狀態矢量的最佳初值 S0 = 2 和狀態協方差矩陣初值 P0 = 10(經多次實驗驗證所得),進而獲得預測的一系列數值,再結合三次樣條插值方法將數據曲線進行擬合插值,繪制出重郵校園 PM2.5 濃度的插值模擬圖,模擬 PM2.5 的空間分布及局部污染特征,并擬合地理區域面內每個經緯度網格對應的顆粒物平均質量濃度值,最終檢驗擬合值與實際值的差異,以驗證本方法的可行性與準確性。
3 結果與分析
3.1 卡爾曼預測模型
從環境監測系統服務器找到相關 PM2.5 數據,并對其進行二項式擬合,將擬合式近似作為其狀態方程,然后利用已知數據點進行卡爾曼預測獲得預測結果,并與已知監測值聯合計算后可得該區間內的光滑曲線。以 2016 年 5 月 13 日 2 號監測點數據分析為例,結果如圖 3 所示。

通過計算得到相關系數為 R = 0.90(詳細方法見下面 3.2 節),說明 PM2.5 預測值和監測值是正相關的。在此基礎上,進一步將通過卡爾曼預測的 PM2.5 濃度數據值和相應的監測數據值進行 Wilcoxon 帶符號秩檢驗,通過分析兩配對樣本,對樣本分布是否存在差異進行判斷,從而驗證卡爾曼預測 PM2.5 濃度值和實際監測值的一致性。通過 Wilcoxon 方法分析監測得到一年的月平均 PM2.5 濃度數據(剔除掉某些異常值),其雙側漸進顯著性概率為 0.527,大于顯著性水平 α = 0.05,故保留原假設。即認為 PM2.5 濃度預測值和監測值沒有明顯差異,基本一致,確定了卡爾曼預測模型在 PM2.5 濃度預測方面的可用性和可靠性。
3.2 對比其他模型分析結果
利用數據庫中一年日平均的數據進行進一步的卡爾曼預測分析,并對比 BP 神經網絡預測[13-14]以及 SVM 預測[15]模型。本研究分別計算了三種模型的測試樣本的平均絕對誤差(MEA,μg/m3)、平均相對誤差 MER 和相關系數 R 等三個指標。
![]() |
![]() |
![]() |
其中 Mi 是預測值,
是監測值。
具體對比結果如表 1 所示。

分析表 1 易知,卡爾曼預測、BP 神經網絡預測和 SVM 預測方法預測 PM2.5 濃度的結果差異并不明顯,都具有一定的預測能力。但相對 BP 神經網絡預測而言,卡爾曼預測結果的平均絕對誤較小,且相關系數較大;相對 SVM 預測而言,卡爾曼預測結果的均方根誤差較小,相關系數也較大。此結果提示卡爾曼預測的可靠性好,能較好地應用于動態時空數據的預測分析。
3.3 卡爾曼插值模型應用結果
根據重郵校園的地理經緯度位置(東經 106.61~106.62°,北緯 29.53~29.54°)和監測站點的分布情況,選取 1.0 km × 1.1 km 的校園地理空間進行研究。應用卡爾曼插值預測模型,通過空間插值的方法,繪制出了校園 PM2.5 濃度的插值模擬圖,模擬 PM2.5 的空間分布及局部污染特征,并可預測 15 個監測點以外的未知區域的顆粒物平均質量濃度,這使得微區域的區域面乃至每個經緯網格上顆粒物的污染濃度值都可以直觀地體現出來,在時間序列完整的基礎上還提高了空間分辨率,并可以表征每個監測點的區域代表性。由圖 4 可以看出重郵校園四季顆粒物濃度的區域特征,并可得出顆粒物質量濃度的頻數分布范圍。

由圖 4 分析可知,通過卡爾曼插值預測模型,可以預測不同監測點不同時間的 PM2.5 濃度值,不僅可以預測微區域的區域面 PM2.5 的污染濃度值,還可以發現其 PM2.5 濃度的演變規律。分析發現整個校園的環境 PM2.5 濃度在 35~80 μg/m3之間,主要集中在 60 μg/m3,同時人們活動、車流量等因素對 PM2.5 濃度影響較大。由于監測站點分布位置不同,人們活動多、車流量大的地方,PM2.5 的濃度高;反之,PM2.5 的濃度低。另外,風速風向也影響了整個校園 PM2.5 濃度的演變趨勢大小和方向。但總的來說,校園區域整體空氣環境質量較為優良。
4 結語
采用卡爾曼預測模型可以方便、準確地得到實時數據,尤其是在動態數據處理方面,具有很大的研究價值。本文重點研究卡爾曼預測模型在微區域 PM2.5 濃度預測方面的應用,提出了結合三次樣條插值的卡爾曼插值預測模型,為空氣污染預測提供了一種新的方法。通過實驗室搭建的環境信息監測數據庫數據,對 PM2.5 濃度進行了預測分析,并將其與 BP 神經網絡預測和 SVM 預測方法進行了對比,繪制了重郵校園 PM2.5 濃度的插值模擬圖,模擬 PM2.5 的空間分布及局部污染特征。結果表明:卡爾曼插值預測模型在 PM2.5 濃度值預測方面是可行的,其預測結果的顯著性概率為 0.527,具有較好的預測效果,并能較好地擬合 PM2.5 的空間分布情況。
致謝:對于提供實驗平臺的光電信息感測與傳輸技術重慶市重點實驗室致以誠摯的謝意。
引言
環境問題是當今國際社會的普遍問題。中國城市化和工業化的快速發展與能源消耗的迅速增加,造成了嚴重的環境污染問題。其中顆粒物污染問題較為嚴重,如北京、天津等地多次出現霧霾[1-2],對人們的健康生活造成了巨大影響。Gatto 等[3]研究表明可入肺顆粒物和認知功能下降之間是正向關聯的;Vierk?tter 等[4]發現顆粒物污染與人皮膚老化、產生色斑等也是正向關聯的;Cai 等[5]研究分析出短期或長期暴露于一些高濃度顆粒污染物環境可能會增加高血壓的風險;通過短期可入肺顆粒物效應分析,Zanobetti 等[6]報道了它與帕金森病有明顯的相關性。另外,PM2.5 濃度過高也會對人體心肺等器官造成嚴重的危害[7-9]。
目前,PM2.5 濃度引起了人們的廣泛關注。然而當前許多城市的環境監測中心站點較少,分布分散,環境監測的數據僅從宏觀上反映城市整體的空氣環境質量,不能從微觀上反映局部區域、特定區域的環境信息。并且,PM2.5 數據是典型的動態變化數據,在時間域上具有一定的周期性和趨勢性,在空間域上有區域分布特征,很難準確預報。目前對于 PM2.5 濃度預測常采用誤差逆向傳播算法訓練的多層前饋神經網絡(back propagation neural network,BP)和支持向量機(support vector machine,SVM)等預測方法。李龍等[10]利用特征向量和 PM2.5 濃度數據建立最小二乘 SVM 預測模型,該模型具有較高的泛化能力,但該方法在大數據量預測時較困難。孫榮基等[11]利用主成分分析和提前終止訓練方法改進 BP 模型,提高了 BP 神經網絡的預測精度,但是需要較多的樣本數量,而且其動態預測效果不好。相比較而言,采用卡爾曼預測方法可以更方便、準確地得到實時數據。故本研究通過卡爾曼插值模型來分析微區域顆粒物濃度變化情況。
1 數據來源
目前實驗室已在重慶郵電大學(以下簡稱為重郵)建立了 15 個監測站點(其分布如圖 1 所示),并搭建了微區域環境信息監測系統平臺。本文數據來源于該系統 15 個環境空氣質量自動監測站點。監測站設備自動實時監測并記錄 PM2.5 濃度、溫度、濕度等數據。收集的時間為 2015 年 7 月 1 日至 2016 年 7 月 1 日,每隔 3 s 記錄校園的 PM2.5 濃度、溫度、濕度等氣象因素的實時監測數據,并將其處理成 24 小時平均值或者每月平均值等。如取服務器數據中 2016 年 5 月 13 日(天氣:陰;無持續風向;溫度:19~25 ℃;濕度:37%RH)數據作為示例,見圖 2。


2 模型建立
由監測站點采集到的系列數據為離散采樣數據,且 PM2.5 數據具有動態性,隨著時間的變化有一定的波動。為了能較好地預測 PM2.5 濃度,并準確反映這種波動,采用卡爾曼預測方法[12]來進行 PM2.5 濃度的預測。卡爾曼預測的實質是用遞歸思想,采用均方差最小準則得到過程的最優估計值。卡爾曼預測方法是由已知測量數據的值來得到狀態矢量的最佳初值和狀態協方差矩陣初值,進而獲得預測的一系列數值。卡爾曼預測方法既可用于平穩和不平穩狀態,也可用于時變和時不變系統。由于三次樣條插值方法必須給出兩項邊值條件,而卡爾曼預測方法處理監測數據后,可以正向或者反向進行預測獲得兩端值,從而將數據處理變成連續光滑的時空曲線輸出。故本文采用基于樣條插值的卡爾曼預測方法,該方法收斂性好、穩定、易實現。
2.1 卡爾曼預測模型
本文通過如下的狀態方程和測量方程模擬了一個非線性 PM2.5 濃度預測系統模型:
![]() |
![]() |
其中 Sk 表示在離散時間參數 k 時的系統狀態向量,
表示系統函數在 k – 1 時刻的狀態函數,
是系統在 k – 1 時刻的輸入變量,
是時間變化協變量;yk 是系統輸出,
表示系統函數在 k 時刻的狀態,
是方差。
將
、
分別進行線性化展開,模型可簡化為:
![]() |
![]() |
其中系數A是參數矩陣;B 為空間平滑系數;C指輸出系數矩陣;
是方差。
2.2 具體算法思想
(1)由已知的 k – 1 時刻的最優 PM2.5 濃度值 Sk–1 去預測 k 時刻系統的狀態值
,其中
![]() |
(2)由上一次的誤差協方差
和過程噪聲
預測新的誤差
,其中
![]() |
(3)計算卡爾曼增益
![]() |
(4)進行校正更新
![]() |
(5)為下一步估計 k + 1 時刻的最優 PM 值的迭代進行更新操作,更新
:
![]() |
卡爾曼預測是一種遞歸的估計,即只要獲知上一時刻狀態的估計值以及當前狀態的觀測值,就可以計算出當前狀態的估計值。本論文實驗的狀態矢量的最佳初值 S0 = 2 和狀態協方差矩陣初值 P0 = 10(經多次實驗驗證所得),進而獲得預測的一系列數值,再結合三次樣條插值方法將數據曲線進行擬合插值,繪制出重郵校園 PM2.5 濃度的插值模擬圖,模擬 PM2.5 的空間分布及局部污染特征,并擬合地理區域面內每個經緯度網格對應的顆粒物平均質量濃度值,最終檢驗擬合值與實際值的差異,以驗證本方法的可行性與準確性。
3 結果與分析
3.1 卡爾曼預測模型
從環境監測系統服務器找到相關 PM2.5 數據,并對其進行二項式擬合,將擬合式近似作為其狀態方程,然后利用已知數據點進行卡爾曼預測獲得預測結果,并與已知監測值聯合計算后可得該區間內的光滑曲線。以 2016 年 5 月 13 日 2 號監測點數據分析為例,結果如圖 3 所示。

通過計算得到相關系數為 R = 0.90(詳細方法見下面 3.2 節),說明 PM2.5 預測值和監測值是正相關的。在此基礎上,進一步將通過卡爾曼預測的 PM2.5 濃度數據值和相應的監測數據值進行 Wilcoxon 帶符號秩檢驗,通過分析兩配對樣本,對樣本分布是否存在差異進行判斷,從而驗證卡爾曼預測 PM2.5 濃度值和實際監測值的一致性。通過 Wilcoxon 方法分析監測得到一年的月平均 PM2.5 濃度數據(剔除掉某些異常值),其雙側漸進顯著性概率為 0.527,大于顯著性水平 α = 0.05,故保留原假設。即認為 PM2.5 濃度預測值和監測值沒有明顯差異,基本一致,確定了卡爾曼預測模型在 PM2.5 濃度預測方面的可用性和可靠性。
3.2 對比其他模型分析結果
利用數據庫中一年日平均的數據進行進一步的卡爾曼預測分析,并對比 BP 神經網絡預測[13-14]以及 SVM 預測[15]模型。本研究分別計算了三種模型的測試樣本的平均絕對誤差(MEA,μg/m3)、平均相對誤差 MER 和相關系數 R 等三個指標。
![]() |
![]() |
![]() |
其中 Mi 是預測值,
是監測值。
具體對比結果如表 1 所示。

分析表 1 易知,卡爾曼預測、BP 神經網絡預測和 SVM 預測方法預測 PM2.5 濃度的結果差異并不明顯,都具有一定的預測能力。但相對 BP 神經網絡預測而言,卡爾曼預測結果的平均絕對誤較小,且相關系數較大;相對 SVM 預測而言,卡爾曼預測結果的均方根誤差較小,相關系數也較大。此結果提示卡爾曼預測的可靠性好,能較好地應用于動態時空數據的預測分析。
3.3 卡爾曼插值模型應用結果
根據重郵校園的地理經緯度位置(東經 106.61~106.62°,北緯 29.53~29.54°)和監測站點的分布情況,選取 1.0 km × 1.1 km 的校園地理空間進行研究。應用卡爾曼插值預測模型,通過空間插值的方法,繪制出了校園 PM2.5 濃度的插值模擬圖,模擬 PM2.5 的空間分布及局部污染特征,并可預測 15 個監測點以外的未知區域的顆粒物平均質量濃度,這使得微區域的區域面乃至每個經緯網格上顆粒物的污染濃度值都可以直觀地體現出來,在時間序列完整的基礎上還提高了空間分辨率,并可以表征每個監測點的區域代表性。由圖 4 可以看出重郵校園四季顆粒物濃度的區域特征,并可得出顆粒物質量濃度的頻數分布范圍。

由圖 4 分析可知,通過卡爾曼插值預測模型,可以預測不同監測點不同時間的 PM2.5 濃度值,不僅可以預測微區域的區域面 PM2.5 的污染濃度值,還可以發現其 PM2.5 濃度的演變規律。分析發現整個校園的環境 PM2.5 濃度在 35~80 μg/m3之間,主要集中在 60 μg/m3,同時人們活動、車流量等因素對 PM2.5 濃度影響較大。由于監測站點分布位置不同,人們活動多、車流量大的地方,PM2.5 的濃度高;反之,PM2.5 的濃度低。另外,風速風向也影響了整個校園 PM2.5 濃度的演變趨勢大小和方向。但總的來說,校園區域整體空氣環境質量較為優良。
4 結語
采用卡爾曼預測模型可以方便、準確地得到實時數據,尤其是在動態數據處理方面,具有很大的研究價值。本文重點研究卡爾曼預測模型在微區域 PM2.5 濃度預測方面的應用,提出了結合三次樣條插值的卡爾曼插值預測模型,為空氣污染預測提供了一種新的方法。通過實驗室搭建的環境信息監測數據庫數據,對 PM2.5 濃度進行了預測分析,并將其與 BP 神經網絡預測和 SVM 預測方法進行了對比,繪制了重郵校園 PM2.5 濃度的插值模擬圖,模擬 PM2.5 的空間分布及局部污染特征。結果表明:卡爾曼插值預測模型在 PM2.5 濃度值預測方面是可行的,其預測結果的顯著性概率為 0.527,具有較好的預測效果,并能較好地擬合 PM2.5 的空間分布情況。
致謝:對于提供實驗平臺的光電信息感測與傳輸技術重慶市重點實驗室致以誠摯的謝意。