肝臟疾病特征及交互特征對于肝臟疾病的分類具有重要意義,本文在交互最小絕對收縮和選擇算子(LASSO)模型的基礎上,研究了廣義交互 LASSO 模型并與其他可用于肝臟疾病分類的方法比較。首先,本文建立了廣義交互邏輯斯特(logistic)分類模型,在模型參數中添加 LASSO 罰函數,然后將模型參數通過交替方向乘子法(ADMM)求解,得到模型系數的稀疏解。最后將測試樣本代入模型,按照最大概率進行分類結果統計。通過將本文方法應用在肝臟失調數據集和印度肝病數據集的數據實驗結果表明,交互特征的模型系數不為零,這說明交互特征對分類存在貢獻。最終結果表明,本文提出的廣義交互 LASSO 方法的正確率要優于交互 LASSO 方法,也優于傳統模式識別方法,可將廣義交互 LASSO 方法推廣應用到其他疾病的分類問題上。
引用本文: 李靜, 仝曉云, 王金甲. 基于交替方向乘子法的廣義交互 LASSO 模型用于肝臟疾病分類. 生物醫學工程學雜志, 2017, 34(3): 350-356. doi: 10.7507/1001-5515.201508026 復制
引言
目前我國肝病患者基數大,病毒性肝炎及脂肪性、免疫性等各類肝病患者逾 1 億人,肝臟疾病已成為危害較大、涉及面較廣的慢性疾病和傳染病,嚴重威脅國人生命健康。因此針對肝病特征進行可解釋性建模分類,對于高效、準確地診斷肝病具有重要意義。
在過去的肝臟疾病分類研究工作中,研究方向大致分為兩類:傳統的模式識別方法和統計學習方法。傳統模式識別方法可解釋性差;而統計學習方法可解釋性強,但是忽略了特征交互對病癥的影響。Bien 等[1]提出了交互最小絕對收縮和選擇算子(least absolute shrinkage and selection operator,LASSO)模型,它將 L1 罰線性模型推廣到了 L1 罰交互二次模型,并給出了廣義梯度下降法。基于此,王金甲等[2]提出了采用交互 LASSO 模型用于肝病分類,數據實驗結果表明,該方法具有很好的可解釋性,其分類正確率優于傳統模式識別方法,并且肝病特征交互對分類正確率有正貢獻。Li 等[3]提出將弱交互 LASSO 模型用于阿爾茨海默病診斷,數據實驗結果顯示,采用交互特征后正確率有所提高。Liu 等[4]提出了弱交互 LASSO 模型的基于近鄰算子的新算法,速度優于廣義梯度下降法。Lim 等[5]基于強分層將交互 LASSO 模型推廣到組 L1 罰交互二次模型,如果交互特征系數非零,那么相應的兩個主效應特征應該包含在模型中。Haris 等[6]研究了基于強分層的廣義交互回歸模型,并擴展到弱交互模型,通過艾滋病病毒序列分析的數據實驗表明了特征交互的有用性。Zhao 等[7]基于文獻[6]研究了罰交互模型的收斂性。Shah[8]基于文獻[6]研究了高維數據的回溯法交互建模,并以仿真數據和真實數據驗證了新方法。基于以上已有的研究,本文基于邏輯斯特(logistic)模型,將文獻[6]的線性回歸模型推廣到分類模型,研究并改進了交替方向乘子法(alternating directions method of multipliers,ADMM)算法,然后將該方法定義為基于 ADMM 算法的廣義交互 LASSO 模型,并將其用于肝病分類。最后將提出的方法在兩組肝病數據中進行數據實驗分類驗證,并同 LASSO 模型方法、交互 LASSO 模型方法、支持向量機、最近鄰、線性判別分析和決策樹等傳統分類方法進行比較。數據實驗結果表明,廣義交互 LASSO 模型分類方法在肝病診斷中優于交互 LASSO 模型方法和傳統分類方法。今后,可將廣義交互 LASSO 模型分類方法推廣到其他疾病分類問題。
1 廣義交互LASSO模型
設分類模型的輸出為向量 Y (n×1 維),輸入分別為協變量矩陣 X (n×p1 維)和 Z (n×p2 維)。 X 中每一行為 p1 維特征,表示為 , , Z 中每一行為 p2 維特征,表示為 , 。變量 X 和 Z 間存在特征交互,記為 。則廣義交互 logistic 回歸模型定義為:
$\begin{aligned}& {\rm{logit}}\left( {P\left( {{{Y}}|{{X}},{{Z}}} \right)} \right) = \\& {B_{0,0}} + \sum\limits_{j = 1}^{{p_1}} {{B_{j,0}}{X_{i,j}}} + \sum\limits_{k = 1}^{{p_2}} {{B_{0,k}}{Z_{i,k}}} + \\& \sum\limits_{j = 1}^{{p_1}} {\sum\limits_{k = 1}^{{p_2}} {{B_{j,k}}{X_{i,j}}{Z_{i,k}}} } + {\varepsilon _i}{\text{;}}\;\;i = 1,2,\cdot \! \cdot \! \cdot,n\end{aligned}$ |
其中 表示截距標量, 代表 X 的主效應特征系數向量的元素, 代表 Z 的主效應系數向量的元素, 表示交互系數矩陣的元素, 。
為了簡便起見,構造 維矩陣 B ,其第一行第一列的元素表示 ,第一列除第一個元素表示 ,第一行除第一個元素表示 ,其余表示 。 B 是待求的模型參數。
構造 維矩陣 W ,定義如下:
${{{W}}_{i,(j,k)}} = \left\{ \begin{array}{l}\!\! {X_{i,j}}{Z_{i,k}}\;\;\;\;\text{當} \; j \ne 0,\;\;k \ne 0\text{時}\\\!\! {X_{i,j}}\;\;\;\;\;\;\;\;\;\text{當} \; j \ne 0,\;\;k = 0\text{時}\\\!\! {Z_{i,k}}\;\;\;\;\;\;\;\;\;\text{當} \; j = 0,\;\;k \ne 0\text{時}\\\!\! 1\;\;\;\;\;\;\;\;\;\;\;\;\;\text{當} \; j = k = 0\text{時}\end{array} \right.$ |
其中 ,則式(1)等價表示為
${\rm{logit}}\left( {P\left( {{{Y}}|{{X}},{{Z}}} \right)} \right) = {({{WB}})_i} + {\varepsilon _i};\;i = 1,2,\cdot \! \cdot \! \cdot,n$ |
其中 B 是式(1)中的 B 矩陣, WB 的結果是一個 n 維向量。
設訓練樣本為 ,1 階主效應特征和 2 階交互特征融合后特征數目為 。兩類問題定義 yi=1 或 yi=0, ,則兩類概率分別如下:
${p_i} = p({{{X}}_i},{{{Z}}_i}) = \frac{1}{{1 + \exp {{( - {{WB}})}_i}}}$ |
$1 - {p_i} = 1 - p({{{X}}_i},{{{Z}}_i}) = \;\frac{1}{{1 + \exp {{({{WB}})}_i}}}$ |
模型參數估計采用傳統的最大似然估計方法,即最大化 n 次獨立觀測的似然函數 或者最大化對數似然函數,表達式為 。
通過對模型系數添加 LASSO 罰函數,可以使模型系數值為零,實現對模型進行特征選擇。因此廣義交互 LASSO 模型系數解可以通過求解下式的凸優化問題獲得。
$\mathop {\min {im \! ize}}\limits_{B \in {R^{(P_1 + 1) \times (P_2 + 1)}}} \! - \! \frac{1}{n}\sum\limits_{i = 1}^n {\left[ {{y_i}{{\left( {{WB}} \right)}_i} - \log \left( {1 + {{\mathop{\rm e}\nolimits} ^{{{\left({{WB}} \right)}_i}}}} \right)} \right]} + {{{λ}}_1}\sum\limits_{j = 1}^{p_1} {\Pr ({B_{j,.}})} + {{{λ}}_2}\sum\limits_{k = 1}^{p_2} {{\rm{Pc}}({B_{.,k}})} + {{{λ}}_3}{\left\| {{B_{ - 0, - 0}}} \right\|_1}$ |
其中, , , 是非負可調參數, 表示 B 的第 j 行, 表示 B 的第 k 列, 表示 B 中除第一行第一列以外的交互系數, 分別是系數矩陣 B 的行和列的凸罰函數,決定模型的罰結構類型, 表示交互系數矩陣的 l1 范數,當 λ3 很大時可使交互系數矩陣產生稀疏。式(6)最小化的解就是主效應特征系數與交互特征系數組成的矩陣 B 。
2 改進ADMM算法求解模型
對式(6)進行求解可以采用ADMM算法。定義協變量矩陣 , ,即 Θ 是 維矩陣,令 。那么式(6)等價為:
$\mathop {\min im \! ize}\limits_{\begin{array}{*{20}{c}}{{{B}} \in R {^{({p_1} + 1) \times ({p_2} + 1)}}}\\{{{Θ}} \in R {^{({p_1} + 1) \times 3({p_2} + 1)}}}\end{array}} \!\!\! \left\{ \! { - \frac{1}{n} \! \sum\limits_{i = 1}^n \! {\left[ {{y_i}{{\left( {{{WB}}} \right)}_i} \! - \! \log \left( {1 + {{\rm{e}}^{{{\left( {{{WB}}} \right)}_i}}}} \right)} \right]} + } \right. \left. {{{{λ}}_1}\sum\limits_{j = 1}^{p_1} {\Pr ({{{D}}_{j,.}})} + {{{λ}}_2}\sum\limits_{k = 1}^{p_2} {{\rm{Pc}}({{{E}}_{.,k}})} + {{{λ}}_3}{{\left\| {{{{F}}_{ - 0, - 0}}} \right\|}_1}} \right\}\\ st.\;{{B}}\left({{{I}}_{({p_2} + 1) \times ({p_2} + 1)}}|{{{I}}_{({p_2} + 1) \times ({p_2} + 1)}}|{{{I}}_{({p_2} + 1) \times ({p_2} + 1)}}\right) = {{Θ}}$ |
式(7)對應的增廣拉格朗日函數為:
$ {L_\rho }({{B}},{{Θ}},{{Γ}}) \! = \! - \frac{1}{n} \! \sum\limits_{i = 1}^n \! {\left[ {{y_i}{{\left( {{WB}} \right)}_i} \!- \!\log \left( {1 + {{\rm{e}}^{{{\left( {{WB}} \right)}_i}}}} \right)} \right]} \! +{{{λ}}_1}\sum\limits_{j = 1}^{p_1} {\Pr ({{{D}}_{j,.}})} + {{{λ}}_2}\sum\limits_{k = 1}^{p_2} {Pc({{{E}}_{.,k}})} + {{{λ}}_3}{\left\| {{{{F}}_{ - 0, - 0}}} \right\|_1}\\ + {\rm{trace}}({{{Γ}}^T}({{{{B}}({{I}}}}|{{I}}|{{I}}) - {{Θ}})) + \rho /2\left\| {{{{{B}}({{I}}}}|{{I}}|{{I}}) - {{Θ}}} \right\|_{\rm{F}}^2$ |
其中 Γ 是 維對偶變量,即 , Γi 是 維變量,i=1,2,3。那么式(8)可寫為:
$\begin{aligned}{L_\rho }({{{{B}},{{Θ}} ,{{Γ}}}}) \! & = \! - \! \frac{1}{n} \! \sum\limits_{i = 1}^n \! {\left[ {{y_i}{{\left( {{WB}} \right)}_i} \! - \! \log \left( {1 + {{\rm{e}}^{{{\left( {{WB}} \right)}_i}}}} \right)} \right]} \! + {{{λ}}_1}\sum\limits_{j = 1}^{p_1} {\Pr ({{{D}}_{j,.}})} + {{{λ}}_2}\sum\limits_{k = 1}^{p_2} {{\rm{Pc}}({{{E}}_{.,k}})} + {{{λ}}_3}{\left\| {{{{F}}_{ - 0, - 0}}} \right\|_1}\\ & + \! \left\langle {{{{Γ}}_{\!\!{{1}}}}{{,{{B}} \!-\! {{D}}}}} \right\rangle \!+\! \left\langle {{{{Γ}}_{\!\!{{2}}}}{{,{{B}} \!-\! {{E}}}}} \right\rangle \!+\! \left\langle {{{{Γ}}_{\!\!{{3}}}}{{,{{B}} \!-\! {{F}}}}} \right\rangle \!+\! \rho /2 \! \left\| {{{{{B}} \!-\! {{D}}}}} \right\|_{\rm{F}}^2 + \rho /2\left\| {{{{{B}} - {{E}}}}} \right\|_{\rm{F}}^2 + \rho /2\left\| {{{{{B}} - {{F}}}}} \right\|_{\rm{F}}^2\end{aligned}$ |
最小化式(9)時,可以固定 Θ 求 B ,然后固定 B 求 Θ 。首先固定 Θ 求 B ,即求下式:
$\arg \min \!- \!\frac{1}{n}\sum\limits_{i = 1}^n {\left[ {{y_i}{{\left( {{WB}} \right)}_i} \!-\! \log \left( {1 + {{\rm{e}}^{{{\left( {{WB}} \right)}_i}}}} \right)} \right]} + \frac{{3\rho }}{2} \! \left\| {\frac{1}{{3\rho }}\left[ {\rho \left( {{{{{D}} \!+\! {{E}}\!+\! {{F}}}}} \right) \!-\! \left( {{{{Γ}}_{{1}}} \!+\! {{{Γ}}_{{2}}} \!+\! {{{Γ}}_{{3}}}} \right)} \right] \! -\! {{B}}} \right\|_{\rm{F}}^2$ |
對式(10)應用二階泰勒展開公式并化簡,得:
${{{B}}^l} = \arg \min \frac{1}{2}\left\| {\left[ \begin{array}{l}\frac{{{{{WB}}^{l - 1}} - 4\left( {\frac{1}{{1 + {{\rm{e}}^{ - {WB^{l - 1}}}}}} - {{Y}}} \right)}}{{2\sqrt n }}\\\frac{{\rho \left( {{{{{D}} + {{E}} + {{F}}}}} \right) - \left( {{{{Γ}}_{{1}}} + {{{Γ}}_{{2}}} + {{{Γ}}_{{3}}}} \right)}}{{\sqrt {3\rho } }}\end{array} \right] - \left[ \begin{array}{l}\frac{{W}}{{2\sqrt n }}\\\sqrt {3\rho } {{{I}}_{\left( {1 + {p_1}} \right)\left( {1 + {p_2}} \right)}}\end{array} \right]{{B}}} \right\|_{\rm{F}}^2$ |
其中 l 表示迭代次數。化簡式(11)得:
${{{B}}^l} = \;\frac{{{{W}}\left[ {{{{WB}}^{l - 1}} - 4\left( {\frac{1}{{1 + {{\rm{e}}^{ - W{B^{l - 1}}}}}} - y} \right)} \right] + 4n\left[ {\rho \left( {{{D}} + {{E}} + {{F}}} \right) - \left( {{{{Γ}}_1} + {{{Γ}}_2} + {{{Γ}}_3}} \right)} \right]}}{{12\rho n + {{{W}}^2}}}$ |
固定 B 求解 Θ 時,可以分解為分別求解 D , E , F 。求解 F 相當于求解軟閾值問題,因此得到 F 的更新公式為:
$\! \,\left\{ \begin{aligned}& {{F}}_{0,.}^l = {{B}}_{0,.}^l + \frac{{{{{Γ}} _3}_{0,.}^{l - 1}}}{{{\rho ^l}}}\\ &{{F}}_{.,0}^l = {{B}}_{.,0}^l + \frac{{{{{Γ}} _3}_{.,0}^{l - 1}}}{{{\rho ^l}}}\\ &{{F}}_{j,k}^l \! = \! {\rm{sign}} \! \left( {B_{j,k}^l \! + \! \frac{{{{{Γ}} _3}_{j,k}^{l - 1}}}{{{\rho ^l}}}} \right) \!{\left( {\left| {B_{j,k}^l \! + \! \frac{{{{{Γ}} _3}_{j,k}^l}}{{{\rho ^l}}}} \right| \! - \! \frac{{{{{λ}}_3}}}{{{\rho ^l}}}} \right)_ + }\\& {\rm{for}} \;j \ne 0,k \ne 0\end{aligned} \right.$ |
關于 D , E 相當于求解下式:
$\mathop {\min }\limits_{{β}} \! - \! \frac{1}{n} \! \sum\limits_{i = 1}^n \! {\left[ {{y_i}{{\left( {{WB}} \right)}_i} \! - \! \log \left( {1 \!+\! {{\rm{e}}^{{{\left( {{WB}} \right)}_i}}}} \right)} \right]} \! \!+\! {{λ}} P({{β}})$ |
其中 P( β )為對參數的任意罰函數。本文中對 l2 罰求解式(14),相當于軟收縮,得到的解是有效的。因此 D , E 的求解公式如下:
$\left\{ \begin{array}{l}\!\!\! {{{D}}^l} \!=\! \arg \min \! \frac{{{\rho ^l}}}{2} \! \left\| {{{D}} \!-\!\! \left( \! {{{{B}}^l} \!+\! \frac{{{{Γ}}_1^{l - 1}}}{{{\rho ^l}}}} \! \right)} \! \right\|_{\rm{F}}^2 \!\!\! +\! {{{λ}}_1} \! {\sum\limits_{j = 1}^{{p_1}} {\left\| {{{{D}}_{j,.}}} \right\|} _2}\\\!\!\! {{{E}}^l} \!=\!\!\! \arg \min \!\! \frac{{{\rho ^l}}}{2} \! \left\| {{{E}} \!-\! \left( \! {{{{B}}^l} \!+\! \frac{{{{Γ}}_2^{l - 1}}}{{{\rho ^l}}}} \! \right)} \! \right\|_{\rm{F}}^2 \!\!\! + \! {{{λ}}_2}\sum\limits_{j = 1}^{{p_1}} {{{\left\| {{{{E}}_{.,k}}} \right\|}_2}} \end{array} \right.$ |
化簡求得 D , E 的更新公式分別為:
$\!\!\!\!\! \left\{ \begin{array}{l}\!\!\! {{D}}_{0,.}^l \!=\! {{B}}_{0,.}^l \!+\! \frac{{{{{Γ}}_1}_{0,.}^{l - 1}}}{{{\rho ^l}}}\\\!\!\! {{D}}_{j,.}^l \!\!=\!\! \left( \! {{{B}}_{j,.}^l \!\!+\!\! \frac{{{{{Γ}}_1}_{j,.}^{l - 1}}}{{{\rho ^l}}}} \! \right) \!\!\! \left( \!\! {1 \!-\! \frac{{{{{λ}}_1}/{\rho ^l}}}{{\sqrt {\sum\limits_{j = 1}^{{p_1}} {{{\left( {{{B}}_{j,.}^i + \frac{{{{{Γ}}_1}_{j,.}^{l - 1}}}{{{\rho ^l}}}} \right)}^2}} } }}} \!\!\! \right)_{\!\!{ +}} ^{\!\!\!\!{T}}\end{array} \right.$ |
$\!\!\!\! \left\{ \begin{array}{l}\!\!\! {{E}}_{.,0}^l \!=\! {{B}}^{l}_{.,0} \!+\! \frac{{{{{Γ}}_2}_{.,0}^{l - 1}}}{{{\rho ^l}}}\\\!\!\! {{E}}_{.,k}^l \!=\!\! {\left( \!\! {1 \!-\! \frac{{{{{λ}}_2}/{\rho ^l}}}{{\sqrt {\sum\limits_{j = 1}^{{p_2}} {{{\left( {{{B}}_{.,k}^l \!+\! \frac{{{{{Γ}}_1}_{.,k}^{l - 1}}}{{{\rho ^l}}}} \right)}^2}} } }}} \!\! \right)_ {\!\!{+}} } \!\!\!\! \left( \!\! {{{B}}_{.,k}^l \!+\! \frac{{{{{Γ}}_1}_{.,k}^{l - 1}}}{{{\rho ^l}}}} \!\! \right)\end{array} \right.$ |
下面給出求解最小化式(9)完整的改進 ADMM 算法。
(1)初始化 。
(2)選擇 。
(3)對于 重復以下公式,直到 ,這里 rl 和 sl 分別為原始殘差和對偶殘差,定義如下:
$\begin{array}{l}{s^l} = {\rho ^l}{\left\| {\left( {{{{D}}^l}|{{{E}}^l}|{{{F}}^l}} \right) - \left( {{{{D}}^{l - 1}}|{{{E}}^{l - 1}}|{{{F}}^{l - 1}}} \right)} \right\|_{\rm F}}\\{r^l} = {\left\| {\left( {{{{B}}^l}|{{{B}}^l}|{{{B}}^l}} \right) - \left( {{{{D}}^l}|{{{E}}^l}|{{{F}}^l}} \right)} \right\|_{\rm F}}\end{array}$ |
更新 ,則:
${\rho ^l} = \left\{ \begin{array}{l}\!\!\! 2{\rho ^{l - 1}}\;\;\;\;\;if\;{r^{l - 1}} > 10{s^{l - 1}}\\\!\!\! {\rho ^{l - 1}}/2\;\;\;if\;10{r^{l - 1}} < {s^{l - 1}}\\\!\!\! {\rho ^{l - 1}}\;\;\;\;\;\;\;\;\;{\rm{otherwise}}\end{array} \right.$ |
更新 Bl,如下:
$\begin{aligned}{{{B}}^l} = & \arg \min \frac{1}{n}L\left( {{WB}} \right) + \\ &\frac{{3{\rho ^l}}}{2}\left\| {\frac{1}{{3{\rho ^l}}}\left[ {{\rho ^l}\left( {{{{D}}^{l - 1}} + {{{E}}^{l - 1}} + {{{F}}^{l - 1}}} \right) - } \right.} \right.\\ &\left. {\left. {\left( {{{Γ}} _1^{l - 1} + {{Γ}} _2^{l - 1} + {{Γ}} _3^{l - 1}} \right)} \right] - {{B}}} \right\|_{\rm{F}}^2\end{aligned}$ |
更新 Dl, El,如下:
$\begin{aligned}{{{D}}^l} \!=\! \arg \min \!\! \frac{{{\rho ^l}}}{2} \! \left\| {{{D}} \!-\!\! \left( \! {{{{B}}^l} \!+\! \frac{{{{Γ}}_1^{l - 1}}}{{{\rho ^l}}}} \! \right)} \! \right\|_{\rm F}^2 \!\! +\! {{{λ}}_1}\sum\limits_{j = 1}^{{p_1}} {{\rm{Pr}} \left( {{{{D}}_{j,.}}} \right)} \\{{{E}}^l} \!=\! \arg \min \!\! \frac{{{\rho ^l}}}{2} \! \left\| {{{E}} \!-\!\! \left( \! {{{{B}}^l} \!+\! \frac{{{{Γ}}_2^{l - 1}}}{{{\rho ^l}}}} \! \right)} \! \right\|_{\rm F}^2 \!\! + {{{λ}}_2} \! \sum\limits_{j = 1}^{{p_1}} {{\rm{Pc}}\left( {{{{E}}_{.,k}}} \right)} \end{aligned}$ |
更新 ,如下:
$\begin{array}{l}{{F}}_{0,.}^l \!=\! {{B}}_{0,.}^l + \frac{{{{{Γ}}_3}_{0,.}^{l - 1}}}{{{\rho ^l}}}\\{{F}}_{.,0}^l \!=\! {{B}}_{.,0}^l + \frac{{{{{Γ}}_3}_{.,0}^{l - 1}}}{{{\rho ^l}}}\\{{F}}_{j,k}^l \!=\! {\rm{sign}} \! \left( \! {B_{j,k}^l + \frac{{{{{Γ}}_3}_{j,k}^{l - 1}}}{{{\rho ^l}}}} \! \right) \! {\left( {\left| {B_{j,k}^l + \frac{{{{{Γ}}_3}_{j,k}^l}}{{{\rho ^l}}}} \right| - \frac{{{{{λ}}_3}}}{{{\rho ^l}}}} \! \right)_ + } \\ \;\;\;\;\;\;\;\;\;\; {\rm{for}}\;j \ne 0,k \ne 0\end{array}$ |
更新 ,如下:
$\begin{array}{l}{{Γ}}_1^l = {{Γ}}_1^{l - 1} + {\rho ^l}\left( {{{{B}}^l} - {{{D}}^l}} \right)\\{{Γ}}_2^l = {{Γ}}_2^{l - 1} + {\rho ^l}\left( {{{{B}}^l} - {{{E}}^l}} \right)\\{{Γ}}_3^l = {{Γ}}_3^{l - 1} + {\rho ^l}\left( {{{{B}}^l} - {{{F}}^l}} \right)\end{array}$ |
3 實驗結果與分析
實驗采用的數據,其一是肝臟失調數據集(BUPA liver disorders,BLD)(來源:http://archive. ics.uci.edu/ml/datasets/Liver+Disorders),采集了 142 個肝病患者和 199 個健康人的數據,每人取 6 維特征。
第二個數據集是印度肝病數據集(Indian liver patient dataset,ILPD)(來源:http://archive.ics.uci. edu/ml/datasets/ILPD+(Indian+Liver+Patient+Dataset)。我們采用其中 414 個肝病患者和 165 個健康人的數據,每人取 10 維特征。
數據實驗一是模型參數矩陣 B 的可視化。模型可調參數 采用網格法進行優選。數據實驗時,令輸入特征 X = Z ,應用 值在 5×50 的網格上,其中 ,在訓練集擬合模型,在測試集基于殘差平方和來選擇可調參數。廣義交互 LASSO 模型和交互 LASSO 模型用于 BLD 數據集求得的估計系數矩陣 B ,如圖 1 所示。廣義交互 LASSO 模型和交互 LASSO 模型用于 ILPD 數據集求得的估計系數矩陣 B ,如圖 2 所示。


如圖 1、圖 2 所示,第一行和第一列均表示主效應特征系數,其余表示交互特征系數。圖中特征系數非 0 時,即表示此特征或交互特征被選擇,對模型有貢獻。交互特征系數絕對值越大說明特征交互程度越高。
如圖 1 所示,6 維實數特征分別為:0 表示主特征;1 表示平均紅細胞容積;2 表示堿性磷酸酶;3 表示丙氨酸轉氨酶;4 表示天冬氨酸轉氨酶;5 表示谷氨酰基轉肽酶;6 表示受試者平均每日飲酒量。從圖 1 中可以看出,兩個模型全都選擇了全部主效應特征和大部分交互特征。比如交互 LASSO 模型的第三行第四列值為 0.39,說明第二個特征堿性磷酸酶和第三個特征丙氨酸轉氨酶的交互特征系數為 0.39,對分類貢獻較大。
如圖 2 所示,10 維實數特征分別為:A 表示主特征;B 表示年齡;C 表示性別;D 表示總膽紅素;E 表示直接膽紅素;F 表示堿性磷酸酶;G 表示丙氨酸轉氨酶;H 表示天冬氨酸轉氨酶;I 表示血清總蛋白;J 表示血清白蛋白;K 表示白蛋白與球蛋白的比值。從圖 2 中可以看出,兩種方法均選擇全部主效應特征和小部分交互特征。比如交互 LASSO 模型的第五行第六列值為 0.29,說明第四個特征直接膽紅素和第五個特征堿性磷酸酶的交互特征系數為 0.29,對分類貢獻較大。特征交互項說明可參考文獻[2]。
數據實驗二是 LASSO、交互 LASSO、廣義交互 LASSO 三種模型方法的性能對比。如圖 3 所示為將三種方法應用于前述兩種肝病數據集所得的受試者工作特征曲線(receiver operating characteristic curve,ROC)。如表 1 所示,為三種 LASSO 模型方法在數據集上的 ROC 曲線下面積(area under ROC curve,AUC)和程序運行時間的比較。結果顯示,廣義交互 LASSO 方法 AUC 最高,交互 LASSO 方法次之,LASSO 方法最低,這說明肝病數據存在特征交互。廣義交互 LASSO 方法和交互 LASSO 方法的 ROC 曲線相差不大,但是交互 LASSO 方法求解模型參數是用梯度下降法循環更新每一步,這將導致計算效率低,尤其是特征較大的數據。因而本文研究了簡單迭代的改進 ADMM 算法,大大降低了時間損耗。


數據實驗三是三種 LASSO 模型方法和傳統模式識別方法的對比。如表 2 所示,給出了支持向量機、最近鄰、線性判別分析、決策樹、LASSO 方法,交互 LASSO 方法以及廣義交互 LASSO 的特異性、敏感性的實驗結果。結果表明,本文方法在敏感性和特異性兩種性能評價指標中得分較高,證明了廣義交互 LASSO 方法具有良好的分類性能。

數據實驗四是廣義交互 LASSO 方法與文獻中肝病分類實驗結果的正確率對比,如圖 4 所示。文獻[9]所用方法為歸納學習方法,文獻[10]采用樸素貝葉斯方法。文獻[11]使用了平滑支持向量機方法,文獻[12]采用了人工免疫識別方法。從圖 4 可以看出本文廣義交互 LASSO 模型方法正確率優于其他文獻正確率。

4 結論
本文中,我們推廣了廣義交互 LASSO 模型到 logistic 回歸,并應用改進的 ADMM 優化算法來求解模型參數。本文所提改進的 ADMM 算法比廣義梯度下降算法縮短了模型訓練時間。新模型和方法應用到肝病數據集的數據實驗結果再次證明了肝病特征間存在交互,以及特征交互對于分類有貢獻。從正確率看,廣義交互 LASSO 模型方法優于傳統模式識別方法、LASSO 模型方法和交互 LASSO 模型方法。此外,三種 LASSO 模型方法的解釋性都強于傳統模式識別方法。進一步可用于研究高階交互模型,例如擴展到三階交互,將系數矩陣 B 設為 維系數張量。基于可解釋性強的優點,本文方法可以推廣到其它生物醫學數據分類問題。
引言
目前我國肝病患者基數大,病毒性肝炎及脂肪性、免疫性等各類肝病患者逾 1 億人,肝臟疾病已成為危害較大、涉及面較廣的慢性疾病和傳染病,嚴重威脅國人生命健康。因此針對肝病特征進行可解釋性建模分類,對于高效、準確地診斷肝病具有重要意義。
在過去的肝臟疾病分類研究工作中,研究方向大致分為兩類:傳統的模式識別方法和統計學習方法。傳統模式識別方法可解釋性差;而統計學習方法可解釋性強,但是忽略了特征交互對病癥的影響。Bien 等[1]提出了交互最小絕對收縮和選擇算子(least absolute shrinkage and selection operator,LASSO)模型,它將 L1 罰線性模型推廣到了 L1 罰交互二次模型,并給出了廣義梯度下降法。基于此,王金甲等[2]提出了采用交互 LASSO 模型用于肝病分類,數據實驗結果表明,該方法具有很好的可解釋性,其分類正確率優于傳統模式識別方法,并且肝病特征交互對分類正確率有正貢獻。Li 等[3]提出將弱交互 LASSO 模型用于阿爾茨海默病診斷,數據實驗結果顯示,采用交互特征后正確率有所提高。Liu 等[4]提出了弱交互 LASSO 模型的基于近鄰算子的新算法,速度優于廣義梯度下降法。Lim 等[5]基于強分層將交互 LASSO 模型推廣到組 L1 罰交互二次模型,如果交互特征系數非零,那么相應的兩個主效應特征應該包含在模型中。Haris 等[6]研究了基于強分層的廣義交互回歸模型,并擴展到弱交互模型,通過艾滋病病毒序列分析的數據實驗表明了特征交互的有用性。Zhao 等[7]基于文獻[6]研究了罰交互模型的收斂性。Shah[8]基于文獻[6]研究了高維數據的回溯法交互建模,并以仿真數據和真實數據驗證了新方法。基于以上已有的研究,本文基于邏輯斯特(logistic)模型,將文獻[6]的線性回歸模型推廣到分類模型,研究并改進了交替方向乘子法(alternating directions method of multipliers,ADMM)算法,然后將該方法定義為基于 ADMM 算法的廣義交互 LASSO 模型,并將其用于肝病分類。最后將提出的方法在兩組肝病數據中進行數據實驗分類驗證,并同 LASSO 模型方法、交互 LASSO 模型方法、支持向量機、最近鄰、線性判別分析和決策樹等傳統分類方法進行比較。數據實驗結果表明,廣義交互 LASSO 模型分類方法在肝病診斷中優于交互 LASSO 模型方法和傳統分類方法。今后,可將廣義交互 LASSO 模型分類方法推廣到其他疾病分類問題。
1 廣義交互LASSO模型
設分類模型的輸出為向量 Y (n×1 維),輸入分別為協變量矩陣 X (n×p1 維)和 Z (n×p2 維)。 X 中每一行為 p1 維特征,表示為 , , Z 中每一行為 p2 維特征,表示為 , 。變量 X 和 Z 間存在特征交互,記為 。則廣義交互 logistic 回歸模型定義為:
$\begin{aligned}& {\rm{logit}}\left( {P\left( {{{Y}}|{{X}},{{Z}}} \right)} \right) = \\& {B_{0,0}} + \sum\limits_{j = 1}^{{p_1}} {{B_{j,0}}{X_{i,j}}} + \sum\limits_{k = 1}^{{p_2}} {{B_{0,k}}{Z_{i,k}}} + \\& \sum\limits_{j = 1}^{{p_1}} {\sum\limits_{k = 1}^{{p_2}} {{B_{j,k}}{X_{i,j}}{Z_{i,k}}} } + {\varepsilon _i}{\text{;}}\;\;i = 1,2,\cdot \! \cdot \! \cdot,n\end{aligned}$ |
其中 表示截距標量, 代表 X 的主效應特征系數向量的元素, 代表 Z 的主效應系數向量的元素, 表示交互系數矩陣的元素, 。
為了簡便起見,構造 維矩陣 B ,其第一行第一列的元素表示 ,第一列除第一個元素表示 ,第一行除第一個元素表示 ,其余表示 。 B 是待求的模型參數。
構造 維矩陣 W ,定義如下:
${{{W}}_{i,(j,k)}} = \left\{ \begin{array}{l}\!\! {X_{i,j}}{Z_{i,k}}\;\;\;\;\text{當} \; j \ne 0,\;\;k \ne 0\text{時}\\\!\! {X_{i,j}}\;\;\;\;\;\;\;\;\;\text{當} \; j \ne 0,\;\;k = 0\text{時}\\\!\! {Z_{i,k}}\;\;\;\;\;\;\;\;\;\text{當} \; j = 0,\;\;k \ne 0\text{時}\\\!\! 1\;\;\;\;\;\;\;\;\;\;\;\;\;\text{當} \; j = k = 0\text{時}\end{array} \right.$ |
其中 ,則式(1)等價表示為
${\rm{logit}}\left( {P\left( {{{Y}}|{{X}},{{Z}}} \right)} \right) = {({{WB}})_i} + {\varepsilon _i};\;i = 1,2,\cdot \! \cdot \! \cdot,n$ |
其中 B 是式(1)中的 B 矩陣, WB 的結果是一個 n 維向量。
設訓練樣本為 ,1 階主效應特征和 2 階交互特征融合后特征數目為 。兩類問題定義 yi=1 或 yi=0, ,則兩類概率分別如下:
${p_i} = p({{{X}}_i},{{{Z}}_i}) = \frac{1}{{1 + \exp {{( - {{WB}})}_i}}}$ |
$1 - {p_i} = 1 - p({{{X}}_i},{{{Z}}_i}) = \;\frac{1}{{1 + \exp {{({{WB}})}_i}}}$ |
模型參數估計采用傳統的最大似然估計方法,即最大化 n 次獨立觀測的似然函數 或者最大化對數似然函數,表達式為 。
通過對模型系數添加 LASSO 罰函數,可以使模型系數值為零,實現對模型進行特征選擇。因此廣義交互 LASSO 模型系數解可以通過求解下式的凸優化問題獲得。
$\mathop {\min {im \! ize}}\limits_{B \in {R^{(P_1 + 1) \times (P_2 + 1)}}} \! - \! \frac{1}{n}\sum\limits_{i = 1}^n {\left[ {{y_i}{{\left( {{WB}} \right)}_i} - \log \left( {1 + {{\mathop{\rm e}\nolimits} ^{{{\left({{WB}} \right)}_i}}}} \right)} \right]} + {{{λ}}_1}\sum\limits_{j = 1}^{p_1} {\Pr ({B_{j,.}})} + {{{λ}}_2}\sum\limits_{k = 1}^{p_2} {{\rm{Pc}}({B_{.,k}})} + {{{λ}}_3}{\left\| {{B_{ - 0, - 0}}} \right\|_1}$ |
其中, , , 是非負可調參數, 表示 B 的第 j 行, 表示 B 的第 k 列, 表示 B 中除第一行第一列以外的交互系數, 分別是系數矩陣 B 的行和列的凸罰函數,決定模型的罰結構類型, 表示交互系數矩陣的 l1 范數,當 λ3 很大時可使交互系數矩陣產生稀疏。式(6)最小化的解就是主效應特征系數與交互特征系數組成的矩陣 B 。
2 改進ADMM算法求解模型
對式(6)進行求解可以采用ADMM算法。定義協變量矩陣 , ,即 Θ 是 維矩陣,令 。那么式(6)等價為:
$\mathop {\min im \! ize}\limits_{\begin{array}{*{20}{c}}{{{B}} \in R {^{({p_1} + 1) \times ({p_2} + 1)}}}\\{{{Θ}} \in R {^{({p_1} + 1) \times 3({p_2} + 1)}}}\end{array}} \!\!\! \left\{ \! { - \frac{1}{n} \! \sum\limits_{i = 1}^n \! {\left[ {{y_i}{{\left( {{{WB}}} \right)}_i} \! - \! \log \left( {1 + {{\rm{e}}^{{{\left( {{{WB}}} \right)}_i}}}} \right)} \right]} + } \right. \left. {{{{λ}}_1}\sum\limits_{j = 1}^{p_1} {\Pr ({{{D}}_{j,.}})} + {{{λ}}_2}\sum\limits_{k = 1}^{p_2} {{\rm{Pc}}({{{E}}_{.,k}})} + {{{λ}}_3}{{\left\| {{{{F}}_{ - 0, - 0}}} \right\|}_1}} \right\}\\ st.\;{{B}}\left({{{I}}_{({p_2} + 1) \times ({p_2} + 1)}}|{{{I}}_{({p_2} + 1) \times ({p_2} + 1)}}|{{{I}}_{({p_2} + 1) \times ({p_2} + 1)}}\right) = {{Θ}}$ |
式(7)對應的增廣拉格朗日函數為:
$ {L_\rho }({{B}},{{Θ}},{{Γ}}) \! = \! - \frac{1}{n} \! \sum\limits_{i = 1}^n \! {\left[ {{y_i}{{\left( {{WB}} \right)}_i} \!- \!\log \left( {1 + {{\rm{e}}^{{{\left( {{WB}} \right)}_i}}}} \right)} \right]} \! +{{{λ}}_1}\sum\limits_{j = 1}^{p_1} {\Pr ({{{D}}_{j,.}})} + {{{λ}}_2}\sum\limits_{k = 1}^{p_2} {Pc({{{E}}_{.,k}})} + {{{λ}}_3}{\left\| {{{{F}}_{ - 0, - 0}}} \right\|_1}\\ + {\rm{trace}}({{{Γ}}^T}({{{{B}}({{I}}}}|{{I}}|{{I}}) - {{Θ}})) + \rho /2\left\| {{{{{B}}({{I}}}}|{{I}}|{{I}}) - {{Θ}}} \right\|_{\rm{F}}^2$ |
其中 Γ 是 維對偶變量,即 , Γi 是 維變量,i=1,2,3。那么式(8)可寫為:
$\begin{aligned}{L_\rho }({{{{B}},{{Θ}} ,{{Γ}}}}) \! & = \! - \! \frac{1}{n} \! \sum\limits_{i = 1}^n \! {\left[ {{y_i}{{\left( {{WB}} \right)}_i} \! - \! \log \left( {1 + {{\rm{e}}^{{{\left( {{WB}} \right)}_i}}}} \right)} \right]} \! + {{{λ}}_1}\sum\limits_{j = 1}^{p_1} {\Pr ({{{D}}_{j,.}})} + {{{λ}}_2}\sum\limits_{k = 1}^{p_2} {{\rm{Pc}}({{{E}}_{.,k}})} + {{{λ}}_3}{\left\| {{{{F}}_{ - 0, - 0}}} \right\|_1}\\ & + \! \left\langle {{{{Γ}}_{\!\!{{1}}}}{{,{{B}} \!-\! {{D}}}}} \right\rangle \!+\! \left\langle {{{{Γ}}_{\!\!{{2}}}}{{,{{B}} \!-\! {{E}}}}} \right\rangle \!+\! \left\langle {{{{Γ}}_{\!\!{{3}}}}{{,{{B}} \!-\! {{F}}}}} \right\rangle \!+\! \rho /2 \! \left\| {{{{{B}} \!-\! {{D}}}}} \right\|_{\rm{F}}^2 + \rho /2\left\| {{{{{B}} - {{E}}}}} \right\|_{\rm{F}}^2 + \rho /2\left\| {{{{{B}} - {{F}}}}} \right\|_{\rm{F}}^2\end{aligned}$ |
最小化式(9)時,可以固定 Θ 求 B ,然后固定 B 求 Θ 。首先固定 Θ 求 B ,即求下式:
$\arg \min \!- \!\frac{1}{n}\sum\limits_{i = 1}^n {\left[ {{y_i}{{\left( {{WB}} \right)}_i} \!-\! \log \left( {1 + {{\rm{e}}^{{{\left( {{WB}} \right)}_i}}}} \right)} \right]} + \frac{{3\rho }}{2} \! \left\| {\frac{1}{{3\rho }}\left[ {\rho \left( {{{{{D}} \!+\! {{E}}\!+\! {{F}}}}} \right) \!-\! \left( {{{{Γ}}_{{1}}} \!+\! {{{Γ}}_{{2}}} \!+\! {{{Γ}}_{{3}}}} \right)} \right] \! -\! {{B}}} \right\|_{\rm{F}}^2$ |
對式(10)應用二階泰勒展開公式并化簡,得:
${{{B}}^l} = \arg \min \frac{1}{2}\left\| {\left[ \begin{array}{l}\frac{{{{{WB}}^{l - 1}} - 4\left( {\frac{1}{{1 + {{\rm{e}}^{ - {WB^{l - 1}}}}}} - {{Y}}} \right)}}{{2\sqrt n }}\\\frac{{\rho \left( {{{{{D}} + {{E}} + {{F}}}}} \right) - \left( {{{{Γ}}_{{1}}} + {{{Γ}}_{{2}}} + {{{Γ}}_{{3}}}} \right)}}{{\sqrt {3\rho } }}\end{array} \right] - \left[ \begin{array}{l}\frac{{W}}{{2\sqrt n }}\\\sqrt {3\rho } {{{I}}_{\left( {1 + {p_1}} \right)\left( {1 + {p_2}} \right)}}\end{array} \right]{{B}}} \right\|_{\rm{F}}^2$ |
其中 l 表示迭代次數。化簡式(11)得:
${{{B}}^l} = \;\frac{{{{W}}\left[ {{{{WB}}^{l - 1}} - 4\left( {\frac{1}{{1 + {{\rm{e}}^{ - W{B^{l - 1}}}}}} - y} \right)} \right] + 4n\left[ {\rho \left( {{{D}} + {{E}} + {{F}}} \right) - \left( {{{{Γ}}_1} + {{{Γ}}_2} + {{{Γ}}_3}} \right)} \right]}}{{12\rho n + {{{W}}^2}}}$ |
固定 B 求解 Θ 時,可以分解為分別求解 D , E , F 。求解 F 相當于求解軟閾值問題,因此得到 F 的更新公式為:
$\! \,\left\{ \begin{aligned}& {{F}}_{0,.}^l = {{B}}_{0,.}^l + \frac{{{{{Γ}} _3}_{0,.}^{l - 1}}}{{{\rho ^l}}}\\ &{{F}}_{.,0}^l = {{B}}_{.,0}^l + \frac{{{{{Γ}} _3}_{.,0}^{l - 1}}}{{{\rho ^l}}}\\ &{{F}}_{j,k}^l \! = \! {\rm{sign}} \! \left( {B_{j,k}^l \! + \! \frac{{{{{Γ}} _3}_{j,k}^{l - 1}}}{{{\rho ^l}}}} \right) \!{\left( {\left| {B_{j,k}^l \! + \! \frac{{{{{Γ}} _3}_{j,k}^l}}{{{\rho ^l}}}} \right| \! - \! \frac{{{{{λ}}_3}}}{{{\rho ^l}}}} \right)_ + }\\& {\rm{for}} \;j \ne 0,k \ne 0\end{aligned} \right.$ |
關于 D , E 相當于求解下式:
$\mathop {\min }\limits_{{β}} \! - \! \frac{1}{n} \! \sum\limits_{i = 1}^n \! {\left[ {{y_i}{{\left( {{WB}} \right)}_i} \! - \! \log \left( {1 \!+\! {{\rm{e}}^{{{\left( {{WB}} \right)}_i}}}} \right)} \right]} \! \!+\! {{λ}} P({{β}})$ |
其中 P( β )為對參數的任意罰函數。本文中對 l2 罰求解式(14),相當于軟收縮,得到的解是有效的。因此 D , E 的求解公式如下:
$\left\{ \begin{array}{l}\!\!\! {{{D}}^l} \!=\! \arg \min \! \frac{{{\rho ^l}}}{2} \! \left\| {{{D}} \!-\!\! \left( \! {{{{B}}^l} \!+\! \frac{{{{Γ}}_1^{l - 1}}}{{{\rho ^l}}}} \! \right)} \! \right\|_{\rm{F}}^2 \!\!\! +\! {{{λ}}_1} \! {\sum\limits_{j = 1}^{{p_1}} {\left\| {{{{D}}_{j,.}}} \right\|} _2}\\\!\!\! {{{E}}^l} \!=\!\!\! \arg \min \!\! \frac{{{\rho ^l}}}{2} \! \left\| {{{E}} \!-\! \left( \! {{{{B}}^l} \!+\! \frac{{{{Γ}}_2^{l - 1}}}{{{\rho ^l}}}} \! \right)} \! \right\|_{\rm{F}}^2 \!\!\! + \! {{{λ}}_2}\sum\limits_{j = 1}^{{p_1}} {{{\left\| {{{{E}}_{.,k}}} \right\|}_2}} \end{array} \right.$ |
化簡求得 D , E 的更新公式分別為:
$\!\!\!\!\! \left\{ \begin{array}{l}\!\!\! {{D}}_{0,.}^l \!=\! {{B}}_{0,.}^l \!+\! \frac{{{{{Γ}}_1}_{0,.}^{l - 1}}}{{{\rho ^l}}}\\\!\!\! {{D}}_{j,.}^l \!\!=\!\! \left( \! {{{B}}_{j,.}^l \!\!+\!\! \frac{{{{{Γ}}_1}_{j,.}^{l - 1}}}{{{\rho ^l}}}} \! \right) \!\!\! \left( \!\! {1 \!-\! \frac{{{{{λ}}_1}/{\rho ^l}}}{{\sqrt {\sum\limits_{j = 1}^{{p_1}} {{{\left( {{{B}}_{j,.}^i + \frac{{{{{Γ}}_1}_{j,.}^{l - 1}}}{{{\rho ^l}}}} \right)}^2}} } }}} \!\!\! \right)_{\!\!{ +}} ^{\!\!\!\!{T}}\end{array} \right.$ |
$\!\!\!\! \left\{ \begin{array}{l}\!\!\! {{E}}_{.,0}^l \!=\! {{B}}^{l}_{.,0} \!+\! \frac{{{{{Γ}}_2}_{.,0}^{l - 1}}}{{{\rho ^l}}}\\\!\!\! {{E}}_{.,k}^l \!=\!\! {\left( \!\! {1 \!-\! \frac{{{{{λ}}_2}/{\rho ^l}}}{{\sqrt {\sum\limits_{j = 1}^{{p_2}} {{{\left( {{{B}}_{.,k}^l \!+\! \frac{{{{{Γ}}_1}_{.,k}^{l - 1}}}{{{\rho ^l}}}} \right)}^2}} } }}} \!\! \right)_ {\!\!{+}} } \!\!\!\! \left( \!\! {{{B}}_{.,k}^l \!+\! \frac{{{{{Γ}}_1}_{.,k}^{l - 1}}}{{{\rho ^l}}}} \!\! \right)\end{array} \right.$ |
下面給出求解最小化式(9)完整的改進 ADMM 算法。
(1)初始化 。
(2)選擇 。
(3)對于 重復以下公式,直到 ,這里 rl 和 sl 分別為原始殘差和對偶殘差,定義如下:
$\begin{array}{l}{s^l} = {\rho ^l}{\left\| {\left( {{{{D}}^l}|{{{E}}^l}|{{{F}}^l}} \right) - \left( {{{{D}}^{l - 1}}|{{{E}}^{l - 1}}|{{{F}}^{l - 1}}} \right)} \right\|_{\rm F}}\\{r^l} = {\left\| {\left( {{{{B}}^l}|{{{B}}^l}|{{{B}}^l}} \right) - \left( {{{{D}}^l}|{{{E}}^l}|{{{F}}^l}} \right)} \right\|_{\rm F}}\end{array}$ |
更新 ,則:
${\rho ^l} = \left\{ \begin{array}{l}\!\!\! 2{\rho ^{l - 1}}\;\;\;\;\;if\;{r^{l - 1}} > 10{s^{l - 1}}\\\!\!\! {\rho ^{l - 1}}/2\;\;\;if\;10{r^{l - 1}} < {s^{l - 1}}\\\!\!\! {\rho ^{l - 1}}\;\;\;\;\;\;\;\;\;{\rm{otherwise}}\end{array} \right.$ |
更新 Bl,如下:
$\begin{aligned}{{{B}}^l} = & \arg \min \frac{1}{n}L\left( {{WB}} \right) + \\ &\frac{{3{\rho ^l}}}{2}\left\| {\frac{1}{{3{\rho ^l}}}\left[ {{\rho ^l}\left( {{{{D}}^{l - 1}} + {{{E}}^{l - 1}} + {{{F}}^{l - 1}}} \right) - } \right.} \right.\\ &\left. {\left. {\left( {{{Γ}} _1^{l - 1} + {{Γ}} _2^{l - 1} + {{Γ}} _3^{l - 1}} \right)} \right] - {{B}}} \right\|_{\rm{F}}^2\end{aligned}$ |
更新 Dl, El,如下:
$\begin{aligned}{{{D}}^l} \!=\! \arg \min \!\! \frac{{{\rho ^l}}}{2} \! \left\| {{{D}} \!-\!\! \left( \! {{{{B}}^l} \!+\! \frac{{{{Γ}}_1^{l - 1}}}{{{\rho ^l}}}} \! \right)} \! \right\|_{\rm F}^2 \!\! +\! {{{λ}}_1}\sum\limits_{j = 1}^{{p_1}} {{\rm{Pr}} \left( {{{{D}}_{j,.}}} \right)} \\{{{E}}^l} \!=\! \arg \min \!\! \frac{{{\rho ^l}}}{2} \! \left\| {{{E}} \!-\!\! \left( \! {{{{B}}^l} \!+\! \frac{{{{Γ}}_2^{l - 1}}}{{{\rho ^l}}}} \! \right)} \! \right\|_{\rm F}^2 \!\! + {{{λ}}_2} \! \sum\limits_{j = 1}^{{p_1}} {{\rm{Pc}}\left( {{{{E}}_{.,k}}} \right)} \end{aligned}$ |
更新 ,如下:
$\begin{array}{l}{{F}}_{0,.}^l \!=\! {{B}}_{0,.}^l + \frac{{{{{Γ}}_3}_{0,.}^{l - 1}}}{{{\rho ^l}}}\\{{F}}_{.,0}^l \!=\! {{B}}_{.,0}^l + \frac{{{{{Γ}}_3}_{.,0}^{l - 1}}}{{{\rho ^l}}}\\{{F}}_{j,k}^l \!=\! {\rm{sign}} \! \left( \! {B_{j,k}^l + \frac{{{{{Γ}}_3}_{j,k}^{l - 1}}}{{{\rho ^l}}}} \! \right) \! {\left( {\left| {B_{j,k}^l + \frac{{{{{Γ}}_3}_{j,k}^l}}{{{\rho ^l}}}} \right| - \frac{{{{{λ}}_3}}}{{{\rho ^l}}}} \! \right)_ + } \\ \;\;\;\;\;\;\;\;\;\; {\rm{for}}\;j \ne 0,k \ne 0\end{array}$ |
更新 ,如下:
$\begin{array}{l}{{Γ}}_1^l = {{Γ}}_1^{l - 1} + {\rho ^l}\left( {{{{B}}^l} - {{{D}}^l}} \right)\\{{Γ}}_2^l = {{Γ}}_2^{l - 1} + {\rho ^l}\left( {{{{B}}^l} - {{{E}}^l}} \right)\\{{Γ}}_3^l = {{Γ}}_3^{l - 1} + {\rho ^l}\left( {{{{B}}^l} - {{{F}}^l}} \right)\end{array}$ |
3 實驗結果與分析
實驗采用的數據,其一是肝臟失調數據集(BUPA liver disorders,BLD)(來源:http://archive. ics.uci.edu/ml/datasets/Liver+Disorders),采集了 142 個肝病患者和 199 個健康人的數據,每人取 6 維特征。
第二個數據集是印度肝病數據集(Indian liver patient dataset,ILPD)(來源:http://archive.ics.uci. edu/ml/datasets/ILPD+(Indian+Liver+Patient+Dataset)。我們采用其中 414 個肝病患者和 165 個健康人的數據,每人取 10 維特征。
數據實驗一是模型參數矩陣 B 的可視化。模型可調參數 采用網格法進行優選。數據實驗時,令輸入特征 X = Z ,應用 值在 5×50 的網格上,其中 ,在訓練集擬合模型,在測試集基于殘差平方和來選擇可調參數。廣義交互 LASSO 模型和交互 LASSO 模型用于 BLD 數據集求得的估計系數矩陣 B ,如圖 1 所示。廣義交互 LASSO 模型和交互 LASSO 模型用于 ILPD 數據集求得的估計系數矩陣 B ,如圖 2 所示。


如圖 1、圖 2 所示,第一行和第一列均表示主效應特征系數,其余表示交互特征系數。圖中特征系數非 0 時,即表示此特征或交互特征被選擇,對模型有貢獻。交互特征系數絕對值越大說明特征交互程度越高。
如圖 1 所示,6 維實數特征分別為:0 表示主特征;1 表示平均紅細胞容積;2 表示堿性磷酸酶;3 表示丙氨酸轉氨酶;4 表示天冬氨酸轉氨酶;5 表示谷氨酰基轉肽酶;6 表示受試者平均每日飲酒量。從圖 1 中可以看出,兩個模型全都選擇了全部主效應特征和大部分交互特征。比如交互 LASSO 模型的第三行第四列值為 0.39,說明第二個特征堿性磷酸酶和第三個特征丙氨酸轉氨酶的交互特征系數為 0.39,對分類貢獻較大。
如圖 2 所示,10 維實數特征分別為:A 表示主特征;B 表示年齡;C 表示性別;D 表示總膽紅素;E 表示直接膽紅素;F 表示堿性磷酸酶;G 表示丙氨酸轉氨酶;H 表示天冬氨酸轉氨酶;I 表示血清總蛋白;J 表示血清白蛋白;K 表示白蛋白與球蛋白的比值。從圖 2 中可以看出,兩種方法均選擇全部主效應特征和小部分交互特征。比如交互 LASSO 模型的第五行第六列值為 0.29,說明第四個特征直接膽紅素和第五個特征堿性磷酸酶的交互特征系數為 0.29,對分類貢獻較大。特征交互項說明可參考文獻[2]。
數據實驗二是 LASSO、交互 LASSO、廣義交互 LASSO 三種模型方法的性能對比。如圖 3 所示為將三種方法應用于前述兩種肝病數據集所得的受試者工作特征曲線(receiver operating characteristic curve,ROC)。如表 1 所示,為三種 LASSO 模型方法在數據集上的 ROC 曲線下面積(area under ROC curve,AUC)和程序運行時間的比較。結果顯示,廣義交互 LASSO 方法 AUC 最高,交互 LASSO 方法次之,LASSO 方法最低,這說明肝病數據存在特征交互。廣義交互 LASSO 方法和交互 LASSO 方法的 ROC 曲線相差不大,但是交互 LASSO 方法求解模型參數是用梯度下降法循環更新每一步,這將導致計算效率低,尤其是特征較大的數據。因而本文研究了簡單迭代的改進 ADMM 算法,大大降低了時間損耗。


數據實驗三是三種 LASSO 模型方法和傳統模式識別方法的對比。如表 2 所示,給出了支持向量機、最近鄰、線性判別分析、決策樹、LASSO 方法,交互 LASSO 方法以及廣義交互 LASSO 的特異性、敏感性的實驗結果。結果表明,本文方法在敏感性和特異性兩種性能評價指標中得分較高,證明了廣義交互 LASSO 方法具有良好的分類性能。

數據實驗四是廣義交互 LASSO 方法與文獻中肝病分類實驗結果的正確率對比,如圖 4 所示。文獻[9]所用方法為歸納學習方法,文獻[10]采用樸素貝葉斯方法。文獻[11]使用了平滑支持向量機方法,文獻[12]采用了人工免疫識別方法。從圖 4 可以看出本文廣義交互 LASSO 模型方法正確率優于其他文獻正確率。

4 結論
本文中,我們推廣了廣義交互 LASSO 模型到 logistic 回歸,并應用改進的 ADMM 優化算法來求解模型參數。本文所提改進的 ADMM 算法比廣義梯度下降算法縮短了模型訓練時間。新模型和方法應用到肝病數據集的數據實驗結果再次證明了肝病特征間存在交互,以及特征交互對于分類有貢獻。從正確率看,廣義交互 LASSO 模型方法優于傳統模式識別方法、LASSO 模型方法和交互 LASSO 模型方法。此外,三種 LASSO 模型方法的解釋性都強于傳統模式識別方法。進一步可用于研究高階交互模型,例如擴展到三階交互,將系數矩陣 B 設為 維系數張量。基于可解釋性強的優點,本文方法可以推廣到其它生物醫學數據分類問題。