癌癥基因表達數據具有高維、小樣本的特點,對其進行維數約減十分有必要。傳統的線性降維方法不能發現數據點之間的非線性關系,降維效果不好,因此,本文引入一種改進距離的多組權局部線性嵌入(DMLLE)算法對其進行降維。該算法采用一種改進距離來計算每個數據點的近鄰點,為每一個近鄰引入多組線性無關的局部權向量進行線性重構,通過最小化重構誤差得到高維數據在低維空間的嵌入結果。實驗結果表明,DMLLE算法對癌癥基因表達數據有很好的降維效果。
采用自由能方法預測RNA二級結構時, 如何精確有效地從次優結構中篩選出真實的二級結構成為RNA結構預測中的關鍵。采用聚類技術對次優結構集合進行分析, 可有效地提高預測結果的精度。本文利用RBP分數矩陣, 提出一種基于增量中心候選集的改進k-medoids算法。它將隨機選擇初始中心并進行首次劃分后以中心候選集逐一擴展的方式進行中心輪換, 以降低算法的復雜度。實驗表明, 該算法能取得更高的CH值, 且能有效地縮短計算時間。