耳鳴是一種常見臨床癥狀, 發病率很高, 嚴重影響患者生活質量。科學研究表明, 利用某些相似不重復的音樂可緩解耳鳴。通過混沌系統直接映射合成的音樂雖整體符合相似不重復特性, 但其音樂內部仍會出現同一音調連續重復多次或音調突變情況。針對這一問題, 本文基于五聲音階、混沌理論, 借助樂器數字接口(MIDI)技術, 提出了一種新的耳鳴康復音生成方法。試聽結果表明, 這種方法生成的耳鳴康復音不僅具有自相似性, 在可控范圍內不會完全重復; 并且音樂內部不會有較大的音調突變, 因此將其應用于耳鳴治療具有一定參考價值。
引用本文: 陳杰梅, 何培宇, 潘帆. 一種基于五聲音階和混沌的耳鳴康復音生成方法. 生物醫學工程學雜志, 2015, 32(6): 1329-1334. doi: 10.7507/1001-5515.20150235 復制
0 引言
耳鳴是在沒有相應外部聲源的情況下產生的一種主觀聽覺感知,估計中國有1.3億耳鳴患者[1]。耳鳴嚴重影響患者的生活質量[2-4],因此探尋耳鳴康復的方法具有非常重要的意義。
目前,國際上流行一種耳鳴習服療法(tinnitus retraining therapy, TRT),其原理是使患者放松對耳鳴的警惕性,適應或習慣耳鳴[5]。TRT主要包括咨詢和聲治療兩個方面。其中,聲治療是通過對耳鳴的不全掩蔽,使耳鳴患者習慣耳鳴聲的存在。以音樂為基礎的聲治療方法已被證明可以有效地緩解耳鳴癥狀[6-8]。
研究表明,音樂可促進放松、調整情緒[9],可在短期內緩解耳鳴。但重復的音樂會喚醒記憶反而達不到預期的減壓放松效果[10]。有放松作用的音樂具有以下特征:慢旋律、不重復并且令人舒心[7]。由于音樂的持續時間都是有限的,再美妙動聽的音樂,一旦被重復播放,就會使聽者形成記憶從而達不到放松效果。為此,汪璐等[11]研究了一種生成耳鳴康復分形聲的方法。由于混沌貌似隨機,但有其內在規律性,前后相似卻不完全重復[12],若將混沌理論應用于音樂合成中去,能產生貌似隨機但不單調、相似但與聽者記憶中音樂沒有直接聯系的音樂,恰好符合康復音樂的要求[7, 13]。基于此,本文作者提出一種基于樂器數字接口(musical instrument digital interface, MIDI)合成機制和混沌理論合成音樂的方法[14]。但這種方法生成的音樂雖整體上符合相似不重復性,其內部會出現同一音調連續多次重復或音調突變的情況,在實際試聽體驗中,效果不佳。
五聲音階是古代漢族音律,指在一個八度音域內有五個音的音階[15]。中國古代五聲音階就是宮、商、角、徵、羽,相當于現代音樂的C、D、E、G、A五個音階。由于這五音容易構成和諧的優點,常采取它們作為作曲旋律的基礎。梁輝等[8]對五音樂曲治療耳鳴進行了初步臨床觀察,結果顯示接受五音樂曲治療的患者耳鳴癥狀有所改善。
因此,本文提出一種基于五聲音階、混沌理論,利用MIDI合成機制生成耳鳴康復音治療耳鳴的新方法。試聽實驗表明,這種方法生成的音樂貌似隨機,片段之間存在相似性但卻不完全重復,較文獻[14]生成的混沌音樂更能保證音樂內部音調、節奏和諧,不會對患者的情緒造成太大干擾,對耳鳴的臨床治療具有借鑒意義。
1 基于五聲音階、混沌和MIDI生成音樂的原理
音的性質有音調、節奏、強弱、音色四種。本文將從音調、節奏兩個方面入手,生成耳鳴康復音,主要過程如圖 1所示。其中,“輸出1”以映射為五聲音階音調值(音的高低)組合的形式得到音調值序列,“輸出2”以映射為二進制編碼的形式得到音符時值(節奏,音的長短)序列,最后通過MIDI合成機制生成有效的耳鳴康復音[16]。

2 基于混沌理論生成耳鳴康復音的仿真過程
2.1 基于五聲音階和混沌算法生成音調值序列
文獻[14]已驗證過生成的音調值序列整體符合混沌特性。但對其結果進行分析,發現其音調值序列內部仍會出現相同音調連續重復、音調突變等情況。針對這一缺陷,本文提出一種基于五聲音階與混沌算法生成音調值序列的方法。五聲音階只包含一個八度音域內的五個音階,且五聲音階具有容易構成和諧的特點。如果將五聲音階的組合形式與混沌量一一對應,則可同時解決上述兩個問題,并能進一步保證音樂內部音調的和諧。
假設現有五個音符,依次是C4、D4、E4、G4、A4。它們是一組五聲音階,對應到MIDI中音符代碼依次是60、62、64、67、69。由這五個音符可以構成5×4×3×2×1=120種不重復的音調值排列組合。生成音調值序列的過程,如圖 2所示,共有2個步驟:

①將混沌系統的輸出序列通過線性變換處理為整數序列,且最大值與最小值相差范圍在120以內(不包括120)。測試整數序列中相同數值連續出現的次數。當連續出現次數大于等于4次時,將第2次出現時的數值替換為該數值加1,將第4次出現時的數值替換為該數值減1,依次類推。(如:當出現“2 2 2 2”時,將這組數據改為“2 3 2 1”。)
②將這個整數序列每一種值映射為一種五聲音階音調值組合(一一對應),最終生成音調值序列。
以Lorenz系統為例,驗證此方法生成音調值序列的結果。Lorenz系統的表達式如式(1)所示:
$\left\{ \begin{gathered} \dot x=-ax + ay \hfill \\ \dot y=cx-y-xz \hfill \\ \dot z=xy-bz \hfill \\ \end{gathered} \right.$ |
如圖 3所示,將140≤n≤180時Lorenz系統狀態變量y取值作為原始值。經步驟①處理后,得到混沌整數序列,可能會出現連續重復的部分已被相近值替換,且取值范圍為41~97,最大值與最小值相差56,小于120。通過步驟②,生成音調值序列,音調值只有60、62、64、67、69五種,且都以音調組合的形式出現。生成音調值序列看似隨機,不會有音調突變,也不會有音調連續重復多次。

任意截取上述方法生成的一段長度為10 000的音調值序列,分析其功率譜。如圖 4所示,生成音調值序列的功率譜為連續譜,這說明音調值序列不是周期信號[17]。同時,功率譜中出現“噪聲背景”和“寬峰”,這說明音調值序列具有確定系統的內在隨機性,符合混沌特性。

功率譜密度S(f)是信號在頻率f處的均方根漲落,是表示信號時間相關性的一個重要量度。S(f)與f的關系可表達為:S(f)∝f-β,其中β為標準指數。當0.5≤β≤1.5時,可以將信號看作1/f波動[18]。由于本文生成的音調值序列是相對迭代點數N的量化關系,因此,在分析其是否符合1/f波動時,可以將功率譜密度在迭代點數N處的漲落作擬合分析。
如圖 5所示,“*”代表實際值,“-”代表擬合值,橫軸、縱軸分別是對迭代點數N、音調值序列的功率譜密度S(N)做對數變換。擬合曲線斜率為-0.907 2(即β=0.907 2),服從1/f波動規律。結果表明,生成的音調值序列是一種具舒適感的波動,保證了音樂整體的穩定性[19-21],且局部與整體具有自相似性[22-23]。

因此,基于五聲音階與混沌理論生成的音調值序列,在可控范圍內不會重復,不會音調突變,且具有自相似性,符合耳鳴康復音的基本要求。
2.2 基于混沌算法生成音符時值序列
當不同音高的音連接組合在一起后,就形成了音樂的外部輪廓,但尚不具備任何意義。而音的不同長短形成了節奏,節奏是音樂的動力,給音樂以律動。
以Logistic系統為例,說明基于混沌算法生成音符時值序列的過程。Logistic系統方程如式(2)所示:
$x\left({n + 1} \right)=\mu x\left(n \right)\left({1-x\left(n \right)} \right), \mu \in \left[{0, 4} \right]$ |
與文獻[14]不同的是,本文將混沌整數序列以二進制編碼的形式映射得到音符時值。利用Logistic算法生成音符時值序列的過程如圖 6所示:

①將原始混沌輸出序列經線性方法處理,得到混沌整數序列;
②將十進制的混沌整數序列轉換為二進制形式,得到一個新的二進制序列,共有四種表現形式,依次為:“00”,“01”,“10”,“11”;
③將“00”映射為1秒,“01”映射為0.75秒,“10”映射為0.5秒,“11”映射為0.25秒,最終得到一個新的音符時值序列。
驗證音符節奏的自相似性,如圖 7所示。“*”代表實際值,“-”代表擬合值,橫軸、縱軸分別是對迭代點數N、音符時值序列的功率譜密度S(N)做對數變換。功率譜擬合曲線斜率為-0.852 1,即β=0.852 1,符合“1/f波動”規律,具有局部與整體的相似性,且不會完全重復。

2.3 生成MIDI文件
由Lorenz算法生成音調值序列,Logistic算法生成音符時值序列,最后通過MIDI技術生成耳鳴康復音。為增加耳鳴康復音的多樣性,可以采用多音軌合成音樂,而且可以給每個音軌匹配不同的節奏,也可以給每個音軌設置不同的音色。
下面截取片段的五線譜觀察,如圖 8所示,這段音樂共有三個聲部,我們可以將第二、第三聲部設置與第一聲部不同的節奏、音色及音量強度。結果顯示,生成的音樂中不會有音調突變,且同一音調最多連續出現兩次。

3 仿真試聽結果
本次試聽人員共61名,試聽人員將處于一個相對安靜的環境中進行試聽。
(1)這個部分共有三個節奏相同、時長相同(1 min),但音色各不相同的試聽片段,其中,frag是采用本文方法仿真的結果,frag_h、frag_l是分別對frag進行升、降調處理后的結果。試聽人員通過自己的喜好從這三個片段中選出一個最喜愛的,具體結果如表 1所示。

通過表 1可以看出,不同的聽者對音樂的音調、音色的喜好不同,且更多的人偏愛音調相對較高的frag_h。
(2)試聽人員將自己選出的最喜愛的音樂片段作為frag_f;同時,測試人員將給出兩個對照聲片段,一個是由frag_f從開頭截取5秒鐘的片段重復拼接成1分鐘的音樂片段frag_r,另一個是文獻[14]方法生成時長為1分鐘的音樂片段frag_p。試聽人員將用0~10分(0分:聽過之后心情十分沉重;10分:聽過之后非常放松舒緩),就舒緩放松程度對這兩段片段評分;然后用0~10分表示在安靜學習、工作中播放會對自身造成的干擾程度(0分:表示嚴重干擾;10分:表示完全沒有任何干擾),并在安靜環境下由試聽人員試聽后,選出令其感到最舒緩放松的音樂片段。具體情況如表 2所示。

試聽結果顯示:在這三段音樂中,frag_f的舒緩放松效果最好,對試聽人員干擾程度最低。大部分試聽人員愿意選擇frag_f作為在安靜環境下舒緩放松的音樂。frag_p與frag_r分別因為音樂內部的音調突變和片段不斷重復對試聽人員造成了不同程度的干擾。
(3)通過試聽,測試音樂是否有音調突變,是否有完全重復或相似或完全不同片段出現,試聽人員聽后是否能重復哼唱曲調,選擇人數的具體情況如表 3所示。

試聽結果顯示:38名試聽人員感覺frag_p有音調突變;大部分試聽人員感覺frag_p、frag_f有相似片段出現且不能重復哼唱其曲調,其中frag_f相比frag_p,感覺有相似片段的人數下降和能重復哼唱曲調的人數增加,這是因為frag_f的音調范圍跨度已明顯降低;35名試聽人員感覺frag_r有重復片段出現且能重復哼唱其曲調。極少數人感覺這三個片段內完全是不同片段拼接而成。
以上試聽結果是對提出方法生成的音樂片段的初步主觀判定,在實際的臨床試驗中,還需根據不同耳鳴患者的情況,調節音樂的音調、節奏、音色、響度等因素,最后生成一種適合患者的耳鳴康復音。
4 結論
本文提出的基于五聲音階和混沌的耳鳴康復音生成方法,既保證了耳鳴康復音整體的相似不重復性,使得患者在進行治療時不會形成記憶;又能有效避免音調突變,減少音樂內部相同音調連續重復的情況,能達到減壓放松的效果。同時,利用MIDI技術生成的聲音片段占用存儲空間小,可以根據個體差異調節音調、節奏、音色及響度等參數,具多樣化特性。因此,對耳鳴治療具有參考價值。
0 引言
耳鳴是在沒有相應外部聲源的情況下產生的一種主觀聽覺感知,估計中國有1.3億耳鳴患者[1]。耳鳴嚴重影響患者的生活質量[2-4],因此探尋耳鳴康復的方法具有非常重要的意義。
目前,國際上流行一種耳鳴習服療法(tinnitus retraining therapy, TRT),其原理是使患者放松對耳鳴的警惕性,適應或習慣耳鳴[5]。TRT主要包括咨詢和聲治療兩個方面。其中,聲治療是通過對耳鳴的不全掩蔽,使耳鳴患者習慣耳鳴聲的存在。以音樂為基礎的聲治療方法已被證明可以有效地緩解耳鳴癥狀[6-8]。
研究表明,音樂可促進放松、調整情緒[9],可在短期內緩解耳鳴。但重復的音樂會喚醒記憶反而達不到預期的減壓放松效果[10]。有放松作用的音樂具有以下特征:慢旋律、不重復并且令人舒心[7]。由于音樂的持續時間都是有限的,再美妙動聽的音樂,一旦被重復播放,就會使聽者形成記憶從而達不到放松效果。為此,汪璐等[11]研究了一種生成耳鳴康復分形聲的方法。由于混沌貌似隨機,但有其內在規律性,前后相似卻不完全重復[12],若將混沌理論應用于音樂合成中去,能產生貌似隨機但不單調、相似但與聽者記憶中音樂沒有直接聯系的音樂,恰好符合康復音樂的要求[7, 13]。基于此,本文作者提出一種基于樂器數字接口(musical instrument digital interface, MIDI)合成機制和混沌理論合成音樂的方法[14]。但這種方法生成的音樂雖整體上符合相似不重復性,其內部會出現同一音調連續多次重復或音調突變的情況,在實際試聽體驗中,效果不佳。
五聲音階是古代漢族音律,指在一個八度音域內有五個音的音階[15]。中國古代五聲音階就是宮、商、角、徵、羽,相當于現代音樂的C、D、E、G、A五個音階。由于這五音容易構成和諧的優點,常采取它們作為作曲旋律的基礎。梁輝等[8]對五音樂曲治療耳鳴進行了初步臨床觀察,結果顯示接受五音樂曲治療的患者耳鳴癥狀有所改善。
因此,本文提出一種基于五聲音階、混沌理論,利用MIDI合成機制生成耳鳴康復音治療耳鳴的新方法。試聽實驗表明,這種方法生成的音樂貌似隨機,片段之間存在相似性但卻不完全重復,較文獻[14]生成的混沌音樂更能保證音樂內部音調、節奏和諧,不會對患者的情緒造成太大干擾,對耳鳴的臨床治療具有借鑒意義。
1 基于五聲音階、混沌和MIDI生成音樂的原理
音的性質有音調、節奏、強弱、音色四種。本文將從音調、節奏兩個方面入手,生成耳鳴康復音,主要過程如圖 1所示。其中,“輸出1”以映射為五聲音階音調值(音的高低)組合的形式得到音調值序列,“輸出2”以映射為二進制編碼的形式得到音符時值(節奏,音的長短)序列,最后通過MIDI合成機制生成有效的耳鳴康復音[16]。

2 基于混沌理論生成耳鳴康復音的仿真過程
2.1 基于五聲音階和混沌算法生成音調值序列
文獻[14]已驗證過生成的音調值序列整體符合混沌特性。但對其結果進行分析,發現其音調值序列內部仍會出現相同音調連續重復、音調突變等情況。針對這一缺陷,本文提出一種基于五聲音階與混沌算法生成音調值序列的方法。五聲音階只包含一個八度音域內的五個音階,且五聲音階具有容易構成和諧的特點。如果將五聲音階的組合形式與混沌量一一對應,則可同時解決上述兩個問題,并能進一步保證音樂內部音調的和諧。
假設現有五個音符,依次是C4、D4、E4、G4、A4。它們是一組五聲音階,對應到MIDI中音符代碼依次是60、62、64、67、69。由這五個音符可以構成5×4×3×2×1=120種不重復的音調值排列組合。生成音調值序列的過程,如圖 2所示,共有2個步驟:

①將混沌系統的輸出序列通過線性變換處理為整數序列,且最大值與最小值相差范圍在120以內(不包括120)。測試整數序列中相同數值連續出現的次數。當連續出現次數大于等于4次時,將第2次出現時的數值替換為該數值加1,將第4次出現時的數值替換為該數值減1,依次類推。(如:當出現“2 2 2 2”時,將這組數據改為“2 3 2 1”。)
②將這個整數序列每一種值映射為一種五聲音階音調值組合(一一對應),最終生成音調值序列。
以Lorenz系統為例,驗證此方法生成音調值序列的結果。Lorenz系統的表達式如式(1)所示:
$\left\{ \begin{gathered} \dot x=-ax + ay \hfill \\ \dot y=cx-y-xz \hfill \\ \dot z=xy-bz \hfill \\ \end{gathered} \right.$ |
如圖 3所示,將140≤n≤180時Lorenz系統狀態變量y取值作為原始值。經步驟①處理后,得到混沌整數序列,可能會出現連續重復的部分已被相近值替換,且取值范圍為41~97,最大值與最小值相差56,小于120。通過步驟②,生成音調值序列,音調值只有60、62、64、67、69五種,且都以音調組合的形式出現。生成音調值序列看似隨機,不會有音調突變,也不會有音調連續重復多次。

任意截取上述方法生成的一段長度為10 000的音調值序列,分析其功率譜。如圖 4所示,生成音調值序列的功率譜為連續譜,這說明音調值序列不是周期信號[17]。同時,功率譜中出現“噪聲背景”和“寬峰”,這說明音調值序列具有確定系統的內在隨機性,符合混沌特性。

功率譜密度S(f)是信號在頻率f處的均方根漲落,是表示信號時間相關性的一個重要量度。S(f)與f的關系可表達為:S(f)∝f-β,其中β為標準指數。當0.5≤β≤1.5時,可以將信號看作1/f波動[18]。由于本文生成的音調值序列是相對迭代點數N的量化關系,因此,在分析其是否符合1/f波動時,可以將功率譜密度在迭代點數N處的漲落作擬合分析。
如圖 5所示,“*”代表實際值,“-”代表擬合值,橫軸、縱軸分別是對迭代點數N、音調值序列的功率譜密度S(N)做對數變換。擬合曲線斜率為-0.907 2(即β=0.907 2),服從1/f波動規律。結果表明,生成的音調值序列是一種具舒適感的波動,保證了音樂整體的穩定性[19-21],且局部與整體具有自相似性[22-23]。

因此,基于五聲音階與混沌理論生成的音調值序列,在可控范圍內不會重復,不會音調突變,且具有自相似性,符合耳鳴康復音的基本要求。
2.2 基于混沌算法生成音符時值序列
當不同音高的音連接組合在一起后,就形成了音樂的外部輪廓,但尚不具備任何意義。而音的不同長短形成了節奏,節奏是音樂的動力,給音樂以律動。
以Logistic系統為例,說明基于混沌算法生成音符時值序列的過程。Logistic系統方程如式(2)所示:
$x\left({n + 1} \right)=\mu x\left(n \right)\left({1-x\left(n \right)} \right), \mu \in \left[{0, 4} \right]$ |
與文獻[14]不同的是,本文將混沌整數序列以二進制編碼的形式映射得到音符時值。利用Logistic算法生成音符時值序列的過程如圖 6所示:

①將原始混沌輸出序列經線性方法處理,得到混沌整數序列;
②將十進制的混沌整數序列轉換為二進制形式,得到一個新的二進制序列,共有四種表現形式,依次為:“00”,“01”,“10”,“11”;
③將“00”映射為1秒,“01”映射為0.75秒,“10”映射為0.5秒,“11”映射為0.25秒,最終得到一個新的音符時值序列。
驗證音符節奏的自相似性,如圖 7所示。“*”代表實際值,“-”代表擬合值,橫軸、縱軸分別是對迭代點數N、音符時值序列的功率譜密度S(N)做對數變換。功率譜擬合曲線斜率為-0.852 1,即β=0.852 1,符合“1/f波動”規律,具有局部與整體的相似性,且不會完全重復。

2.3 生成MIDI文件
由Lorenz算法生成音調值序列,Logistic算法生成音符時值序列,最后通過MIDI技術生成耳鳴康復音。為增加耳鳴康復音的多樣性,可以采用多音軌合成音樂,而且可以給每個音軌匹配不同的節奏,也可以給每個音軌設置不同的音色。
下面截取片段的五線譜觀察,如圖 8所示,這段音樂共有三個聲部,我們可以將第二、第三聲部設置與第一聲部不同的節奏、音色及音量強度。結果顯示,生成的音樂中不會有音調突變,且同一音調最多連續出現兩次。

3 仿真試聽結果
本次試聽人員共61名,試聽人員將處于一個相對安靜的環境中進行試聽。
(1)這個部分共有三個節奏相同、時長相同(1 min),但音色各不相同的試聽片段,其中,frag是采用本文方法仿真的結果,frag_h、frag_l是分別對frag進行升、降調處理后的結果。試聽人員通過自己的喜好從這三個片段中選出一個最喜愛的,具體結果如表 1所示。

通過表 1可以看出,不同的聽者對音樂的音調、音色的喜好不同,且更多的人偏愛音調相對較高的frag_h。
(2)試聽人員將自己選出的最喜愛的音樂片段作為frag_f;同時,測試人員將給出兩個對照聲片段,一個是由frag_f從開頭截取5秒鐘的片段重復拼接成1分鐘的音樂片段frag_r,另一個是文獻[14]方法生成時長為1分鐘的音樂片段frag_p。試聽人員將用0~10分(0分:聽過之后心情十分沉重;10分:聽過之后非常放松舒緩),就舒緩放松程度對這兩段片段評分;然后用0~10分表示在安靜學習、工作中播放會對自身造成的干擾程度(0分:表示嚴重干擾;10分:表示完全沒有任何干擾),并在安靜環境下由試聽人員試聽后,選出令其感到最舒緩放松的音樂片段。具體情況如表 2所示。

試聽結果顯示:在這三段音樂中,frag_f的舒緩放松效果最好,對試聽人員干擾程度最低。大部分試聽人員愿意選擇frag_f作為在安靜環境下舒緩放松的音樂。frag_p與frag_r分別因為音樂內部的音調突變和片段不斷重復對試聽人員造成了不同程度的干擾。
(3)通過試聽,測試音樂是否有音調突變,是否有完全重復或相似或完全不同片段出現,試聽人員聽后是否能重復哼唱曲調,選擇人數的具體情況如表 3所示。

試聽結果顯示:38名試聽人員感覺frag_p有音調突變;大部分試聽人員感覺frag_p、frag_f有相似片段出現且不能重復哼唱其曲調,其中frag_f相比frag_p,感覺有相似片段的人數下降和能重復哼唱曲調的人數增加,這是因為frag_f的音調范圍跨度已明顯降低;35名試聽人員感覺frag_r有重復片段出現且能重復哼唱其曲調。極少數人感覺這三個片段內完全是不同片段拼接而成。
以上試聽結果是對提出方法生成的音樂片段的初步主觀判定,在實際的臨床試驗中,還需根據不同耳鳴患者的情況,調節音樂的音調、節奏、音色、響度等因素,最后生成一種適合患者的耳鳴康復音。
4 結論
本文提出的基于五聲音階和混沌的耳鳴康復音生成方法,既保證了耳鳴康復音整體的相似不重復性,使得患者在進行治療時不會形成記憶;又能有效避免音調突變,減少音樂內部相同音調連續重復的情況,能達到減壓放松的效果。同時,利用MIDI技術生成的聲音片段占用存儲空間小,可以根據個體差異調節音調、節奏、音色及響度等參數,具多樣化特性。因此,對耳鳴治療具有參考價值。