基于神經網絡的四通道陣列聲源定位系統的制作方法
【專利摘要】本發明公開了一種可用于人機交互代替鍵盤輸入的基于陣列麥克風的聲音定位系統設計,其中麥克風陣列的聲源定位技術是指由一定的幾何結構排列而成的若干個麥克風組成的陣列。同一聲源到達不同麥克風的時間不一樣。通過采集聲源到達不同麥克風的時間延遲,計算發聲源位置,表征不同的功能命令,上位機發出相應的動作相應,以實現人機交互。采集手指叩擊桌面發出的聲音,在經典時延估計算法基礎上,結合BP神經網絡處理時延估計的結果,確定定位位置,得到輸入鍵值,即所敲的鍵,可以部分意義上代替傳統PC鍵盤,實現命令輸入的人機交互功能。
【專利說明】基于神經網絡的四通道陣列聲源定位系統
【技術領域】
[0001]本發明涉及數字信號處理,嵌入式系統設計等,尤其涉及多通道信號源定位技術。【背景技術】
[0002]在過去的幾十年里,人機交互技術日新月異,尤其是隨著電子自動化設備的普及和延伸,給嵌入式人機交互方式的開發帶來了指數型的快速發展。如何通過多種輸入輸出設備與計算機進行交互是多媒體技術研究的重要內容。發展聲學鍵盤和聲學輸入技術有助于推動計算機輸入設備的進步,伴隨新技術的不斷優化和完善,產品化輸入設備的低成本,低功耗的環保特性和方便便捷,將會帶來較為可觀的經濟效益和社會效益。基于麥克風陣列的聲源定位技術是指由一定的幾何結構排列而成的若干個麥克風組成的陣列。同一聲源到達不同麥克風的時間不一樣。通過采集聲源到達不同麥克風的時間延遲,計算發聲源位置,表征不同的功能命令,上位機發出相應的動作相應,以實現人機交互。
[0003]本發明系統實現了這樣一種基于陣列麥克風的聲音定位模型,在經典時延估計算法基礎上,結合BP神經網絡處理時延估計的結果,確定定位位置,實現命令輸入的人機交互功能。
【發明內容】
[0004]本發明所要解決的技術問題是:在較低的采樣率下,經典信號處理方法對于定位有很大的誤差,不能實現靈巧的人際交互。較高的采樣率下,信號處理的數據流巨大,同時對計算能力要求較高,高負荷的不間斷運作代價較高,不適合用于輸入設備。為了在不增加運算負荷和采樣率的前提下,利用信號處理技術,克服噪聲等因素,盡可能的低功耗并且獲得更精細的聲音源定位,實現命令輸入功能,代替傳統鍵盤作為人機交互方式,我們研究用同步采樣保真,時延估計和BP神經網絡技術實現這一系統。
[0005]本發明為解決以上技術問題,所采用的技術方案是:以數據采集和聲音保真硬件電路為基礎,即通過多通道采集到聲音,聲音信號經過模數轉換后得到多維數組,進而計算聲音源位置。敲擊音信號是一種類似沖擊脈沖的信號當敲擊發生時信號有較陡峭的前沿,屬于非平穩信號。信號由聲音振動產生,故在敲擊發生時信號生成且波動,幅度迅速增強,一般經歷2至3個峰值后開始衰減,聲音在空氣中傳播的平均速度通常估計為340m/
S。則0.01m的距離差可以引起2.94X10-5S的時間差。而中速數字采集電路可以達到44Khz-200KHz的采集頻率,保證了可以較為準確地采集到聲音到達不同陣元點的相對時間,因此計算相位差,便可以真實地反映多路信號之間的關系,從而計算聲源位置,得到相應的鍵值,實現輸入設備的意義。
[0006]理想情況,桌面無限大且各向同性,陣列中各陣元是不存在通道不一致、互耦等因素的影響的假設條件下的。但是,在實際的工程應用中,各種誤差是不可避免的。麥克風陣列的誤差,主要體現在聲傳感器的性能不一致、陣元間距不嚴格相等導致的陣列結構誤差、以及整個麥克風陣列數據采集系統的各陣元通道間幅度、相位誤差。桌面情況復雜,大小不一,形狀不一,木質結構致密疏松情況各異,多重發射波不確定疊加。傳統時延估計算法在定位精確上遇到很大挑戰,本發明結合神經網絡模型,有效的解決了算法的普遍實用性問題。
[0007]所述的硬件電路設計包括拾音器陣列,信號同步調整電路,信號保真調整電路,多通道數據采集卡,PCI輸入舒服
[0008]所述的軟件設計包括,離散信號處理,去噪聲濾波器,廣義互相關函數法時延估計,BP神經網絡。
[0009]本發明的有益效果如下:
[0010]本發明使用手指敲擊桌面產生的聲音定位鍵值位置,代替傳統鍵盤,環保便捷。
[0011]本發明通過采用上述硬件電路設計,可同步并且保真采集多路聲音信號。
[0012]本發明通過采用上述軟件算法設計,可實現聲音信號源的定位,用于代替鍵盤識別鍵值。
【專利附圖】
【附圖說明】
[0013]圖1為本發明整體系統框圖
[0014]圖2為本發明聲音米樣麥克風分布陣列圖
[0015]圖3為本發明硬件電路圖
[0016]圖4為本發明硬件實際采集到多路同步保真的信號
[0017]圖5為本發明中采用的時延估計算法流程圖
[0018]圖6為本發明中采用的神經網絡算法網絡設計圖
[0019]圖7為本發明測試結果和準確率情況
【具體實施方式】
[0020]下面結合附圖及具體實施例對本發明做進一步詳細說明。
[0021]本發明是基于拾音器陣列采樣,電路同步保真處理,數字采集卡進行模數轉換,后經由軟件算法處理信號得到聲源位置信息的一套系統,如圖1所示。
[0022]整個系統主要通過硬件和軟件實現。
[0023]硬件電路:
[0024]主要目標是采集多路寬帶近場音頻信號(如圖3)。為后續模型的實現提供物理基礎。其中重點側重于多通道同步和信號相位保真兩個方面性能的提高。實現將聲波傳到傳感器的信號采集下米,經過保真電路,同步多通道采集并放大,然后進行數模轉換后傳到上位機。
[0025]其中拾音器的分布采用線性陣列分布(如圖2),方便在不同的場合移動和安裝系統。
[0026]軟件部分:
[0027]本算法處理,輸入信號為如圖4中描述的多通道麥克風陣列采集桌面敲擊信號
[0028]設計目標是輸入信號采集時敲擊的鍵值和計算輸出的鍵值一致,分為兩個基本步驟:
[0029]1.多通道采集信號一加窗截取敲擊發生位置一窗口校驗調整一帶通濾波器濾波—求取互功率譜一降維到神經網絡輸入樣本
[0030]2.—創建神經網絡(目標輸出\初始權值\神經元個數\網絡層數\傳遞函數\學習速率\性能函數)一訓練網絡一網絡測試一識別輸出
[0031]其中,神經網絡創建和訓練過程僅在系統第一次運行時計算,此后,保存該神經網絡模型參數,直接計算網絡識別結果,保證較低的運算量,以實現系統實時響應。
[0032]本發明使用的軟件算法第一部分為廣義互相關函數法(GCC,GeneralizedCross-Correlation),在經典時延估計的方法中應用最為廣泛。廣義互相關函數法通過求兩信號之間的互功率譜,并在頻域內給予一定的加權來抑制噪聲,在變幻到時域,從而得到兩信號之間的互相關函數,該互相關函數的峰值位置對應兩個信號之間的相對時延,如圖5所示。經由處理,初步得到時延差,作為下一級神經網絡的數據。
[0033]本發明使用的軟件算法第二部分是基于誤差反向傳播算法的多層前向神經網絡,BP神經網絡是基于誤差反向傳播算法(BP算法)的多層前向神經網絡。是D.E.Rumelhart和J.L.McCelland及其研究小組在1986年研究并設計出來的。BP算法是目前應用最廣泛的神經網絡學習算法,有近90%的神經網絡應用是基于BP算法的。是WINDR0W-H0FF算法在多層前向神經網絡中的推廣。權值和閾值的調整采用誤差反向傳播,且沿著誤差變化的負梯度方向進行,模式順傳播和誤差逆傳播交叉進行,最終使網絡誤差達到極小值或最小值。
[0034]其中高度容錯性,較強的適應性使得在解決系統、環境等非線性誤差上有明顯效果,對輸入樣本具有很強的識別與分類能力。本文中采用二層BP網絡隱含層采用S型傳遞函數,輸出層也采用對數S型傳遞函數,以限制輸出范圍,輸入維數由經典時延估計的到的序列特征向量維數大小來確定。輸出層的神經元個數根據要識別的鍵值數目確定。即L-M優化算法來訓練,這是一種批處理模式算法,當所有的輸入都被提交后網絡才被更新。它使用了 Levenberg-Marquardt優化方法,從而使學習時間更短。默認的mse函數做性能評估函數,以網絡輸出和目標輸出t之間的均方誤差作為性能評估標準。網絡結構如圖6所示。
[0035]最終,經由硬件和軟件兩部分設計結構,識別結果為:45組樣本,失敗I組,成功44組,識別率97.7%,如圖7所示。
【權利要求】
1.基于神經網絡的四通道陣列聲源定位系統,其特征在于:使用手指叩擊桌面的位置不同而代表不同的鍵值鍵位,代替傳統鍵盤的輸入方式。通過多通道采集叩擊聲音,經由廣義互相關函數時延估計和神經網絡計算得到聲源位置。
2.根據權利要求1所述的多通道采集系統,其特征在于:同步采集多通道信號,放大,保真聲音系統。
3.根據權利要求1所述的廣義互相關函數與神經網絡結合的聲源定位算法,其特征在于,在中低采樣率條件下準確的計算出聲源位置,抵抗噪聲干擾,回波反射等因素,同客觀環境條件下反復測試,識別率達95%。
【文檔編號】G01S5/22GK103576126SQ201210264336
【公開日】2014年2月12日 申請日期:2012年7月27日 優先權日:2012年7月27日
【發明者】姜楠, 賽音, 傅洋, 張超 申請人:姜楠