陜西語音識別門禁技術所涉及的領域包括:信號處理、模式識別、概率論和信息論、發聲機理和聽覺機理、人工智能等等。陜西語音識別門禁技術原理借助“支持向量機(SVM)”和“核學習”理論,建立了一種全新而高效的模式識別技術。
這種新穎的模式識別技術具有以下特性和優點:
1.核心算法具有堅實的理論基礎和幾何上的可解釋性;
2.算法用核函數替換內積從而使線性算法變成非線性,這樣通過把數據映射到高維特征空間來增加傳統的線性學習器的計算能力;
3.算法最終將轉化成為一個二次型尋優問題,從理論上說,得到的將是全局最優點,解決了傳統方法中出現的局部極值問題;
4.適合小樣本訓練;
5.建立在簡單、簡潔的計算基礎之上,不僅速度快,也非常適合硬件實現。
特征提?。?/SPAN>
語音特征的提取是在語音信號中提取出影響陜西語音識別門禁的重要信息,提取方法是否有效是聲紋識別成敗的關鍵。
本項目突破傳統方法,嘗試研究新型的語音特征提取技術,使其既符合人的聽覺特性,而且在有信道噪聲和頻譜失真的情況下具有較好的穩健性,具體方法如下:
1.基于微分的特征,微分作用是反映語音信號特征的變化率,具有預見性,能預見特征變化的趨勢,以微分特征作訓練識別可以改善識別系統的動態性能。
對單幀倒譜特征進行微分變換,方法是:
2.離散余弦變換(DCT變換)的特征
將DCT特征樣本和已存在的所有用戶的DCT模板比對,即計算特征樣本和各DCT模板之間的絕對值距離(各個對應特征數據之差的絕對值之和),篩選出距離最小的前N個用戶,即DCT預選,它能很好的提高識別效率。
根據輸入的語音,輸出語音的幅度累加和特征、語音的過零率特征、語音的MFCC的2階特征,由“語音的幅度累加和特征”和“語音的1階、2階特征”按照幅度權重、倒譜權重系數,進行相加或相減,得到4組特征數據(波形劃分特征),依次把“波形劃分特征”和“語音的過零率特征”輸入到一個容器中,輸入4組峰位劃分信息,把這4組峰位劃分信息進行合并,然后按照峰位的最小間距信息去除分布過密的峰位,最后得到一組準確的峰位信息。
根據輸入的語音,輸出對應的MFCC特征(1-12階)。
4.大幀特征
根據峰位查找中得到的“峰位信息”和“MFCC特征”,輸出每個峰位的對應大幀特征,每個大幀覆蓋10個小幀的區域,在大幀的定位過程中使用了幅度累加和法,所謂的幅度累加和法就是:設當前位置為i,使用一個10個小幀大小的窗口從i-9到i滑動,求出這之間的窗口區域的最大幅度和,然后把這個窗口的起始位置作為大幀的起始位置,從大幀的起始位置開始的10個小幀特征,作為當前峰位的大幀特征,并且只使用其中的奇數小幀。
5.隨機倒譜特征
語氣、語速多變將導致發音特征發生變化,使識別正確率降低。如果在特征提取時動態地選取不同時間維度的特征塊進行訓練,將很好地改善因說話的隨意性、語速的多變性等造成的識別不穩定性。
本項目采用隨機倒譜特征的方法解決這個問題,該方法將單純的倒譜特征轉換為帶有時間維的多維隨機倒譜特征,在通過網絡模型不斷學習過程中,將語音特征逐漸歸納、聚類到穩定的激勵模式,實現對原始的微觀特征集合的歸納和抽象,從而提高識別的抗畸變性和魯棒性。
6.基于人類聽覺結構特征的提取方法
用伽瑪聽覺過濾器組(一組不規則的帶通濾波器)模仿人聽覺的頻率分辨能力。另一種方法是基于小波的提取方法。小波理論是采取多分辨率分析的思想,非均勻地劃分時頻空間,建立聽覺濾波器組,該方法為非平穩信號的分析提供了新的途徑。
7.基于發音特征的提取方法
國際音標組織(InternationalPhoneticsAssociation,IPA)用發音位置和發音模式等發音特征(ArticulatoryFeature,AF)來對語言的發音分類。利用發音特征可以降低誤識率、彌補語言間的變化。
8.多特征融合的提取方法
采用線性判決分析技術(LinearDiscriminantAnalysis,LDA)、主成份分析(PrincipleComponentAnalysis,PCA)、最小分類錯誤(MinimumClassificationError,MCE)等判決分析方法對高維語音特征進行相關性分析和優化分析,以達到多種特征的融合和特征降維等目的。