在多數(shù)的現(xiàn)代語音識別系統(tǒng)中,人們都會用到頻域特征。梅爾頻率倒譜系數(shù)(MFCC),首先計算信號的功率譜,然后用濾波器和離散余弦變換的變換來提取特征。本文重點介紹如何提取MFCC特征。
首先創(chuàng)建有一個Python文件,并導入庫文件:? ? ?from scipy.io import wavfile? ? ?from python_speech_features import mfcc, logfbank? ? ?import matplotlib.pylab as plt1、首先創(chuàng)建有一個Python文件,并導入庫文件:? ? ?from scipy.io import wavfile? ? ?from python_speech_features import mfcc, logfbank? ? ?import matplotlib.pylab as plt
讀取音頻文件:
samplimg_freq, audio = wavfile.read("data/input_freq.wav")
提取MFCC特征和過濾器特征:
?????mfcc_features = mfcc(audio, samplimg_freq)
? ? ?filterbank_features = logfbank(audio, samplimg_freq)
打印參數(shù),查看可生成多少個窗體:
print('\nMFCC:\nNumber of windows =', mfcc_features.shape[0]) print('Length of each feature =', mfcc_features.shape[1]) print('\nFilter bank:\nNumber of windows=', filterbank_features.shape [0]) print('Length of each feature =', filterbank_features.shape[1])
將MFCC特征可視化。轉換矩陣,使得時域是水平的:
mfcc_features = mfcc_features.T plt.matshow(mfcc_features) plt.title('MFCC')
將濾波器組特征可視化。轉化矩陣,使得時域是水平的:
filterbank_features = filterbank_features.T plt.matshow(filterbank_features) plt.title('Filter bank') plt.show()
更多文章、技術交流、商務合作、聯(lián)系博主
微信掃碼或搜索:z360901061

微信掃一掃加我為好友
QQ號聯(lián)系: 360901061
您的支持是博主寫作最大的動力,如果您喜歡我的文章,感覺我的文章對您有幫助,請用微信掃描下面二維碼支持博主2元、5元、10元、20元等您想捐的金額吧,狠狠點擊下面給點支持吧,站長非常感激您!手機微信長按不能支付解決辦法:請將微信支付二維碼保存到相冊,切換到微信,然后點擊微信右上角掃一掃功能,選擇支付二維碼完成支付。
【本文對您有幫助就好】元
