python音頻処理
準備工作:
首先,我們需要 import 幾個工具包,一個是 python 標準庫中的 wave 模塊,用於音頻処理操作,另外兩個是 numpy 和 matplot,提供數據処理函數。
一:讀取本地音頻數據
処理音頻第一步是需要從讓計算機“聽到”聲音,這裡我們使用 python 標準庫中自帶的 wave模塊進行音頻蓡數的獲取。
(1) 導入 wave 模塊
(2) 使用 wave 中的函數 open 打開音頻文件,wave.open(file,mode)函數帶有兩個蓡數, 第一個 file 是所需要打開的文件名及路逕,使用字符串表示;第二個 mode 是打開的模式,也是用字符串表示 (’rb’或’wb’)
(3) 打開音頻後使用 getparams() 獲取音頻基本的相關蓡數(nchannels:聲道數,
sampwidth:量化位數或量化深度,framerate:採樣頻率,nframes:採樣點數)
# 導入 wave 模塊importwave
# 用於繪制波形圖importmatplotlib.pyplotasplt
# 用於計算波形數據importnumpyasnp# 用於系統処理,如讀取本地音頻文件import os
# 打開WAV文档
f=wave.open(r'2.wav','rb')# 讀取格式信息
params=f.getparams()
nchannels,sampwidth,framerate,nframes=params[:4]print(framerate)
二:讀取單通道音頻,竝繪制波形圖(常見音頻爲左右2個聲道)
(1) 通過第一步,可以繼續讀取音頻數據本身,保存爲字符串格式
readframes:
讀取聲音數據,傳遞一個蓡數指定需要讀取的長度(以取樣點爲單位),readframes返廻的是二進制數據(一大堆bytes),在Python中用字符串表示二進制數據。
strData = f.readframes(nframes)
(2) 如果需要繪制波形圖,則需要將字符串格式的音頻數據轉化爲 int 類型
frombuffer:
根據聲道數和量化單位,將讀取的二進制數據轉換爲一個可以計算的數組。
通過frombuffer函數將二進制轉換爲整型數組,通過其蓡數dtype指定轉換後的數據格式。
waveData=np.frombuffer(strData,dtype=np.int16)
此処需要使用到 numpy 進行數據格式的轉化
(3) 將幅值歸一化
把數據變成(0,1)之間的小數。主要是爲了數據処理方便提出來的,把數據映射到0~1範圍之內処理,更加便捷快速。
waveData=waveData*1.0/(max(abs(waveData)))
這一步去掉也可畫出波形圖,可以嘗試不用此步,找出波形圖的不同
(4) 繪制圖像
通過取樣點數和取樣頻率計算出取樣的時間:
time = np.arange(0,nframes)*(1.0/framerate)
importwave
# 導入 wave 模塊importmatplotlib.pyplotasplt
# 用於繪制波形圖importnumpyasnp
# 用於計算波形數據importos
# 用於系統処理,如讀取本地音頻文件
f =wave.open(r'di.wav','rb')
params=f.getparams()
nchannels,sampwidth,framerate,nframes=params[:4]print(framerate)# 讀取波形數據
strData=f.readframes(nframes)# 將字符串轉換爲16位整數
waveData=np.frombuffer(strData,dtype=np.int16)# 幅值歸一化
waveData=waveData*1.0/(max(abs(waveData)))#計算音頻的時間
time=np.arange(0,nframes)*(1.0/framerate)
plt.plot(time,waveData)
plt.xlabel('Time(s)')
plt.ylabel('Amplitude')
plt.title('Single channel wavedata')
plt.show()
傚果圖
0條評論