分類: 樂理基礎(chǔ)
日期:2022-11-26
音頻的采樣率,音頻的采樣和重采樣技巧!
聲音采樣是指錄音設(shè)備在單位時間內(nèi)對模擬信號采樣的多少,聲音采樣頻率越高,機械波的波形就越真實越自然。在當(dāng)今的主流采集卡上,聲音采樣頻率一般共分為11025Hz、22050Hz、24000Hz、44100Hz、48000Hz五個等級,11025Hz能達(dá)到AM調(diào)幅廣播的聲音品質(zhì),而22050Hz和24000HZ能達(dá)到FM調(diào)頻廣播的聲音品質(zhì),44100Hz則是理論上的CD音質(zhì)界限,48000Hz則更加精確一些。

音樂采樣器是一種重要的電子樂器,很多剛接觸電腦音樂的朋友對它不是很了解。我們先了解什么是“采樣”,“采樣”即“采集樣品”,還有更通俗的說法就是“取樣”,從某些物料中取出部分樣品。比如我們可以從水中取出部分樣本用來檢測,同樣也可以從聲音中取出部分特征的聲音片段,這個過程就叫采樣。借助于現(xiàn)代錄音技術(shù),我們可以將真實的樂器(鋼琴、吉他、貝司、鼓等)演奏的聲音錄制,也可以將自然環(huán)境的聲音錄制,然后在錄制的聲音取出特征的樣本保存到數(shù)字內(nèi)存中。通過音樂采樣器觸發(fā)這些采樣的聲音,可以隨時重組還原真實的演奏效果。一個音樂采樣器通常還包含濾波、效果、調(diào)制、低頻振蕩等類似于合成器的功能,可以改變采樣的波形特征從而演奏出不一樣的聲音效果。
之所以降噪過程中需要借助重采樣的力量來實現(xiàn),原因是一般情況下我們從電腦端采集到的音頻數(shù)據(jù)是44.1Khz或者48Khz的16位或者8位雙通道的PCM數(shù)據(jù),而對于目前一些通用開源的降噪庫例如speex或者webrtc來說一般都是有對送入降噪音頻頻率特定的要求的,其中speex開源庫的降噪模塊可以對44.1Khz和48Khz等音頻PCM數(shù)據(jù)進(jìn)行降噪;webrtc則對輸入的音頻數(shù)據(jù)要求在32Khz及以下:8Khz、16Khz和32Khz。

(1)、speex雖然可以直接對44.1khz和48khz的PCM數(shù)據(jù)進(jìn)行降噪,同時能夠比較好的對麥克風(fēng)的底噪進(jìn)行了濾除,但是同時也在正常的聲音部分引入了不可容忍的電流聲,這種電流聲噪點有點類似直接使用設(shè)定最低閾值和最高閾值一刀切得到的效果。
(2)、webrtc雖然僅僅支持32Khz以下頻率的音頻數(shù)據(jù)進(jìn)行降噪,即需要對正常采集到的PCM數(shù)據(jù)(44.1Khz或者48Khz)進(jìn)行重采樣為32Khz、16Khz或者8Khz的數(shù)據(jù)來進(jìn)行降噪,然后再通過重采樣為44.1Khz或者48Khz的音頻數(shù)據(jù)才能正常播放。雖然對比speex的降噪步驟webrtc的降噪比較繁瑣,但是webrtc的降噪效果對比speex的降噪效果是更好的,不僅底噪被濾除了,而且沒有引入電流噪聲。

理解重采樣,需要真正的實現(xiàn)如下幾個功能:
(1)、實現(xiàn)重采樣通道數(shù)、音頻格式相同,但采樣頻率不同的音頻;
(2)、實現(xiàn)重采樣音頻格式相同、采樣頻率相同但通道數(shù)不同的音頻;(目前一些usb轉(zhuǎn)耳機就是單通道的)
采樣頻率在流媒體中是指每秒鐘對音頻的采樣點數(shù),單位為Hz(赫茲)。例如采樣頻率為44100hz是指每秒鐘采集44100個樣本點,其中每個樣本點根據(jù)實際情況具有不同的內(nèi)存空間,在下面將會講述到。
是指該段音頻能夠通過一個設(shè)備的多個發(fā)聲位置進(jìn)行發(fā)聲,常見的聲道數(shù)有:
單聲道:mono
雙聲道:stereo,包含左右兩聲道

5.1聲道:包含一個正面聲道、左前方聲道、右前方聲道、左環(huán)繞聲道、右環(huán)繞聲道、一個低音聲道,最早應(yīng)用于早期的電影院
7.1聲道:在5.1聲道的基礎(chǔ)上,把左右的環(huán)繞聲道拆分為左右環(huán)繞聲道以及左右后置聲道,主要應(yīng)用于BD以及現(xiàn)代的電影院
每重采樣樣本數(shù):這個就是說在重采樣時需要多少個樣本數(shù)據(jù),這個樣本數(shù)會根據(jù)不同的聲道數(shù)和音頻格式會有所區(qū)別,例如對于1024個16位單聲道PCM樣本而言,它的大小為1024*2*1=2048字節(jié);而對于1024個16位單聲道PCM樣本而言,它的樣本大小為1024*2*2=4096字節(jié),這兩個數(shù)字也是在使用ffmpeg進(jìn)行重采樣時常??吹降模驗橐话闱闆r下ffmpeg進(jìn)行重采樣時一般采用輸入1024個樣本來進(jìn)行重采樣,而根據(jù)音頻格式不同,所輸入的音頻具體空間大小不同。理解好這一點也是對于重采樣知識理解的核心。

我們平時所看到的1024個樣本點其實并不是絕對的,因為也可以是1152個樣本點等,其中1024是對應(yīng)一幀AAC音頻的樣本點數(shù),而1152則一般對應(yīng)MP3音頻的樣本點數(shù)。
常見的PCM格式有8位和16位兩種,8位每一個PCM數(shù)據(jù)的值由一個字節(jié)即8位來表示(0~255);而16位是指每一個PCM數(shù)據(jù)的值由兩個字節(jié)即16位來表示,分為高8位和第8位(-32767~32767);同時由于PCM音頻格式還具有單聲道和雙聲道等的區(qū)分,就衍生出如下4種自由組合的情況。
以上關(guān)于音頻的采樣率,音頻的采樣和重采樣技巧的詳細(xì)介紹。
Fruity slicer
電平
FLAC
WAV
音頻格式