分類: 樂理基礎(chǔ)
日期:2022-11-25
采樣頻率,采樣深度和比特率區(qū)別辨別,基本音頻概念!
我們經(jīng)常聽到的第一個術(shù)語是采樣率或采樣頻率,兩者指的是同一件事。你可能遇到過的一些數(shù)值是8kHz、44.1kHz和48kHz。究竟什么是音頻文件的采樣率?
采樣率是指每秒鐘記錄的音頻樣本數(shù)。它是以每秒的樣本或赫茲(縮寫為Hz或kHz,1kHz為1000Hz)來衡量。一個音頻樣本只是一個數(shù)字,代表在一個特定時間點(diǎn)的測量聲波值。非常重要的一點(diǎn)是,這些樣本是在一秒鐘內(nèi)時間上相等的時刻采集的。例如,如果采樣率是8000赫茲,那么在一秒鐘內(nèi)有8000個采樣是不夠的;它們必須在一秒鐘的1/8000時間內(nèi)準(zhǔn)確地被采集。在這種情況下,1/8000的數(shù)字被稱為采樣間隔(以秒為單位),而采樣率只是該間隔的乘法倒數(shù)。

采樣率類似于視頻的幀率或FPS(每秒幀數(shù))測量。視頻只是一系列的圖片,在這里通常稱為 "幀",非??焖俚乇硨Ρ筹@示,給人以連續(xù)不間斷運(yùn)動或移動的錯覺(至少對我們?nèi)祟悂碚f)。雖然音頻采樣率和視頻幀率是相似的,但在每一個中保證可用性的通常的最低數(shù)字是非常不同的。對于視頻來說,為了保證運(yùn)動的準(zhǔn)確描述,每秒至少需要24幀;少于這個數(shù)字,運(yùn)動可能會顯得不流暢,連續(xù)不間斷運(yùn)動的錯覺也無法保持。這一點(diǎn)在幀與幀之間發(fā)生的運(yùn)動越多時尤其適用。此外,每秒1或2幀的視頻可能會有 "瞬間 "事件,保證在幀之間被錯過。

對于音頻來說,要明確地表示英語語音,每秒的最小采樣數(shù)是8000赫茲。由于各種原因,使用低于這個數(shù)字的采樣率會導(dǎo)致語音無法被理解,其中一個原因是相似的話語將無法相互區(qū)分。較低的采樣率會混淆音素或語言中的聲音,這些聲音具有顯著的高頻能量;例如,在5000赫茲下,很難將/s/與/sh/或/f/區(qū)分開來。既然我們提到了視頻幀,另一個值得詳細(xì)說明的術(shù)語是音頻幀。雖然音頻樣本和音頻幀都是以赫茲為單位,但它們并不是一回事。一個音頻幀是來自一個或多個音頻通道的一個時間實(shí)例的音頻樣本組。
最常見的聲音采樣率值是前面提到的8kHz(最常見于電話通信)、44.1kHz(最常見于音樂CD)和48kHz(最常見于電影的音軌)。較低的采樣率意味著每秒鐘的采樣數(shù)較少,這反過來又意味著較少的音頻數(shù)據(jù),因?yàn)橛休^少的采樣點(diǎn)來表示音頻的數(shù)量。采樣率的選擇取決于需要采集哪些聲學(xué)偽影。一些聲學(xué)人工制品如語音語調(diào)需要的采樣率比聲學(xué)人工制品如音樂CD中的音樂曲調(diào)要低。值得注意的是,更高的采樣率需要更多的存儲空間和處理能力來處理,盡管這在過去數(shù)字存儲和處理能力是首要考慮的情況下,現(xiàn)在可能不是那么大的問題。

(2) 、采樣深度/采樣精度/采樣大小
除了采樣率,也就是我們有多少個音頻的數(shù)據(jù)點(diǎn),還有采樣深度。以每個樣本的比特為單位,樣本深度(也稱為樣本精度或樣本大?。┦且纛l文件或音頻流的第二個重要屬性,它代表了每個樣本的細(xì)節(jié)水平,或 "質(zhì)量"。正如我們上面提到的,每個音頻樣本只是一個數(shù)字,雖然有很多數(shù)字有助于表示音頻,但你也需要每個單獨(dú)數(shù)字的范圍或 "質(zhì)量 "足夠大,以準(zhǔn)確表示每個樣本或數(shù)據(jù)點(diǎn)?!百|(zhì)量 "是什么意思?對于一個音頻樣本來說,它只是意味著該音頻樣本可以代表更高的振幅范圍。8比特的采樣深度意味著我們有2^8=256個不同的振幅,而16比特的采樣深度意味著我們有2^16=65,536個不同的振幅,以此類推,采樣深度更高。電話音頻最常見的采樣深度是16比特和32比特。在數(shù)字錄音中,有越多不同的振幅,數(shù)字錄音聽起來就越接近原聲事件。
同樣,這也類似于我們可能聽到的關(guān)于圖像質(zhì)量的8位或16位數(shù)字。對于圖像或視頻,圖像或視頻幀中的每個像素也有一定數(shù)量的比特來表示顏色。像素中的比特深度越高,產(chǎn)生的像素顏色就越準(zhǔn)確,因?yàn)橄袼赜懈嗟谋忍貋?"描述 "屏幕上要表現(xiàn)的顏色,而且像素或圖像總體上看起來更符合人們在現(xiàn)實(shí)生活中的樣子。從技術(shù)上講,一個像素的比特深度表明該像素可以代表多少種不同的顏色。如果你允許R、G和B中的每一個用8位數(shù)字表示,那么每個像素就用3 x 8 = 24位表示。這意味著有2^24~1700萬種不同的顏色可以由該像素表示。

將聲音采樣率和采樣深度聯(lián)系在一起的是比特率,它是兩者的簡單乘積。由于聲音采樣率是以每秒的樣本數(shù)來衡量的,而采樣深度是以每個樣本的比特數(shù)來衡量的,因此它是以(每秒的樣本數(shù))x(每個樣本的比特數(shù))=每秒比特數(shù)來衡量的,縮寫為bps或kbps。值得注意的是,由于采樣深度和比特率是相關(guān)的,它們經(jīng)常被交換使用,但也是錯誤的。
音頻中的比特率因應(yīng)用而異。要求高音頻質(zhì)量的應(yīng)用,如音樂,通常有一個更高的比特率,產(chǎn)生更高的質(zhì)量,或 "更清晰 "的音頻。電話音頻,包括呼叫中心的音頻,不需要高比特率,因此普通電話的比特率通常比音樂CD的比特率低得多。無論是采樣率還是比特率,較低的數(shù)值可能聽起來更糟糕,但同樣,根據(jù)應(yīng)用,較低的數(shù)值可以節(jié)省存儲空間和/或處理能力。
以上就是關(guān)于聲音采樣頻率,聲音采樣深度和比特率區(qū)別辨別,基本音頻概念的詳細(xì)介紹。
電平
FLAC
WAV
音頻格式
音頻