您好,登錄后才能下訂單哦!
這期內容當中小編將會給大家帶來有關怎么在Android中實現音頻合成功能,文章內容豐富且以專業的角度為大家分析和敘述,閱讀完這篇文章希望大家可以有所收獲。
情景一
假設A音頻40秒,B音頻20秒,B音頻數據拼接到A音頻后面,得到60秒的C音頻文件。
這種情況最簡單了,新建音頻文件C,將A音頻的PCM數據復制到C音頻文件上,再將B音頻的PCM數據復制到C音頻文件上,然后為C音頻寫上wav文件頭信息,得到可播放的WAV文件。
情景二
假設A音頻40秒,B音頻20秒,B音頻數據插入到A音頻10秒的地方,得到60秒的C音頻文件。
這種情況稍微復雜點,新建音頻文件C,將A音頻前10秒的PCM數據復制到C音頻文件上,再將B音頻的PCM數據復制到C音頻文件上,再將A音頻后30秒的PCM數據復制到C音頻文件上,最后為C音頻寫上wav文件頭信息,得到可播放的WAV文件。
情景三
假設A音頻40秒,B音頻20秒,B音頻5至15秒的數據插入到A音頻10秒的地方,得到50秒的C音頻文件。
這種情況更復雜,也是最常見的插入場景,裁剪B音頻并插入到A音頻的某個位置,這里涉及到B音頻數據的裁剪,當然原理其實也是簡單的,計算出B音頻5秒和10秒對應的文件數據位置,然后復制這個區間的數據到C上,針對A文件的數據,也是同樣道理。
情景四
A音頻和B音頻中多段數據相互拼接
這種情況,原理同上面一樣,只要知道指定時間對應的數據是什么,就可以實現自由拼接了。
音頻拼接的實現參考我的Github項目 AudioEdit,這里我就不貼具體代碼了。
音頻混合
音頻混合是指一段音頻和另一段音頻合在一起,能夠同時播放,比如最常見的人聲錄音和背景音樂的合成,可以得到一首人聲歌曲。
音頻混合的原理是
音頻混合原理: 量化的語音信號的疊加等價于空氣中聲波的疊加。
也就是說將輸入的每段音頻的某個時間點的采樣點數值進行相加,即可將聲音信號加入到輸出的音頻中。
音頻采樣點數值的大小是(-32768,32767),對應short的最小值和最大值,音頻采樣點數據就是由一個個數值組成的的。如果單純疊加,可能會造成相加后的值會大于32767,超出short的表示范圍,也就是溢出,所以在音頻混合上回采用一些算法進行處理。下面列舉下簡單的混合方式。
直接疊加法
A(A1,A2,A3,A4)和B(B1,B2,B3,B4)疊加后求平均值,得到C((A1+B1),(A2+B2),(A3+B3),(A4+B4))
這種情況,輸出的音頻中A和B音頻數據都可以以相同聲音大小播放,但是可能出現溢出的情況。假設A音頻指定時間點的某段采樣數據是(23,67,511,139,307),B音頻對應該時間點的采樣數據是(1101,300,47,600,22),那么兩者直接疊加的話,得到的采樣數據是(1124,367,558,739,329),這個短采樣數據就是兩者聲音混合的數據了。
疊加后求平均值
A(A1,A2,A3,A4)和B(B1,B2,B3,B4)疊加后求平均值,得到C((A1+B1)/2,(A2+B2)/2,(A3+B3)/2,(A4+B4)/2)
這樣可以避免出現溢出的情況,但是會出現兩者聲音會比之前單獨的聲音小了一半,比如人聲和背景音樂混合,導致輸出的音頻中,人聲小了一半,背景音樂也小了一半,這種情況可能就不是想要的效果,特別是多段音頻混合的情況。
權值疊加法
A(A1,A2,A3,A4)和B(B1,B2,B3,B4)權值疊加,A權值為x,B權值為y,得到C((A1 * x+B1 * y),(A2 * x+B2 * y),(A3 * x+B3 * y),(A4 * x+B4 * y))
這樣可以更方便條件A和B的音量的大小,比如A的權值為1.2,B的權值為0.8,那么A的聲音相對提高了,B的聲音相對減弱了。嚴格來說,直接疊加法和疊加求平均值法都屬于該類型。
此外還有各種更復雜的混合算法,如動態權值法,A和B的權值會根據當前時刻采樣點數值的大小進行動態變化,得到一個動態增益和衰減的混合方式。
下面是直接疊加法的實現,需要注意short值要按大端存儲的方式計算,存儲時按大端方式存儲。
/** * 疊加合成器 * @author Darcy */ private static class AddAudioMixer extends MultiAudioMixer{ @Override public byte[] mixRawAudioBytes(byte[][] bMulRoadAudioes) { if (bMulRoadAudioes == null || bMulRoadAudioes.length == 0) return null; byte[] realMixAudio = bMulRoadAudioes[0]; if(bMulRoadAudioes.length == 1) return realMixAudio; for(int rw = 0 ; rw < bMulRoadAudioes.length ; ++rw){ if(bMulRoadAudioes[rw].length != realMixAudio.length){ Log.e("app", "column of the road of audio + " + rw +" is diffrent."); return null; } } //row 代表參與合成的音頻數量 //column 代表一段音頻的采樣點數,這里所有參與合成的音頻的采樣點數都是相同的 int row = bMulRoadAudioes.length; int coloum = realMixAudio.length / 2; short[][] sMulRoadAudioes = new short[row][coloum]; //PCM音頻16位的存儲是大端存儲方式,即低位在前,高位在后,例如(X1Y1, X2Y2, X3Y3)數據,它代表的采樣點數值就是((Y1 * 256 + X1), (Y2 * 256 + X2), (Y3 * 256 + X3)) for (int r = 0; r < row; ++r) { for (int c = 0; c < coloum; ++c) { sMulRoadAudioes[r][c] = (short) ((bMulRoadAudioes[r][c * 2] & 0xff) | (bMulRoadAudioes[r][c * 2 + 1] & 0xff) << 8); } } short[] sMixAudio = new short[coloum]; int mixVal; int sr = 0; for (int sc = 0; sc < coloum; ++sc) { mixVal = 0; sr = 0; //這里采取累加法 for (; sr < row; ++sr) { mixVal += sMulRoadAudioes[sr][sc]; } //最終值不能大于short最大值,因此可能出現溢出 sMixAudio[sc] = (short) (mixVal); } //short值轉為大端存儲的雙字節序列 for (sr = 0; sr < coloum; ++sr) { realMixAudio[sr * 2] = (byte) (sMixAudio[sr] & 0x00FF); realMixAudio[sr * 2 + 1] = (byte) ((sMixAudio[sr] & 0xFF00) >> 8); } return realMixAudio; } }
注意事項
音頻的拼接和混音,有一些是需要注意和處理的。
1. 需要確保A音頻和B音頻的采樣位數一致。例如A音頻是16位采樣位數,B音頻是8位采樣位數,那么這時是不能直接拼接的,需要轉換成相同的采樣位數,才能做后續操作。
2. 需要確保A音頻和B音頻的采樣率一致。這個在錄音和歌曲拼接時要特別注意,假如錄音的音頻頻率是16000,歌曲的音頻是44100,那么兩者也是不能直接拼接的,需要轉換成相同的采樣率,轉換采樣率可以使用resample庫。
3. 需要確保A音頻和B音頻的聲道數一致。當然這個并不是指單聲道和雙聲道的音頻不能合成了,事實上錄音音頻通常是單聲道的,而歌曲通常是雙聲道的。單聲道和雙聲道音頻合成,一般是按雙聲道為基準,需要將單聲道音頻轉換成雙聲道音頻,轉換原理也簡單,將單聲道的采樣點數據多復制一份,比如將單聲道的ABCD數據轉換成雙聲道的AABBCCDD數據。
那么我們可能會有疑問,如果A音頻和B音頻的采樣率位數,采樣率,聲道數不一樣的話,合成后是有效的音頻文件嗎?這個其實是有效的,同樣可以播放,但是會造成合成后的音頻不同部分的音頻播放速度不一樣,例如單聲道的A和雙聲道的B拼接,會造成A部分的播放速度比B的播放速度快一倍,而B的播放速度是正常的。
Android是一種基于Linux內核的自由及開放源代碼的操作系統,主要使用于移動設備,如智能手機和平板電腦,由美國Google公司和開放手機聯盟領導及開發。
上述就是小編為大家分享的怎么在Android中實現音頻合成功能了,如果剛好有類似的疑惑,不妨參照上述分析進行理解。如果想知道更多相關知識,歡迎關注億速云行業資訊頻道。
免責聲明:本站發布的內容(圖片、視頻和文字)以原創、轉載和分享為主,文章觀點不代表本網站立場,如果涉及侵權請聯系站長郵箱:is@yisu.com進行舉報,并提供相關證據,一經查實,將立刻刪除涉嫌侵權內容。