【开源中国 APP 全新上线】“动弹” 回归、集成大模型对话、畅读技术报告”
传统RTC(语音通信)场景,音频引擎的整个处理链路如3A算法、编解码、丢包补偿等技术仅针对语音做处理。而实时互动娱乐场景(如主播连麦、互动播客、游戏语音等)会涉及到音乐、音效等,以优化语音质量为目标的音频引擎在面对这类场景时,经过算法处理后的音质会大打折扣。例如语音场景双讲问题出现的频率较低,然而在音乐一直播放时,只要对端说话,就会形成双讲,如果回声消除处理不好,就会对语音或者音乐造成很大的损伤;又如降噪算法在遇到音乐时也不可避免的对音乐产生损伤。因此在实时互动娱乐场景下需要对音频引擎的整个音频算法处理链路做出针对性的优化,以尽量提升实时互动娱乐场景下的音质。
OSCHINA 本期高手问答 (9 月 14 日 - 9 月 20 日) 我们请来了徐潇宇老师和大家一起探讨关于实时互动娱乐场景音频引擎整个链路的音频算法优化方向。
可讨论的问题包括但不限于:
- 音频采集
- 回声消除
- 降噪
- AGC
- 丢包补偿
- 编解码
- 传统算法与深度学习结合优化
或者其它关于实时互动娱乐场景音频引擎整个链路的音频算法优化方向相关问题,也欢迎大家积极提问!
嘉宾介绍
徐潇宇,荔枝资深音频算法工程师,精通数字信号处理、自适应滤波、3A算法、深度学习等,在荔枝负责通过传统音频算法+深度学习打造互动娱乐场景下的高音质RTC音频引擎。
github 账号:https://github.com/ewan-xu
为了鼓励踊跃提问,荔枝集团会在问答结束后从提问者中抽取 5 名幸运会员赠予荔枝2022年度致敬T。
OSChina 高手问答一贯的风格,不欢迎任何与主题无关的讨论和喷子。
下面欢迎大家就实时互动娱乐场景音频引擎整个链路的音频算法优化方向相关问题向徐潇宇老师提问,请直接回帖提问。
高手问答第 292 期 —— 实时互动娱乐场景下如何提升 RTC 音频引擎音质
@xiaoaiwhc1 @向東不向西 @ericyan1 @auroa @mental
恭喜以上5位网友分别获得荔枝 2022 年度致敬 T一件。
请于9月27日12:00前登陆账号, 私信@OSC哒哒 告知快递信息(格式:姓名+电话+地址)
@ewan_xu 记得做视频质量评估时,会分有源和无源情况。就是编码后的视频再解出YUV 跟源视频做对比。不知道这里的回声消除会不会也利用到类似的方法,至少音乐的特征可以实时获取到的。
@ewan_xu 说说你们在rtc 这个路上 做了哪些优化? 还有对语音识别,人声模拟方面有什么技术经验
web端如何做实时语音交互
@ewan_xu 请问如果想学习这个方面的技术,需要什么样的技术基础,以及推荐什么样的学习路径?
@ewan_xu 使用BIGO LIVE这种产品,音频处理的很好,但是使用Starmaker这种产品,音频听的非常不清晰,是两个厂商技术的问题导致的嘛
@ewan_xu 用过webrtc, 其实它的回音消除效果很差的, iOS, android,window还是用硬件支持的, 试过在window设置关闭了回音消除, webrtc的aec效果很差, 还是靠硬件, 你们的aec是自己做吗
@ewan_xu 1. RTC (语音通信 ,我有个劣质耳机,有的人和我通话,他经常反馈有刺耳的声音,有的人没有反应任何问题,这是不同的手机端做了优化效果,降低噪音了吗?
2.作为一个java的web项目,webrtc怎么加进web项目的需求比较好,智能客服这类,识别语音转为文字,不知道大哥推荐用哪个算法库的工具?
@ewan_xu
1. 语音如何做自动会测试呢 ,要模拟不同的场景?
2. 算法是否考虑开源,更好的构建良性社区?
RTC引用场景,深度学习有哪些有效较为通用的方法,可以结合传统技术,弥补传统技术缺陷?@ewan_xu