一个实时音视频通信系统

更新时间:2021-01-08 09:39:56点击:20840 行业观点

实时通讯系统,RTC(real time communication),是最近互联网应用的一个新领域。RTC系统的应用极其广泛,我们常见的视频电话,会议系统,远程桌面与控制都是RTC系统的一个应用。在移动互联网飞速发展的今天,各种应用都渴望加入RTC的功能,实现用户与企业,用户与用户之间的音视频交流。于是问题出现了,开发一个RTC系统需要什么技术储备?

有人说只需要懂javascript就可以了。WebRTC的出现极大的降低了RTC的开发门槛。只需要编写javascript代码就可以实现浏览器之间的音视频通话。且不论通话质量,浏览器的兼容性,网络穿透能力,那些不使用HTML的原生APP怎么办?

又有人提出WebRTC也支持Native开发,只要有懂C++和相关应用平台(Android,iOS,Windows,Mac)开发的软件工程师就可以了。WebRTC确实可以在这些平台上开发原生的应用。将WebRTC编译打包后嵌入APP可以实现RTC的功能,就是说能通了。但一个合格的RTC系统仅仅是能通就可以了吗?

以音视频通话为例,用户期望的RTC应用应该是:通话不卡不掉低延时,声音清晰真实无回声,画面流畅清晰无卡顿。如果直接采用上面WebRTC集成,我们很容易发现,在大多数情况下,通话并不像原来想象的那样完美。由于网络的原因,通话断断续续,延时很大。由于终端的适配不好,语音通话回声严重,噪声严重影响体验。视频不清楚,不流畅。

图片来自网络

RTC系统的每一个部分都需要优化,需要打磨,才能打造出完美的用户体验。现在的问题是,开发一个优秀的RTC系统需要具备哪些技术储备呢?

终端

解决语音通话的问题,首先需要有合适的语音编解码器,然后需要调整音频处理模块的算法。这里面内容比较广,有噪声消除,回声抑制,自动增益。比较前沿的还有多麦克风降噪,盲扩增强等等。总之这些都需要算法的储备,涉及语音信号处理、统计信号处理等方面的内容。

有了算法还不够,还需要有好的实现。各个平台(Android,iOS,Windows,Mac)底层音频系统也需要深入了解。有时候算法挺好的,但有些机器先天不足,比较特别,需要特殊处理。这需要投入许多人力物力对各种型号的硬件做适配。优秀的系统可能需要适配几百上千个不同的设备。

同样的,对于视频,我们需要对视频编解码器有深入的了解。这样才能用最低的码率展示清晰的视频画面。视频的前后处理,比如降噪,增强(包括流行的美颜)也少不了。这就需要图像与视频信号处理。视频数据量比较大,对底层视频设备也需要深入研究。适配也少不了。

网络

说完了终端,再说说网络。网络抗丢包是必备选项。互联网不是一个可靠的实时音视频传输网络。在不可靠的网络中实现可靠的音视频传输考验系统设计的能力。这里既有信道编码的理论也有网络对抗的实际经验。

如果要实现可靠的云服务,遍布全球的服务器网络也必不可少。高可用性,负载均衡等等...

现在我们知道开发一个RTC系统需要什么技术了。这个系统涉及到几乎所有的网络与音视频处理的理论与实践。

作者简介:

郑仲侯 声网Agora.io音视频构架师

(文章与图片来源:网络,版权归原作者所有,如有侵权联系删除

推荐阅读