12
回答
【开源访谈】图鸭科技武俊敏:技术无国界,开源让技术向前迈进一步
华为云4核8G,高性能云服务器,免费试用   

2017 年 12 月 23 日,在 OSC 源创会年终盛典上,图鸭科技创始人武俊敏宣布开源图鸭 VoIP 技术的服务器源代码及客户端网络模块代码。

图鸭 VoIP 是国内第一家使用私有协议的免费视频通信技术,其主要采用了以udp协议为底层架构的私有协议,减少了端对端延迟,并实时对传输数据进行网络丢包、网络速度和网络抖动的统计,再返给编码器,以此确保视频传输的稳定性。

为何选择将其开源?音视频技术还可以应用在哪里?还可以触及哪些未知的领域?【开源访谈】邀请到了图鸭科技创始人武俊敏,为大家分享音视频技术背后的奥秘和未来的发展,以及他对开源的看法。

【本期嘉宾】

武俊敏,上海交通大学博士,图鸭科技创始人,前 Simpleeye Lab 负责人。曾带领团队开发出三套算法:表情迁移,比 iPhone X 早三年;即时通讯美颜算法,比美图早一年;图片压缩,比 Webp 提升 50%。申请国内外专利达 60 余项。

【访谈内容】

1.您好,先简单介绍一下自己

我叫武俊敏,91年出生,大三时加入了掌赢科技实习,此后三年的时间,陆续参与和负责视频人脸美化、表情迁移等技术的研发,并组建了人工智能图像实验室。帮助掌赢拿到一个亿的融资,在这期间去了趟美国参会,发觉自己在技术这方面很有优势,便走上了创业的道路,成立了一个做音视频分析、压缩技术的公司,现任图鸭科技 CEO。

 

2.在音视频压缩、传输与分析技术的时候,您有没有遇到过什么困难,是如何解决的?

由于在上一家公司做的是视频方面的,所以创业就着手开始做音视频压缩。最开始想做的是VR通信,VR通信的包含了传输,但是VR的数据量特别大。如果要把VR通信做成普通的通信。就有两个比较难的技术点:压缩和传输。在整个音视频方面,压缩和传输都是很难的技术点。

再分析国际做音视频领域的,国际上就一家做视频压缩的创业公司叫做 waveone ,国外对技术创新是很支持的,但是国内对技术创业的设施支持不够,对技术创新的支持也比较弱。

在国内环境和技术的双重问题下,我们还是坚持下来,将音视频压缩和传输技术做了出来。

 

3.图鸭科技已经完成第一轮融资,能透露下一步的发展战略吗?压缩算法现在运用在哪些地方还能在哪些领域得到更大的拓展?

因为投资方之前也是做压缩技术的,投资方认为压缩技术很有前景,我们拿到了第一轮融资。得到融资首先要做的就是技术上的改进。视频压缩算法可以应用在像视频游戏:狼人杀,在线教育,包括金融领域,视频客服,等领域。

比如之前合作的一家在芯片领域,他们要把视频很流畅的传输到云端,之前用的 rtsp,rtmp 延时比较高。我们把延时降低到 100 毫秒还比较流畅。第二个案例是在直播领域,直播领域之前用的是云通信,云通信一个月的耗费是 5 万,用了压缩技术之后,一个月变成 5 千,这个行业利润率是10倍。

现在已经在教育行业,机器人行业和视频会议都有涉及,接下来可以会触及AR和VR领域,VR 行业基本上没有文字的形式,全是视频,有视频就会涉及压缩,传输,通信技术。

 

4.您认为要成为中国的“Pied Piper”,最大的挑战是什么?

全球就图鸭一家将通信和压缩结合的公司。一方面,压缩技术现在比别人更好了;另一方面,通信技术也做起来了,我们现在的通信技术比微信比一般的通信都强。

在压缩方面,我们要优化效率,现在的压缩算法只用了20%-60%之间,因为我们计算性能跟不上去。但是我们的算法可以进一步优化,比如说在相同效果之下可以运行的更快一点,那么普及的也快一点。但是说想在压缩算法上再突破,这不是很现实,因为本身的算法都没有用完全。

在通信方面,通信行业主要是流畅和网络之间的矛盾,因为网络是随时变动的,很容易丢包,因为包特别多的时候,传不过来,就要丢包。要解决流量怎么适应网络,同时你这个流量传送的信息要尽可能的保留完整是有难度的。

相比与硅谷的 waveone 公司,我们认为 deep learning 压缩会取代传统压缩。第一是它不需要专门的硬件,deep learning 压缩会将所有东西统一。第二个是它可以用来作分析,他是个一体化的东西,所以落地的成本就低了。现在的开发时间要一年半,但是 deep learning 压缩做好了的话,一个月就可以完成开发。

 

5.您认为音视频压缩、传输与分析技术对人工智能有什么意义或者能带来什么改变?如何保证在这个行业的领先性?

其实我们已经使用了很多AI的东西了,AI 对于音视频行业来说其实更像是一个工具,立足在音视频行业,AI会提高视频的智能化进程。两者可以说是互相促进了,AI 的发展会使得音视频行业更加炙手可热,音视频的发展会让AI的发展达到一个新的高度。

首先,我们技术已经开源了,技术就已经算领先了。再者:在后期的发展上,我们的开发团队也是很具有实力的。所以我们的技术一直在发展就不怕被人取代。

 

6.您是如何看待开源的,为什么会将音视频传输(VoIP)开源?会不会对开源项目进行后续的维护?

我们已经走上开源这条道路了,而且我们觉得技术是没有国界的,每个人都可以很容易接触到。简单来说,就是通过技术壁垒来创造商业壁垒本身是很困难的,有的话也是很短暂的一个东西,他不能成为最后一个遵循的原则。从商业角度来看的话,开源是一种趋势。从公益的角度来看,开源更是一个趋势。

我们会一直维护我们的系统,并逐步的升级整个系统,把项目做得越来越好,因为现在只是开源的第一步,我们首先把服务器代码给开源了,如果后面做得特别好的话,会把其他代码给开源出来,具体开源哪些,要看公司的发展进度。

 

7.除了将 VoIP 开源,图鸭还有开源其他项目的计划吗?您认为开源会给图鸭带来什么影响。

在后续开源计划中,将视频分析技术也列入其中。视频里面有三个点:压缩,传输和分析,不管做什么,现在基础上做一些商业化的,将它的面铺广,然后才会渗入到各行各业。

开源会让技术向前跨进一步,对我们后期做分析或者其他业务有促进作用。视频面铺的越广,视频化的智能程度会带来更多的机会。视频这个门槛比较高。我们先要入这个门槛,然后再参与到市场里。

 

8.您能聊聊您现在的团队吗?对现在热门的技术例如区块链有什么看法?

团队现有 30 余人,技术人员 20 余人,其中博士 8 人(毕业于上海交通大学、南京大学、浙江大学、华盛顿大学等),人才多来源于各大高校的顶尖计算机人才。对人才的要求:宁少需精。

对区块链了解过一些,所以并不看好。区块链里面有两个东西,第一个是现实世界到虚拟世界的映射,这限制了它只能在虚拟世界发展;第二个是速度:因为区块链里面你必须要五步验证,这五步验证要保证是50分钟,速度就上不去了。所以从这两个点来看,我对区块链不是很看好,而且和我们的技术关系不是很大。

 

9.就音视频压缩、传输与分析技术这一方面,您有没有一些经验分享?

不要轻易入这个门,如果入门了,便要沉下心来好好做。建议多做一些市场落地的东西。但是如果想改标准,五年之后才有机会,因为整个标准十年更新一代。

给高校学生想学习视频压缩技术的建议,如果单是看原理的话,学会是很快的,看完一本书就懂得它的原理了。但是写代码实操起来就比较困难,因为它里面试环环相扣,任何一环出了问题都很难调试出来。所以建议找几个小伙伴痛下决心的一起学习。

 

10.在源创会的年终盛典上,您的演讲分析了整个视频行业的发展,能具体说说吗?

视频行业也是分了两个部分的,一个是视频分析,一个是传统行业。视频分析落地的有三个:人脸识别,无人驾驶和相机美颜,这三个东西在AI创业里面是成功的。比如说,大视频里面主要是流量成本,版权费,导致大视频没法盈利。小视频也很难盈利,只能做导流工具。直播应该是朝着连麦直播去发展的,多个人讲现在已经成为一种趋势了。

当然还有一类是视频+行业,比如说视频+纺织行业,可以控制 AI 给纺织机上色,画图。还有视频+零售,视频+海报,还有就是视频+广告,这就是视频+行业。前面说的是独立的东西可以成为一个产品,后面说的是视频的一些境况。现在来说,线下直播和线上流量应该做一个紧密的融合。就比如说线下活动要和相关内容方做一个分发。举一个例子:财经类,你线下有个活动,你还有一个APP,不管是谁家的,财经APP是缺内容的,把这个活动推过去之后,就会产生一个新的机会,双方都有需求。活动就希望知道人更多,做APP希望有更好的内容,各取所需。

另外一个是AR、VR,如果说这两个东西不发生本质性变化,还是会保持原样。如果将AR,VR加入视频中,大家就可以在同一起跑线创造新的东西,开发出更好的产品。

举报
周其
发帖于7个月前 12回/2K+阅
顶部