您的位置: 首页 > 周刊 > 产经 > IT互联网

快手郑文:短视频每个环节都有“深度学习”

出处:IT互联网周刊 作者: 网编:段跃 2019-04-29

4月27日,清华大学大数据研究中心、清华-快手未来媒体数据联合研究院共同主办《清华大数据论坛——深度学习技术与应用》,探讨分享深度学习技术与应用的最新进展。

清华-快手未来媒体数据联合研究院副院长、快手AI技术副总裁郑文指出,快手强调每个人的幸福感是“独特的”。光靠人工运营很难达到针对每个人的服务,需要通过人工智能技术,特别是近几年有所突破的深度学习技术来实现,快手很早开始就在AI相关技术方面做了很多积累,从视频生产到分发每一个环节都有大量深度学习的应用。

快手希望通过AI技术使得记录更加丰富有趣,基于这个目标,我们开发了大量多媒体和AI技术,比如背景分割、天空分割、头发分割,人体关键点、人脸关键点、手势关键点检测等,并将它们应用在魔法表情中。

三维人脸技术能够针对单张人脸图像恢复出人脸的三维信息,一方面可以实现对人脸的一些修改,比如打光、做一些表情、实现三维变脸特效;另一方面,通过三维人脸信息,我们可以提取出人的表情变化,然后把表情迁移到虚拟的卡通形象上。

人像分割技术能把人像和背景区分开,分别对人像和背景做特效,或者进行背景替换,还可以做人像虚化;头发分割,可以把头发区域分割出来,做染发效果;天空分割技术则可以让天空区域变得更加超现实、更加梦幻;人体姿态估计则是预测人的关节点位置,利用这一技术,我们可以给人体肢体上加特效,或者修改人的体型,做美体瘦身功能。

手势检测是把各种特定的不同手形检测出来,实现「控雨」等玩法。另外还有AR相机姿态估计,背后是快手自研的3D引擎,并在其基础上添加编辑器模块、渲染模块、肢体模块、声音模块等,来实现模型精致而自然的光感、材质。

内容生产环节完成后,视频会被上传到后端服务器,需要对视频内容进行更深层次的理解。视频的内容理解会用在很多方面,比如内容安全、原创保护、推荐、搜索、广告等。

人脸是一个很重要的维度,因为人脸往往包含了人所关心的最主要的部分,我们会对人脸区域进行检测,识别年龄、性别、表情,另外的维度包括图像、音乐、语音等。

快手会把这些不同维度的信息进行多模态融合,推理出更高层次的语音信息,或者对视频进行情感识别。我们也用到知识图谱技术,把视频里的知识存储在知识图谱里表达出来。通过知识图谱的推理,能够得到一些更高层、更深入的信息。

在内容理解方面有很多具体技术,比如快手开发了一套视频标签系统,可以对视频里出现的大多数内容和场景进行分类。在快手语音识别功能模块,我们采用深度学习算法,结合上下文语境模块,使得识别精度得到很大提升。

一方面,我们需要理解视频内容,另一方面,我们也需要对用户进行理解,包含用户公开的年龄、性别等信息以及用户在实时使用快手时产生一些行为数据。这些数据都会传送到后端的深度学习模型里,训练出对用户理解的向量。通过这些向量,我们可以预测用户的兴趣以及他与其他用户之间的关系。

最后,快手得到对用户的描述以及对视频的理解,用户和视频之间的匹配就会产生万亿级别特征的大数据,这个大数据会被用在实时在线的推荐系统里,预测用户会对什么样的视频感兴趣。另外我们也会对社区里的内容进行排序,比如前面提到如何分配注意力,我们希望注意力分配的差距不要太大,所以会根据基尼系数调整视频内容的分配情况。此外,还会考虑到内容的安全性、多样性以及原创保护等因素。

本网站所有内容属《北京商报》社所有,未经许可不得转载。 商报总机:010-64101978 网站热线:010-64101986

商报地址:北京市朝阳区和平里西街21号 邮编:100013 法律顾问:北京市汇佳律师事务所(010-64097966)

违法和不良信息举报电话:010-84276691 举报邮箱:bbtnewsbgs@126.com

ICP备案编号:京ICP备08003726号-1 京公网安备110105010335号