CCCF专题|马维英:人工智能赋能内容创作和交流
2018-12-29 17:25:27
  • 0
  • 0
  • 0

原创: 马维英   来源:中国计算机学会

未来是否会诞生前所未见的新的传播表现形式?

回溯人类历史发展的长河,人与人之间的交流、信息的创造和传播是人类文明诞生的基础。几千年过去了,从文字到图片,从语音、音乐,再到视频,信息的表达和传播的形式在不断扩展,也日益丰富。那么,在当下,人们如何用更智能的方式表达和传播内容?未来是否会诞生前所未见的新的表现形式?作为字节跳动这样的平台,如何用人工智能(AI)赋予创造者新的能力?

技术革新推动信息创作与交流的演进

互联网和移动互联网的发展,带来了大数据的革命,也直接推动了人工智能技术的发展。在人工智能技术的赋能下,人类的创作和交流也呈现出个性化、社交化和“无所不在化”的特征。在万物互联时代,人类可以随时随地获取信息,进行内容的创作与交流,随着创作门槛的不断降低和创作主体的持续扩大,在人工智能的辅助下,每个人都将成为创作者。

人工智能可以根据大量数据样本进行训练和学习。文字、图片、视频、直播,都是可供AI不断挖掘的材料。不难预测,在未来超级智能时代到来之际,人可以指导机器进行学习,在交互过程中为机器提供更多的学习样本;机器也会通过学习变得愈发智能,从而帮助人类进行更高效的交流。

字节跳动的产品“今日头条”,正是基于人工智能推荐,帮助,使人们高效获取信息的实例。今日头条建立了一种全新的人与信息的连接方式,即用分布式学习去理解人和内容的特征,利用排序算法,将合适的内容推送给感兴趣的人,完成个性化精准推荐,从而打造千人千面的信息分发平台,让用户能够随时随地获取所需信息(如图1 所示)。

当今人与信息的连接主要有以下四种方式(见图2):

1. 推荐。推荐分发是人被动接收信息的过程。系统像助理一样,观察人的行为,包括人对信息类型、来源、使用时间段、阅读方式等的偏好。

2. 搜索。一种主动获取信息的行为,与推荐的方式相辅相成,都是重要的信息获取方式。

3. 语音交互。新一代的语音交互功能可以通过语言的理解和识别,帮助人找寻所需的信息,并且完成相应的任务。

4. 社交/社群。社交圈传播,社群和社交也是人与信息连接的重要方式。

短视频爆发背后的技术赋能

近两年,短视频成为全球最受欢迎的信息生产与消费形式。尤其年轻人,特别喜欢用短视频来表达个性,分享他(她)们的经验、故事,与亲友交流。其实短视频创作的背后,是移动互联网的发展以及人工智能技术的赋能。

视频需要编解码,上传与下载都需要很大的带宽。移动互联网的发展为短视频提供了必要条件,使得大规模上传与下载视频内容成为可能。短视频能够爆发的另一个必要条件是移动端智能编辑工具的出现。手机端的智能编辑工具包括计算机视觉及智能语音系统,但又不限于此。它们赋予每个人更强的创作能力。人工智能让编辑工具更加小巧、轻便,成本更低,实用性更强,使得短视频可以快速而大量地生产。

以我们熟悉的短视频产品“抖音”为例,背后就有大量AI技术提供支撑。首先,短视频内容的审核。由于抖音是共享的开放平台,国内日活跃量超过2亿,每天有大量的视频内容上传。为此,我们一直利用AI技术,理解视频内容、进行版权识别、过滤有害和低俗内容,并且不断地迭代和完善机器学习模型,从而辅助人工审核。

其次,在动作的理解、物体检测跟踪、视频环境识别、情感与情绪识别等方面,均可以通过大量学习后,使AI达到与人的判断相当的程度。在此基础上,可以识别视频特征,获得更加准确的视频搜索结果;可以结合用户特征,更加精准地推荐视频内容;可以预测视频受欢迎的程度等。

最后,利用AI技术,抖音还可以进行人脸识别和关键点检测,为用户提供好玩的创意滤镜、美妆特效(如图3所示),辅助创作。类似的技术也用于人体的关键点检测,通过手机端模型分析,捕捉和识别人体的动作姿态,基于这一技术实现的抖音“尬舞机”等功能颇受用户喜爱。这项技术的另一个应用是短视频美体功能,通过关键点检测技术定位人体的五官和肢体关节,在此基础上变化人体的形状,实现如瘦脸、大眼、长腿、瘦腰等效果(如图4所示)。

智能机器人创作与AI辅助审核

除了应用于短视频产品,人工智能技术还通过字节跳动的多款产品赋能信息创作与交流的各个环节。

利用机器学习进行智能写作,可以提升信息的创作效率。以xiaomingbot(小明)写作机器人为例,在体育赛事写作方面,小明的效率和产量远高于人类作者。对于每场比赛,小明可以实时进行视频分析和理解,同时对公开渠道的文字描述和图片进行解析和整合,最终在数秒内生成包含图文的稿件内容,并及时发布。这项研究获得了吴文俊人工智能科学技术奖1。

我们以2018年俄罗斯世界杯上日本和比利时的比赛为例介绍小明的写作原理。小明根据出场球员生成对应的身份文字,在关键节点追踪人物的行为动作,包括球员在场上的位置,识别球员是否传球、射门、进球及裁判裁决情况(见图5)。在创作稿件的过程中,小明可以对视频内容进行深度理解,结合网络公开信息生成摘要,并且选出最好的图片作为新闻封面和插图。稿件完成后,通过机器翻译将稿件内容译成葡萄牙语、英语、法语等。智能算法会根据读者的兴趣进行精准推送,把稿件分发给感兴趣的读者,从而让信息更快速有效地满足世界各国用户的需要。

AI服务人类

与历次的工业革命一样,进入人工智能时代是人类文明的进步。而技术进步的最终落脚点应该是服务于人类生产和生活,因此,我们不仅要钻研技术本身,更要注重利用技术来解决现实社会中的问题。

我们将人工智能技术与产品功能相结合,积极服务于公益。“头条寻人”项目致力于帮助寻找走失人群,以走失地点为圆心,行走速度和走失时间的乘积为半径,画一个圆,可以表示出可能的走失范围(如图6所示)。我们利用地理位置等信息,在预估的走失范围内推送寻人信息,实现了每条信息的精准地理范围覆盖和人群触达,从而提高了寻人的成功率。截至2018年9月13日,近两年半的时间内,“头条寻人”弹窗发布了49581例寻人启事,成功寻回7254名走失者,寻回率达到14.63%。9月底,我们也尝试了把寻人与视频载体相结合:运用自动生成视频的技术,输入一条文字版的寻人信息,不到10秒的时间,即可自动生成抖音寻人视频。头条寻人和抖音寻人都是利用AI技术促进信息交流,进而服务公益的产品实践。

我们也在利用AI技术助力教育和精准扶贫。“益童乐园”在贵州起航,“乡村AI教室”全面建成,我们希望让贫困地区的孩子也接受到良好的教育。

字节跳动的愿景

基于上述尝试与努力,字节跳动的愿景也在逐步实现——建设全球创作与交流平台。公司从成立至今,六年多的时间内,我们的产品和服务已经覆盖了150多个国家和地区、75个语种。产品和行业快速发展的背后是人工智能技术,是科技和创新在推动全球化的进程。

未来,字节跳动也将基于旗下产品丰富的应用场景和全球数亿活跃用户,持续积累数据和模型,潜心钻研技术和算法,不断改善和迭代核心技术,为中国人工智能的发展贡献一份力量。

(本文根据CNCC 2018 特邀报告整理而成)

作者介绍

马维英

•北京字节跳动科技有限公司副总裁、人工智能实验室主任。IEEE Fellow、ACM杰出科学家。

•主要研究方向为机器学习、自然语言处理、多媒体分析和理解等。

脚注

1 “吴文俊人工智能科学技术奖”是我国智能科技领域的重要奖项,由中兴通讯公司牵头捐资。该奖共设科学技术成就奖、科学技术创新奖和科学技术进步奖。每年评奖一次。成就奖和创新奖奖励个人,进步奖奖励项目。截至2018年11月,先后授予198个单位及行业机构、210个创新成果和项目及699名学者和专家。

最新文章
相关阅读