人工智能：从无人驾驶到阿法狗，在感知的各个领域超越人类-人工智能的专栏

人工智能：从无人驾驶到阿法狗，在感知的各个领域超越人类

2017-06-04 14:27:42栏目：默认栏目 IP属地：IP未知

来源：人工智能学家

概要：人工智能在认知智能方面逐步突破取得的进步和发展是不可否认的，并且对于将来更深层次的领 域和层面的突破，我们持肯定和乐观的态度。

人工智能前沿解析——人工智能全方位超越人类

人工智能主要三阶段:运算智能、感知智能、认知智能。

第一阶段运算智能，即快速计算和记忆存储能力。人工智能所涉及的各项技术的发展是不均衡的。现阶段计算机比较具有优势的是运算能力和存储能力。1996 年 IBM 的深蓝计算机战胜了当时的国际象棋冠军卡斯帕罗夫，从此，人类在这样的强运算型的比赛方面就不能战胜机器了。

第二阶段感知智能，即视觉、听觉、触觉等感知能力。人和动物都具备，能够通过各种智能感知能力与自然界进行交互。自动驾驶汽车，就是通过激光雷达等感知设备和人工智能算法，实现这样的感知智能的。机器在感知世界方面，比人类还有优势。人类都是被动感知的，但是机器可以主动感知，如:激光雷达、微波雷达和红外雷达。

第三阶段认知智能，即能理解会思考的能力。人类有语言，才有概念，才有推理，所以概念、意识、观念等都是人类认知智能的表现。

现今，全球市场都在人工智能的巨大浪潮中，各家公司、机构加紧对战略、研发和投资的部署和准备。其中，国外的科技巨头-苹果、谷歌、微软、IBM，国内的互联网巨头-百度、阿里、腾讯，国内专业科技公司-商汤科技、Face++、科大讯飞等都在这场巨大的革命性的风潮中，开始对感知智能、认知智能进行投入，并开始崭露头角。

感知智能全方面超越人类

感知智能有赖于数据获取技术，目前主要有语音识别和机器视觉两种技术。通过传感器获得“视觉”、“听觉”等感知能力，与周围环境进行交互。

在大力的投资下，由于计算处理能力的突破以及互联网大数据的爆发，再加上深度学习算法在数据训练上取得的进展，算法、计算、数据三者都已成熟，推动了人工智能在感知智能上实现巨大突破。

人脸识别超越人眼，语音识别无限接近。机器视觉方面，根据 Labeled Faces in the Wild(LFW) 公布的 2016 年人脸识别榜单，近年来机器视觉技术发展极为迅猛，不仅超越了人眼对剪裁后人脸 97.53%的识别率，今年更是超越了人眼对完整人脸 99.20%的超高识别率，最高达到了腾讯优图公布的 99.80%。语音识别方面，百度、搜狗、科大讯飞都在 2016 年 11 月发布称，对中文的识别错误率降低到了 3%，超越了人类自身对中文 4%左右的识别错误率; 微软、IBM 也陆续表示，对于英文的识别错误率也降低到了 5%+的超高水准，最低达到了IBM 的 5.5%的超低错误率，无限接近人类对英文 5.1%的识别错误率。

我们认为，经过深度学习这项里程碑性的技术突破发展，机器视觉方面，人工智能在识别率等技术上已经成功超越人类水平，下一阶段更应该关注三维信息、大规模 N 对 N 比对等技术发展和技术应用等问题;语音辨别方面，人工智能虽然已经无限接近人类水准，但是仍然存在 1%识别率差距、实验条件局限等最后 1 公里要走，未来必须在发展产品应用的同时，抓紧研发突破核心技术，实现对人类感知的全方位超越。

人脸识别率达 99.80%，机器视觉超越人眼

机器视觉代替人眼。简单的说，机器视觉就是用机器代替人眼来做测量和判断。机器视觉系统是通过机器视觉产品(即图像摄取装置，分 CMOS 和 CCD 两种)将被摄取目标转换成图像信号，传送给专用的图像处理系统，得到被摄目标的形态信息，根据像素分布和亮度、颜色等信息，转变成数字化信号;图像系统对这些信号进行各种运算来抽取目标的特征，进而根据判别的结果来控制现场的设备动作。

人脸识别率达 99.80%，攻破人类视觉感知最后一道防线。对于人脸的识别，是人工智能在视觉方面最主要的应用之一，也是作为人工智能和人眼比较的重要标志。根据 Labeled Faces in the Wild 数据显示，人眼对于遮挡的人脸的识别率为 94.27%，对于剪裁后的人脸识别率为 97.53%，而人眼对于完整的人脸识别率则达到了 99.20%的超高准确率。

2016 年年底，LFW 榜单公布了最新的人脸识别榜单数据，人工智能在人脸识别领域进展突飞猛进，不仅超越了人眼对剪裁后脸部 97.53%的识别率，更是突破了看似高不可及的99.20%的人眼对完整脸部的识别率。

根据榜单显示，2016 年，数十家企业、机构的人眼识别率达到了 99%以上的超高水准，其中具有代表性的包括了最高值腾讯优图的 99.80%、中科奥森和百度的 99.77%、谷歌 FaceNet 的 99.63%、DeepID 和商汤科技的 99.53%、中科云从和 Face++的 99.50%以及飞搜科技的 99.40%，具超越了人眼极限 99.20%的识别率。

语音识别率接近人类，实验环境更待普遍化

识别与理解，将语音转化为命令。语音识别是感知智能的应用，形象的说可以比做为“机器的听觉系统”。语音识别技术就是让机器通过识别和理解过程，把语音信号转变为相应的文本或命令的技术，主要包括特征提取技术、模式匹配准则及模型训练技术三个方面。语音识别技术所涉及的领域包括信号处理、模式识别、概率论和信息论、发声机理和听觉机理、人工智能等。

跳出识别率竞争，实现多维度赶超人类。经过深度学习这项里程碑性的技术突破发展，机器视觉方面，人工智能在识别率等技术上已经完全超越人类水平，下一阶段更应该跳出识别率竞争，实现对人类的多维度超越。其中，三维信息结合、多特征融合、大规模 N 对N 人脸对比和大数据应用都应该作为重要发展方向，加以关注。

语音识别率接近人类，实验环境更待普遍化

识错率英文 5.5%、中文 3%，人工智能无限接近人类水准。语音识别作为感知智能重要的一部分，其识别率水准也被视作人工智能和人类在感知领域较量的一个重要部分。2016年以来，各家人工智能巨头在语音识别方面陆续发布消息，表示自身人工智能的识错率进一步下降。

中文方面，搜狗、百度、科大讯飞于 2016 年 11 月陆续宣布，公司人工智能对中文的语音识别取得了里程碑式的突破，识错率降低到了 3%的水平，成功超越了人类对中文 4%的识错率。

语言领域功能创新让机器不再冰冷

语言应用包括语音识别(Speech Recognition)和语义理解(Natural Language Understanding)。语音识别是将语音转换为文本的技术。通过特征提取、模式匹配将语音信号变为文本或命令，以实现让机器识别和理解语音。语义理解则可以让计算机对文本进行理解。语义理解的文本可以是语音识别系统转换而来，也可以由用户直接输入。语义理解建立在自然语言处理的模型基础上，它可以让机器对人类的自然语音进行理解。这两种应用有时会单独使用，但是更多时候需要它们结合发挥更好的功效。

语音类应用包括语音转录、语音交互、特征识别和机器翻译。

计算机视觉让机器成为敏锐的观察者

计算机视觉是一门研究如何使机器“看”的科学，更进一步的说，就是是指用摄影机和电脑代替人眼对目标进行识别、跟踪和测量等机器视觉，并进一步做图形处理，使电脑处理成为更适合人眼观察或传送给仪器检测的图像。计算机视觉包括目标检测、目标识别、行为识别三个过程，分别对应“去背景”“、”是什么“、干什么”的认知步骤。计算机视觉的核心应用功能包括特定物体识别，通用物体识别以及空间位置感知。

无人驾驶汽车是也可以理解为一种机器人，它主要依靠车内的以计算机系统为主的智能驾驶仪来实现无人驾驶。无人驾驶汽车是利用车载传感器来感知车辆周围环境，并根据感知所获得的道路、车辆位置和障碍物信息，控制车辆的转向和速度，从而使车辆能够安全、可靠地在道路上行驶。

无人驾驶的无人化程度可以分为 L1-L5。L0 为完全手动，L5 为完全自动化驾驶。目前商业化的无人驾驶处于 L2-L3 级别，研发能力趋近 L4 等级。

人工智能连下数城，认知智能逐渐突破

人机交互、高校知识管理、智能推理学成认知智能关键能力。认知智能有三大核心支撑能力:人机交互、高效知识管理、智能推理学，通俗的说就是认知智能不但需要赋予机器“能听会说”的能力，还能赋予机器“能理解会思考”的能力。

以 AlphaGo 和 Libretus 为代表的人工智能在认知智能领域连下数城。2016 年初开始，AlphaGo 在围棋界以 4:1 大胜李世石、60 胜 0 负横扫围棋各路高手、问鼎世界第一的排名; 此后，Libratus 在一对一无限注德州扑克中，面对 4 位人类最高水平选手，以压倒性的14bb/h 完胜。

围棋博弈中，存在着 10^170 级别的数据空间，AlphaGo 一路过五关斩六将的获胜，已经标志着人类在完整信息博弈中的全面失守;而一对一无限注德州扑克的博弈中，不仅存在了 10^160 级别的数据空间，更是一个信息不互通、需要所谓的“直觉”和对对手的主观判断的过程，Libratus 的再次获胜，也意味着人类在非完整信息博弈中被人工智能再下一城。至此，人工智能连下数城，在一年的时间内突破了完整信息和非完整信息的博弈，完全突破了人类一对一博弈的全部防线，为认知智能逐步突破开了一个好头。

AlphaGo 攻下围棋领域，完整信息博弈先下一城

AlphaGo 是一款围棋人工智能程序，由谷歌(Google)旗下 DeepMind 公司的戴密斯·哈萨比斯、大卫·席尔瓦、黄士杰与他们的团队开发。

AlphaGo 围棋界大杀四方，技高一筹无对手。恰逢人工智能学科诞生一甲子，2016 年 3月，AlphaGo 首次挑战围棋界人类世界冠军，并轻松以 4:1 的巨大优势击败李世石;2016年 7 月，AlphaGo 以 3612 分，超越 3608 分的柯洁稳定世界职业围棋排名 GoRatings 的桂冠宝座;2016 年 12 月至 2017 年 1 月，AlphaGo 更是以“大师”(Master)为注册帐号与中日韩数十位围棋高手进行快棋对决，连胜 60 局无一败绩，实力完胜人类棋手。

深度学习+双大脑，AlphaGo 智能之核心。作为一款先进的人工智能程序，AlphaGo 其主要的工作原理就在于深度学习，其次通过监督学习的策略网络(Policy Network)和价值网络(Value Network)两个不同神经网络“大脑”合作来改进下棋，两项核心智能技术使得这项人工智能大放异彩。

信息集达到 10^170 级别，超宇宙中原子数量。人类在围棋界的落败，象征着人类在一对一完整信息博弈领域的全面溃败。与此同时，值得关注的在于，围棋博弈中存在着 10^170 个决策点，而现今观测到的宇宙的原子数量也仅为 10^75 个，相比较之下，围棋博弈的信息集庞大到无法描绘。而 AlphaGo 面对 10^170 这种数量级的信息集，能够做出运算和处理，并且做出唯一的最优解，标志着其运算能力已经取得了突破性的进展。

Libratus 斩获德州扑克，非完整信息博弈再下一城

Libratus 是美国卡内基梅隆大学开发的一款人工智能系统，其领域在于一对一无限注德州扑克。德州扑克由于其存在底牌这样的非公开信息，故属于非完整信息博弈。由于人工智能无法获取当前所有的信息，即不存在一个最优解，必须通过“直觉”对自己的对手进行习惯判断以获取更多信息，因此对人工智能而言，是一个更大的挑战，也被视为人类在一对一博弈中的最后一道防线。

认知智能下一座城在何处?

AlphaGo 突破完整信息博弈领域，Libratus 突破非完整信息博弈领域，人工智能连下数城，迅速突破一对一博弈领域。

我们认为，人工智能认知智能的下一个突破口在于多方博弈。其体现形式可能将以德州扑克的无限注 6 人桌(Six-Max)的方式进行呈现;目前，以 Libratus 为代表的人工智能系统还暂无能力对这个多方博弈的领域进行突破，但是根据 Libratus 程序开发员、CMU 博士Noam Brown 透露，团队正在对 Libratus 进行进一步增强，有望在 2 年内在 6 人桌打败人类选手。此后，认知智能将陆续在规则较为模糊的智能驾驶等领域进一步突破落实，最后将实现对无明确规则、无限制条件、场景随机的通用场景的全方位突破。

我们认为，人工智能的未来发展是不会按照指数增长的形式持续爆发式增长，但是人工智能在认知智能方面逐步突破取得的进步和发展是不可否认的，并且对于将来更深层次的领域和层面的突破，我们持肯定和乐观的态度。