吴飞：人工智能终可“识别人心”-人工智能的专栏

吴飞：人工智能终可“识别人心”

2020-05-28 12:57:37栏目：默认栏目 IP属地：IP未知

来源：学术前沿杂志吴飞

【摘要】从人的心智发展机理、云端大数据以及智能算法等不同的维度来看，智能机器识别人心是可能实现的。虽然这条路可能还相当远，但官方制度性的认可、商业营利的动机刺激以及人类探索的好奇心的召唤，正吸引着越来越多的人投身于此。不过，与其他技术一样，“识别人心”的效用也是两面的：一方面可以用于治疗和治理，另一方面也需要防止对人类本身的侵犯。它可能成为影响、操纵、控制他人心理和观点的工具，对这种意识的入侵要保持高度的警觉。

2016年，几家初创公司开始销售智能聊天机器人。其中有一款机器人名叫埃米·英格拉姆（Amy Ingram），你只需要把电子邮件抄送给埃米，她就会开始为你做助理工作。埃米有酷似人类的语调，能说会道且谈吐不凡。一名用户说她比人类更能胜任这项工作，有些男人甚至想和她约会。智能机器人时代正在向我们走来。

“万物皆数”是包括图灵在内的许多学者的观点，他们思考的是，如果人的五官能够感受到的世间万物都可以用机器转换成数字来表示，那么人的思考过程自然也可以用机器转换成数字来表示。香农和奈奎斯特等人的杰出工作，让人们真正将物理世界的信号编码成数字，数字技术因之拉开了历史的序幕。

从大型计算机，到PC机，到移动互联网，到今天的云计算。六七十余年来，科学家和工程师们编写出各种各样的程序，建立了各种不同的人工智能或机器学习的数学模型，推进了虚拟现实、无人驾驶、人脸识别、语音助理等技术的发展。换言之，机器今天已经拥有了识别语音、图像和活动场景的能力，它甚至可以与人对话。那么，人心可以识别么？让机器看着人的脸，读懂人的心，正激励着无数科学家的探索。因为这种探索必然会获得官方制度性的认可和商业营利的动机，而人类探索自身的好奇心也是一种重要的诱导性力量。

本文将从心智的机理、算法与智能的发展脉络等两个不同的维度切入，揭示了机器识别人心的可能性。正如希尔伯特所言：我们必须知道；我们必将知道。

心智的产生及其机理

1979年，美国考古学家托马斯·维恩撰文称：“现代心智起源于30万年前。”[1]智人（Homosapiens）的本意是“会思考的人”。[2]瓦尔特将智能分为三个层次：最低层面是“顺化智能”，其满足的标准是心智中的所有的内容都来源于感知传递；第二层次是“正常智能”，即可以通过自己的力量在自身内部产生出知识所依赖的原则；第三个层次是“疯狂的混合体”，即通过这种智能，一些人可以在缺乏艺术训练和学习的情况下，说出巧妙而让人叹服的言语。虽然这些话是真实的，但是别人都没有看到过、听到过也没有被人记录在案，甚至别人想都没有想到过，这种智能属于真正的创造性的能力。[3]

现代人的记忆、推理、判断、反省、理性，以及使用语言沟通的头脑才是人目前为止超越其他物种的关键。正所谓人是符号的动物，人是文化之网上的动物所指的就是人类的理性思考（rational thought）的能力。[4]笛卡尔就认为语言是人类这个种属所独有的能力。也就是说，人的心智的出现，使得人拥有了无与伦比的创造性和适应性，从而超越了地球上的其他生命形态。这虽然被一些学者批评为人类中心主义，但人类的想象力、创造力，尤其丰富语言表达和虚构故事的能力，尚无出其右者。

但人心是什么？人心可以计算么？如果可以计算和测量，那么它能够被认别么？作为碳基的信息处理机制的人类大脑与作为硅基的计算机设备之间真的可以对话甚至相互理解么？要想回答清楚这一系列问题，我们首先要弄清楚何谓人心。

我们这里将人心界定为人的心智活动的总称。所谓的心智是指“产生和控制知觉、注意、记忆、情绪、语言、决策、思维、推理等心理机能的成分”，“是形成客观世界表征的系统，促使人们采取行动以实现目标”。[5]可见，心智既包括人的认识、判断、思维等的意识活动，也包括人的情感与情绪活动。21世纪被称为“脑的世纪”或“心智的世纪”。欧盟发起的“人类大脑计划”（Human Brain Project, HBP）集结了欧洲乃至世界上的一批科学精英，研究如何在超级计算机中精确地模拟大脑。对人的认知和脑的研究，已经有了巨大的发现，基于现有的研究成果，对于人的心智问题，我们有如下判断。

其一，人的心智是自然进化的结果。如果说，柏拉图在《理想国》已经发现了一些遗传的奥秘，那么亚里士多德则更进了一步，他发现传递信息是遗传物质的核心功能。其后，达尔文发现了生物进化的规律，而孟德尔则在修道院花园里进行的碗豆杂交实验中找到了生命进化的密码——基因。尽管在1866到1900年间，孟德尔的文章仅被引用4次，[6]但这一具有划时代意义的科学发现，为后续的研究指明了方向。尔后，埃克弗里根据基因的化学形态，确认DNA就是遗传信息的载体。而沃森、克里克、威尔金斯和富兰克林最终解开了基因的分子结构之谜。现代DNA测序技术表明人类与黑猩猩有着非常近的亲缘关系。事实上，研究还发现，人类的基因与海葵也有惊人的相似性。生命科学从基因编码的角度分析指出，今天的人类就是猿的一个分支而已。但研究表明，人类的前额叶-顶叶网络的体积要远远大于与人类血缘最近的其他灵长类动物，这使得人类处理与组合信息的能力远超其他物种。不过，人类大脑所积累起来的一系列功能也只是满足了最原始的进化需求——生存与繁衍。理查德·道金斯提出了著名的“自私的基因”学说就认为，基因是进化的核心，宿主通过复制将基因传给下一代。

其二，心智是一种信息方式。史蒂芬·平克就认为，心智是一个由若干计算器官所组成的系统，它是我们祖先在解决生存问题的进程中“自然选择”出来的。心智不是大脑，而是大脑所做的事情。人是心智进化产物，而不是剃光了毛的“裸猿”。心智进化的最终的目的是为了复制最大数量的基因，而正式基因创造了心智。他写道：“所有的人类心理都可以被一个唯一、万能的理由所解释：大脑、文化、语言、社会化、学习、复杂性、自组织和神经网络动力学”。[7]他认为，“视觉、行动、常识、暴力、道德还有爱，无一例外，都是可以厘清的智能的核心组成部分，他们是信息处理的过程”。[8]20世纪50年代，沃伦·麦卡洛克（Warren McCulloch）等人提出了“心智的计算理论”（Computational Theory of Mind，CTM），该理论的核心观点是，大脑即是一种计算的机制，其能力（包括其心理能力）能够通过计算得以说明。[9]也便是将认知过程看作是一种基于规则的符号操作过程，而心智或大脑则是一种物理符号的系统，大脑被看作是生物的硬件，而心智是运行于其上的软件。[10]

其三，人类一直在探索破解自身的密码，并且确实找到了越来越科学的方法和测量工具来测量心智。科学家认为，大脑实质上纯粹是起到一个信息的、计算的和控制的功能。因此“其精确的功能组织可以通过语言对其信息功能进行准确的描述，即通过认知而非细胞解剖或者化学的形式来予以描述”。[11]心理学家通过核磁共振等神经影像技术比较识字者与文盲的大脑时发现，两者的大脑活动方式有诸多不同。在测量他们的脑波，用一连串认知能力测验对他们进行测试之后，心理学家得出结论：阅读和书写技能的获得改变了脑组织结构……不仅在语言上，在视觉感知、逻辑推理、记忆策略和条理性运筹思维上都是如此。[12]

其四，人的意识活动并非纯粹的精神活动。笛卡尔相信“机器中的幽灵”这一教条，他认为，一个人的思想是某个“神秘的幽灵”，生存在人这一生物机器的大脑里面。几个世纪以来这种身心二元论一直被很多人认可，他们相信意识是人的决定性要素，身体不过是意识和精神活动的障碍物，沉重的肉身牢笼似地困住了精神的超脱，因此在各种宗教教义和传统的哲学中，那些力图摒弃易朽的肉体的实践成为永恒的赞颂者。但是从19世纪中期开始，医学和新兴的神经科学领域内越来越多的证据表明笛卡尔的二元论站不住脚。自尼采以降，肉身的意义被新发现和赞美。在尼采那里，“酒神的魔力，使人和人、人和自然、人和神的界限和藩篱消失了。一切都得以解放，一切都达成了和解，一切都在一个兴奋的大海中融为一体，相互吞食、转换、变换”。[13]在尼采看来，感觉、思考和激情都是意志的构成部分。他写道：“身体乃是比陈旧的灵魂更令人惊异的思想。”[14]如今越来越多的人相信，身（肉）体活动体现了一种推动认知发展的所谓“生存意向性”。[15]英国哲学家吉尔伯特·赖尔（Gilbert Ryle）在1949年出版的著作《心的概念》中指出，笛卡儿的身心二元论犯了一种“范畴错误”。他认为人的身体和心灵、精神和行为是一回事。

智能、算法与全息连接

“当人类走出了‘自我中心’之后，又遭遇了机器智能的挑战。这一次，是人-机交流——即人与物之间的互动——建构了存在于人与物之间的公共心智。”[16]图灵1948年在英国国家物理实验室（NPL）的一个题为“智能机器”内部报告中提到了“肉体智能”（embodied intelligence）和“无肉体智能”（disembodied intelligence）区分问题，正式开始对智能的思考。在1950年的Mind杂志上，图灵发表文章提出“机器能够思考吗？”。在图灵测试中，被测试者（人）在一个黑暗的屋子里面与一台机器或一个人进行对话（当时采用的是文本方式，现在可以采用语音方式），若被测试者无法区分对话的是人还是机器，则可以称机器通过了图灵测试。“图灵坚信，人工智能一定能以某种方式实现。”[17]

1952年，发现了神经学的功能的离子学说和突触电位的诺贝尔医学奖得主，艾伦·劳埃德·霍奇金爵士提出了脉冲神经网络这种神经行为学模型（SNN）。SNN的价值在于，它描述了神经元之间的电位是如何产生和流动的，它认为神经元之间的交换主要靠“神经递质”来产生化学放电，从而在神经网络中实现复杂和可变的神经系统交互。2011年，IBM发布了True North芯片，这也是人类用电路模拟神经行为学的开端。2017年，英特尔发布了类脑芯片Loihi，其拥有13万个人造突触。不过，到目前为止，类脑芯片的任务性处理能力比较差、算力水平也相当低。[18]1956年夏天，在新罕布什尔州达特茅斯学院的一次小型会议上，赫伯特·西蒙、约翰·麦卡锡、克劳德·香农等AI界的开山鼻祖们，就提出了“智能的任何特征，原则上都可以精确描述，因此我们可以制造机器来对它进行模拟”。在这次会议上，专家们首次用到“人工智能”这一术语。这次会议后来被称之为标志性事件——标志着人类开始用一种全新的方式来研究心智问题。2013年，由欧盟组织的26个国家135个合作机构参与的“人类脑计划”（Human Brain Project，简称HBP）将重点放在了如何通过超级计算机技术来模拟人脑功能，以期实现人工智能。瑞士洛桑联邦理工学院（EPFL）建立了脑与心智研究所（Brain Mind Institute），其科研团队包含了基础神经科学、计算神经科学、人工智能、机器人相关的科研人员，共同从事瑞士蓝脑计划、欧盟脑计划相关的研究。斯坦福大学成立了心智、脑与计算研究中心（Stanford Center for Mind, Brain and Computation），由认知心理学家、人工神经网络专家McClelland领导。该中心集成理论、计算和实验研究的方法，致力于研究感知、理解、思维、感受、决策的脑神经信息处理机制。[19]

在这股探索风潮中，逐渐形成了符号主义、联结主义以及行为主义等多种不同的学派。“深度学习”表现相对突出，尤其“阿尔法狗”（AlphaGo）战胜全球的围棋高手后，引起了公众的广泛关注。

不过，纽约大学教授加里·马库斯（Gary Marcus）认为，从技术角度看，深度学习可能擅长模仿人类大脑的感知任务，比如图像或语音识别，但它在理解对话或因果关系等其他任务上仍有很大不足。玛格丽特·博登（Margaret Boden）指出，人工智能一直专注于智力的理性，却忽略社会/情绪智能，更别提智慧了。她认为，人类的心智太丰富，我们还缺乏（能全面说明）心智工作方式的好的心理/计算理论，是以她的结论是：人类水平的通用人工智能的前景看起来非常渺茫。约翰·塞尔（John Searle）曾经通过著名的“中文屋论证”（Chinese Room argument）阐述了人类的“心智”与机器的计算之间的区别。塞尔假想有一个不懂中文的人被关在一间小屋子里，只能通过字条与外面的人进行中文符号的交流。房间内有一本完美的说明书，看了这本书就可以用中文回答外面的问题。这样一来，就算只懂英语，房间里的人也可以通过说明书，用中文回答问题了。塞尔假设，只要这个人拥有的规则足够完备，那么屋子外面的人就不会怀疑屋子里面的人是懂中文的。塞尔希望通过这个论证表明，通过图灵测试的计算机以及会下围棋的程序，它们和中文屋里面不懂中文的人一样，只是对符号进行规则化加工而不论符号的意义，而人能够对“意义”作出应答。[20]然而，实际上塞尔的论证仅仅表明“通过图灵测试的计算机可以没有智能”，却没有提供足够的证据表明“计算机事实上没有智能”。[21]

不过，人工智能虽然还不足够智能，但技术进步的结果往往令人意想不到。牛津大学计算机科学系主任迈克尔·伍尔德里奇（Michael Wooldridge）曾在其著作《多Agent系统引论》中写道：区别于地球上的其他生物，不只是因为人类有毋庸置疑的学习和解决问题的能力，更是因为人类具有与伙伴通信、合作、达成一致的能力。这些我们每天都使用的社会能力，是与规划和学习等智能同等重要的智能行为。他认为虽然目前的AI还不能做到“复杂推理”、“处理定义不清的问题”、“对事物作出判断”以及“对外界环境的感知”，他还是相信机器、设备同样具备智能。[22]韩国科学技术院生物和大脑工程系的李相完教授在《科学》杂志上发表的一篇文章中，提出了一种新的理论——“前头叶控制”理论。他认识到人脑可以自行评价对外部环境的认知度，通过外部信号来处理信息。因此，他认为将该原理应用于AI算法和机器人等领域，便可以设计出能够根据外部情况变化，在性能、效率、速度等各个方面自动平衡到最佳状态的智能系统。以色列巴伊兰大学的科学家坎特（Ido Kanter）教授和他的合作者最近在《科学报告》（Scientific Reports）杂志发表的文章表明，在连接神经元的网络中，突触模型中每个神经元的学习参数数量要比树状模型中的数量“明显更大”。[23]对人工智能充满乐观的人不少，如2015年《纽约时报》（New York Times）科技版记者约翰·马尔科夫（John Markoff）的报道《人工智能的学习能力匹敌人类》，就代表了这种典型的观点。深度学习似乎真的已经解决了“感知”问题：它具有照片自动分类（图像识别+分类）、图像描述生成（图像识别+理解）等能力。计算机现在可以比人类更好地识别字符、图像、物体、声音、语言，甚至是视频画面中的物体。[24]百度用了11940个小时的英语口语来训练他们的语音网络，现在百度的网络转录语音的能力可以媲美人类。基于算法，机器也可以创造听起来很自然的短语字幕，以此描述图像内容。2011年1月的一天，美国著名的智力问答竞赛节目《危险边缘》历史上最成功的两位人类选手肯·詹宁斯和布拉德·鲁特在节目中与IBM的一组研究人员开发的计算机程序“沃森”比赛（比赛时，它被切断了互联网）。为期两天的挑战赛结束时，詹宁斯赢得了24000美元，鲁特赢得了21600美元，而“沃森”却赢得了77147美元，遥遥领先于两位人类对手。尽管不能说“沃森”有智能，但他这种能读懂语言，还能够从自己的记忆库中找到答案的这种探索、匹配关系并能识别的能力却是强大的。

与智能同步推进的是基于物联网、大数据的存贮与数据挖掘技术的进步。如果说5G时就能够通过云网融合、边缘计算、终端多样化相结合，可以获得有关每一个联网个体的全息数据，进而达到“信息随心至，万物触手及”的话。那么6G技术的发展，则可以达到“智慧连接”“深度连接”“全息连接”“泛在连接”，使得“一念天地，万物随心”成为可能。“一念天地”中的“一念”一词强调实时性，指无处不在的低时延、大带宽的连接，“念”还体现了思维与思维通信的“深度连接”，“天地”对应空天地海无处不在的“泛在连接”；“万物随心”所指的万物为智能对象，能够“随心”所想而智能响应，即“智慧连接”；呈现方式也将支持“随心”无处不在的沉浸式全息交互体验，即“全息连接”。[25]随着车联网、物联网、工业互联网、远程医疗、智能家居、4K/8K、AR/VR、空间网络等新业务类型和需求的出现，未来的网络正呈现出一种泛在化的趋势。刘韵洁院士等预测说：“在未来，网络人工智能将在网络的自配置/自管理、网络流量自学习/自优化、网络威胁自识别/自防护和网络故障自诊断/自恢复等方面起到重要作用，在复杂的网络环境下实现自动化、智能化的网络管控。”[26]1983年，罗素（Peter Russell）提出了“全球脑”（global brain）的概念。他认为，通过电话、传真等电信传播工具，人类将会形成连接紧密的全球网络。罗素认为，全球人口有可能达到100亿，如果100亿人通过通讯设施连接，“全球脑”即可形成。这个类似于人的大脑的“全球脑”会形成一个具有独立运作能力的有机体，具有记忆、思考、反馈等诸多功能。[27]社会的网络化以及技术推进的网络性联结，使得人与人、人与物的信息都流动的云的数据化存在着。这种数据化、信息化的方式，成为人和人工智能共同的社会环境和文化环境，是取之不尽、用之不竭的生产资源。我们在利用机器进行思维时，机器也在把我们变成它的“齿轮”和“螺丝钉”。[28]网络社会不断进化与扩张，至脑的最后界限被突破，有学者称之为一统（unification）阶段。这样的网络是一种“知化网络”，它从冰冷的物理连接逐步进化为主动感知各类连接设备……进而知晓如何适应外界的变化，最终使得整个网络具备智能思考的能力，形成自有的知识体系。[29]智能与联网，提供了大量的数据，这些数据包括了Who（谁）、What（什么）、Where（在哪儿）、When（什么时间）以及Why（为什么）。这5个“W”为机器识别提供了丰富而相对精确的个人信息。

可识别的“人心”

尽管人们常说“人心难测”，但至少到目前为止，我们使用的是一个“难”字，并没有表明这是不可能之事。我们看一物，便能知其形、观其色、辩其质。这一看似简单的意识知觉的背后乃是数十亿大脑神经元的精致而复杂的关联性活动的结果。“意识是全脑皮层内部的信息传递，即意识从神经网络中产生，而神经网络存在的原因就是脑中有大量分享相关信息的活动”。[30]虽然人类大脑与计算机有诸多不同点，但本质上都是信息处理机器。在神经科学领域已经出现一些杰出的计算机模型，其特性与人类大脑神经元的生物特性非常接近（最近的一项研究结果产生的模型具有100万个神经元，5亿个联结）。这些计算机模型表明人造神经元群体出现了很有意思的新趋势，如组织集群与活动波。[31]类脑信息处理的研究目标就是构建高度协同视觉、听觉、触觉、语言处理、知识推理等认知能力的多模态认知机。目前这一方面都取得了不少的进展。机器识别人心初步取得的成就和未来努力的方向主要包括几方面。

识图看脸。“眼睛是心灵的窗口”，读心先读脸，读形识脸是识别人心的第一步。人脸识别（Face Recognition）是“一种依据人的面部特征（如统计或几何特征等），自动进行身份鉴别的一种技术，它综合运用了数字图像、视频处理、模式识别等多种技术”。[32]研究发现，对一个人脸部的整体记忆，是由几千个神经元互相作用，综合产生一种突发特性才完成的。机器学习和深度算法，已经注意到了这种特征，开发出了越来越复杂的机器网络，以模仿神经元的功能。2006年，Hinton教授提出深度信念网络，这标志着深度学习理论的诞生，图形识别技术得以快速发展。如今，人工神经网络（Artificial Neural Network, ANN）被广泛应用，使得自动人脸识别成为现实。美国斯坦福大学李飞飞教授牵头创立了一个庞大的图片数据库Image Net，该数据库目前拥有超过1400万张高分辨率的图片，标注的类别超过2.2万个。[33]从2010年起，每年举办一次大规模视觉识别挑战赛（ILSVRC），借此推进图形识别技术的发展。2012年参赛的AlexNet深度神经网络一举将识别错误率下降至15.3％，完胜第2名26.2％的识别错误率。2018年，多伦多大学的研究人员创建了一个神经网络，“让计算机拥有了一种神奇的能力来感知照片中的物体”。[34]多伦多大学的一组研究人员在他们最近关于这一主题的论文《视频人脸聚类的面部表征的自我监督学习》中指出，基于故事情节，更深入地理解视频，能够预测哪些角色何时何地出现。为此，这些研究人员开发了一种无监督模型，能够根据现有的数据集（如Youtube Faces等面部数据库）和有限的训练来创建高度准确的面部识别模型。这些模型可以利用基于有序面部距离，动态生成正/负约束，并不必仅依赖于目前常用的轨道（track）信息。[35]国内也有学者使用MTCNN算法进行人脸检测，在多姿态人脸数据集上准确率为96.25%，相较于单一姿态的人脸数据集，准确率提升了2.67%。[36]

辨音释义。语言是最好的识别人心的路径，乔姆斯基认为人的心智与语言是同步发展的。我们可以通过探索和挖掘一个人写了什么，说了什么而大体判断出一个人的精神形态、态度和立场，这也是当下许多人工识别技术的算法逻辑。语言是人类独有的符号系统，是表情达意的中介，如果不能理解人类的语言，识读人心自然也是空话。理解语言，不但要理解各种书面语言的意义（篇章结构、上下文、句子和语词的含义等），还包括语音理解、非语言性表达（如人的肢体语言）。乔姆斯基认为：“人类语言可以用来告知信息，也可以造成误导，可以用于澄清个人思想，也可以用来表示个人的聪明才智，或者就是为了娱乐。”[37]人类可能用同样的语词来表示不同的事物，人们还喜欢借用语言的多义性来实现委婉表达，而且表达的情境和上下文理解也极为重要，所以计算机要想真正掌握人类的语言并不容易。“理解不是一件简单的事情。部分的原因在于语音，语义和拼写之间的关系，大部分都带有主观任意性……造成语言表征的不同水平之间联系困难的另外一个原因是歧义（ambiguity）。在语言领域，歧义是指人们可以对一个发音、单词、短语或者句子做出不止一种解释的现象。”[38]露斯·米利肯（Ruth Milikan）甚至认为“思想和语言是生物现象，他们的意义取决于我们的进化史”，[39]如果这种观点是正确的，那么不能进化的强人工智能当然就不具备真正的理解力。不过雷·库兹韦尔却相信“结合大量并行神经网络和其他计算模式对系统进行训练和演化，使其能理解语言和模型，包括阅读理解文字文件的能力”。[40]自然语言处理技术（NPL）就是朝这个方向努力的。目前科学家运用编译原理相关的技术，例如词法分析、语法分析、语义理解，通过机器学习获得了很大的突破。被称为形态解析（morphological analysis）的算法就是试图解决语言理解问题的。2016年，微软的一个团队宣布，他们开发的一个拥有120层的深度学习网络已经在多人语音识别基准测试中达到了与人类相当的水平。20世纪50年代的一位研究肢体语言的先锋人物阿尔伯特·麦拉宾（Albert Mehrabian）的研究发现，一条信息所产生的全部影响力中7%来自于语言（仅指文字），38%来自于声音（其中包括语音、音调以及其他声音），剩下的55%则全部来自于无声的肢体语言。那么，对那些非语言性的表达的分析也是一项同样重要的工作。据报道，卡内基梅隆大学机器人学院（CMU RI）的科学家研发了一种能解读人类肢体语言的计算机系统——Open Pose。该系统使用计算机视觉和机器学习技术来处理视频帧，甚至可以实时跟踪多个人的肢体运动，包括手和脸部。研究人员亚瑟·谢赫（Yaser Sheikh）表示，这一方法为人们和机器之间的相互作用开辟了新的方式，人们使用机器更好地了解周围的世界。[41]另悉，语言技术研究所的路易斯-菲利普·莫朗西（Louis-Philipe Morency）使用多模式机器学习来评估病人的非语言行为来帮助医生更好地评估抑郁症和焦虑。[42]宾夕法尼亚州立大学的一个研究小组也在探索这一领域。该小组处理了大量的电影剪辑，并建立了超过13,000个人物角色的数据集，近10,000个身体动作。研究人员利用众包的人类注释器来审查电影剪辑，并确定26个分类情绪中的每个人的情感。研究表明，在识别人类情感时，人体可能比面部更具诊断性。[43]

通心会意。20世纪最著名的实验心理学家乔治·米勒（George Miller）在1962年建议应当在一二十年内禁止使用意识这个词。2019年3月20日，美国哥伦比亚大学创意机器实验室总监、工程学教授霍德·利普森（Hod Lipson）一直在探索打造具有自我意识的机器。他解释说：“在机器人和人工智能领域，我们曾经视意识为禁忌，我们不允许触及这个话题。但在我看来，意识可以说是一个悬而未决的大问题，与生命起源和宇宙起源一样。什么是感知，什么是创造力？什么是情感？我们想知道人之所以为人的意义，我们也想知道如何人为地创造出这些东西。是时候直面这些问题了。”根据霍德·利普森的观点，感知或自我意识的基本构建块之一是“自我模拟”（self-simulation）：建立一个人的身体及其在物理空间中如何运动的内在表征，然后使用该模型来指导行为。2019年，他率领的研究团队发明的新兴粒子机器人登上了《自然》杂志封面。他们的创新包括两个方面：一是这些由“粒子”（即圆盘状单元）组成的机械系统，不需要人类的强集中控制，也能依靠自主性伸缩和随机运动完成复杂的任务；二是这种系统很可能产生觉知，通过思考“我为什么在这里”进而做出自我模拟、自我复制，从而可以在设备故障、特殊作业环境中顺利完成任务。[44]对于机器人是否会拥有自主意识问题，霍德·利普森给出了肯定的回答：“这件事情将在10年之后发生，还是100年之后发生，我也不知道。但是，我比较确信的是我们的孙辈所生活的世界里，机器将会有自我意识。”[45]不过，他强调，这个自由意志是可以被人类操控的。人类将和人工智能一起学习、一起进步。心理学家就通过词汇学假设（lexical hypothesis）来测量人格。这一假设首先由英国学者高尔顿于1884年提出。1936年美国心理学家G.W.奥尔波特和奥德伯特在英语词典中找到了17953个描述人格心理特质的词汇，又从中写出4500个作为归类分析，历经几十年、数代学人对这些词汇进行筛选和分析，五大人格在不同的实证研究中不断地被重复发现，最后被心理学家公认为五大人格特质模型。有研究显示，只要有足够的社交数据，不用任何人为的建议，计算机和算法就可以自动判别一个人的心理特质，甚至仅仅凭借“点赞”的数据就可以完成。如果掌握一个人在Facebook上10个点赞，对他的了解就可能超过他的一般同事；掌握70个就可能超过他的朋友；掌握150个就可能超过其家庭成员；掌握300个就可能超过其最亲密的妻子或丈夫了。[46]2008年，剑桥大学的年轻研究人员迈克尔·科辛斯基（Michal Kosinski）开发了一项可以在Facebook上进行的OCEAN测试。到2012年，根据Motherboard网站上的一篇文章所述，科辛斯基证明：“平均来说，根据一名用户在Facebook上的68个‘爱好’就可以推测其肤色（95%的准确率）、性取向（88%的准确率）、亲民主党还是共和党（85%的准确率）。”[47]

情绪感知。计算机对人的心智的理解的另外一个更大的挑战，是对人的感受和情绪的把握。情绪指的是存在于脑和身体之内、通常由某个特定的心智内容所激发的一系列机体变化。感受是对这些机体变化的知觉。安东尼奥·R.达马西奥认为：“在意识形成之前，以及在意识作为一种我们常常没有有意识地认识到的诱导物而在我们每个人身上表现出来之前，情绪很可能就已经产生并发展起来了……感受在意识心灵的剧院里发挥着最根本的、更为持久的作用。”[48]人工智能系统已经能够用多种方式识别人类的部分情感。有些是生理的，如监测人的呼吸频率、心电和脑电反应；有些是口头的，如注意说话的语气、语调、语速以及用词习惯；有些是视觉的，如分析眼动规律与人的面部表情；有些是运动感知，如身体的移动、手指的运作，等等。[49]美国心理学家埃克曼（Paul Ekman）在十九世纪六十年代提出并在后来发展起“情绪指纹”理论。他发现不同民族的语言虽然不同，但对应相同基本情绪的面部表情（脸部肌肉运作方式）却是接近的、普遍的。他还为人类的3000多种有意义的表情总结了清晰的编码和规则。以埃克曼的研究为基础，全世界已开发出多个表情分析系统。比如加州大学圣地亚哥分校研发的CERT（表情识别工具箱）可以自动检测视频流中的人脸，实时识别“面部表情编码系统”的30个动作单元组合，包括愤怒、厌恶、恐惧、喜悦、悲伤、惊奇和轻蔑等表情。经卡内基-梅隆大学和麻省理工学院联合检测，CERT的表情识别准确率达到80.6%。[50]目前，微软、IBM 、亚马逊、京东等公司已经开始出售“情绪识别”算法——基于人脸的分析来推测人类的心情。迪士尼公司就开发了一个观众表情分析系统（FVAEs）。在实验中，研究小组在一个能容纳400人的电影院里设置了4个红外摄像机，并把FVAEs应用到了150部热播的电影中。在漆黑一片的影厅中，这个系统能够捕捉观众们的哄堂大笑、微微一笑或者悲伤流泪等反应。从3179名观众中，研究小组最终获得了1600万个面部特征的数据集合。通过分析这些表情，迪斯尼公司得以知道观众是否喜欢这部电影，哪些情节最能打动人，他们由此可以用量化的方法对电影的情节设计进行评价。

2014年年底，日本著名的投资公司软银在新闻发布会上展示了一个名叫“胡椒”（Pepper）的智能机器人，它通过“情绪引擎”和云计算来辨识分析人类的表情、肢体动作、语调和情绪。据称，“Pepper”还能提供保姆、护理、急救等服务，而且具备学习和情感表达等能力。软银CEO孙正义称：“人们常把一些没有感情、没有心的人称为‘机器人’，我们在人类历史上第一次给了机器人感情和心。”[51]当然，真正确认并理解人的情感，不是一件很容易的事，因为就算是人与人之间的情感把握也是难题，比如我们经常忽视遗漏与我们交流的对象的细微情绪波动，也常常曲解对方的情感反应。有学者撰文指出，“情绪指纹”理论在方法论上存在缺陷。有学者通过对数百个实验的分析得出结论是：在自主神经系统中，不同的情绪并没有一致的特定指纹。一种精神活动（如恐惧）竟然不是由一组神经元创造的。相反，只有不同的神经元组合起来才能产生恐惧。在美国心理科学协会的委托下，五位科学家展开了数据收集和科学证明。他们的研究成果显示，情绪的表达方式多种多样，很难从一组简单的面部运动中可靠地推断出一个人的感受，表情与心情之间没有坚实的科学依据证明有直接关联。该论文的作者之一，马萨诸塞州的东北大学心理学教授莉莎·费德曼·巴瑞特（Lisa Feldman Barrett）在接受媒体采访时表示，数据显示，人们在生气时，平均只有不到30%的时间会皱眉。所以愁眉苦脸不是愤怒的表现，而只是众多愤怒表达之一。这意味着超过70%的情况下，人们在生气的时候不会皱眉。最重要的是，他们在不生气的时候经常会皱眉。Barrett说，虽然“能检测到一张愤怒的脸，但这与察觉到愤怒的情绪是两码事。”[52]当然，这些批评都无法断言情绪识别是不可能的。事实可能是目前做不到精确的识别，只是因为还有没有找到更科学的方法。纽约大学教授加里·马库斯（Gary Marcus）就指出，目前普遍使用的深度学习技术可能擅长模仿人类大脑的感知任务，比如图像或语音识别。但它在理解对话或因果关系等其他任务上仍有很大不足。是以斯坦福大学教授李飞飞所言，（深度学习）无论在智力、人力或机器设备方面，都还有很长的路要走。为了创造能力更强、智能范围更广的机器，也就是俗称的通用人工智能，深度学习必须与其他方法相结合。马库斯和欧内斯特·戴维斯（Ernest Davis）在他们的新书《重启人工智能》（Rebooting AI）中主张开辟一条新的前进道路，他们认为其中一些可能来自我们如何构建算法的规则。未来，AI可以通过语音识别、视觉识别、文字识别、表情识别等数据，结合深度学习，再加上人工的标记，从而具备识别情绪的能力。

总之，智能技术目前看起来还相当不成熟，但至少它们已经可以在一定程度上认识人心了。

总结

人类与猿类有什么区别？历史学家尤瓦尔·赫拉利（Yuval Harari）在《人类简史》（Sapiens: A Brief History of Humankind）一书中认为，人类与其他生物的不同点之一是我们会集体说谎。无论任何，人都是这个世界上最复杂、最智能的生物。人类的大脑包含了无数的智能组合和联结（要特别注意这种联结的意义，因为“思考、感受和行动都是依靠许多神经元的综合活动，而不是单一细胞的产物”[53]）。

我们与生俱来就有脑中枢，它们控制着各种感觉和肌肉群的移动（如眼睛和四肢的活动），让我们能够区分声音和语言，区分面孔的特征，区分各种不同的触感、味道和气味；我们天生就带有原型专家，他们参与到我们的饥饿、欢笑、恐惧、愤怒、睡眠和性生活中。肯定还有其他许多尚未被发现的功能，每个功能都依托于某种不同的结构和操作模式。“成千上万的基因参与安排了这些智能组合以及它们之间的神经束”。[54]人类的大脑有着超长的短时间记忆的能力，且能够基于情境需要而随时调动这些记忆单元，并加以重新组合，以应对随时面临着的复杂的外部环境的变化。所以，机器要想完整读懂人心自然不是件简单之事。至少到目前为止，还没有发现人工智能可以达到共情式理解的能力，也可能还做不到自主编造谎言，所以机器要真正读懂人心还早得很。但正如前文所述，人工智能已经在一定程度上可以读懂人类创造的多种符号甚至是进行创作，如机器人写作已经被广泛运用于新闻报道[55]、绘画、创作音乐和诗歌。[56]

人工智能正越来越有能力识别人心，但这还不意味着机器有意识和思维力。有学者将人类心智进化的历程分为五个层级：神经层级的心智、心理层级的心智、语言层级的心智、思维层级的心智和文化层级的心智。[57]比照一下人工智能的进化程度，可见它还远未达到思维和文化的层级。因此人工智能领域先驱者马文·闵斯基认为，智能机器人可以完成具有超高智商的人类都无法完成的事，但很多小孩子都能做到的事，它却做不到——比如，产生一点点思维意识。目前的人工智能仅属于弱人工智能，无非是让机器具有某种智能的行为，它却没有达到强人工智能的自主意识——机器能够真正地像人类一样思考（can machine really think）。从识别人心的视角看，当下的技术突破难点还处于识读人的心境、感受、情绪方面。黄欣荣就认为：“机器毕竟是机器，在体力、智力方面胜过人类，但在情感、意志等方面，机器还无法匹敌人类。因为人工智能目前仍是有智力没智慧。”[58]涂子沛曾预测：“表情分析、情感计算，未来将会和更多的传感器、可穿戴设备所获得的数据相结合，即通过人类的表情、语言、手势、大脑信号、心血管血流速度等生理数据，实现对人的情绪、生理状态的全面解读。基于这些数据，机器可以对人类的生理、心理甚至是情绪的变化进行预测。机器作出的这种解读和预测要比人类更为准确。”[59]史蒂芬·霍金在其遗作《大问题简答》（Brief Answers to the Big Questions）中断言，计算机可以模拟甚至超越人类智能。他预测说，若计算机的发展满足“摩尔定律”（Moore's Law）——即运算速度每十八个月翻一番，则将在百年之内超越人类智能。[60]也许到了那一天，一个比我们自己还懂我们的幽灵才会出现。雷·库兹韦尔对这一天更是充满憧憬，他写道：“正是存在于世——有体验、有意识，才有心灵而言，这也是心灵的本质。机器由人类思维演变而来，却在体验能力方面超过了人类，因此它们也可以被认为是有意识、有心灵的，至少机器们自己对这点深信不疑，认为它们也经历过有意义的心灵体验。”[61]

当然，话又说回来，我们人类自己何曾真正能够读懂别人的心呢。胡塞尔预示了一种“人同此心，心同此理”的同理心机制的存在。我和他和你之间之所以能够产生同理心，是因为我们同处一个生活的世界，我们可能会有相似的生活体验。“同情感的缺失，在相当程度上，或许便是与两个相关主体各自所具有的生活的差异性有关的。”[62]海德格尔给人们超越庸常的日常生活的出路是“向死而生”，这种根本性出路的核心是“畏”——对所有存在的虚无化的恐惧。至少到目前为止，机器不能体验人的生活世界，无法理解“向死而生”，无法真正理解“畏”。[63]是以，对机器完全读懂人心的演进程度还没有必要给予苛求，何况基本读懂，甚至比他人更好地读懂我心的可能性还是存在的。

2016年6月3日，微软联合创始人比尔·盖茨在南加州举办的Code Conference大会上表示：“人工智能的梦想今天终于实现了，这是一件好事，也是一件坏事，因为这对未来的人类来说，可能会成为一大担忧。”读懂人心，与其他技术一样，效用都是两面的：一方面可以用于治疗和治理，但另一方面也需要防止对人类本身的侵犯。2018年，伦敦咨询机构“剑桥分析”（Cambridge Analytica）遭到英国数据监管机构——信息专员办公室（ICO）突击调查。这家公司涉嫌非法获取Facebook数据以建立美国选民档案、左右美国大选走向。据报道，“剑桥分析”与2016年特朗普竞选团队合作，利用了多达8700万名Facebook用户的个人档案建立起个人信息系统，以预测和影响民意选择，让选民们在2016年总统选举中投票给特朗普。剑桥公司的所作所为之所以受到高度关注，是因为他们把8700万人的社交数据与美国商业市场上2.2亿人的消费数据进行匹配、组合和串联，找出谁是谁，然后就这些人的性格、年龄、兴趣爱好、性格特点、职业专长、政治立场、观点倾向等上百个维度给人打上标签，并基于这些数据进行心理画像、建立心理档案，再通过这些心理档案开展分析，总结出不同人群的希望点、恐惧点、共鸣点、兴奋点、煽情点以及“心魔”所在。剑桥公司运用的显然是一种新型读心术。当然，这种读心术还是基于数据分析师和计算机共同完成的。其实，即使是通过公开的数据，人工智能也可以成为影响、操纵、控制他人心理和观点的工具，这种心理入侵、思想入侵和意识入侵的行为更应该引起广泛的关注。据说，未来的人类将会改变通过视、听、触觉与人工智能交流的方式，而是通过脑机接口更直接地操作人工智能系统这个新的“超级大脑”。[64]这一前景，看起来是那么令人向往，也许未来我就不用那么刻苦地学习读书了，识别人心也变得轻而易举，女孩子的心思再也不用猜了。诺贝尔物理奖得主理查德·费曼（Richard Phillips Feynman）曾说道：“在某种程度上，科学是开启天堂之门的钥匙，但它同样可以打开地狱之门。我们没有得到任何指点来知晓哪个门是通往天堂之门。但为此我们就该把钥匙扔掉，从此放弃进入天堂之门的求索？抑或我们该就什么是运用这把钥匙的最佳方式继续争论？这当然是个非常严肃的问题，但我认为，我们不能就此否认这把天堂之门的钥匙本身的价值。”[65]诚哉，斯言。

（本文系国家社科基金重点项目“新媒体环境下公共传播的伦理与规范研究”的中期成果，项目编号：19AXW007[2019]）

【作者简介】吴飞，浙江大学求是特聘教授，浙江大学公共外交与战略传播研究中心主任。研究方向为新闻传播理论、技术哲学、国际传播。主要著作有《国际传播的理论、现状与发展趋势研究》《火塘·教堂·电视——一个少数民族社区社会传播网络分析》《传播学的想象力》等。

【引用格式】吴飞：《人工智能终可“识别人心”》，《学术前沿》，2020年1月上，第16-29页。

文章刊发于《学术前沿》2020年1月上，转载请注明来源。