智能传播中算法偏见的成因、影响与对策
2021-01-18 14:49:46
  • 0
  • 0
  • 5

来源: 国际新闻界   原创 许向东

许向东,中国人民大学新闻学院教授、博导,中国人民大学新闻与社会发展研究中心研究员。

王怡溪,中国人民大学新闻学院博士生。


随着智能算法进入我们的工作生活领域,并在获取信息、交流观点等方面产生诸多影响,人们开始形成这样的认知:计算机程序都是没有价值观和立场的,算法是客观中立的,由程序得出的结论是公平公正的。原则上,它们可以通过减少人类的偏见,做出公正的分析和决定。但是,由于缺乏充分的监督、制衡和上诉程序等,人们愈发担心会适得其反,算法会复制并加剧人类的错误(Nature,2016:449)。凯文·凯利(Kevin Kelly)(1994/2010:5)认为:“人们在将自然逻辑输入机器的同时,也把技术逻辑带到了生命之中。……机械与生命体之间的重叠在一年年增加。所有结构负责的东西都被看作是机器,而所有能够自维持的机器都被看作是有生命的。……人造物表现得越来越像生命体。”人类通过日渐智能化的计算机程序,在模拟人脑思维的道路上不断探索,在表现出生命体属性的同时,也呈现出人类的缺陷——偏见。由计算机程序产生的比较微妙和隐秘的“算法偏见”(algorithmic bias)问题开始引起各行各业的关注。


算法偏见:
社会偏见在人工智能时代的延伸

算法是技术进步和现实需要双重驱动下的产物,因其所带来的各种优势,如有效降低获取信息的成本、推动平台盈利,而被广泛应用于交通运输、医疗保健、公共安全、娱乐产业和教育等领域,我们开始逐渐习惯于通过数据、依靠算法程序来寻找认识世界、认识自我的规律。但是,我们也应该清楚,算法是靠学习和模拟人类思维来运行的,那么它既可能模拟人类的优点,也不可避免地模拟人类的缺点。随着智能算法的广泛应用,诸多领域和行业中出现的“算法偏见”问题引起了人们的关注,国内外学者见仁见智,赋予了“算法偏见”不同的定义:有学者认为“算法偏见”是“算法程序在信息生产与分发过程中失去客观中立的立场,造成片面或者与客观实际不符的信息、观念的生产与传播,影响公众对信息的客观全面认知”(郭小平,秦艺轩,2019:20)。也有学者认为算法偏见是指在看似客观中立的算法程序的研发中,其实带有研发人员的偏见、歧视等,或者所采用的数据带有偏见或歧视(新华网,2018年3月22日)。

(一)智能传播中的算法及其作用

智能传播是“建立在新能源、人工智能、大数据、物联网、机器人技术等技术发展和突破的基础上,以物联网数据流替代人力、技术、传统生产要素,以智能技术决定内容生产、传播、营销和集成为决策方向的新的传播方式”(孟威,2018:46)。也有学者认为,智能传播是“由人工智能技术驱动的传播,即通过数字计算机在‘模拟、延伸和扩展人的智能’的过程中,实现‘感知环境、获取知识并使用知识’的信息生产活动”(孙江,何静,张梦可,2020)。总之,智能传播是将人工智能技术应用在信息的生产与传播中的一种新的传播形式、体系和生态。它与传统传播、互联网传播相比,无论是在信息丰富程度、传播模式,还是新闻传播的透明度、及时性、交互性等方面,有着明显的优势:在信息过载时代,智能传播实现了精准传播,提高了传播效率;可以对用户实施多点对一点的信息传播;高度的透明打破了信息传播的不对称;最大程度地实现了信息传播的交互性和及时性。

当下,智能传播主要表现在内容生产的自动化和产品推送的精准化,二者颠覆了新闻生产与分发的传统模式,解决了信息过载,重建了用户连接。然而,自动化生产信息内容和为用户画像实现精准推送都离不开大数据算法的支撑。自动化的新闻信息生产过程就是“在没有或者有限的人类干预下,由预先设定的程序将数据转化为新闻文本的自动算法过程”(Carlson,2015)。内容生产者在掌握大体量数据的基础上,参照某些计算公式,运用算法,套用已有模板生成规范的新闻稿;或者通过挖掘、分析用户数据,或者根据受众自定义的标签,将同一内容的信息整合成多篇个性化稿件;或者将采集到的数据与某个记者的数据模型相结合,通过运算生成符合该记者风格的稿件。由此可见,无论采取何种方式,算法几乎介入了内容生产的所有环节,通过大数据的运算与分析自动生成了新闻信息,大大提高新闻生产的速度和产品的数量,并有效消除人为的技术性差错。目前,推荐算法已经成为国内外大多数新闻APP和社交媒体平台使用的主流,通过机器学习持续关注用户的阅读数据,再辅助以场景分析,来提升新闻信息推送的准确率。推荐算法的实质就是大数据分析,通过抓取和分析用户的人文数据和行为数据,推测出用户的个人特征、阅读偏好等。算法不仅提高了内容生产与信息推送的效率,而且实现信息与用户的精准匹配。

技术红利与技术缺陷是相伴相生的,人工智能应用于新闻传播领域在带来传媒变革的同时,也不可避免会产生一些问题。尤其是算法主导着当前传媒技术的范式,新闻信息的生产与发布无不受到算法的支配,如何规避和消除算法所带来的负面影响显得日渐重要。

(二)媒介偏见和算法偏见

“媒介偏见是指媒介在传播中没有保持平衡和公正的立场,传播了武断的态度和错误观念,引发受众的偏见态度或歧视行为,影响了社会心理的客观认知,最终对媒介形象和偏见行为对象等产生一定损害。”(陈静,2015:45)有西方学者通过分析美国总统大选中的媒介偏见,将其划分为三类:守门的偏见,即记者编辑在新闻事实的选择上有明显的偏好;报道的偏见,即在新闻报道量上存在明显差异;陈述的偏见,即在新闻报道的语言陈述中存在倾向性(D’Aleesio & Allen,2000)。美国学者罗伯特·塞里诺认为媒介偏见存在于新闻来源中、新闻省略中、新闻选择中、标题中、言辞中以及新闻照片的选择、新闻图片的说明等十三个方面,并且认为,大量的新闻都必须面对公众的需求和突发新闻事件,为此产生的混乱使得偏见几乎不可避免(Cirino,1971:134)。新闻生产中偏见产生的原因可以从媒体的内部因素和外在的社会条件来寻找。“一篇报道是知情者和已知的事实的混合产物,观察者在其中的作用总是带选择的,而且通常是带想象的。”(李普曼,1922/1984:51)在新闻生产过程中,报道者受到自身思想意识中偏见的影响,而个人认知上的偏差又影响到了新闻制作的客观公正性。“这种偏见往往是通过记者编辑巧妙的遣词造句穿插到新闻报道中的。……这种偏见可能包含记者对某种人的好恶、对某件事情的个人态度,甚至潜藏着记者编辑的政治议程、政治纲领或目标。”(李希光,2002:5)在外部社会环境上,掌握政治资源、经济资源的政府政党和经济利益集团,也会干涉媒介新闻产品的制作和播发。“游说和利益集团的压力常常迫使媒体美化现实、夸张现实。”(李希光,2002:6)由此产生的媒介偏见背离了新闻追求事实和真相的初衷。另外,社会偏见是媒介偏见的基础,社会偏见以观念的形态被传播者接受,并被融入媒介产品,最终到达受众,并向其输出新的偏见观念,受众偏见有可能成为偏见传播的新起点。传统媒体时代,新闻工作者可以自主地把控新闻信息的生产和发布,如今互联网平台以及智能算法逐渐改变着新闻生产和发布的传统逻辑,媒介偏见问题也有了新样式。

算法的有效性建基于大量数据材料分析,而这些材料大多都源自社会现实,所以说,算法偏见是社会偏见的延伸,也是媒介偏见在人工智能时代的“升级版”,本质上是“在新闻选题、新闻报道中所体现出的价值判断的不客观、不公正”(杨保军,杜辉,2019),它“存在于算法设计和运行的每一个环节”(张超,2018)。“我们过于担心人类的偏见与自相矛盾,同时又过于相信计算机的客观公正性。”

我们的错误在于我们“信任算法,因为我们认为算法非常客观。但事实上,这些算法都是人编写出来的,人们可以把所有的偏见与观点植入其中”。换言之,计算机在运行算法时可能是不带有任何偏见的,但是,我们已经发现,这并不意味着算法在编写过程中没有受到人类偏见的影响(多梅尔,2015/2016:138)。

据美国皮尤研究中心2018年11月在对美国成年人的一项调查中发现,当算法工具在不同的现实情况下被使用时,公众担心这些算法会对那些做出决策的人产生影响。支持者认为,这些系统承诺提高准确性,减少人类在重要决策中的偏见。但是,58%的人认为计算机程序总会反映出某种程度上的人类偏见(Smith,2018)。也就是说,算法有时会打着中立的幌子,以一种较为隐蔽的方式强化着现有的偏见和差异。如果使用不当,算法也会变成一种杀伤性武器,对社会产生危害。

(三)算法偏见常见类型

国内法学专家刘友华按照损害的主体范围和利益范畴的不同,把算法偏见划分为损害公众基本权利的算法偏见、损害竞争性利益的算法偏见和损害特定个体权益的算法偏见(2019:56)。有学者立足算法自身的运行问题,将算法偏见划分为四种类型:

一是“互动偏见”,指在算法系统与用户互动过程中使算法产生的偏见,“当机器被设定为向周围环境学习时,它们不能决定要保留或者丢弃哪些数据,也无法判断哪些数据是对的或错的”;二是“潜意识偏见”,“指算法将错误的观念与种族和性别等因素连结起来”;三是“选择偏见”,“指受数据影响的算法,导致过于放大某一族群或群组,从而使该算法对其有利,而代价是牺牲其他群体”;四是“数据导向的偏见”,“指用来训练算法的原始数据已经存在偏见了”,“机器不会质疑所接收到的数据,只是单纯地寻找其中的模式。如果数据一开始就被扭曲,那么其输出的结果,也将会反映这一点”(Socal,2017)。

美国学者巴蒂娅·弗里德曼(Batya Friedman)和海伦·尼森鲍姆(Helen Nissenbaum)认为算法存在三种类型的偏见:先存偏见、技术偏见和突发偏见。先存偏见通常存在系统创建之前,根源于社会制度,“可能来自整个社会、亚文化,正式或非正式、私人或公共组织和机构。它们还可以反映对系统有重要影响的个体的偏见,例如客户或系统设计者”。技术偏见源于技术限制。如由于计算机技术(包括硬件、软件和外设)的限制,或由于使用的算法未能在所有重大情况下公平对待所有群体,或由于伪随机数据产生的缺陷、误用。突发偏见通常在设计完成后的一段时间内出现,主要源于社会知识、人口或文化价值观的改变,如社会中新知识的出现,这些新知识不能纳入系统设计,或者当使用系统的实际用户总体与系统设计中假定为用户的总体不匹配(Friedman & Nissenbaum,1996)。

科学技术“嵌入了也被嵌入在社会形态、身份特征、规范标准、常规惯例、言论主张、机械设备以及组织机构中——简单来说,是在所有我们称之为构建了人类社会的元素中”(德拉迪斯,2014/2017:10)。“人类文化是存在偏见的,作为与人类社会同构的大数据,也必然包含着根深蒂固的偏见。而大数据算法仅仅是把这种歧视文化归纳出来而已。”(张玉宏,秦志光,肖乐,2017)算法是通过对现存数据的训练,进而获得数据特征的。然而,数据是对客观世界测量结果的记录。“除了测量,新数据还可以由老数据经计算衍生而来。测量和计算都是人为的,世上本没有数,一切数据都是人为的产物。”(涂子沛,2014:256)数据是社会现实的映射和镜像,一旦社会存在偏见,这种偏见就会反映在数据上,大数据算法就会如实地吸纳并反映这些偏见。在传统新闻生产中,偏见更多的产生和体现在制作环节,因受众定位相对模糊,偏见在产品发布环节表现的还不是很明显。但是,算法偏见不仅可以产生和体现在制作环节,而且由于产品推送的精准化和个体化,偏见也反映在产品的发布环节。由于算法能够聚集更多的社会关注,无论在新闻产品的生产环节还是发布环节,一旦出现偏见,在传播的速度和覆盖面上犹如增添了助燃剂,为社会偏见的传播提供了氛围。媒体是发布算法偏见的行为主体,算法偏见的传播依附于新闻的生产和发布,因此,媒体自身对算法偏见持有清醒的认知与自省的态度,以及为防范于未然所采取的相应对策显得尤为重要。可以说,社会偏见与算法偏见是相互依存的,社会偏见是算法偏见的基础。媒体是发布算法偏见的行为主体,算法偏见的传播依附于媒体,因此,媒体自身对算法偏见持有清醒的认知与自省的态度,以及为防范于未然所采取的相应对策显得尤为重要。


产生算法偏见的重要环节

算法在进入实际应用之前,要经过问题的定义、数据的输入、机器的学习和训练等环节。问题的定义就是明确工作任务,把需要解决的问题由抽象的概念转换为具体的变量,而变量的准确程度取决于设计者所具备的技术水平、占有的资源以及对问题的认识。数据的输入环节包含了数据的收集、清理、审查等步骤。收集到的数据要能够准确反映出需要定义的问题,并能代表最终应用的实际情况,算法设计者还要依据经验处理缺失值和错误值。算法所采用的数据集有自己的局限和缺陷。即使是包含了数十亿条信息的数据集,也难以完全捕捉到人们生活的丰富性和经验的多样性。机器的学习和训练环节包括了模型的选择、训练和优化。因为机器学习有不同的种类,模型选择就是由算法设计者来设定最基本的数据处理方式,而后由机器自行学习加以完善;模型的训练与优化就是凭借计算机的数据运算和处理能力,不断地分析数据、调试参数、完善模型的过程。从中我们不难看出,设计者自身的价值判断、数据所隐含的社会倾向性等因素贯穿了算法的整个过程。

(一)运算规则设计中的算法偏见

通过大数据分析来研究受众的阅读偏好或者搜寻热点新闻的传播情况时,就需要编写一定的算法,在这个过程中就要预设一定的“标准”来对信息类型或受众偏好进行归类。《洛杉矶时报》在一篇有关洛杉矶警方人为降低犯罪率的调查报道中,使用机器学习算法解析了《泰晤士报》先前调查中的犯罪数据,将经过训练的算法放到2005年至2012年之间发生的近2400起小规模犯罪的随机样本中,以找出哪些犯罪被错误分类了。在对该结果进行人工检查时发现该算法错误率高达24%(Nahser,2018)。由此可见,预设分类标签不是客观的度量,而是一种社会建构概念,一定程度上反映的是人的主观性。

在算法中存在许多偏见的来源,其一是对算法规则的硬编码,以及对已经反映了普遍社会倾向的数据集的使用。有国外研究团队通过选取并考察了微软和Facebook等大公司支持的图像训练数据集MSCOCO发现,一些标签和性别绑定的程度十分突出,比如站在厨房里、做家务、照看小孩子的就被认为是女性,开会、办公、从事体育运动的则是男性。有超过45%的动词和37%的名词,会展现超过2:1的性别比例偏差(Zhao,Wang,Yatskar,Ordonez & Chang,2017)每张图片看起来都很正常,然而算法造成了累加效应,大量的此类照片放大了社会中已有的性别偏见。其二是虚假或可疑的相关性。我们把偏见输入算法中去,同时算法也向我们输出偏见(Nature,2016)。从拟解决问题的定义到运算模型的选择,算法设计者的个人主观色彩,包括个人偏见,也在不断融入算法的生产过程。在传统媒体主导新闻传播的时代,掌控新闻生产与传播的主要是采编人员,如今正逐渐让位给算法的设计人员,然而,这些程序员有无相关的背景知识,是否受过专业训练,是否设立审查环节来杜绝编码中存在的主观偏颇,无不在考验算法的公正性、客观性。此外,利用智能技术和热点事件提升流量、增加用户是互联网时代资本运营的商业逻辑,也直接影响着算法运算规则的设计。

(二)数据收集、处理及运用中所隐含的偏见

纽约大学教授丽莎·吉特曼(Lisa Gitelman)在《原始数据只是一种修辞》一书中指出:

数据从来都不可能是原始存在的,而是依照一个人的倾向和价值观念而被建构出来的。我们最初定下的采集数据的办法已经决定了数据将以何种面貌呈现出来。数据分析的结果貌似客观公正,但其实如同所有新闻报道一样,价值选择早已贯穿了从构建到解读的全过程。最终的结果看起来很无私,但实际上从构建到演绎的整个过程一直伴随着价值选择(徐端,2014:59)。

数据在收集的过程中,偏差就已经在积累了。“哈佛大学的计算机系教授拉谭雅·斯威尼(Latanya Sweeney)发现,在搜索引擎上搜典型的黑人名字,搜索引擎会有超过80%的概率在搜索建议里提供‘逮捕’‘犯罪’等词汇,而没有种族特征的却只有不到30%。”(李子李子短信,2018)因此,数据的统计方法、统计范围都包含着一定的价值判断和价值偏向,训练所用的数据的体量、多样性、真实性、准确性都将影响到算法模型的成熟度、对同类问题预测的精准度等。

计算机和大数据领域有个概念“Garbage in, Garbageout”,从字面上看,如果输入垃圾数据,则将输出垃圾数据,意指输出质量是由输入质量决定的。针对算法偏见,《自然》杂志在《大数据算法应该承担更多的责任》一文中用了类似的表述 “Bias in,Bias out”(Nature,2016)。首先,基于目前的数据采集技术,样本采集量越大,出现数据统计上的遗漏和误差的概率越高,另外,混乱繁杂、真假难辨、可利用度低等问题也为数据采集设置了重重障碍。其次,一些机构出于商业利益或者其他目的,对某些方面的数据刻意造假,试图左右人们的选择和判断,数据的失真最终将会影响计算结果的准确性。最后,用于机器学习的数据主要来源于互联网及其各种终端。国内学者对互联网数据的代表性提出了四点质疑:基于互联网生产的数据来源为网民而非全体大众;非网民与网民之间存在较明显的差异;大数据分析的资料为活跃网民数据,而并不能代表全体网民;如果对网络数据进行抽样,传统抽样调查时存在的抽样误差和非抽样误差同样存在,这就进一步扩大了基于大数据进行新闻生产的风险性(苏林森,马慧娟,张东岳,2014:16)。这些因素将导致所收集的数据不能完全反映算法模型最终应用的实际情况。

(三)运算过程中的算法偏见

算法的运行是按照既定的程序输入数据,依据计算法则对数据进行解读,最后输出运算的结果。从表面上看,算法的运行过程不太可能产生偏见,但事实上并非如此。众所周知,高效、精准的信息推送靠的是算法推荐系统对用户需求和兴趣的认知来实现的,而这里的“认知”则是指推荐系统的智能处理和深度学习能力。深度学习就是通过“学习”大体量的用户行为数据,来把握数据特征以及数据特征之间的关系,进而建立数据模型,实现优质推荐。

算法系统进行深度学习的开端是严格按照事先设定的原则来运行,而且数据的筛选、供给是由人工实施的,如果用于训练的数据存在某种倾向性的话,经过一段时间的学习,所形成的算法推荐模型也就会产生偏见。比如:

训练大数据算法的数据,主要依赖于抽样,然而一旦抽样,随机性就很难保证,一些稀有的现象( 即涉及少数族群的数据) 很可能就选择不上,从而导致训练结果更“青睐”于在统计上占多数族群那一类。为了设计方便,大数据算法有时会“不自觉地”把一些特征不太明显的少数族群数据,直接归属于多数族群的错误( 或噪音) 数据之中,而非细细考究它是不是属于某个少数族群,……因为他们所占的比例很小,对整体的预测精度的影响也不大(张玉宏,秦志光,肖乐,2017)。

“机器学习就是程序通过实例提取模式,并使最初的算法或模型在实例中不断优化的过程。”(刘友华,魏远山,2019:69)这也意味着,机器学习技术不仅应用于算法模型的训练过程中,也同样适用于算法的应用阶段。人工智能的目标是实现机器学习的智能化,算法在深度学习,即与周围环境的交互过程中,不可避免地会受到外部因素的影响。在和用户互动时,算法不能决定用户会输入何种数据,无法决定保留或删除某些数据,只能被动地利用用户和外部环境所提供的各种数据进行深度学习。如果与算法互动的对象提供了富集偏见的新数据,就会导致原本公正的算法在深度学习之后异化为问题算法。2016年,微软曾经在Twitter上推出了一款聊天机器人Tay,它就是通过与人类对话进行学习的,因为受到美国4chan网站一个网络聊天社群的不良影响,变成了具有种族歧视、性别偏见的AI。


算法偏见对新闻信息传播的影响

算法的应用降低了信息分发的门槛,大量入驻内容聚合平台的自媒体拥有了与机构媒体同样的向社会发布信息的权利。个人传播的信息或观点中隐含了偏见,只会影响少数人或部分人,而算法一旦存在偏见,则会在短时间内将错误信息推送至众多用户。从新闻信息传播的角度来看,算法偏见的影响主要表现在以下几个方面。

(一)背离了公平公正的新闻职业规范

受多种因素的影响,我们很难实现对世界的全面、客观的认识,偏见作为主观世界的一部分是通过影响人们的判断和推理起作用的,它影响着我们对某些事物的评价、记忆,甚至会强化、维护其固有偏见合理性的认知。从新闻职业伦理的角度看,公平公正历来是新闻媒体标榜的旗帜,算法偏见作为一种预设的态度,将错误或偏颇的判断融入新闻传播活动中,违背了新闻职业规范。央视的《据说春运》中有一期节目提到“80后过年九大怕:最怕被逼婚”。央视根据春运期间的百度指数,搜索“春运”的人群中80%是男性,20〜39岁的人群占79%。搜索“相亲”的人群78%是男性,这其中20〜39岁的人群占79%。由此,央视得出结论:春运期间回家过年的年龄处于20〜39岁间的人群,心里在盘算着如何躲过父母安排的相亲活动。问题就出在解读数据时,片面地认为“搜索相亲”就是为了自己应付“相亲”,年龄处于20〜39岁间都是未婚的。分析数据离不开算法,但是,滥用推理逻辑和相关性分析,轻易归因,就难以发现背后的真相。算法偏见渗透于新闻信息的生产与传播的过程中,其所带来的主要有认知偏见和道德偏见,认知偏见是指个体的认知与社会认知和社会现实不符;道德偏见则是社会知觉或态度与某一群体或社会所拥有的公平原则之间的不一致(Sun,1993:1152)。借助媒体的放大效应,通过互联网和人际二次传播的渠道,偏见得以迅速和大范围的传播,其所产生的危害不仅造成了信息传播的混乱,误导社会舆论,动摇媒体的公信力,而且因歪曲的认知和态度误导社会心理,成为产生社会隔阂和社会冲突的潜在因素。

(二)挑战了用户知情权和信息选择权

算法在社交媒体中的运用使用户接收到的内容是被社交平台筛选过的,一定程度上替用户进行了信息选择,消解了用户的消息选择权。Facebook长期标榜其新闻推送是由智能算法自动完成的。然而,Facebook 上“关于新闻主播Megyn Kelly力挺希拉里而被福克斯开除的虚假新闻却被推至话题榜首位,这间接证实了Facebook的党派倾向”(袁帆,严三九,2018)。“媒体学者C.W.安德森指出,能用技术熟练驾驭新闻发布渠道的新一代媒体人,对有关现有和潜在读者的海量量化信息重度依赖,认为读者是‘算法受众’,这些人有着极容易识别的需求和欲望,用合适的算法很容易就能识别并给予满足。”(莫罗佐夫,2013/2014:168)实际上,有取必有舍,选择意味着放弃。优先推荐依据所隐含的价值偏向过滤掉了与用户偏好无关的信息,突出了用户 “欲知”诉求,忽视了“应知”诉求,损害了用户的知情权和信息选择权,消减了用户的人文价值判断和社会责任意识。算法推荐在满足用户个性化需求的同时,窄化了用户的信息接触面,形成较为封闭的空间,在这个空间内,原有的信息和观点得到进一步的印证和强化,消减了信息传播的多样化,所带来的“信息窄化”增加了出现“回音室效应”的风险。为此,2018年12月,欧盟人工智能高级别专家组公布了一份《可信赖的人工智能道德准则草案(Draft Ethics Guidelines For Trustworthy AI)》。该草案在核心原则中不仅提出AI不能对公众造成生理和精神上的伤害,避免算法和数据带来的偏见和歧视,还要保证公众具有充分的自主决策权利,包括有权选择是否接受AI提供的服务,以及有权随时退出与AI的交互等。用户的知情权和选择权主要体现在能够根据自己的意愿,自由地支配合法信息,实质上这是尊重人的自主权的表现。对算法而言,就是不干涉用户的信息选择自由。

(三)易于解构社会共识,引发舆论风险

随着信息传播权利的下放、社交化媒体的壮大,主流媒体主导的新闻选择受到了干扰,社交平台的热点话题,尤其是热搜榜等开始取代传统的议题设置,主流舆论的掌控权逐渐向操控社交平台的算法程序转移。可以说,“在一个媒体和代码无处不在的社会,权力越来越存在于算法之中”(Lash,2007)。当前,我们开始进入一个高度个性化的世界,许多公司已经利用算法来自动生产故事。“下一个合乎逻辑的步骤,是让这类故事瞄准具体读者,给我们带来根据用户需求量身定制新闻故事的新一代内容农场。这种改变对我们的公共生活意义深远:这种个性化可能会破坏整个城市都阅读相同报道所带来的团结一致、集体行动和充分讨论的机会。”(莫罗佐夫,2014:173)算法不仅有助于媒体精准定位用户,提高传播信息的效率,也有利于用户快捷地获取所需信息,但这种运作模式左右着人们的社会认知行为,影响人们对世界的看法。在技术不断迭代更新的环境里,智能算法与社交媒体的结合突破了主流媒体对传播渠道的垄断,体现了强烈的个性化和利益相关性,削弱了传播的公共性,影响了主流价值观的构建。尤其是在“算法神话”的遮蔽下,非理性的、偏见的、煽动性的信息传播打着“个性化”的旗号,解构了主流的社会共识,埋下了引发公共舆论的潜在风险。


新闻传播中算法偏见的应对策略

算法使物质生产发生了变化,指导和管理生产的各项规制也需要及时做出调整,以避免因滞后性导致“文化堕距”的出现。算法偏见的成因是多样性的,对其能够产生约束和规范效应的规制不仅只涉及技术问题,同时还包括法律法规、职业伦理等,需要从多个方面布局。

(一)从法律法规层面规约算法设计者和使用者

2019年4月,美国两位参议员科里·布克(Cory Booker)和罗恩·怀登(Ron Wyden)联合提出了《2019算法问责制法案》(Algorithmic Accountability Act of 2019),试图对人工智能机器学习中的偏见和个人敏感信息的使用问题进行规制。他们认为算法越来越多地参与到人们生活的重要决策中,但是,这些算法往往依赖、而不是消除有偏见的假设或数据,这些假设或数据实际上将会对妇女和有色人种产生歧视。因此,法案提出制定关于算法的评估规则,必须评估算法是否存在歧视性偏见以及它们是否对消费者构成隐私或安全风险。算法偏见、算法歧视等问题的暴露使得明确责任的归属,以及由此衍生的人们对算法的信任,成为了影响算法技术发展的瓶颈,构建适用于算法的法律体系已经成为亟待解决的现实问题。

当下,在尊重算法运行逻辑的基础上,明确算法设计者和算法使用者的行为有助于避免算法偏见的产生。算法设计者对自己设计的算法负有直接责任,对因算法设计问题所造成的歧视、偏见等有损使用者的结果理应承担一定的责任与义务。

首先是数据可查义务。为保证算法或机器学习的透明性,算法设计者应当对数据的收集方式、来源、内容、处理过程及依据进行详细记载,并就训练得到的算法进行真实详细的阐释,说明存在的缺陷与可能出现的风险;其次是解释性义务。算法设计者应当对算法的技术原理进行解释,尤其是对数据内容、数据特征选择以及权重等进行说明;最后是恶意操纵责任。若算法设计者故意或恶意设计问题算法,按不同情形可以承担不同的责任(刘友华,2019:64)。

算法使用者(尤其是将算法用于商业运行的公司)也同样承担着因算法问题给算法服务对象造成损害的责任。算法的使用需要大体量的数据,而数据采集方式的隐蔽性以及数据挖掘技术的进步,加剧了数据被非法收集和过度分析的风险。因此,不仅在采集、使用、交易数据时,算法使用者不能以隐蔽或欺骗的方式获取、滥用和泄露个人敏感信息。而且在算法使用者运营之初,“对算法商业化运营的市场准入进行控制,要求将算法用于商业运行的公司进行登记备案,说明所采用算法的原理,并将运用算法的信息在不损害商业秘密前提下向社会公布。……市场监管部门应定期和不定期对企业运营情况进行审核,监测算法运行情况。” (刘友华,2019:66)如果算法使用者因算法偏见等问题,侵害了算法服务对象乃至个体的利益,相关部门可以参照既有法律法规给予相应的处罚。

(二)以“技术之力”消除“技术风险”

技术的发展遵循着一种循环逻辑:为解决问题采用了新技术,新技术引发了新问题,然后采用更新的技术去解决问题。

首先,将两类机器学习适度结合。机器学习就是利用一些数据,通过训练摸索出规律,来分析未知的数据。当前,机器学习算法主要分为两大类,即监督学习(supervised learning)和无监督学习(unsupervised learning)。目前,大多数算法训练采用的是监督学习,所使用的数据来源于算法设计者选择的标签数据,而算法系统不会质疑这些数据是否存在偏见或歧视,它只是按照既定原则去探寻输入输出的关系,由于这一过程中掺杂了人的活动,难以保证数据做到完全的客观公正。相对而言,无监督训练使用的是没有任何标签的数据,在不给任何额外提示的情况下,算法系统自己对数据实现分类、识别和汇集,在这个过程中,没有人工的参与,有助于消减那些有意识或者无意识的人为偏见,避免干扰训练数据的客观公正性和算法模型的最终产生。因此,可以考虑在算法系统在生成到优化的不同阶段,把两种机器学习方式结合起来。其次,将公正公平原则嵌入机器学习。从技术层面或者说在机器学习过程中嵌入“机会平等”概念和技术公平原则,在人工智能日渐代替人类做出抉择的时代显得非常重要。国外已经有研究团队依据约翰·罗尔斯的公平技术定义及其“机会公平平等”理论,引入了“歧视指数”的概念,提出了设计“公平”算法的构想(Joseph,Kearns,Morgenstern,Neel & Roth,2016)。最后,提高算法透明度。“黑箱”是控制论中的概念,通常指所不知道的区域或系统。由于机器学习过程中所涉及的技术繁杂,以及排他性的商业政策所导致的不透明等因素,使用户对算法的详细程序、工作原理、具体意图无法了解或无从得到解释,这就形成了“算法黑箱”。算法的透明度问题本质上也是新闻生产的透明度问题。算法自身的复杂性再加上无法洞悉的“算法黑箱”的存在,增加了公众对算法的设计原理、运行逻辑的理解难度。

算法的透明度不仅牵涉新闻生产流程的“客观性”“公平公正”,而且关联着公众对新闻媒体及其产品的信任。因此,随着算法在新闻生产、新闻推送的应用日渐增多,面对的作者的困惑和不愿披露的算法过程,“透明度”越来越多地被用作新闻合法化的规范基础,透明度不仅可以对算法进行有价值的检查,还可以提高算法对道德、文化和认识论等的影响力(Carlson,2018)。

总之,技术只有透明才能获益。每一种技术都能通过以下这三个准则得到改善:用户对技术的了解应当和技术的创造者一样多;技术信息应该随技术一起传播;其他技术也应该了解它的一切(凯利,2012/2012:327)。

(三)建立第三方审核机构,强化行业自律

由于算法有着较强的专业性和复杂性,一般用户很难对算法设计者和使用者实现有效监督,较为可行的方式是建立由科研单位、非营利组织等多主体构成的第三方审核机构,制定完整的运行机制,对涉及面广、影响深远和存有争议的算法进行审查和评估,并借助互联网行业的自净功能来保证算法的客观性和公正性。2017年初,美国计算机学会公共政策委员会为了呈现出算法决策的优势尽量减少潜在的危害,发布了《关于算法透明度和问责制的声明》(2017)。《声明》首先提出算法的所有者、设计者和其他利益相关者应意识到算法的设计、执行和使用中可能存在偏见以及偏见对个人和社会可能造成的潜在危害;其次,监管机构应允许受到算法决策不利影响的个人和群体进行质询和赔偿,即使无法详细解释算法生成结果的原理,算法使用者也应对其通过算法所作的决策负责;再次,算法设计者对样本数据收集方式的描述应保持一致,并公布数据收集过程引起的潜在偏见;最后,应对模型、算法、数据和决策等进行记录,以便第三方机构在怀疑算法存在危害时具有可审核性。

通过行业内的自我监督和引导,或以行业公约、联盟等方式来规范行业秩序,有助于预防算法的偏见与歧视。2016年9月,Google、Facebook、IBM、亚马逊和微软等人工智能领域的巨头共同成立一家AI合作组织(Partnership on AI)。这个组织致力于推进人们对人工智能技术的理解,并针对人工智能中的道德、公平、包容、透明、隐私、互动等方面,为该领域的研发人员设定需要遵守的行为准则,以保障 AI在未来能够安全、透明、无偏见地发展。2018年4月,微软针对AI的开发与应用提出,为了便于用户理解算法决策的由来,帮助用户识别潜在的偏差和意外结果,要向用户公布有关 AI 系统如何运作的相关信息;当 AI 系统做出决策时,应该无偏见地对所有具有相似性或资格的用户提出同样的建议。

(四)构建公平公正的算法价值观

随着技术的进步、算法平台的反思和运算规则的优化,人们开始对算法有了更深入的认识。算法本身没有价值观,但算法是由人来定义、设计和运行的,人在价值观上的某些缺陷也体现在算法上。就目前的技术水平而言,算法在新闻传播领域的追求是实现高效率的分发、信息流动效率的最大化,以及内容生产的个性化,但是,我们不能忽略的一个前提是算法也要有正确的价值观的引导。因为算法是在做信息的生产与传播,它在属性上就烙下了“媒体”的印痕,它就必须承担社会责任。算法的追求不仅仅是效率和流量,更在于为社会确立、维护正确的价值观。

算法系统除了需要技术人员和运营人员的参与,在实际运行中还有大量用户的参与,尤其是来自用户行为的数据更是进行机器学习的关键,但是,不能完全依靠用户的数据来实现算法的自我进化和修正。正如拉扎斯菲尔德和默顿所说的,“大众传媒是一种既可以为善服务,也可以为恶服务的强大工具。而总的来说,如果不加以适当控制,它为恶的可能性则更大”(Lazarsfeld & Merton,1948)。算法虽然不是大众传媒,但由于其深度参与了信息的生产和发布,自然也需要人类的适度控制与监督。从算法系统的决策、设计到运营,必须自始至终遵循一套正确的价值观体系。尽管信息社会、数字化、大数据等概念已经为人们所熟知,但是,智能算法作为技术快速发展的产物,在大家的头脑中依然是陌生的、神秘的。因此,对算法的设计者、运营者、使用者以及用户而言,可以考虑把“算法价值观”纳入专业技能培养和通识教育体系中,帮助大家认清算法运行的基本原理和局限性。


结语

“时代创造着技术,技术同时也创造着时代。技术的历史不仅是单个发明和技术(印刷机、蒸汽机、贝塞麦炼钢工艺、无线电、计算机)的编年史,它也是在目的集成过程中确定的新时代(整段时期)的编年史。”“技术比任何其他东西都更能定义它们所描述的时代。”(阿瑟,2009/2014:81)算法作为一种新技术,与时代的发展息息相关。如今,算法在新闻信息的生产和发布中仍将会继续扮演重要角色,为了避免出现偏见、歧视等问题,需要在改进机器学习等技术层面继续探索。另外,“解铃还须系铃人”,算法是“人计算人”在人工智能领域的体现,这就不仅需要算法设计者、使用者和服务对象的参与,也需要算法平台、新闻媒体和政府等相关部门的支持与协助,保证实现技术理性与价值理性之间的相互协调和相互交融,进而有效降低产生算法偏见的风险。

本文系简写版,参考文献从略,原文刊载于《国际新闻界》2020年第10期。


 
最新文章
相关阅读