AI情绪识别技术背后一场悄然来袭的暴政 - 萨摩亚

TUhjnbcbe - 2024/7/14 23:27:00

大数据文摘出品

编译：Travis、狗小白、雪清、顾晨波、陈同学、钱天培

从天猫精灵、监控探头，到自动驾驶汽车，情绪检测技术正变得无处不在。

语音助手检测着我们的音调和音色，以便更好地理解命令。

公共空间遍布了跟踪识别人脸的摄像头，据称可以在犯罪分子犯罪之前锁定他们。

在未来，自动驾驶汽车将能够发现驾驶员路怒行为，并强制控制车辆。

不可否认，情绪检测的技术在AI时代不断飞速发展。然而，这些情绪监控技术都基于了一种过时的科学概念：所有人都有同样的六种基本情感。

这样的假设真的成立么？人类情感的粗暴划分又会带来什么后果呢？

让我们从人类情绪研究的源头说起，一起来探究这两个令人细思极恐问题。

一个不幸的少年和被他定义的人类情绪

大多数情绪检测技术都基于一个理论基础，这个理论基础源自一个不幸的少年。

保罗埃克曼出生于年，他的父亲是一名儿科医生，母亲是一名律师。他在青年时期梦想着能效仿他的英雄费迪南德·麦哲伦，有朝一日可以改变世界。

当埃克曼14岁时，他母亲由于抑郁症的折磨而自杀。在年旧金山探索博物馆的一次演讲中他提到即使在他很年轻的时候，也觉得“自己必须做些什么，来弥补无法拯救母亲的事实”。他的梦想从对自然地理的探索转移到对心理世界的探索。

然而在仅仅一年之后，也就是年，埃克曼从高中退学。

他非常聪明，但经常与老师发生冲突。当时，学生只需要两年完成高中学业就可以申请一些大学。之后，埃克曼成为了芝加哥大学的一名本科生。

受到弗洛伊德的强烈影响，埃克曼决定继续完成心理治疗博士学习，研究抑郁症。他对非语言交流着迷，着重研究患者的肢体语言和手部动作。

不久，他意识到他的病人只是代表了一个有偏的样本：他正在研究抑郁症的幸存者，而不是那些已经死于抑郁症的人。他认为，想要更好地理解人类并帮助像他母亲这样的人，不应该通过观察异常行为，而是应该对正常行为加以更深的研究。

抑郁症是一种情绪障碍，这个以麦哲伦为偶像的男人终于找到了自己的思路：探寻是否所有人都经历过一系列共同的情绪。

在20世纪60年代，埃克曼并不是这个研究方向的独行者。

著名的人类学家玛格丽特米德已经花了数年时间环游世界，证明文化会以不同的方式表达情感。最有名的案例是，米德曾在20世纪20年代生活在美属萨摩亚的小岛上，试图研究美国和欧洲青少年所经历的情绪剧变是否具有普遍性。

她发现，年轻的萨摩亚女性没有像他们同时代人在美国经历过的那种与道德相关的强烈感受，如焦虑和厌恶等。例如，对于十几岁的萨摩亚女性来说，在结婚和开始一个家庭之前，进行无罪的性行为是很随意很正常的。

年，当米德的《萨摩亚时代的到来》出版时，她的发现震惊了美国读者，并以强有力的证据表明人类的基本经验，包括情感，是因文化而异的。

米德的研究中关于情感和其他社会现象在文化上构建的证据，对20世纪的女权主义思想和行动有着巨大的影响。她提出这样的观点：自由恋爱是摆脱男性主导地位的一种方式；养育而不是遗传，在人们的行为方式中起着核心作用。在写完《萨摩亚时代来临》之后，米德发现越来越多的例子表明，西方的情感思维方式对非西方土著人的经历并不适用。

例如，她年出版的《印第安部落的变化文化》一书，记录了困扰美国原住民“平原部落”的文化冲突。其成员往往很难从传统习俗转而适应西方的行为和情感。

到20世纪60年代后期，米德的观点在西方几乎都是科学共识，绝大多数学者都认为，情感并非是跨文化统一的。

埃克曼却对此表示怀疑。

埃克曼质疑的源头可以追溯至查尔斯·达尔文的研究。年，达尔文在《人与动物情感的表达》中指出，一些本能行为，比如惊讶地抬起眉毛，在动物和人类之间没有区别。对于达尔文来说，这进一步证明了人类和其他动物具有某种共同的进化祖先，以及情感具有某种生物学来源。

年，米德为达尔文的论文重新写了前言，但她强调这只是出于对历史研究的好奇心。在她看来，和更现代的研究相比，达尔文的研究并不是一项成熟工作。

然而，达尔文的文章对埃克曼产生了巨大的影响。当《人与动物情感的表达》于年再次出版时，埃克曼为其写了一篇前言。他支持达尔文最初的猜想，而这时舆论环境也已经有了变化。人和动物拥有与生俱来的情绪这个观点再度被人们接受，Ekman的研究为此起到了很大作用。

有一点值得注意的是，达尔文并不是第一个猜测情绪是天生的学者。两千多年前，亚里士多德写到，“有些人，他们在任何角度来看都不一样，但却有着相同的面部表情。”亚里士多德也不是唯一一个以这种方式思考的古代哲学家。

它在整个古代都得到了传播，并持续到17世纪后期。受笛卡尔“灵魂的激情”影响，艺术家查尔斯勒布伦写了一篇论文，主张高级艺术应该更多地使用夸张的面部表情，并且他总结了一些基本的情绪表达。他的《学习绘制激情的方法》于年出版。他在著作出版之前就去世了，但他的素描在之后几个世纪对欧洲艺术理论产生了巨大的影响。

脸部表情素描

勒布伦的画作用于相面术，这种相面术认为，脸部不仅是情感展现的窗口，也是心灵的窗口：丑陋就是一种原罪，如果一个人长相近似牲畜意味着这人的品行近乎野兽。

直至20世纪仍然盛传的相面术和其分支学派（比如骨相学），为许多偏见和歧视的流行提供了借口。例如，美国医师詹姆斯在其年的著作《比较生理学》的目录中列了一串类似于“犹太人之于山羊”“阿兹特克儿童之于老鼠”，甚至“土耳其人之于残暴者”这些在当今会被视作种族歧视的文字。

虽然达尔文和艾克曼的著作从未支持过相面术，但面相能够暴露内心想法的古老观点在历史中不断以不同的形式出现，甚至至今仍为人信奉。

到了年的时候，埃克曼陷入了困境：他无法在不首先精确定义表情的情况下研究情感行为，但当时没人能做到为这些表情下定义。这时，后来成为埃克曼最亲密的共事者——心理学家苏尔凡为其引荐了达尔文的著作《人与动物情感的表达》。

受到达尔文著作的启发，他确信，如果要验证其假说，首先得找到观测量化人类微表情的方法，这样他就能研究这些面部表情和内心普遍的情绪是否存在相关性。

埃克曼和汤姆金，以及另一位同事弗里森花了八年时间发展其理论。埃克曼和弗里森让来自美国、巴西、智利、阿根廷以及日本的学生来用表达情绪的词汇描述其看到的表情图，从而验证其方法可行性。他们很快得到这个明显的结论：在不同的国家，六种基本的表情都对应着六种情绪。

这些情绪为：幸福、愤怒、悲伤、鄙夷、惊讶和恐惧。

埃克曼研究中使用的六种基本情绪表情。从左上角顺时钟方向分别为：愤怒、恐惧、鄙夷、悲伤、幸福和惊讶。

无独有偶，另外一名澳大利亚的人种学者艾比尔独立研究得出类似的结论。研究结果证实了埃克曼的观点：存在一组可以通过面部表情来鉴定的、基础的、普遍的人类感情。

但这些结论存在一个漏洞：所有埃克曼和艾比尔的研究对象都是西方媒体的影响物，包括各种图片、电影或者是电视节目。埃克曼认识到，要真正验证其假说，它需要“研究哪些未曾见过外面世界的对象”。

在他母亲逝世近20年后，埃克曼像麦哲伦一样，乘坐一架旧飞机飞往巴布亚新几内亚，寻找偏僻的部族。

埃克曼和弗里森在巴布亚新几内亚的东南高地连绵的山峦中寻找未接触过西方媒体的人群。在欧卡巴峡谷的密林间，埃克曼他们找到了福尔族人，西方人类学家两个世纪前第一次发现了这个族群，此后并未有过打扰。在湾尼温蒂山脉的北侧和南侧，福尔族人沿着山脉住在棚屋中，几乎隔绝于外面的世界。

随着他们抵达福尔部落，埃克曼和弗里森对他们的潜在实验者进行了筛选。他们没看过任何西方电影或媒体结果，因而不会受西方情绪反应影响；他们得不会说英语；而且也从未与外来者合作过、或曾比邻而居过。符合条件的有名成人和位儿童。

测试方法与其它地区方法一样，观察辨析图片和情境。得知福尔族人有三种方言，埃克曼和弗里森对翻译者进行了严格的训练，确保对情境的不同翻译不会影响试验结果。

尽管从未见过这些图片，福尔族人非常迅速地理解了实验。成人观察三种脸部表情，儿童观察两种，每个表情图附有情境介绍，例如“这个人准备打架”。

如果表情放之四海而皆准，情境介绍应当只联系到其中的一张图。

研究结果证明了这个观点：福尔族人在93%的情况下，与其它并不偏远地区的人对表情和情境介绍作出了同样的配对。

埃克曼和弗里森认为他们成功地证明了，所有的人类，都能感受到六中基本情绪：幸福、愤怒、悲伤、鄙夷、惊讶和恐惧。

他们在年发表了自己的研究成果。米德对此目瞪口呆。

埃克曼的研究本可以到此为止，但他的好奇心驱使他继续。他想知道为什么米德和其他人会得出错误的结论。他好奇是否表情在普遍行之外，也会受到特定文化要求人们应当如何表现的影响。

因此，他进行了又一项实验。他将美军医疗救助里的严重烧伤和截肢的视频播放给在美国和东京的学生观看。他们将实验者分为两组，一组有个权威者（穿白衣的科学家）陪同观看，一组没有。埃克曼偷偷拍下他们观看视频的表情，发现有权威者陪同的那组实验者与另一组表现不同：日本学生看起来更淡漠、面无表情状；而美国人表情更加夸张。

无陪同的那组日本学生和美国人表情类似，没有明显的区别。两者不同显然是由身穿白衣的米德触发了两组人的不同表现。埃克曼表示，人类学家看到的是实验者想要他们看到的表情。

令人惊奇的是，不论陪同者是谁，如果降低视频播放速度，你都能看到这六种面部表情的轻微迹象。埃克曼将其理论化为：尽管有文化方面的影响，这六种普遍的表情是不能被克制住的。埃克曼将其命名为“微表情”。

埃克曼的成功还带来了其他发现。举一个较近的例子，年，加州大学洛杉矶分校（UCLA）的人类学家格雷戈里和巴雷特实施了埃克曼和弗里森的“声音实验”的一个版本。厄瓜多尔的舒阿尔（Shuar）族人，而非福尔（Fore）族人，将作为与美国被试者进行比较的群体。

两个小组都被要求听一些容易在英语和舒阿尔语之间翻译的简单句子，如“狗在房子里”和“她吃了鱼”，这些语句没有透露出说话者的任何情感信息。变化的仅仅是声音的音色。

接下来，要求参与者从五张带有面部表情的图片中选取一张，其最能代表他们听到的声音所表达的情感。同样地，两组之间的结果相似，这表明尽管存在后天学习上的差异，普遍的基本情绪也可以在言语中体现出来。

埃克曼的研究，以及在一定程度上格雷戈里和巴雷特的研究，仍被许多人认为是决定性的。

迪士尼甚至制作出一部电影，用到了其中的五种情绪作为人物角色：《头脑特工队》。当然了，科技公司对研究人员的工作给予了类似的信任。

当埃克曼的基本情感遇上数字时代

如果没有情感，人工智能将缺乏很大一部分的感知能力；而一台无法理解情绪的机器是无法以人的方式对命令做出反应的。这种科学实践的例子不仅仅局限在高校或是硅谷。

近五分之一的美国成年人拥有AmazonEcho或同等智能音箱，如GoogleHome。亚马逊希望人们信任他们的虚拟助手Alexa，因此他们会使用耳语，呐喊，不同的音调和语速来表达情感，并使她的声音变得更加人性化。Alexa还会分析我们的声音，以弄清楚我们的情绪。当你生气时，Alexa会让你冷静下来；当你快乐时，她可以和你一同享受快乐。所有这些都行之有效。

苹果的Siri，微软的Cortana以及Google助手背后的团队都在开发使用语音和面部识别的情感检测系统——相同的面部识别技术已经可以用来访问iPhoneX.

情感检测技术和人工情感也被用于防护工作。Affectiva希望监控司机，从他们的声音，肢体语言和面部表情上识别出情绪。如果你有严重的路怒症，或是瘫倒在方向盘上，他们的AutomotiveAI平台就可以控制汽车，带你到最近的安全地带，如有必要，还会打电话求救。

人工情感技术也被用作打击犯罪的工具。年以来，埃克曼一直亲自教人们检测微表情。他曾在中央情报局，苏格兰场，国土安全部和其他许多地方训练过操作员和军官；他甚至教过皮克斯动画工作室的团队如何将微表情带入角色的面部。

他的作品也启发了一部题为“千谎百计”的电视剧，并担任顾问。然而，该剧的刻意渲染使观众误以为“读懂”某人的微表情是那么容易。

年，TSA启动了一项名为“通过观测技术筛查乘客”（ScreeningPassengersbyObservationTechniques,SPOT）的计划——机场安保人员接受了培训，要读出在等待航班的乘客脸上的微表情，以此识别恐怖分子。

这项计划彻底地失败了——飞行的压力使乘客以非典型的方式观察和行动。

在人类失败之处，技术却可以解决问题。位于纽约的罗彻斯特大学收集了超过一百万张面孔的图片，建立起一个微表情数据库。

这是一种训练机器的方法，以评估在机场排队的人是否可能是恐怖分子。容易犯错的人类大脑已派不上用场，取而代之的是在机场观察人类的情感检测AI，通过探头和警方的观察室相连。

如果没有埃克曼对基本情绪和微表情的发现，那么开发情感检测技术会更加困难。当情绪可以分类和测量时，编写软件会更容易。但问题在于——所有的这些系统在进行较大规模的试验时，似乎都遇到了某种问题。一旦你尝试大规模地应用基本的情绪模型，它看起来就不那么可靠了。

这可能是因为，情绪并不像埃克曼所认为的那么简单。

悄然来袭的情绪暴政

“人只有六种基本情绪”这个想法存在三个问题。

首先要指出的是，人们对“情绪”的定义仍然没有统一意见。

过去50年来，几乎每篇论文都有自己的说法。心理学家RobertSternberg称情绪为“由对内部和外部事件作出的在生理和行为（可能是认知）上的反应组成的一种感觉”；神经科学家JaakPanksepp将其定义为“强烈鼓励有机体冲动行事的大脑系统的强烈激发”；而社会心理学家PhoebeEllsworth说，情绪是一个过程，当一个人的注意力被一些差异或变化所影响时就会触发。

而更大的问题在于埃克曼和弗里森的巴布亚新几内亚实验（NewGuineaexperiment）本身。

这项研究存在三个主要问题。

首先，他们不是最早与福尔族人见面并记录其部落风俗的人。人类学家罗纳德与凯瑟琳曾在年研究过福尔族人居住的北部地区，而传教士和政府巡逻队在此之前已经造访过福尔南部地区了。

当埃克曼访问福尔部落时，曾经以对外敌意和同类相食而著称的福尔人正在种植咖啡和使用金钱。（埃克曼谈到了资助者对他提出的收据请求，开玩笑说他不得不为“当地巫医的祝福”之类的开支保留分类账目。）到20世纪60年代后期为止，福尔部落成员与外界完全隔离的概率很小。

该研究的第二个问题在于对当地语言的翻译。

每一个专业的翻译人员都会告诉你，翻译不是将一种语言的某个单词换成另一种语言的某个单词。同时，也未必能在对象语言中找到匹配的单词。将英语翻译成福尔族语言，这种与英语风格迥异的语言，使这个问题愈发严重，无论翻译人员的表现如何出类拔萃。

研究的第三个问题是照片中的面部表情。

在现实生活中，很少面部表情会像埃克曼照片中的那样明显或夸张。心理学家詹姆斯及其团队最近的研究表明，使用越逼真的面部表情图，8岁前的儿童越不容易识别表情中所蕴含的情绪。

例如，年幼的孩子不知道“厌恶”的表情背后，蕴含的究竟是厌恶还是愤怒的情绪。最近，由心理学家丽莎领导的一个小组发现，如果在提供的照片中有着各种各样的面部表情，并允许参与者将照片自行分类，这些类别都会因为文化差异而有所不同。

这就导致了第三个大问题——不同的人会有不同的基础情感列表。当然，还有一些理解情感的方法，不要求情感分类是普遍的，或是简单可识别的。

例如，“情感理论的心理学构建”方法正在情感研究界大受支持。这一方法表明，虽然我们都感受到类似的，称之为“核心影响源”的东西，但是每一种情感的“构建”，实际上都是由很多因素组成的。

这些因素包括了我们从小到大培养的情感感知，描述这些感受的语言，产生情感时所处的情境，先前产生这些感受时留下的记忆以及其他许多因素。情感，不只是一种感觉，一种表情。

这样看来，情感的分类并不是普遍使用的。即使所有人类共享的他们经历，同样是驱使我们远离发霉食物的那种“讨厌”感觉，这些经历在不同的文化中以不同的方式进行表述，同时不总是具有相同的面部表情或声音线索。

遗憾的是，这种细微差别似乎并没有被开发人员和程序员察觉。

人们已经开始在机场接受监控；许多美国人已经在家中安置了Alexa语音助手或是与“她”同类的智能助手；自动驾驶汽车已经崭露头角（即使你现在买不到）。

所有这些智能系统都出过问题。Alexa语音助手曾经与无关者进行了私人谈话，自动驾驶汽车曾经撞向行人，任何尝试在护照安检处，使用所谓“最先进”面部识别系统的人，都知道他们可能会对使用经历感到沮丧。

我们希望这些设备和系统使我们保持冷静，判断我们的“路怒症”指数，或是察觉我们的犯罪倾向吗？被一副智能太阳眼镜“出卖”行动，并且还被错误指控判刑的日子，还有多久？

将不同文化背景中，情感多种多样的表达方式，合而为一，这无疑减少了世界各地丰富的情感表达。

所有人都要有一样的规范化的情绪，这正是一种赤裸裸的“情感暴政”。

如果不加以制止，这个暴政将伴随着情感检测技术发展，在不久的将来传播到世界的各个角落。

你自己的情绪，将不再由你自己所定义。