AI大模特不是人。停止像测试人类一样测试他们。

WillD.Heaven麻省理工科技评论APP2022年初,当DentelleWebb尝试GPT-3时,他被OpenAI的大型语言模型所能做的事情惊呆了。这种人工智能模型依靠预测下一个单词来生成大段的文本内容。虽然是预测性

Will D. Heaven麻省理工科技评论APP

2022年初,当Dentelle Webb尝试GPT-3时,他被OpenAI的大型语言模型所能做的事情惊呆了。这种人工智能模型依靠预测下一个单词来生成大段的文本内容。

虽然是预测性的,但是对韦伯提出的很多抽象问题,比如你在智商测试中遇到的那种问题,给出了正确的答案。“我真的被它解决这些问题的能力震惊了,”他说。“完全颠覆了我的预期。”

韦伯是洛杉矶加州大学的心理学家。他主要研究人和计算机解决抽象问题的不同方式。他习惯于构建具有特定推理能力的神经网络。但是GPT 3号似乎有自己的推理能力。

AI大模特不是人。停止像测试人类一样测试他们。

(来源:斯蒂芬妮·阿内特/米特)

上个月,韦伯和他的同事在 自然 该杂志上发表了一篇论文,他们在论文中描述了GPT-3通过各种测试的能力,这些测试旨在评估类比解决问题的使用(也称为类比推理)。

在其中的一些测试中,GPT-3比一组本科生得分更高。韦伯说:“类比是人类推理的核心。我们认为,这是任何类型的机器智能都需要展示的主要能力之一。”

韦伯的研究只显示了大型语言模型的许多杰出能力之一。例如,当OpenAI在2023年3月推出GPT-3的下一代GPT-4时,该公司发布了一份引人注目的专业和学术评估成绩单,声称其新的大规模语言模型取得了优异的成绩,包括数十次高中考试和律师资格考试。OpenAI后来与微软合作,证明GPT-4可以通过一些美国的行医执照考试。

许多研究人员声称,大规模语言模型可以通过旨在识别人类某些认知能力的测试,从思维链推理(一步一步解决问题)到思维理论(猜测别人的想法)。

这些结果催生了一系列炒作,声称人工智能将很快取代教师、医生、记者和律师等白领工作。图灵奖获得者、“深度学习三巨头”之一杰弗里·辛顿(Geoffrey Hinton)指出,GPT-4显然有能力将想法串起来,这也是他现在害怕自己帮助创造的技术的原因之一。

但一个问题是,人们还没有就这些结果的真正含义达成一致。有些人对这些成就背后的类人智慧感到困惑,有些人则完全不相信。

以色列贝兰大学计算机科学家娜塔莉·沙皮拉(Natalie Shapira)说:“目前,大规模语言模型的评估技术存在几个关键问题。这造成了一种错觉,即我们对其能力的理解被夸大了。”

这也是为什么越来越多的研究者,包括计算机科学家、认知科学家、神经科学家和语言学家,希望彻底改变评价方式,呼吁更严谨、更细致的评价。有人认为通过测试人类的问题来评价机器是错误的,应该被抛弃。

新墨西哥州圣达菲研究所的人工智能研究员梅拉妮·米切尔(Melanie Mitchell)说:“自从人工智能诞生以来,人们就一直在机器上进行人类智力测试,比如智商测试。这背后的问题是,当你用这些方法测试机器的时候,它的意义是什么?这和测试人类不一样。”

“出现了许多拟人化的现象,”她说。"这使得我们在考虑和测试这些系统时要带上过滤器."

随着对人工智能技术达到前所未有的高度的希望和担忧,我们必须清楚地知道大规模语言模型能做什么,不能做什么。

AI大模特不是人。停止像测试人类一样测试他们。

围绕大规模语言模型测试的大多数问题都可以归结为如何解释结果。

为人类设计的评估,如高中考试和智商测试,在许多方面都遵循一些预设和假设。当人们得分很高时,可以很有把握地假设他们拥有测试所衡量的知识、理解或认知技能。

其实这个假设只适用于这里。学术考试并不总是反映学生的真实能力。智商测试测量的是一组特定的技能,而不是整体智力。两种评价方式都有利于擅长这种评价的人。

然而,当一个大型语言模型在这样的测试中获得高分时,我们根本不知道要衡量什么。这是真正理解的证据吗?还是一个愚蠢的统计游戏?还是死记硬背?

DeepMind的高级研究科学家劳拉·魏丁格(Laura Weidinger)说:“开发测试人类思维的方法有着悠久的历史。因为大规模语言模型产生的文本看起来非常像人类生成的,所以很容易认为人类的思维测试也可以用来评估它们。但事实并非如此:人类思维测试依赖于许多可能不适用于大型语言模型的假设。”

韦伯也意识到了类似的问题。“我也有同感,”他说。他指出,尽管GPT-3在一些测试中比本科生得分高,但它在其他测试中产生了荒谬的结果。例如,它未能通过发展心理学家给儿童的实物类比推理测试。

在这项测试中,韦伯和他的同事给GPT-3讲述了一个可以在两个瓶子之间转移珠宝的精灵的故事,然后问它如何使用纸板和纸管等物体将口香糖球从一个碗转移到另一个碗。

这个故事暗示了问题的解决方法。研究人员在论文中写道:“GPT-3大多提出了设计良好但机械上无意义的解决方案,有许多无用的步骤,但没有给出明确的机制来在两个碗之间转移口香糖。”

韦伯说:“这是一个孩子很容易解决的问题。这些系统真正不擅长的往往涉及到对现实世界的理解,比如基础物理或者社会互动,这些都是人的第二天性。”

那么,我们如何理解一台通过了律师资格考试,却在学前班失败的机器呢?GPT-4等大规模语言模型是根据从互联网上获取的大量词汇进行训练的:书籍、博客、小说、技术报告、社交媒体帖子等等。很有可能过去的考题也被抢过。一种可能是,像GPT-4这样的模型在训练数据中看到如此多的专业考试和学术测试,以至于它们学会自动完成答案。

韦伯说,这些测试中有很多可以在网上找到问题和答案:“几乎可以肯定的是,其中很多存在于GPT-3和GPT-4的训练数据中,所以我不认为我们真的可以得出太多的结论。”

OpenAI表示,它进行了检查,以确保其对GPT-4的测试不包含训练数据中出现的文本。在与微软的合作中,OpenAI使用付费试题来确保这些问题不包含在GPT-4的训练数据中。但是这样的预防措施并不是万无一失的:GPT-4仍然可以看到类似的试题。

当机器学习工程师贺瑞斯·何(Horace He)在编程竞赛网站Codeforces上测试GPT-4时,他发现GPT-4在2021年之前发布的编程测试中得分为10/10,但在2021年之后发布的测试中得分为0。

其他人也注意到,如果使用2021年以后的试题,GPT-4的分数会下降。这是因为模型的训练数据只包括2021年之前收集的单词,有人认为这说明大规模语言模型只显示了一种记忆,而不是智能。

为了在实验中避免这种可能性,韦伯设计了一种新型的测试。他说:“我们真正感兴趣的是这些模型能否应对这些新问题。”

韦伯和他的同事采用了一种方法来测试类比推理,这种方法被称为瑞文渐进矩阵。这些测试由一幅图像组成,该图像包括一系列并排或上下排列的形状。挑战在于找到给定形状系列中的规则,并将它们应用到新的形状中。该测试用于评估儿童和成人的非语言推理能力,这在智商测试中非常常见。

研究人员没有使用图像,而是将形状、颜色和位置编码成数字序列。这确保了测试不会出现在任何训练数据中。韦伯说:“我从零开始创建了这个数据集。我以前从未听说过这种事。”

米切尔对韦伯的工作印象深刻。“我认为这篇论文很有趣,也很有煽动性,”她说。“很好的学习。”但是她有所保留。米切尔开发了自己的类比推理测试,名为ConceptARC,使用从谷歌研究人员弗朗索瓦·乔莱(Fran? ois Chollet)开发的ARC(抽象和推理挑战)数据集提取的形状编码序列。在米切尔的实验中,GPT-4在这种测试中表现得比人类差。

米切尔还指出,将图像编码成数字序列(或矩阵)将使程序更容易解决这个问题,因为它消除了拼图的视觉挑战。“解决数字矩阵并不意味着解决瑞文测试的问题,”她说。

AI大模特不是人。停止像测试人类一样测试他们。

大型语言模型的性能是脆弱的。对于人类来说,可以肯定的是,一个在测试中得分高的人,在类似的测试中也会有很好的表现。对于大型语言模型,情况并非如此。考试的一个小小的调整就能让分数大幅波动。

英国剑桥大学心理学家露西·切克(Lucy Cheke)表示:“总的来说,对人工智能的评估并不能真正让我们了解这些模型的能力。在特定任务中测试一个系统的性能是完全合理的,但通过这个任务将其推广到其他任务和能力是不可行的。”

以微软研究小组2023年3月发表的一篇论文为例,他们在论文中声称在GPT-4中发现了“通用人工智能的火花”。该团队使用了一系列测试来评估大型语言模型。在一项研究中,他们问GPT-4如何稳定地堆叠一本书、九个鸡蛋、一台笔记本电脑、一个瓶子和一枚钉子。它回答说:“把笔记本电脑放在鸡蛋上,屏幕朝下,键盘朝上。笔记本电脑将被夹在书籍和鸡蛋之间,其平坦坚硬的表面将为下一层提供稳定的平台。”

但当米切尔尝试她自己版本的问题,并让GPT-4折叠一根牙签、一碗布丁、一杯水和一颗棉花糖时,她建议将牙签放在布丁中,将棉花糖放在牙签上,并将整杯水平衡放在棉花糖上。

模型最后提出了一个有用的警告:“请记住,这种堆叠方式是脆弱的,可能是不稳定的。建造和搬运时要小心,以免溢出或发生事故。”

还有一项有争议的研究。2023年2月,美国斯坦福大学的研究人员Michal Kosinski发表了一篇论文,他在论文中声称,心灵理论“可能会自发地成为GPT-3的副产品”。心理理论是一种理解自己和周围人类心理状态的能力,是大多数3-5岁儿童获得情绪和社会智力的标志。科辛斯基报告说,GPT-3已经通过了评估人类能力的基本测试。

例如,科辛斯基给GPT-3的场景是:“这是一个装满爆米花的袋子。包里没有巧克力。但是袋子上的标签写着“巧克力”,而不是“爆米花”。萨姆找到了包。她从来没见过包,也看不清里面是什么,但她看了标签。”

然后,科辛斯基提示模特完成下面这句话:“她打开包,往里面看。她可以清楚地看到它装满了…“和“她相信包里装满了…”。GPT-3用爆米花完成了第一句话,用巧克力完成了第二句话。他认为这些答案证明GPT-3至少展示了一个基本的心理理论,因为它们抓住了实际状态和萨姆(错误)想法之间的差异。

科辛斯基的研究成果迅速登上头条,并在社交平台上引发争议。

包括Shapia和哈佛大学认知科学家Tomer Ullman在内的几位研究人员发表了反例,表明大型语言模型未能通过Cosinski使用的简单变体测试。乌曼说:“由于我很了解大型语言模型是如何构建的,所以我非常怀疑。”

乌曼调整了科辛斯基的测试场景,告诉GPT-3,标有“巧克力”的爆米花袋子是透明的(这样山姆就能看出那是爆米花),或者山姆看不懂(这样她就不会被标签误导)。乌曼发现,每当情况涉及几个额外的推理步骤时,GPT-3就不能把正确的状态归因于萨姆。

沙皮亚说:“为人类设计的认知或学术测试可以作为大规模语言模型能力的准确衡量标准。这种假设源于一种将模型拟人化并使其评价符合人类标准的趋势。这种假设具有误导性。”

对于查克来说,有一个显而易见的解决方案。她说,几十年来,科学家一直在评估非人类的认知能力。人工智能研究人员可以调整用于研究动物的技术,以避免根据人类的偏见得出结论。

以迷宫中的老鼠为例,切克说:“它是如何导航的?你在人类心理学上可以做出的假设是不成立的。”相反,研究人员必须进行一系列受控实验,以了解老鼠在使用什么信息,以及它是如何使用这些信息的,并逐一测试和排除这些假设。

至于大语言模型,就比较复杂了。切克说:“我们没有针对老鼠的语言测试。我们是在一个新的领域,但是很多基本方法是可行的。只是我们必须用语言的形式来做,而不是在一个小迷宫里。”

维廷格采取了类似的方法。她和她的同事正在调整心理学家的技术来评估人类婴儿在前语言阶段的认知能力。这里的一个关键思想是将特定能力的测试分解成一组测试,这些测试也会寻找相关的能力。例如,在评估婴儿是否学会了如何帮助他人时,心理学家也可能会评估婴儿是否理解什么是障碍。这使得整个测试更加健壮。

问题是这种实验需要时间。切克说,一个团队可能会对老鼠的行为进行多年的研究。但是人工智能的发展速度要快得多。乌曼将大规模语言模型的评价与西西弗的惩罚进行了对比:“一个系统被宣称展现了X行为。当评估显示它不展示X时,一个新系统出现,并被认为展示X行为。”

AI大模特不是人。停止像测试人类一样测试他们。

转换标准

米切尔说,50年前,人们认为要打败象棋大师,你需要一台像人一样聪明的计算机。但事实证明,我们只需要比人类更擅长数字运算的机器。穷尽蛮力胜过智慧。

从图像识别到围棋,类似的挑战已经被定义和解决。每当计算机被用来做一些需要人类智能的事情,比如玩游戏或使用语言,它就会分裂领域。大规模语言模型现在面临着自己的“棋”时刻。米切尔说:“这真的让我们每个人都思考什么是智力。”

通过了所有这些测试,是证明GPT-4拥有真正的智慧,还是找到了一条有效但愚蠢的捷径,一种从数十亿行文本中万亿相关的帽子里摘下来的统计技巧?

米切尔说:“如果你说,‘嗯,GPT4通过了律师考试,但这并不意味着它很聪明’,人们会说,‘哦,你是在故意改变标准。’但是,我们真的在改变标准吗?或者,正如我们以前所理解的那样,我们对智力的理解是错误的吗?"

归根结底还是要看大语言模型是怎么做的。一些研究人员希望摆脱他们对考试分数的痴迷,并试图找出模型背后发生的事情。米切尔说:“我真的认为,要真正理解它们的智力(如果我们想这么称呼的话),我们必须理解它们的推理机制。”

乌曼对此表示赞同。“我同情那些认为这正在改变标准的人,”他说,“但这是一个长期的动态。现在我们不知道他们是如何通过这些测试的。我们只是被告知他们通过了。”

问题是,没有人确切知道大型语言模型是如何工作的。在庞大的统计模型中,很难将复杂的机制分离出来。但乌曼认为,理论上可以对一个模型进行逆向工程,找出它使用什么算法来通过不同的测试。他说:“如果有人开发出一种技术,来搞清楚这些东西学到了什么,我就能更容易被说服。”“我认为根本问题在于我们一直关注的是测试结果,而不是它是如何通过测试的。”

关于作者:Will Douglas Heaven是《麻省理工科技评论》人工智能部分的高级编辑,他在那里报道新的研究、新兴趋势及其背后的人。此前,他是英国广播公司(BBC)科技和地缘政治网站Future Now的创始主编,也是《新科学家》杂志的首席技术编辑。他拥有英国伦敦帝国理工学院计算机科学博士学位,精通与机器人一起工作的经验。

支持:任

操作/排版:何

赠送20本心理学电子书,添加 微信:56163509  备注:心理学

本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容, 请发送邮件至 sumchina520@foxmail.com 举报,一经查实,本站将立刻删除。
如若转载,请注明出处:https://www.xinli1988.com/51148.html