AI大模特不是人。停止像测试人类一样测试他们。

投稿用户 • 2024年3月31日 pm11:06 • 情感专家 • 阅读 35

WillD.Heaven麻省理工科技评论APP2022年初，当DentelleWebb尝试GPT-3时，他被OpenAI的大型语言模型所能做的事情惊呆了。这种人工智能模型依靠预测下一个单词来生成大段的文本内容。虽然是预测性

Will D. Heaven麻省理工科技评论APP

2022年初，当Dentelle Webb尝试GPT-3时，他被OpenAI的大型语言模型所能做的事情惊呆了。这种人工智能模型依靠预测下一个单词来生成大段的文本内容。

虽然是预测性的，但是对韦伯提出的很多抽象问题，比如你在智商测试中遇到的那种问题，给出了正确的答案。“我真的被它解决这些问题的能力震惊了，”他说。“完全颠覆了我的预期。”

韦伯是洛杉矶加州大学的心理学家。他主要研究人和计算机解决抽象问题的不同方式。他习惯于构建具有特定推理能力的神经网络。但是GPT 3号似乎有自己的推理能力。

(来源:斯蒂芬妮·阿内特/米特)

上个月，韦伯和他的同事在自然该杂志上发表了一篇论文，他们在论文中描述了GPT-3通过各种测试的能力，这些测试旨在评估类比解决问题的使用(也称为类比推理)。

在其中的一些测试中，GPT-3比一组本科生得分更高。韦伯说:“类比是人类推理的核心。我们认为，这是任何类型的机器智能都需要展示的主要能力之一。”

韦伯的研究只显示了大型语言模型的许多杰出能力之一。例如，当OpenAI在2023年3月推出GPT-3的下一代GPT-4时，该公司发布了一份引人注目的专业和学术评估成绩单，声称其新的大规模语言模型取得了优异的成绩，包括数十次高中考试和律师资格考试。OpenAI后来与微软合作，证明GPT-4可以通过一些美国的行医执照考试。

许多研究人员声称，大规模语言模型可以通过旨在识别人类某些认知能力的测试，从思维链推理(一步一步解决问题)到思维理论(猜测别人的想法)。

这些结果催生了一系列炒作，声称人工智能将很快取代教师、医生、记者和律师等白领工作。图灵奖获得者、“深度学习三巨头”之一杰弗里·辛顿(Geoffrey Hinton)指出，GPT-4显然有能力将想法串起来，这也是他现在害怕自己帮助创造的技术的原因之一。

但一个问题是，人们还没有就这些结果的真正含义达成一致。有些人对这些成就背后的类人智慧感到困惑，有些人则完全不相信。

以色列贝兰大学计算机科学家娜塔莉·沙皮拉(Natalie Shapira)说:“目前，大规模语言模型的评估技术存在几个关键问题。这造成了一种错觉，即我们对其能力的理解被夸大了。”

这也是为什么越来越多的研究者，包括计算机科学家、认知科学家、神经科学家和语言学家，希望彻底改变评价方式，呼吁更严谨、更细致的评价。有人认为通过测试人类的问题来评价机器是错误的，应该被抛弃。

新墨西哥州圣达菲研究所的人工智能研究员梅拉妮·米切尔(Melanie Mitchell)说:“自从人工智能诞生以来，人们就一直在机器上进行人类智力测试，比如智商测试。这背后的问题是，当你用这些方法测试机器的时候，它的意义是什么？这和测试人类不一样。”

“出现了许多拟人化的现象，”她说。"这使得我们在考虑和测试这些系统时要带上过滤器."

随着对人工智能技术达到前所未有的高度的希望和担忧，我们必须清楚地知道大规模语言模型能做什么，不能做什么。

围绕大规模语言模型测试的大多数问题都可以归结为如何解释结果。

为人类设计的评估，如高中考试和智商测试，在许多方面都遵循一些预设和假设。当人们得分很高时，可以很有把握地假设他们拥有测试所衡量的知识、理解或认知技能。

其实这个假设只适用于这里。学术考试并不总是反映学生的真实能力。智商测试测量的是一组特定的技能，而不是整体智力。两种评价方式都有利于擅长这种评价的人。

然而，当一个大型语言模型在这样的测试中获得高分时，我们根本不知道要衡量什么。这是真正理解的证据吗？还是一个愚蠢的统计游戏？还是死记硬背？

DeepMind的高级研究科学家劳拉·魏丁格(Laura Weidinger)说:“开发测试人类思维的方法有着悠久的历史。因为大规模语言模型产生的文本看起来非常像人类生成的，所以很容易认为人类的思维测试也可以用来评估它们。但事实并非如此:人类思维测试依赖于许多可能不适用于大型语言模型的假设。”

韦伯也意识到了类似的问题。“我也有同感，”他说。他指出，尽管GPT-3在一些测试中比本科生得分高，但它在其他测试中产生了荒谬的结果。例如，它未能通过发展心理学家给儿童的实物类比推理测试。

在这项测试中，韦伯和他的同事给GPT-3讲述了一个可以在两个瓶子之间转移珠宝的精灵的故事，然后问它如何使用纸板和纸管等物体将口香糖球从一个碗转移到另一个碗。

这个故事暗示了问题的解决方法。研究人员在论文中写道:“GPT-3大多提出了设计良好但机械上无意义的解决方案，有许多无用的步骤，但没有给出明确的机制来在两个碗之间转移口香糖。”

韦伯说:“这是一个孩子很容易解决的问题。这些系统真正不擅长的往往涉及到对现实世界的理解，比如基础物理或者社会互动，这些都是人的第二天性。”

那么，我们如何理解一台通过了律师资格考试，却在学前班失败的机器呢？GPT-4等大规模语言模型是根据从互联网上获取的大量词汇进行训练的:书籍、博客、小说、技术报告、社交媒体帖子等等。很有可能过去的考题也被抢过。一种可能是，像GPT-4这样的模型在训练数据中看到如此多的专业考试和学术测试，以至于它们学会自动完成答案。

韦伯说，这些测试中有很多可以在网上找到问题和答案:“几乎可以肯定的是，其中很多存在于GPT-3和GPT-4的训练数据中，所以我不认为我们真的可以得出太多的结论。”

OpenAI表示，它进行了检查，以确保其对GPT-4的测试不包含训练数据中出现的文本。在与微软的合作中，OpenAI使用付费试题来确保这些问题不包含在GPT-4的训练数据中。但是这样的预防措施并不是万无一失的:GPT-4仍然可以看到类似的试题。

当机器学习工程师贺瑞斯·何(Horace He)在编程竞赛网站Codeforces上测试GPT-4时，他发现GPT-4在2021年之前发布的编程测试中得分为10/10，但在2021年之后发布的测试中得分为0。

其他人也注意到，如果使用2021年以后的试题，GPT-4的分数会下降。这是因为模型的训练数据只包括2021年之前收集的单词，有人认为这说明大规模语言模型只显示了一种记忆，而不是智能。

为了在实验中避免这种可能性，韦伯设计了一种新型的测试。他说:“我们真正感兴趣的是这些模型能否应对这些新问题。”

韦伯和他的同事采用了一种方法来测试类比推理，这种方法被称为瑞文渐进矩阵。这些测试由一幅图像组成，该图像包括一系列并排或上下排列的形状。挑战在于找到给定形状系列中的规则，并将它们应用到新的形状中。该测试用于评估儿童和成人的非语言推理能力，这在智商测试中非常常见。

研究人员没有使用图像，而是将形状、颜色和位置编码成数字序列。这确保了测试不会出现在任何训练数据中。韦伯说:“我从零开始创建了这个数据集。我以前从未听说过这种事。”

米切尔对韦伯的工作印象深刻。“我认为这篇论文很有趣，也很有煽动性，”她说。“很好的学习。”但是她有所保留。米切尔开发了自己的类比推理测试，名为ConceptARC，使用从谷歌研究人员弗朗索瓦·乔莱(Fran? ois Chollet)开发的ARC(抽象和推理挑战)数据集提取的形状编码序列。在米切尔的实验中，GPT-4在这种测试中表现得比人类差。

米切尔还指出，将图像编码成数字序列(或矩阵)将使程序更容易解决这个问题，因为它消除了拼图的视觉挑战。“解决数字矩阵并不意味着解决瑞文测试的问题，”她说。

大型语言模型的性能是脆弱的。对于人类来说，可以肯定的是，一个在测试中得分高的人，在类似的测试中也会有很好的表现。对于大型语言模型，情况并非如此。考试的一个小小的调整就能让分数大幅波动。

英国剑桥大学心理学家露西·切克(Lucy Cheke)表示:“总的来说，对人工智能的评估并不能真正让我们了解这些模型的能力。在特定任务中测试一个系统的性能是完全合理的，但通过这个任务将其推广到其他任务和能力是不可行的。”

以微软研究小组2023年3月发表的一篇论文为例，他们在论文中声称在GPT-4中发现了“通用人工智能的火花”。该团队使用了一系列测试来评估大型语言模型。在一项研究中，他们问GPT-4如何稳定地堆叠一本书、九个鸡蛋、一台笔记本电脑、一个瓶子和一枚钉子。它回答说:“把笔记本电脑放在鸡蛋上，屏幕朝下，键盘朝上。笔记本电脑将被夹在书籍和鸡蛋之间，其平坦坚硬的表面将为下一层提供稳定的平台。”

但当米切尔尝试她自己版本的问题，并让GPT-4折叠一根牙签、一碗布丁、一杯水和一颗棉花糖时，她建议将牙签放在布丁中，将棉花糖放在牙签上，并将整杯水平衡放在棉花糖上。

模型最后提出了一个有用的警告:“请记住，这种堆叠方式是脆弱的，可能是不稳定的。建造和搬运时要小心，以免溢出或发生事故。”

还有一项有争议的研究。2023年2月，美国斯坦福大学的研究人员Michal Kosinski发表了一篇论文，他在论文中声称，心灵理论“可能会自发地成为GPT-3的副产品”。心理理论是一种理解自己和周围人类心理状态的能力，是大多数3-5岁儿童获得情绪和社会智力的标志。科辛斯基报告说，GPT-3已经通过了评估人类能力的基本测试。

例如，科辛斯基给GPT-3的场景是:“这是一个装满爆米花的袋子。包里没有巧克力。但是袋子上的标签写着“巧克力”，而不是“爆米花”。萨姆找到了包。她从来没见过包，也看不清里面是什么，但她看了标签。”

然后，科辛斯基提示模特完成下面这句话:“她打开包，往里面看。她可以清楚地看到它装满了…“和“她相信包里装满了…”。GPT-3用爆米花完成了第一句话，用巧克力完成了第二句话。他认为这些答案证明GPT-3至少展示了一个基本的心理理论，因为它们抓住了实际状态和萨姆(错误)想法之间的差异。

科辛斯基的研究成果迅速登上头条，并在社交平台上引发争议。

包括Shapia和哈佛大学认知科学家Tomer Ullman在内的几位研究人员发表了反例，表明大型语言模型未能通过Cosinski使用的简单变体测试。乌曼说:“由于我很了解大型语言模型是如何构建的，所以我非常怀疑。”

乌曼调整了科辛斯基的测试场景，告诉GPT-3，标有“巧克力”的爆米花袋子是透明的(这样山姆就能看出那是爆米花)，或者山姆看不懂(这样她就不会被标签误导)。乌曼发现，每当情况涉及几个额外的推理步骤时，GPT-3就不能把正确的状态归因于萨姆。

沙皮亚说:“为人类设计的认知或学术测试可以作为大规模语言模型能力的准确衡量标准。这种假设源于一种将模型拟人化并使其评价符合人类标准的趋势。这种假设具有误导性。”

对于查克来说，有一个显而易见的解决方案。她说，几十年来，科学家一直在评估非人类的认知能力。人工智能研究人员可以调整用于研究动物的技术，以避免根据人类的偏见得出结论。

以迷宫中的老鼠为例，切克说:“它是如何导航的？你在人类心理学上可以做出的假设是不成立的。”相反，研究人员必须进行一系列受控实验，以了解老鼠在使用什么信息，以及它是如何使用这些信息的，并逐一测试和排除这些假设。

至于大语言模型，就比较复杂了。切克说:“我们没有针对老鼠的语言测试。我们是在一个新的领域，但是很多基本方法是可行的。只是我们必须用语言的形式来做，而不是在一个小迷宫里。”

维廷格采取了类似的方法。她和她的同事正在调整心理学家的技术来评估人类婴儿在前语言阶段的认知能力。这里的一个关键思想是将特定能力的测试分解成一组测试，这些测试也会寻找相关的能力。例如，在评估婴儿是否学会了如何帮助他人时，心理学家也可能会评估婴儿是否理解什么是障碍。这使得整个测试更加健壮。

问题是这种实验需要时间。切克说，一个团队可能会对老鼠的行为进行多年的研究。但是人工智能的发展速度要快得多。乌曼将大规模语言模型的评价与西西弗的惩罚进行了对比:“一个系统被宣称展现了X行为。当评估显示它不展示X时，一个新系统出现，并被认为展示X行为。”

转换标准

米切尔说，50年前，人们认为要打败象棋大师，你需要一台像人一样聪明的计算机。但事实证明，我们只需要比人类更擅长数字运算的机器。穷尽蛮力胜过智慧。

从图像识别到围棋，类似的挑战已经被定义和解决。每当计算机被用来做一些需要人类智能的事情，比如玩游戏或使用语言，它就会分裂领域。大规模语言模型现在面临着自己的“棋”时刻。米切尔说:“这真的让我们每个人都思考什么是智力。”

通过了所有这些测试，是证明GPT-4拥有真正的智慧，还是找到了一条有效但愚蠢的捷径，一种从数十亿行文本中万亿相关的帽子里摘下来的统计技巧？

米切尔说:“如果你说，‘嗯，GPT4通过了律师考试，但这并不意味着它很聪明’，人们会说，‘哦，你是在故意改变标准。’但是，我们真的在改变标准吗？或者，正如我们以前所理解的那样，我们对智力的理解是错误的吗？"

归根结底还是要看大语言模型是怎么做的。一些研究人员希望摆脱他们对考试分数的痴迷，并试图找出模型背后发生的事情。米切尔说:“我真的认为，要真正理解它们的智力(如果我们想这么称呼的话)，我们必须理解它们的推理机制。”

乌曼对此表示赞同。“我同情那些认为这正在改变标准的人，”他说，“但这是一个长期的动态。现在我们不知道他们是如何通过这些测试的。我们只是被告知他们通过了。”

问题是，没有人确切知道大型语言模型是如何工作的。在庞大的统计模型中，很难将复杂的机制分离出来。但乌曼认为，理论上可以对一个模型进行逆向工程，找出它使用什么算法来通过不同的测试。他说:“如果有人开发出一种技术，来搞清楚这些东西学到了什么，我就能更容易被说服。”“我认为根本问题在于我们一直关注的是测试结果，而不是它是如何通过测试的。”

关于作者:Will Douglas Heaven是《麻省理工科技评论》人工智能部分的高级编辑，他在那里报道新的研究、新兴趋势及其背后的人。此前，他是英国广播公司(BBC)科技和地缘政治网站Future Now的创始主编，也是《新科学家》杂志的首席技术编辑。他拥有英国伦敦帝国理工学院计算机科学博士学位，精通与机器人一起工作的经验。

支持:任

操作/排版:何

赠送20本心理学电子书，添加微信：56163509 备注：心理学！

本文内容由互联网用户自发贡献，该文观点仅代表作者本人。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容，请发送邮件至 sumchina520@foxmail.com 举报，一经查实，本站将立刻删除。
如若转载，请注明出处：https://www.xinli1988.com/51148.html

投稿用户

孤独，回归自我：人不仅仅是为爱而生，孤独也以另一种方式精彩。

上一篇 2024年3月31日 pm9:06

什么是无条件的爱？只有做到这四点。

下一篇 2024年4月1日 am1:06

周末夫妻，甜蜜而又尴尬的CP

很多人羡慕我在两个城市的生活，平日里他们都集中精力在枣庄尽自己最大的努力；在周末和假日，你可以乘坐高铁回家，享受两个人的世界，并以“高”的方式来回。在外人看来，这是相当自然和浪漫的。是的，我也享受并接受这种生活

情感专家 2023年1月30日
175 0
“设计｜翻译设计”创造力和生产力：如何同时实现两者(下)

设计与设计师(ID:Design-Designer)作者:NayomiChibana略有删改，版权归原作者所有，转载请注明出处。正文:11049字，图片16张。预计阅读时间:28分钟创造力与生产力:如何同时实现两者创造力和生产力:如何同时实现它们有可能同时具有创造性和生产力吗？每当我们想到有创造力的类型，我们想象的是无忧无虑和艺术的人，他们拒绝受时间限制和规则的约束。另一方面，我们都知道

情感专家 2024年3月18日
60 0
当你丈夫生气的时候，该如何和他沟通？19个技巧

夫妻之间的沟通问题会导致严重的关系问题。如果你认为和你丈夫说话会让他生气，那么你需要想办法打破他的心墙。问题是有时候我们不知道如何和伴侣进行有效的沟通。这篇文章分享了19个在你丈夫生气时如何与他交谈的技巧。1)尽可能保持冷静试图与头脑发热的人讲道理可能是一个非常令人沮丧的过程。面对愤怒保持冷静永远是你最好的选择。但这并不意味着这很容易。有一件事可以帮助你做到这一点，那就

情感专家 2023年4月13日
308 0
“周末性爱”太频繁，小心身体吃不消。

男人想要有很强的性能力，最好是“一夜七次”。在他们心目中，性能力和性生活次数是等同的。那么，性生活越多越好吗？俗话说，物极必反。性生活过度不仅不会增强性能力，还会带来很多危害。当心“燃烧的前列腺”前段时间有个小伙子来门诊，说自己刚结婚一个月。夫妻俩感情很好，每天都有不止一次的生活。女

情感专家 2024年1月16日
104 0
新手如何谈恋爱

拜伦说：爱情很难，你不能期望它像像做梦一样出来。如果你想得到爱的果实，如果你想获得果实，你必须付出努力和汗水。新手是如何恋爱的？尊重字面意思是尊重和关注。如果延伸是为了尊重对方对人和事的看法，那么尊重对方的想法和自己独特的观点。人与人之间，尤其是情侣之间，都是如此。特别是对于新手情侣，他们应该互相尊重：尊重彼此的个性和权利。仅仅因为你在某些方面比对方更好，你就不

情感专家 2023年2月4日
253 0
奇闻：美丽的妻子戴绿帽子引发了丈夫父母之间的相互控制，三名法官先后参与了审判。

【今日头条李00小姐根据历史记载】据史料记载，乾隆年间，湖北黄州麻城县发生了一起离奇的杀妻案。一天，麻城县县接到了涂和杨两个县民的诉状，互相指责。大概的情况是，涂嫁到了杨家。夫妻之间经常因为琐事产生矛盾

情感专家 2024年4月3日
31 0
心理健康知识

我们如何治疗抑郁症？抑郁症并不可怕，但它是可以治疗的。经过系统和规范的治疗，大多数患者都能康复并恢复正常生活。它是一种发病率高、治愈率高的疾病，但严重抑郁症的治疗需要很长时间，通常需要两三年或更长时间。自我调节、药物治疗和心理治疗是可用的。自我调节：一般

情感专家 2023年5月22日
135 0
三句话，帮你打开心结

人生十之八九的事，林清玄先生却说“总要想一两件事，不要想八九件事。”人来到这个世界，是一种体验，会遇到盛开的花朵；也会独自品味孤独。如果你觉得生活不是你想要的，内心也不是你想要的，因为心里有个结打不开，试试下面的方法打开它。第一，得不到的时候，放下。在《孙子兵法》中，有求必应。求之而得之；如果你自讨苦吃，你

情感专家 2023年9月27日
118 0
亲友去世让你觉得焦虑，情绪里隐藏了什么心理学秘密？听专家说

作者:赵小明编辑排版:马旭崔冠丽小明语录:面对不可预知的事情，我唯一能提供的就是不断的学习。除了这个信念，我一无所有。死亡焦虑存在于我们生活的任何地方，通常是生活中或电视上的新闻等。任何与死亡有关的东西都会激活人对死亡的焦虑。回头看看你的大学同学，肯定有不在了的。我的两个研究生走了。在你的同学中，所有这些消息都会激起你的死亡焦虑

情感专家 2023年9月23日
202 0
《学习的逻辑》记忆策略

如何使用以及如何使用提取策略；第一种方法是第一次背诵的时候用。第一步，把需要背诵的材料看几遍，形成一定的熟悉度。你不需要读得太好，因为读得太好意味着要重复很多遍，意味着要花很多时间，意味着效率不高。第二步，覆盖素材，提取大脑。覆盖材料后，试着背诵不熟悉

情感专家 2023年7月31日
155 0

AI大模特不是人。停止像测试人类一样测试他们。

相关推荐