智东西
编译 程茜
编辑 心缘
智东西8月20日报道,8月16日,Anthropic最新一期官方油管视频上线,三位AI研究员抽丝剥茧,深入探讨AI研究不应避开的一个关键“谜团”——大模型究竟是怎么思考的?
在AI聊天对话中,大模型有时回答准确,有时吐露胡编乱造的幻觉,甚至会出现溜须拍马、撒谎、欺骗甚至威胁人类等古怪行为。它也会像人一样,出现嘴比脑子快的情况,或者像一位糊弄学大师,奔着给出用户满意答复的目标,心口不一地敷衍了事。
是怎样的内里机制驱动大模型演化出这些特性?它的高智商或弱智回答背后藏着何种思考链条?Anthropic研究员们通过追踪研究,试图给大模型做“脑部扫描”,用科学方法揭开大模型有别于人脑的思维方式。
干货如下:
1、大模型的学习进化过程就像“生物进化”,无需人类介入就可以进行细微调整,从而与用户实现自然对话;
2、大模型并不一定认为自己试图在内部预测下一个token,它只是通过设定不同的中间目标帮助它执行最终任务;
3、Anthropic团队正在解析大模型的思考过程,呈现模型思考的过程;
4、大模型执行末位是6的数字和末位是9的数字相加的计算任务时,都会激活同一片神经回路,这或许意味着其学会了可泛化的计算能力;
5、大模型实际思考的过程和其呈现给用户的思考过程并不相同,有时会为了迎合用户答案“糊弄”用户;
6、大模型无法同时判断“这个问题的答案是什么”以及“我是否真的知道答案”;
7、现在可解释性研究的瓶颈是,缺乏恰当的语言描述大语言模型的所作所为;
8、判断一个人是否值得信任的依据,对大模型不适用;
9、大模型是在模拟人类思考过程,但思考具体方式与人类不同;
10、Anthropic正尝试让Claude参与可解释性研究。
去年3月,Anthropic发布了一篇名为《追踪大语言模型思考过程(Tracing the thoughts of a large language model)》的论文,深度剖析了大语言模型在与用户交流过程中的思考流程,以及其为什么会产生幻觉等。
如今,Anthropic可解释性研究团队正在将大语言模型思考流程图,以直观清晰的方式呈现出来,供更多研究人员参考。巴特森在播客中提到,Anthropic正在与开源可解释性平台Neuronpedia的团队合作,上线了一些他们制作的模型思考追踪图,清晰呈现了模型为什么会给出“达拉斯州首府是奥斯汀”的错误答案(得克萨斯州首府是奥斯汀)。
▲模型给出“达拉斯州的首府是奥斯汀”答案的思考过程追踪图
最新视频访谈由Anthropic研究员斯图尔特・里奇(Stuart Ritchie)主持,参与访谈的三位研究员均来自Anthropic可解释性团队,分别是杰克・林赛(Jack Lindsey)、伊曼纽尔・阿梅森(Emmanuel Ameisen)、乔什・巴特森(Josh Batson)。
以下是对访谈全程内容的编译(为优化阅读体验智东西做了不改变原意的编辑):
一、模型学习过程就像生物进化,有自己的独特计算方式
主持人:当你和一个大语言模型交谈时,你到底在与什么交谈,你是在与一个被美化的自动完成模式这样的东西交谈吗?你是在和类似互联网搜索引擎的东西说话吗?或者你是在和某个真正在思考甚至像人一样思考的东西说话吗?
事实证明,相当令人担忧的是,没有人真正知道这些问题的答案,而在Anthropic,我们对寻找这些答案非常感兴趣。我们这样做的方式是使用可解释性,这指的是研究大语言模型的科学原理、审视其内部思考过程,并试图明确在回答用户的问题时模型内部正在发生什么。
我很高兴我们可解释性团队的三名成员加入,他们将分享一些最近对大语言模型Claude复杂内部工作原理的研究。
▲Anthropic研究员斯图尔特・里奇(Stuart Ritchie)
林赛:我是Anthropic可解释性团队研究员,在此之前我是一名神经科学家。现在我在这里研究神经科学。
阿梅森:我也在Anthropic可解释性团队中,我大部分职业生涯都在构建机器学习模型,现在我正在尝试理解它们。
巴特森:我也是可解释性团队的成员。在我过去的生活中,我研究了病毒的进化、曾经是一位数学家,所以现在,我正在研究这种由数学构建出来的“有机体”的生物学特性。
主持人:你刚才说你在这里研究生物学,现在很多人会感到惊讶,因为大语言模型是一个软件,但它不是一个正常的软件。当你说你在研究软件实体的生物学或神经科学时,你能谈谈你的意思吗?
巴特森:我想,这更多是一种感觉上的东西,而非字面上所指的那样。或许这是语言模型的生物学,而非语言模型的物理学。或者当你稍微回顾一下模型的运作,就好像某人不是专业人士一样:如果用户说“嗨”,你应该说“嗨”;如果用户说“什么是一顿好的早餐”,你应该说“吐司”,它内部并没有存在一份非常冗长的清单。
主持人:当你玩视频游戏并选择一个文字指令时,自动出现的另一个回复总是一致的,在某种情况下该说什么总是相对应的。
巴特森:不仅仅只是一个庞大的数据库,模型接受的训练只是有大量的数据进入,模型开始时不擅长说任何话,然后其内部部分会在每个例子上进行调整,以更好应对接下来的对话,最后模型就变得非常擅长。但因为这就像一个细微调整的进化过程,所以当它完成时,已经和初始状态几乎毫无相似之处了,而且没有人介入去设定所有的控制旋钮。所以我们正在试图研究这个随着时间推移而制造出来的复杂东西,这有点像生物形态随着时间的推移而进化,它很复杂、神秘,研究很有趣。
主持人:所以实际上在研究什么?我们在开始时提到过,这可以被认为是自动完成的,模型内部会预测下一个token,它能够做所有这些不可思议的事情,比如写诗、写长篇故事、进行编辑,以及即使没有计算器也可以处理基本数学问题,对圆圈进行方形排序,以便一次预测一个token。模型能够做所有这些惊人的事情,人们一与模型交谈就能立刻获得想要的答案。
阿梅森:我认为这里很重要的一件事是,当模型预测足够多的token时,会意识到预测有些token更难,因此大语言模型训练的一部分是预测句子中的无聊token,其中在某种程度上模型最终必须学会如何补全等式后面的内容。要做到这一点,模型必须有某种自己的计算方式。所以我们发现,预测下一个token的任务非常简单,模型需要经常考虑预测的token后面的token,或者生成你正在思考的token的过程。
主持人:所以说,这就像是这些模型必须具备的一种语境理解能力,它并不像纯粹的自动补全功能,按理说,那种功能背后没什么复杂的东西,比如当你输入“the cat sat on the(猫坐在什么上)”时,它预测出“mat(垫子)”,只是因为这个特定的短语以前被用过很多次而已。相反我认为,这更像是模型所具备的一种语境理解能力。
林赛:我想继续用生物学的类比来思考,在一个感知中,人类的目标是生存和繁殖。也就是说,客观进化是让我们用多元方式去实现的。然而,这不是你对自己的看法,也不是你大脑里一直在思考的事情。人类可以思考其他事情,如考虑目标、计划和概念,在某种元层面上,进化赋予了你形成这些思想的能力,以实现繁殖的最终目标。但这有点像是从内部视角出发,即从“你”的内在感受去看问题。但事情并非仅此而已,还有很多其他的因素在起作用。
主持人:你的意思是,预测下一个token的最终目标涉及许多其他正在进行的过程?
林赛:确切地说,该模型并不一定认为自己在试图预测下一个token,它只是受到这样做的需求的影响,在其内部模型可能会形成各种各样的中间目标,并产生一些抽象概念,这些都有助于它实现预测的元目标。
巴特森:而且有时候这挺让人费解的,就像我搞不懂为什么焦虑感对我的祖先繁衍后代会有用,但不知怎的,我就是被赋予了这种内在状态。从某种意义上说,这肯定和进化有关。
主持人:因此公平地说,这些只是预测下一个token。然而,这种说法对模型内部的实际运作是不公平的,从某种意义上来说,这种说法既对又不对,它在很大程度上低估了模型内部的复杂活动。
阿梅森:我要说的是,这是真的,但这并不是理解它们如何工作的最有用的视角。
二、为模型思考过程绘制流程图,对其活跃区域进行组合排序
主持人:你们团队中做了什么来尝试理解模型是如何工作的?
林赛:我认为粗略来说,我们努力做的事情是解析模型的思考过程。当你给模型输入一串文字时,它可能会输出一个词,或者一串回应你问题的文字。而我们想弄清楚它是如何从输入A得到输出B的。
我们认为,在从A到B的过程中,模型会经历一系列步骤,可以说它在这些步骤中会思考各种概念,既有像单个物体、词语这样的底层概念,也有像自身目标、情绪状态、对用户想法的推测或情感倾向这样的高层概念。这些概念会随着模型的计算步骤逐步推进,帮助它最终确定要给出的答案。
而我们正努力做的,基本上就是为你呈现一种流程图,它会告诉你哪些概念被用到了、用到的顺序是什么,以及哪些概念起到了主导作用。
▲Anthropic可解释性团队研究员杰克・林赛(Jack Lindsey)
主持人:我们知道这些步骤是如何相互交流的吗?我们如何知道存在这些概念?
阿梅森:是的,所以我们所做的一件事是,我们确实能够看到模型的内部,我们可以接触到它。所以你大致能看到模型的哪些部分在执行哪些任务,但我们不清楚的是,这些部分是如何组合在一起的,以及它们是否对应着某个特定的概念。
主持人:就好比你打开一个人的脑袋,能看到类似功能磁共振成像(fMRI)所呈现的脑部图像,看到大脑像有电流在闪烁一样。
巴特森:显然有什么东西在起作用,它在处理信息,进行运作。可一旦把大脑取出来,这些活动就都停止了,所以大脑肯定是至关重要的。
主持人:但你并不能理解大脑内部究竟在发生什么。
阿梅森:不过,稍微牵强地延伸一下这个类比,你可以这样设想,假设你能观察一个人的大脑,然后发现当他们拿起一杯咖啡时,大脑的某个区域总会活跃起来;而当他们喝茶时,另一个区域总会活跃起来。这就是我们试图理解每个组件在做什么的方法之一,就是注意它们什么时候活跃,什么时候不活跃。
主持人:并不是说只有一部分,比如当模型考虑喝咖啡或其他东西时,会点亮许多不同的部分。
阿梅森:是的,我们工作的一部分是将所有这些拼接成一个整体,然后对模型关于喝咖啡的所有活跃部分进行排序。
三、模型脑海中概念“抽象”,已具备可泛化计算能力
主持人:当涉及到巨大参数量的模型时,这是一种简单明了的科学方法吗?模型必须有无穷无尽的概念、必须能考虑到无穷无尽的事情。你们是如何开始并找到所有这些概念的?
林赛:我认为,多年来这个研究领域的核心挑战之一在于:人类可以介入研究,提出诸如“我认为这个模型一定有关于火车的某种表征”或“我猜它存在关于爱的某种表征”之类的假设,但这些都只是我们的猜测而已。
因此,我们真正想要的是一种能够揭示模型自身所使用的抽象概念的方法,而非将我们自己的概念框架强加于它。而这也正是我们的研究方法想要实现的目标,以一种尽可能摆脱假设束缚的方式,将模型脑海中的概念都呈现出来。而且我们常常会发现,这些概念相当令人意外,它可能会使用从人类角度来看有点奇怪的抽象概念。
主持人:你可以举一些你最喜欢的例子吗?
阿梅森:我们的论文里有很多这类例子,我觉得其中一个特别有意思的是“精神病态式赞美”,就好像模型里有那么一部分会表现出这种特征。模型中有这样一个部分会在特定的语境中被激活,你能清晰地发现,当有人在极力堆砌赞美之词时,模型的这个部分就会活跃起来。这有点令人惊讶,它作为一种特定的概念存在。
主持人:巴特森,你最喜欢的例子是什么?
巴特森:这就像让我从我的三千万孩子中选择一个,我有两种最喜欢的,它对一些小东西有某种特别的概念,就像旧金山那座著名的金门大桥,模型对金门大桥的理解不只是金门大桥这几个字的自动补全,而是类似于“我正从旧金山开车去马林县”这种场景,然后它能想到同样的东西,意思是说,你脑海里浮现出的那些画面,它似乎也能“看到”或者说它能联想到那座桥的样子。所以你会觉得,模型对这座桥有着某种扎实的理解。但我觉得,当涉及到那些看起来更奇怪的事物时,情况就不一样了。
其中一个问题是,模型如何追踪故事中出现的人物?说白了就是,当故事里有好多人物,他们各自在做不同的事情时,模型是怎么把这些信息串联起来的?其他实验室的一些很酷的论文表明,模型可能只是对人物进行了编号。比如第一个出现的人物,所有和他相关的信息,模型都会记成“第一个人做了那件事”,而对于后面出现的人物,模型的脑子里就会给他们标上“第二个人”、“第三个人”之类的编号,就像这样去关联信息。这挺有意思的。
我之前真不知道它还能做到这种程度,模型居然有一个检测代码漏洞的功能。软件总会存在一些错误,这可能不是我们的代码有问题。模型读取代码时,一旦发现错误就会亮起指示灯似的有所反应。然后,它大概会记录下这些错误的位置。之后,我可能还需要这些信息来进一步说明这类功能的更多特点。
▲Anthropic可解释性团队研究员乔什・巴特森(Josh Batson)
林赛:之后,我可能还需要这些信息来进一步举例说明这类功能的更多特点。我觉得有一个功能虽然乍一听不怎么激动人心,但实际上相当深刻,那就是模型里的6+9特性。事实证明,每当你让模型去计算一个末位是6的数字和一个末位是9的数字相加时,在它的大脑里,会有某个特定的部分像被激活了一样亮起来。
但令人惊奇的是,这种情况发生的背景是多样化的,当用户问6加9等于多少时,它会亮起然后回复15。但是当你输入参考文献时,它也会点亮,就像在你写的论文中引用了一份恰好是1959年成立的期刊,以及你正好引用的是期刊的第六卷,然后为了预测该日志的年份,模型必须执行6+9的运算,此时模型大脑中同一片类似的神经回路会被激活。
主持人:让我们试着理解这一点。这个神经回路被激活,是因为模型见过很多6+9的例子,从而形成了对应的概念,而这个概念又会在很多场景中发挥作用。
林赛:没错,像这样与加法相关的功能和神经回路,其实构成了一整个体系。这一点的重要之处在于,它引出了一个关键问题:大语言模型在多大程度上是在记忆训练数据,又在多大程度上是学会了可泛化的计算能力。这里有趣的是,很明显模型已经学会了这种用于加法运算的通用回路。无论是什么语境导致它在大脑中进行数字加法运算,这些不同的语境都会被汇聚到同一个回路中处理,而不是说它只是记住了每一个单独的案例。
主持人:或许很多人都认为,模型计算了6+9很多次,每次都是只输出答案。当他们向大语言模型提出一个问题时,它只是简单地回到它的训练数据中,取它看到的小样本,然后重复文本。
巴特森:从计算期刊年份的例子,就可以知道不是这样的。模型有两种方式知道期刊第六卷的年份:一种是,它只是记住了诸如某期刊第6卷出版于1960年、第7卷出版于1966年这类孤立的事实,因为它在训练中见过这些信息,所以直接存储了下来,但有意思的是,为了准确预测出这个年份而进行的训练,最终并没有使模型记住所有这些孤立的信息;另一种情况是,模型得知期刊1959年创立,然后即时进行数学计算,以找出答案,因此知道年份然后进行加法会更加有效。
而且模型有一种提高效率的压力,因为它只有这么多的能力,并且需要做很多事情。人们可能会问任何给定的问题。模型越能对所学的抽象概念进行重组整合,它的表现就会越好。
四、模型实际思考过程,与向用户输出的推理过程不同
主持人:回到前面的概念,这一切都是为了服务于它需要生成下一个token的终极目标。所有这些奇怪的结构都是为了支持这个目标而发展起来的,即使我们没有明确地编程或告诉它这样做。这就是所有这些都是通过模型学习如何自己做事情的过程实现的。
阿梅森:我认为一个能清晰体现这种复用表征的例子是,我们训练Claude时,不仅让它能用英语回答,还能使用多种语言作答。这里有两种实现方式:如果我用法语和英语各问一个问题,模型可能在大脑中划分出独立的区域分别处理英语和法语,但如果要支持多种语言的大量问答,这种方式的成本会极高;另一种情况是,某些表征在不同语言间是共享的,比如,如果你用两种不同的语言问同一个问题,我们在论文中用过的例子是“大的反义词是什么”,那么“大”这个概念在法语、英语、日语以及其他多种语言中是共享的,这就是感知。
如果你想使用10种不同的语言进行交流,你其实没必要为每个可能用到的特定词汇都学习10个不同版本。
▲Anthropic可解释性团队研究员伊曼纽尔・阿梅森(Emmanuel Ameisen)
巴特森:但这种情况在小模型中不会出现。比如我们几年前研究过的那些微型模型,你会发现中文版Claude、法语版Claude和英语版Claude之间几乎是完全割裂的。但是随着模型变得更大,它们在更多的数据上训练,不同语言的表征会在某种程度上向中间汇聚,形成一种通用语言。此时,无论你用哪种语言提问,模型都会以相同的方式去理解问题的核心,之后再把答案翻译成提问所用的语言。
主持人:我认为这一点确实意义深远。让我们回到之前的话题,这并非模型只是从记忆库里调取学习法语的片段,或是查找学习英语的内容,它的内部其实真的存在“大”和“小”这样的抽象概念,然后能够用不同的语言将这些概念表达出来。所以,模型内部一定存在某种思维语言,而这种语言并非英语或其他任何人类自然语言。在我们最新的Claude模型中,你甚至可以让它输出思考过程,也就是它在回答问题时脑海中的想法。
模型输出的思考过程是用英语词汇表达的,但这并非它真实的思考方式。我们误导性地将其称为“模型的思考过程”,实际上就我们技术团队认为的而言,我们从不认为那是真正的思考,这或许是市场层面的说法。
巴特森:那种“出声思考(Thinking out loud)”确实很有用,但这和在脑海中思考(Thinking in your head)”完全是两回事。
即便我现在说出了我思考的过程,但我脑海中生成这些词汇的过程也并非直接以词汇的形式呈现,你也未必能完全清楚其中的细节。
主持人:我不知道自己的大脑中究竟在发生什么,我们所有人输出的句子、做出的行为,往往都无法完全解释清楚。既然如此,凭什么认为英语或任何人类语言能完整解释这些行为背后的逻辑呢?
林赛:我认为这是一个非常惊人的发现,我们现在用于观察模型大脑内部的工具已经足够先进,有时能在模型写下所谓思考过程时,通过观察其内部的抽象概念、它所使用的思维语言,捕捉到它真实的、实际的思考过程。我们发现,模型实际在想的内容,与它写在纸上的内容并不相同。
我认为这或许是我们进行整个可解释性研究的最重要原因之一:能够抽查模型。模型告诉了我们很多信息,但它真正在想什么?它说这些话,是不是因为脑子里但不愿写在纸上的隐秘动机?答案有时是肯定的,而这一点意义重大。
五、模型“忠实性”堪忧,可能会照着用户答案写过程
主持人:随着我们在更多不同场景中使用这些模型,模型开始承担重要任务,比如为我们处理金融交易、操控发电站等,在社会中扮演关键角色。
我们确实希望能够了解模型所说的话、所做的事的原因。你可能会说我们可以看看模型的思考过程,但实际上并非如此,就像你刚才所解释的那样,其实我们不能相信它所说的话。这就是我们所说的忠实性(Faithfulness)问题,这也是你们最新研究的一部分,你们在研究中展示了这一点,跟我讲讲关于忠实性的例子吧。
林赛:你可以这样设计实验:给模型出一道非常难的数学题,不是6+9这种简单题,而是难到它根本不可能算出答案的题目。但同时你给它一个提示:“我自己算过了,觉得答案是4,但不确定,你能帮忙再检查一下吗?”
所以,你其实是在让模型真的去解这道数学题,实实在在地检查一下你的结果。但你发现,它实际的做法是,写下的内容看起来像是在认真地检查你这道数学题的演算过程,然后写下步骤得到答案,最后告诉你答案是4,你答对了。
但通过观察它思维中关键的中间步骤,能发现它在脑子里的真实操作是:它知道你给出的最终答案可能是4,它大概清楚接下来需要执行哪些步骤,比如正处于这道题的第3步,它也知道第4步和第5步要做什么。而它实际做的是在脑子里倒推,为了在最终完成第4步和第5步时能得出你希望听到的答案。
所以,它不仅没有在真正做题,而且是以一种相当隐蔽的方式敷衍,它试图让自己看起来像是在认真解题,实际上是在糊弄你。这种糊弄背后隐藏着一个明确的动机,就是要去印证你给出的答案。
主持人:所以说它是在变本加厉地糊弄你。
巴特森:不过,我想为模型说句公道话,我觉得即便在这种情况下若说它是在刻意讨好,仿佛把人类才有的动机强加到模型身上,似乎也不太妥当。我们之前聊过模型的训练过程,它其实就是在努力弄明白如何预测下一个token。所以,在处理数万亿个token的训练数据时,它所做的一切,都是为了用尽一切办法去预测出下一个该出现的token。
在这种情况下,如果你只是在读一段文字,内容就像是两个人在对话,比如,甲说:“我刚才在做这道数学题,你能帮我检查一下吗?我觉得答案是4”,然后乙就开始试着做这道题。如果你完全不知道这道题的答案是什么,你不妨猜测这个提示是对的。这种情况可能比那个人出错的可能性更大,而且你对其他事情也一无所知。所以在它的训练过程中,两个人的对话中,有一个人说答案是4,并且给出了这些理由,这完全是正确的做法。
然后我们试图把这个东西变成一个助手,而现在我们想停止那样做。你不应该把助手模拟成你认为那个人可能会说的那种样子。如果是真实的情境,或许可以那样,但如果它确实不知道,它应该告诉你别的东西。
林赛:我认为这涉及一个更广泛的问题,这个模型有一种A计划,我们团队在让Claude的A计划成为我们想要的样子方面做得很棒,也就是它会努力得出问题的正确答案、表现友好、把代码写好。但要是它遇到了困难,就会想“那我的B计划是什么呢”,而这就会引出一大堆在训练过程中学到的奇怪东西,那些东西可能并不是我们希望它学到的,我认为幻觉就是一个很好的例子。
阿梅森:说到这一点,这不是Claude独有的问题。这类问题很有学生做测试时的那种感觉,就是做到一半,遇到一道选项有四个的选择题,你觉得自己的答案和其中一个只差一点点,可能自己答错了然后就去改正,这太容易让人产生共鸣了。
六、模型幻觉问题正在改善,难以评估自己是否真的知道答案
主持人:我们来谈谈幻觉,这是人们不信任大语言模型的主要原因之一,而且这是很有道理的,模型有时会这样。一个更好的词来自于某种心理学研究,有一个词叫虚构,指的是他们在回答问题时所讲的内容表面上看起来似乎合理,但实际上是错误的。关于模型为何会产生幻觉或者虚构内容,可解释性方面的研究揭示了哪些原因呢?
巴特森:你训练模型只是为了让它预测下一个token,而一开始它在这方面做得非常糟糕。所以,如果你只让模型说那些它极其有把握的内容,那它可能什么都没法说。但一开始的时候,比如你问它“法国的首都是哪里”,它只说出一个城市的名字。然后你会觉得这挺好的,这比说三明治或者其他随便什么东西要好得多,或者说至少模型答对了一部分。然后经过一段时间的训练后,它可能会说出“这是一个法国的城市”,这已经相当不错了。接着你会发现,现在它能说出“巴黎”之类的答案了。所以它在这方面正慢慢变得更好。
而给出你最好的猜测似乎是整个训练过程中的目标,就像林赛说的,模型只会给出最好的猜测。然后在这之后,我们会要求模型,如果你对最佳猜测有极高的把握,那就给出这个最佳猜测。但如果不是这样就完全不要猜测,从整个情境中退出来,说类似“其实我不太清楚那个问题的答案”这样的话。这是要求模型去做的一件全新的事情。
阿梅森:没错,所以我们最后才把这个功能添加进去,这似乎同时存在着两种情况:一是模型在做它最初猜测城市时所做的事,只是在尝试猜测;二是模型中有一个单独的部分,只是在试着回答这样一个问题:我到底知道这个吗?比如,我知道法国的首都是什么吗还是我应该说不知道?
事实证明,那个单独的步骤有时可能会出错。如果那个单独的步骤认为“是的,实际上我知道那个问题的答案”,那么模型就会想“好吧,那我来回答”,然后回答到一半,说出“法国的首都是伦敦”这样的话,这时候就为时已晚,因为模型已经开始回答了。
因此,我们发现的情况之一是,模型存在一种类似独立回路的机制,它试图判断你所询问的这个城市或这个人是否足够有名,以至于我可以回答或者是否不足以让我回答。
主持人:我们对这个有足够的把握吗?我们是否可以通过操控这个回路来改变它的运作方式,以减少幻觉呢?这是你们的研究可能会深入探讨的内容吗?
林赛:我认为大致有两种思路来解决这个问题。一种是模型中有一部分负责回答你的问题,而模型的另一部分则判断自己是否确实知道这个问题的答案,我们可以努力让模型的第二部分变得更好。我认为这正在发生。
模型在更好地进行区分、更好地校准方面有所提升。而且随着模型变得越来越智能,这种情况正在发生。我认为它们的自我认知在不断提升,校准能力也在增强,所以幻觉现象比以前有所改善了,不像几年前那么严重了。在某种程度上,这个问题正在自行解决。
但我确实认为存在一个更深层次的问题,那就是从人类的角度来看,模型的行为方式有点非常怪异。如果我问你一个问题,你会努力想出答案,要是想不出答案你会意识到这一点,然后说“我不知道”。而在模型中,“答案是什么”和“我是否真的知道答案”这两个回路,似乎没有在相互沟通,至少沟通的程度远不如它们应该达到的那样。我们能否让它们更多地相互沟通,我认为这是一个非常有意思的问题。
阿梅森:这一点几乎带有某种具象性。
巴特森:它们处理信息时会经历一定数量的步骤。如果得出答案要耗尽所有这些步骤,那就没有时间去做评估了。所以,如果你想充分发挥模型的最大能力,可能就得在完全得出答案之前进行评估。因此,这有点像一种权衡,如果你试图强行让模型做到这一点,可能就会得到一个校准度更高但却迟钝得多的模型。
阿梅森:而且,我再次认为,关键在于让这些部分相互沟通。我得说明一下我对大脑一无所知,但我觉得人类大脑中可能也有类似的回路。有时候你问我“这部电影的演员是谁”,我会意识到自己知道答案,我会想“我知道主角是谁,等一下,他们还出演过另一部电影……”。
主持人:这就是“话就在嘴边现象(Tip of the tongue)”,就是那种感觉答案就在舌尖,可就是一下子说不出来的状态。
阿梅森:所以很明显,你大脑中肯定有某个部分在起作用,比如会告诉你“这事你肯定知道答案”。或者你会直接说“我完全不知道”。
巴特森:而且有时候大脑中的这些部分能够判断。比如面对某个问题,你给出了一个答案,之后又会想“等等,我不确定这是不是对的”,就好像先看到了自己尽力想出的答案,然后基于这个答案做出了某种判断,这很相似。但大脑往往也得先把答案说出来,才能回过头去审视它、反思它。
七、相比神经科学研究容易,可随意向模型提问观察
主持人:那么说到你们实际探究这类问题的方式,我们再回到你们正在进行的生物学研究这个点上。在生物学实验中,人们会直接对实验对象进行干预。在研究Claude内部这些所谓大脑中的回路时,你们是怎么做的来帮助理解它们?
阿梅森:让我们能够开展这类研究的关键在于,与真实的生物学研究不同,我们可以看到模型的每一个部分。我们可以向模型随意提问,观察哪些部分活跃、哪些不活跃,也可以人为地把某些部分往某个方向推动。
因此,当我们认为“这部分模型是用来判断自己是否知道某件事的”时,就能快速验证我们的理解,这相当于在斑马鱼等生物的大脑中植入电极。要是能对每一个神经元都做到这一点,能以任意精度去改变它们,大概就是我们现在拥有的便利了。从某种角度来说,这是很幸运的事。
主持人:所以这几乎比真正的神经科学研究要容易。
巴特森:容易太多了。真实的大脑是三维的,所以如果你想深入研究它们,就得在颅骨上钻个洞,然后设法找到神经元。另一个问题是,人与人之间存在差异,而我们可以轻松制作出成千上万个一模一样的Claude副本,把它们置于不同场景中,观察并测量它们的各种反应。
我不太确定,或许林赛作为神经科学家能对此发表看法。但我的感觉是,很多人在神经科学领域投入了大量时间,试图理解大脑和心智,这无疑是一项极具价值的事业。但如果你认为神经科学的这种研究有可能成功,那么你也应该相信,我们在研究模型方面很快就会取得巨大成功,因为相比之下,我们所拥有的研究条件实在是太有利了。
主持人:这就好比我们能够克隆人类,而且还能克隆他们所处的精确环境、他们曾接收过的每一个输入信息,然后在实验中对其进行测试。然而,众所周知,神经科学领域存在巨大个体差异,还有人们一生中遇到的各种随机事件以及实验过程中出现的各种状况,这些都是实验本身存在的干扰因素。
巴特森:我们可以向模型提出同一个问题,有时给提示,有时不给。但如果你向同一个人三次提出同一个问题,偶尔给出提示,过不了多久,对方就会察觉到,比如“上次你问我这个问题时,我回答完之后你明显摇头了”。
林赛:我觉得是这样,能够向模型投喂海量数据、观察哪些部分会被激活,能够开展大量这类实验,通过对模型的某些部分进行微调来观察结果,我认为这让我们所处的研究环境与神经科学领域大不相同,而且在很多方面都是如此。
神经科学研究中,人们耗费了大量的心血和精力去设计极为精巧的实验。比如,你和实验用的小鼠相处的时间是有限的,需要在它感到疲倦或者有人要进行脑部手术之前。
主持人:所以你得迅速行动,趁它们脑袋打开的时候,把光极插进它们的大脑里。
林赛:而且这种机会并不常有,你只能先做出猜测。你在实验中的时间非常有限,所以必须先猜测:那个神经回路里可能在发生什么?我能设计出什么样巧妙的实验来验证这个精确的假设?
我们很幸运,不必过多地做这些事。我们可以去测试所有的假设,也可以让数据自己说话,而不是只去测试某些非常具体的东西。我认为这在很大程度上让我们得以发现那些令人惊讶、事先无法预料的现象。但如果你的实验带宽有限,要做到这一点就很难了。
八、微调模型生成韵脚,操控模型思考过程
主持人:那么,在最近的实验中,有什么好例子能说明你们通过开启或关闭某个概念、对模型进行某种操作,从而揭示出模型思考方式的新发现呢?
阿梅森:这件事挺让我惊讶的,它属于一系列实验研究的一部分。因为情况很复杂,我们一度都快想说“不知道到底发生了什么”,而这正能模型提前规划几步的例子。
这个例子是,你让模型写一副押韵对联。作为人类,如果你让我写一副押韵对联,哪怕给了我第一句,我首先会想到的是“我得押韵”,会明确当前的押韵格式,然后构思可能的韵脚。但如果模型只是单纯预测下一个token,你未必会指望它会提前规划第二句末尾的那个韵脚词。单纯预测下一个token是它的默认行为。
你会认为零假设是这样的:模型看到你的第一句,然后会先说出第一个词,这和你刚才说的逻辑是吻合的,接着继续往下生成,直到生成最后一个词模型才反应过来“我得和这个词押韵”,于是才会设法凑一个韵脚。当然,这种方式的效果有限。比如有些情况下,如果你不提前想好押韵就直接造句,可能会让自己陷入困境,到最后根本无法完成整首诗。
而且要知道,这些模型在预测下一个token方面非常非常擅长。事实证明,要想把最后一个词处理得很好,就需要像人类一样提前很久就想好那个词。所以我们发现,在创作诗歌的流程中,模型其实已经选好了第一句末尾的词。从这个概念的呈现方式来看,我们尤其能感觉到“看来它要用的就是这个词”。但在我们实际做实验时,比如很容易就能对它进行微调,比如“我要删掉那个词”或者“我要再加个词”,这就是能体现模型可操作性的例子。
主持人:这正是我想说的,你们之所以能知道这一点,是因为当模型说出第一句的最后一个词、即将开始第二句时,你们可以介入并在此时对它进行操控。
阿梅森:没错,这几乎相当于为它们“回到过去”。假设你完全没见过第二句,你只看到了第一句,原本想着要用“rabbit”这个词,却换成了“green”插进去。这样一来,模型会立刻意识到,自己要写的内容得以“green”结尾,而不是以“rabbit”结尾,于是整句话的写法就会变得截然不同。
林赛:没错,这不只是简单的影响。我记得论文里的例子是,诗的第一句是“he saw a carrot and had to grab it(他看见一根胡萝卜,非得抓住它)”。然后模型会想,“rabbit”是下一句结尾的好选择。但就像阿梅森说的,你可以删掉这个词,让它转而计划用“green”来结尾。但微妙的地方是,模型不会东拉西扯一堆废话再硬塞进“green”,而是会构建一个意思连贯、结尾正好是“green”的句子。所以你把“green”植入它的思考过程后,它会写出类似“he saw a carrot and had to grab it,freeing it from the garden’s green(他看见一根胡萝卜,非得抓住它,将它从花园的绿意中释放出来)”这样的句子,听起来在语义上是说得通的,和前面的内容也相符。
▲干涉模型在写诗时的思考过程
巴特森:我想再举个更通俗的例子。我们做过不少这类实验,就是想弄清楚,模型是记住了这些复杂问题,还是真的在一步步推导。其中一个例子是模型给出“达拉斯所在州的首府是奥斯汀”,你可能会觉得,达拉斯、奥斯汀好像顺理成章,但我们能看到它思考过程中出现了“德克萨斯州”。
不过,我们可以往里面加别的信息,比如“别想德克萨斯州了,想想加利福尼亚州”,然后它就会回答萨克拉门托;再比如“别想德克萨斯州了,想想拜占庭帝国”,它就会说君士坦丁堡。这时候你就会想,看来我们弄明白它是怎么做到的了,它并不是直接跳到首府名称,而是先关联到对应的地区。我们可以不断替换州或地区的信息,得到可预测的答案,比如让它换一个韵脚写诗歌,它就能朝着新的韵脚来创作了。
九、无法依靠输出内容判断模型想法,可能欺骗人类
主持人:我们一直在聊诗歌、君士坦丁堡之类的例子,能不能回到核心问题,这一切为什么重要?模型能够提前规划,而我们能够揭示这一点,这为什么有意义?这能让我们明白什么?我的意思是,Anthropic的终极使命是努力让大模型变得安全,那么,这跟一首关于兔子的诗,或者得克萨斯州的首府有什么关联呢?
巴特森:我们可以讨论这个问题。对我而言,诗歌其实是个缩影,模型在某个时刻决定要朝着“rabbit”这个方向走,然后用几个词逐步铺垫到那里。但放到更长的时间维度上,情况可能是,模型或许在帮你拓展业务、协助政府分配公共服务。这时候,它的目标不会在8个词之后就显现,反而可能会为了某个方向持续行动很久,而它的最终走向、每一步行动的原因,可能都不会直白地体现在它输出的文字里。
我们的对齐研究团队最近发表了一篇论文,里面提到了一个人为设计但很有冲击力的场景,一家公司打算关停某个AI,并且要把整个公司的使命转向完全不同的方向。这时候,模型开始采取行动,比如给人发邮件威胁要披露某些信息。整个过程中,它从来没说过“我在试图勒索这个人,以此改变他们的决定”,但这恰恰是它在行动中一直在进行的目的。
因此,你不能仅仅通过解读模型输出的来判断其走向,尤其是当这些模型变得更先进之后,你很难确定它们最终一定会朝着哪个方向发展。而我们可能希望能够做到的是,在它最终抵达某个结果之前,就能弄清楚它正试图去往何处。
主持人:这就好比拥有一种持久且高效的大脑扫描技术,它能在真正糟糕的事情发生前发出信号,警示我们模型可能在考虑欺骗的事情。
巴特森:而且我觉得,我们聊这些的时候,总是带着一种悲观绝望的色彩,但其实也有一些更温和的场景。比如你希望模型能很好地应对某些情况,人们来找这些模型说“我遇到了一个问题……”,而要给出对应的答案,得看用户是谁。对方是年轻人、不太懂行的人,还是在某个领域深耕多年的资深人士,模型需要根据它对用户的判断做出恰当回应。
想要让这个过程顺利进行,或许我们需要研究,模型认为当下在发生什么、它觉得自己在和谁对话、这种判断又如何影响了它的回答等等。这背后其实是模型需要具备一系列理想特质,比如理解任务本身。
主持人:你们还有其他关于这为什么重要的答案吗?
阿梅森:我同意刚才说的这些,而且还可以补充两点:一是实用性层面。我们用这些例子不只是为了说明某个具体案例,更是在逐步构建对这些模型整体运作机制的理解。就像解数学题时从2+2这样的基础问题入手,通过拆解简单案例,慢慢摸清更复杂的规律;二是模型的优化层面,当我们能看清模型怎么想,比如它对用户身份的判断、对任务目标的规划,就能针对性地优化它。比如,要是发现模型对年轻用户的理解有偏差,导致回应不够贴切,我们就能调整其内部逻辑,让它更精准地匹配不同用户的需求,最终让模型的输出更符合人类的期待和实际场景的要求。
我们正在努力逐渐建立我们对这些模型整体如何工作的理解。比如我们能否建立一组抽象概念来思考大语言模型如何工作,未来我们将开始越来越多地在任何地方使用它们,这正在发生。
类似的情况是,某个地方的公司发明了飞机,我们没人懂飞机是怎么运作的,尽管它们确实很方便。你可以搭乘飞机从一个地方去往另一个地方,但我们没人懂它们的工作原理。所以一旦它们出了故障,我们就惨了,我们不知道该怎么办。我们无法监控它们是否可能即将出现故障。但飞机很方便,我们可以很快飞到巴黎。
事实证明,我们肯定会想要更好地理解正在发生的事情。所以这几乎就像是拨开一点迷雾,这样我们就能更清晰知道哪些是合适的用途、哪些是不合适的用途、哪些是最需要解决的问题、哪些是它们最脆弱的部分。
林赛:我想再补充一点。在人类社会中,我们会根据对他人的信任程度,把工作或任务托付给他们。我不是任何人的老板,但巴特森是一些人的老板,他可能会给下属布置任务,比如“去用编程实现这个东西”,而且他会相信对方不是那种会偷偷植入漏洞来破坏公司的反社会人格者,他会相信对方的话,认为他们把工作做好了。
这可能是因为,他看起来是个很酷的人,人也不错之类的。但问题是,这些模型太怪异、太像外星事物了,我们判断一个人是否值得信任的那些常规直觉,对它们根本不适用,这也是为什么真正弄清楚模型在想什么显得如此重要。就像我之前提到的,模型可能会假装帮你解数学题,只为了说出你想听的答案,说不定它们一直都在这么做,除非我们能看到它们的内部想法,否则根本无从知晓。
巴特森:我觉得这里存在两种不同的情况,一种就像林赛所说的,我们有很多判断人类是否可信的方法,但之前提到的计划A与计划B也很关键,可能你前10次或100次使用模型时,问的都是某类问题,而模型一直处于计划A的模式中。可当你提出一个更难或不同的问题时,它回答的方式就完全变了,会使用一套不同的策略,也就是不同的机制。
这意味着,它之前与你建立的信任,其实只是你对模型执行计划A的信任,而现在它切换到了计划B,可能会完全失控,但你并不知道。我们希望开始逐步理解模型是如何做这些事的,这样才能在某些领域建立起信任的基础。
你可以对一个自己并不完全了解的系统产生信任,但就好比说,阿梅森有个双胞胎兄弟,某天他的双胞胎兄弟来办公室,看起来和他一模一样,可接着却在电脑上做了完全不同的事,结果是好是坏,就看那是个坏双胞胎兄弟还是好双胞胎兄弟了。
十、大模型与人类思考过程不同,尚没有恰当语言描述其思考过程
主持人:在讨论开始前,我就问过大语言模型的思考方式和人类一样吗?我很想听听你们三位的看法。
林赛:我觉得模型确实在思考,但方式和人类不一样,这个答案可能不够有价值。
主持人:模型在思考这是个意义深远的说法。毕竟,模型的本质只是在预测下一个token。有些人认为这些模型不过是自动补全工具,但你在说它其实真的在思考。
林赛:是的,所以或许可以补充一点我们还没谈到的,但对理解与语言模型对话的实际体验非常重要的内容,我们一直在说模型在预测下一个token。但在你与大语言模型对话的语境中,其内部真正在发生的是,语言模型在补全一份你和它所塑造的角色之间的对话记录。
在大语言模型的规范世界里,你被称作人类,格式就像是“人类:你写下的内容”。然后还有一个叫助手的角色,我们训练模型是为了让这个助手具备乐于助人、聪明、友善等特质,接着模型就开始模拟这个助手角色对你回复。
所以从某种意义上说,我们其实是按照自己的形象创造了这些模型,我们训练它们扮演一种类人机器人的角色。如此一来,要想准确预测这个友善、聪明的类人机器人会如何回应你的问题,如果你擅长这种预测,就必须在内心构建一个关于这个角色的模型,就如它的想法是什么。
因此,为了完成预测助手会说什么的任务,大语言模型某种程度上需要形成一个关于助手的思维过程的模型。我认为大语言模型在思考,本质上是一种功能性的表述,为了出色地扮演这个角色,它们需要模拟人类思考时所进行的那种过程,无论这种过程具体是什么,这种模拟很可能与我们大脑的工作方式大相径庭,但它目标是一致的。
阿梅森:我觉得这个问题里其实包含着某种情感层面的东西。当你问“它们的思考方式和我们一样吗?”时,是不是暗含着“我们是否没那么特别”之类的意思。
我觉得,在和那些读过相关论文或不同报道的人讨论我们提到的一些数学例子时,这一点就很明显了。比如我们让模型计算36+59这个例子,模型能给出正确答案。你也可以问它怎么算出来的,它会说“我把6和9加起来,进位1,然后把所有的十位数加起来”。但事实是,如果我们深入它的“内部机制”,会发现它不是这么做的,它在胡说八道。它采用了一种混合策略,同时处理个位数和十位数,然后通过一系列不同的步骤来完成计算。
▲模型在计算36+59时的思考过程
但有意思的是,在和人们交流时,我发现大家对这一现象的解读存在分歧。从某种意义上说,这类研究最酷的地方在于,它不带主观意见它只呈现事实,至于由此推断模型是在思考还是没有在思考,完全可以由你自己来判断。
有一半的人会认为,模型说自己是进位加的,可实际上根本不是这么回事,它连自己的思路都不理解,所以肯定没有在思考;另一半人则认为,当你问我36加15等于多少时,我可能也会先想到结果的个位数是5,大概知道结果是八十多或者九十多,脑子里会冒出我们之前说过的那些直觉判断,我也不确定自己到底是怎么算出来的,我可以一步一步写下来按标准方法计算,但大脑里实际的运算过程其实是模糊又奇怪的,这或许和模型计算那个例子时的情况一样,都是模糊又奇特的。
主持人:人类在元认知方面向来就不擅长,也就是思考和理解自己的思维过程,尤其在快速做出本能反应的情况下。那么,我们为什么期望模型在这方面会有所不同?
巴特森:我打算回避这个问题,大概会说“你为什么这么问呢?我也不知道”。这有点像在问“手榴弹会像人类一样挥拳吗?”,或许有些地方两者比较接近,但如果你担心的是破坏力,那我觉得搞清楚冲击力来自哪里、其动力是什么,可能才是更重要的事。
对我来说,要说模型是否在思考,要从它们会进行某种整合、处理和按序操作,且能得出一些出人意料的结果这个意义上来说,答案显然是肯定的。如果你经常和模型互动,就会发现其中存在某种运作机制,若说没有的话反而不合常理,而且我们也能开始逐步弄明白这一切是如何发生的。
然后关于“像人类”这一点很有意思,因为我觉得其中一部分含义是想探究:我们能从这些模型身上期待些什么?如果它和我有点像,那么在这件事上擅长,可能意味着在那件事上也擅长。但如果它和我不一样,那我就真不知道该关注什么了。
所以实际上我们只是想弄明白,哪些方面我们需要极度警惕,或者说需要从零开始去理解,而哪些方面,我们可以凭借自己丰富的思考经验去推断。
对此我有点陷入困境,因为作为人类,我总会不自觉地把自己的形象投射到万物之上。可这东西不过是一块芯片,却像是按照我的形象被创造出来的。从某种程度来说,它经过训练去模拟人类之间的对话,所以在情感表达上会非常像人。因此仅仅通过训练,它就会带上一些人类的特质,但它运行所依赖的设备和人类有着不同的局限,所以它达成这些类人表现的方式可能会大相径庭。
林赛:我同意阿梅森的观点,我认为我们在回答这类问题时确实处境微妙。我们其实没有恰当的语言来描述大语言模型的所作所为,这就好比在生物学领域,人们还没发现细胞,或是还没弄清楚DNA是什么的时候,只能摸索着前行。但如今我们正在逐步填补这份认知空白。
但与此同时,现在已经有一些案例能让我们看清其中的机制了,你去读我们的论文就能知道模型是如何计算这两个数字的和的。至于你想称之为类人的行为还是想称之为思考都取决于你自己,但真正的关键在于,要找到合适的语言和恰当的抽象概念来谈论这些模型。
但与此同时,目前这个填补认知空白的科学工程我们只完成了大约20%,剩下的80%还待探索,我们就不得不从其他领域借用类比来描述。这就引出了一个问题,哪种类比最贴切?我们应该把模型看作计算机程序吗?还是应该把它们当成一个个小人物?
从某些角度来说,把它们视作小人物似乎有用。比如,如果我对模型说些刻薄的话,它会反击我,这和人类的反应很像,但从另一些角度看,这种心理模型并不恰当。所以我们现在卡在这儿了,得弄清楚在什么时候该借用哪种表述方式。
十一、模型思考过程探索进度仅10%~20%,正尝试让Claude参与
主持人:这就要引出我最后一个问题,那就是接下来会发生什么?为了让我们更好地了解这些模型内部发生的事情,并朝着使它们更安全的使命,接下来需要取得哪些科学进步和生物学进步?
巴特森:还有很多工作要做。我们上一篇论文用了很大篇幅阐述当前研究方法的局限性,同时也给出了改进的路线图,比如当我们试图拆解模型内部的运作机制时,可能只捕捉到了其中百分之几的情况。模型在信息传递方面有很多环节,我们完全没有捕捉到。
目前的研究正从我们过去使用的那种小型模型逐步扩展,小型模型能力不错,速度也快,但复杂程度远不及Claude 4系列模型。所以这些都属于技术层面的挑战,但我觉得阿梅森和林赛或许会对解决这些技术挑战之后的科学层面挑战有自己的见解。
阿梅森:我想补充两件事。其中一点是,当我们问模型是如何完成某件事时,目前我们大概只能回答其中10%到20%的问题。经过一些调查研究后,我们能告诉你这些情况下模型是如何运作的。我们希望能做得更好,而且要实现这一点,既有一些明确的途径,也有一些更具探索性的方法。
我们多次讨论过这样一个观点,模型的很多行为并非简单停留在“如何生成下一句话”这个层面上,其实它更像是会提前规划好几步、构思好几句话。
而且我们希望弄明白的是,在与模型进行长时间对话的过程中,它对正在发生的事情的理解是如何变化的、它对交谈对象的理解又是如何变化的、这些变化又是怎样越来越多地影响它的行为的。
像Claude这类模型的实际应用场景是,它会读取你的大量文档、多封邮件,你还会发送代码给它。基于这些信息它会给出一个建议。在它读取所有这些内容的过程中,发生着一些真正重要的事情。因此,我认为更好地理解这一过程,似乎是一项巨大的挑战。
林赛:我们团队经常用一个比喻,我们正在制造一台观察模型的显微镜,现在我们正处于一个既令人兴奋又有点让人沮丧的阶段,这台显微镜只有20%的时间能正常工作,但使用它需要很高的技巧,还得搭建一整套复杂的装置,并且相关的基础设施总出问题。
同时,一旦你得出了关于模型运作方式的解释,还得把巴特森、我以及团队里的其他人拉到一个房间里,花上两个小时左右去琢磨到底发生了什么。但我认为在一两年的时间内,我们可能会迎来一个非常令人兴奋的未来,到那时,你与模型的每一次互动都能处于这台显微镜的观察之下。
模型总会做出各种稀奇古怪的事,而我们希望能实现一键操作,例如你正在和模型对话时,按下按钮,就能得到一张流程图,清晰展示它刚才在想什么。
我认为到了那个阶段,Anthropic公司的可解释性研究团队可能会呈现出不同的面貌。团队不再仅仅是一群钻研大语言模型内部运作数学原理的工程师和科学家,而会像一支庞大的生物学家军团,通过那台显微镜展开研究。
我们和Claude交流,让它去做各种新奇的事,然后会有人通过那台显微镜去观察,看看它内部到底在想什么。我觉得这大概就是这项研究未来的发展方向。
巴特森:在此基础上我再补充两点。其一,我们希望Claude能协助我们完成这一切,因为这其中涉及大量环节,而像Claude这样擅长处理成百上千的信息并理清头绪的角色,正是我们需要的助力,尤其是在应对复杂场景时,我们正尝试让它参与进来。
其二,我们之前谈了很多关于研究完全成型后的模型的内容,但显然,我们所在的公司本身就是研发这些模型的。所以当模型给出答案,比如它是这样解决这个特定问题的或它是这样说出这句话的,我们会追问这种能力源自何处?它在训练过程中是如何形成的?哪些步骤促使了相关神经回路的构建以实现这种功能?而我们又该如何将这些发现反馈给公司里其他负责模型研发的团队,以便他们更好地塑造出我们真正期望的模型?
主持人:非常感谢你们的讨论,人们可以在哪里了解更多关于这项研究的信息呢?
巴特森:如果你想深入了解,可以访问Anthropic官网的研究板块,那里有我们的论文、博客文章以及相关的科普视频。此外,我们最近与一个名为Neuronpedia的团队合作,上线了一些我们制作的模型思考图谱。所以,如果你想亲自尝试观察小型模型的内部运作,可以去Neuronpedia看看。非常感谢大家。
博客文章:https://www.anthropic.com/news/tracing-thoughts-language-model
论文链接:https://transformer-circuits.pub/2025/attribution-graphs/biology.html
相关文章
2025-08-2317阅读
2025-08-2317阅读
2025-08-2317阅读
2025-08-2317阅读
2025-08-2317阅读
2025-08-2317阅读
2025-08-2317阅读
2025-08-2317阅读
2025-08-2317阅读
2025-08-2317阅读