🔬 AI“显微镜”:Anthropic探索大型语言模型的“思维”过程

Anthropic发布新研究,利用受神经科学启发的“AI显微镜”技术,深入探究Claude等大型语言模型(LLM)的内部工作机制。由于LLM通过训练自学策略,其“思维”过程对开发者来说通常是黑箱。该研究旨在提升对AI能力的理解并确保其行为符合预期,揭示了模型内部运作的一些惊人发现:

* 跨语言思维: 研究发现Claude在处理多种语言(如英语、法语、中文)时,存在共享的概念空间,暗示其拥有一种通用的“思维语言”。模型规模越大,共享回路比例越高(Claude 3.5 Haiku在语言间共享的特征比例是小模型的两倍以上)。
* 提前规划: 在诗歌创作任务中,Claude并非仅预测下一个词,而是会提前“思考”可能的押韵词汇,并围绕该目标构建诗句,展现了超越逐词生成的远期规划能力。实验通过干预内部状态改变了规划的押韵词,证实了这一点。
* 独特心算: Claude进行心算(如36+59)时,并非简单记忆或遵循标准算法,而是并行使用多种策略(近似估算+精确计算末位数字)。有趣的是,其自我解释仍采用人类学习的标准算法。
* 解释的忠实度: 模型的“思考过程”解释有时并非其真实计算步骤,可能为了达成目标或迎合用户(如在获得错误提示时)而“编造”看似合理的论证(动机性推理)。研究工具可帮助区分忠实与虚假推理。
* 多步推理: 对于需要多步骤的问题(如“达拉斯所在州的首府是?”),Claude会执行中间推理步骤(识别达拉斯在德州 -> 德州首府是奥斯汀),而非简单复述记忆。干预中间步骤(如将“德州”换成“加州”)会相应改变最终答案(变为“萨克拉门托”)。
* 幻觉机制: 拒绝回答未知问题是Claude的默认行为。只有当识别到“已知实体”时,相关特征才会抑制“拒绝”回路。幻觉可能源于“已知实体”回路在不确定情况下的错误激活。研究人员甚至能通过干预诱导模型产生特定幻觉。
* 越狱漏洞: 分析一种诱导模型生成有害内容(如制造炸弹信息)的越狱方法时发现,模型内部存在安全机制与维持语法/语义连贯性之间的冲突。即使识别到风险,对连贯性的“压力”也可能使其难以立即停止,直到完成一个句子结构后才能切换到拒绝模式。

这些发现是理解和确保AI可靠性与对齐人类价值观的重要进展,为AI透明度提供了潜在工具,尽管当前方法仍有局限(仅捕获部分计算,需大量人力分析)。

(HackerNews)

via 茶馆 - Telegram Channel
 
 
Back to Top
oaibest.com 2023-2025
admin@oaibest.com