💻 Gemini 2.5 Pro 与 Claude 3.7 Sonnet 编码能力大比拼：实战经验与局限性探讨近期开发者社区围绕 Google Gemini 2.5 Pro 和 Anthropic Claude 3.7 Sonnet 两大语言模型的编程能力展开了激烈讨论

💻 Gemini 2.5 Pro 与 Claude 3.7 Sonnet 编码能力大比拼：实战经验与局限性探讨

近期开发者社区围绕 Google Gemini 2.5 Pro 和 Anthropic Claude 3.7 Sonnet 两大语言模型的编程能力展开了激烈讨论。一项将 Solvespace 项目中约 2000 行 C++ GTK3 代码移植到 GTK4 的实际挑战被提出，用以检验当前 LLM 处理真实世界复杂编程任务的能力和局限性。

用户反馈呈现多样化：
* Gemini 2.5 Pro：在 aider 多语言编码排行榜上以 73% 的得分领先于 Sonnet 3.7 的 65%。部分用户认为其在从零生成代码、处理复杂逻辑（如并发问题）方面表现更优，并拥有 100 万 token 的超长上下文窗口（相比 Claude 的 20 万 token），且可通过 AI Studio 免费试用。然而，也有用户批评其在修改现有代码时难以遵循精确指令、易进行无关更改、有时拒绝输出完整代码或生成冗余代码。
* Claude 3.7 Sonnet：许多用户认为其在重构现有代码、遵循指令和工具使用（如 Cursor、MCP）方面更胜一筹，更适合迭代式开发。但也有不少用户反映 3.7 版本相较 3.5 表现有所下降，存在过度修改代码、难以控制等问题，甚至有用户认为其“思维混乱”，尤其在“思考”模式下。

普遍观点认为，尽管 LLM 在特定、小范围任务或全新项目（Greenfield Project）上表现亮眼，但在处理大型、复杂或遗留代码库时仍显不足，难以进行需要深度理解和多轮迭代的复杂修改，且容易引入技术债。提供充足的上下文（如 API 文档）和使用专业辅助工具（如 aider）被认为是提升 LLM 编码效果的关键。

总体而言，开发者对 LLM 能否短期内取代软件工程师持谨慎态度，认为当前技术更适合作为特定任务的辅助工具。两种模型各有优劣，实际表现高度依赖于具体任务场景、用户的使用方式和提示技巧。社区对 LLM 在真实编程环境中的实用价值仍在持续评估和讨论中。

(HackerNews)

via 茶馆 - Telegram Channel