💻 Gemini 2.5 Pro 与 Claude 3.7 Sonnet 编码能力大比拼:实战经验与局限性探讨

近期开发者社区围绕 Google Gemini 2.5 Pro 和 Anthropic Claude 3.7 Sonnet 两大语言模型的编程能力展开了激烈讨论。一项将 Solvespace 项目中约 2000 行 C++ GTK3 代码移植到 GTK4 的实际挑战被提出,用以检验当前 LLM 处理真实世界复杂编程任务的能力和局限性。

用户反馈呈现多样化:
* Gemini 2.5 Pro:在 aider 多语言编码排行榜上以 73% 的得分领先于 Sonnet 3.7 的 65%。部分用户认为其在从零生成代码、处理复杂逻辑(如并发问题)方面表现更优,并拥有 100 万 token 的超长上下文窗口(相比 Claude 的 20 万 token),且可通过 AI Studio 免费试用。然而,也有用户批评其在修改现有代码时难以遵循精确指令、易进行无关更改、有时拒绝输出完整代码或生成冗余代码。
* Claude 3.7 Sonnet:许多用户认为其在重构现有代码、遵循指令和工具使用(如 Cursor、MCP)方面更胜一筹,更适合迭代式开发。但也有不少用户反映 3.7 版本相较 3.5 表现有所下降,存在过度修改代码、难以控制等问题,甚至有用户认为其“思维混乱”,尤其在“思考”模式下。

普遍观点认为,尽管 LLM 在特定、小范围任务或全新项目(Greenfield Project)上表现亮眼,但在处理大型、复杂或遗留代码库时仍显不足,难以进行需要深度理解和多轮迭代的复杂修改,且容易引入技术债。提供充足的上下文(如 API 文档)和使用专业辅助工具(如 aider)被认为是提升 LLM 编码效果的关键。

总体而言,开发者对 LLM 能否短期内取代软件工程师持谨慎态度,认为当前技术更适合作为特定任务的辅助工具。两种模型各有优劣,实际表现高度依赖于具体任务场景、用户的使用方式和提示技巧。社区对 LLM 在真实编程环境中的实用价值仍在持续评估和讨论中。

(HackerNews)

via 茶馆 - Telegram Channel
 
 
Back to Top
oaibest.com 2023-2025
admin@oaibest.com