大语言模型横评

GPT-4o vs Claude 3.5 vs Gemini 1.5：全面横评

📅 2026-04-05 ⏱ 约 12 分钟 ✍️ AI探索笔记

前言

2024年以来，主流大语言模型的迭代速度令人目不暇接。GPT-4o、Claude 3.5 Sonnet、Gemini 1.5 Pro——每款模型都有各自的拥趸，也各有局限。本文基于实际使用体验，从四个维度进行横向对比，给出一个尽量客观的评价。

📌

测试时间：2024年底。由于模型持续迭代，具体表现可能有所变化。本文聚焦于通用能力，不涉及代码执行、联网搜索等附加功能。

🟢

GPT-4o

OpenAI 出品，多模态能力强，生态最成熟

🟠

Claude 3.5

Anthropic 出品，长文本处理和写作能力突出

🔵

Gemini 1.5

Google 出品，超长上下文，与 Google 服务深度整合

测试场景：数学应用题、逻辑谜题、多步骤推导。

这是区分大模型能力上限的重要维度。在我的测试中：

推理能力：Claude 3.5 ≈ GPT-4o > Gemini 1.5 Pro

测试场景：Python算法实现、前端组件、SQL查询、代码调试。

代码能力是很多开发者最关心的维度。三款模型整体都能处理常见编程任务，差距主要体现在：

代码能力：GPT-4o ≈ Claude 3.5 > Gemini 1.5 Pro

测试场景：中文文章摘要、古诗词理解、商务邮件写作、地道表达。

这是国内用户最关心的维度之一。

中文能力：Claude 3.5 > GPT-4o > Gemini 1.5 Pro

测试场景：故事续写、广告文案、诗歌创作、角色扮演。

创意写作：Claude 3.5 > GPT-4o > Gemini 1.5 Pro

维度	GPT-4o	Claude 3.5	Gemini 1.5
推理逻辑	⭐⭐⭐⭐⭐	⭐⭐⭐⭐⭐	⭐⭐⭐⭐
代码生成	⭐⭐⭐⭐⭐	⭐⭐⭐⭐⭐	⭐⭐⭐⭐
中文能力	⭐⭐⭐⭐	⭐⭐⭐⭐⭐	⭐⭐⭐
创意写作	⭐⭐⭐⭐	⭐⭐⭐⭐⭐	⭐⭐⭐

没有一款模型是绝对最好的，选择取决于你的使用场景：

我个人的日常使用顺序是：写作和分析用 Claude，代码用 GPT-4o，长文档处理用 Gemini。理性地使用多个模型，往往比单押一个更有效率。