主流模型选型指南
大模型这个领域发展太快了,几乎每周都有新模型、新版本发布。作为开发者,你不需要了解所有模型的细节,但需要有一张清晰的"模型地图"——知道主流模型有哪些、各自什么定位、什么优缺点、在什么场景下该选哪个。
选错模型的代价可能很大:
- 能力溢出:用 Claude Code 做简单问答,花了冤枉钱
- 能力不够:用 7B 模型做复杂推理,效果不达标
- 网络限制:选了国外模型,结果国内用不了
- 成本失控:没考虑长期成本,项目上线后账单爆炸
这篇帮你建立选型的完整框架,让你下次遇到选模型的问题时,能快速做出合理判断。
国际主流模型深度解读
先看看国际上的头部玩家。虽然国内使用有一定门槛,但了解它们能帮你建立能力的"参照系",也为未来可能的国际化需求做准备。
OpenAI GPT 系列
GPT 系列依然是目前公认的大模型综合能力天花板,也是整个行业的"标杆"。不过截至 2026 年 3 月,OpenAI 的主力产品线已经从 GPT-4o / o1 演进到了 GPT-5.x 家族。
核心产品线
| 模型 | 定位 | 上下文 | 特点 | API 定价参考 |
|---|---|---|---|---|
| GPT-5.4 | 旗舰通用模型 | 1M | 复杂推理、代码、Agent 工作流综合最强 | 输入 $2.5/M,输出 $15/M |
| GPT-5.4 pro | 极致性能版 | 1M | 更稳更强,适合关键链路和最复杂任务 | 输入 $30/M,输出 $180/M |
| GPT-5 mini | 轻量主力 | 400K | 低延迟、高吞吐,适合大多数生产任务 | 输入 $0.25/M,输出 $2/M |
| GPT-5 nano | 超轻量版 | 400K | 分类、抽取、路由、批处理最省钱 | 输入 $0.05/M,输出 $0.4/M |
注:价格以 M(百万 Token)为单位,以上按 OpenAI 2026-03 官方 API 文档整理;
GPT-5.4/GPT-5.4 pro官方上下文窗口为 1,050,000 Token,文中按约 1M 记。
GPT-5.4 详细能力分析
GPT-5.4 是 OpenAI 截至 2026 年 3 月的主力旗舰模型,适合高复杂度的通用任务、编码和 Agent 工作流:
优势领域:
- 复杂推理:多步骤逻辑推理、数学证明、因果分析
- 代码任务:生成、重构、调试、大仓库理解都在第一梯队
- Agent 工作流:工具调用、检索、网页搜索、MCP 集成更成熟
- 长上下文:约 1M Token,更适合多文件、多文档的大任务
- 指令遵循:严格按照复杂指令执行,格式控制精确
- 多模态:支持文本和图像输入
相对不足:
- 成本偏高:尤其
GPT-5.4 pro,不适合大规模高频调用 - 简单任务不划算:分类、摘要、改写更适合
GPT-5 mini/nano - 中文风格:能力很强,但自然度通常不如头部中文模型
- 网络门槛:国内直连使用仍有一定门槛
GPT-5.x 家族怎么选
过去 OpenAI 需要在 GPT-4o 和 o1 之间分开选;现在主线更简单:
高频简单任务:GPT-5 nano
日常生产任务:GPT-5 mini
复杂通用任务:GPT-5.4
关键推理/高价值任务:GPT-5.4 pro
适用场景:
GPT-5 nano:分类、抽取、路由、批处理GPT-5 mini:客服、RAG 问答、批量内容处理、常规工具调用GPT-5.4:代码助手、复杂分析、Agent 编排GPT-5.4 pro:竞赛级数学题、复杂代码架构设计、多步骤逻辑推理、科学问题分析
不适用场景:
- 用
GPT-5.4 pro做高并发简单问答(性价比太差) - 用
GPT-5.4 / pro跑海量批处理(优先用mini/nano) - 对延迟极其敏感的场景(优先用
GPT-5 mini)
使用门槛
在国内使用 OpenAI API 需要:
- 海外手机号注册账号
- 海外信用卡绑定付费
- 稳定的科学上网环境
- 或者通过国内代理服务(如 API2D、OpenRouter)
Anthropic Claude 系列
Claude 是由 Anthropic 开发的大模型,Anthropic 的创始人是前 OpenAI 核心成员。截至 2026 年 3 月,Claude 的主力产品线已经来到 4.6 / 4.5 这一代,在代码、Agent 工具使用和长任务稳定性上依然非常强,是 GPT-5 系列最直接的竞争对手之一。
核心产品线
| 模型 | 定位 | 上下文 | 特点 | API 定价参考 |
|---|---|---|---|---|
| Claude Opus 4.6 | 顶级旗舰 | 200K(1M beta) | 复杂推理、长任务、代码质量最强 | 输入 $5/M,输出 $25/M |
| Claude Sonnet 4.6 | 主力旗舰 | 200K(1M beta) | 速度/能力最平衡,代码与 Agent 任务首选 | 输入 $3/M,输出 $15/M |
| Claude Haiku 4.5 | 轻量版 | 200K | 延迟低、成本低,适合高频生产调用 | 输入 $1/M,输出 $5/M |
注:以上按 Anthropic 2026-03 官方模型与定价文档整理;
1M context目前仍属于 beta 能力。
Claude Sonnet 4.6 详细能力分析
Claude Sonnet 4.6 是 Anthropic 当前最适合多数生产环境的主力模型,依然稳居代码能力第一梯队:
优势领域:
- 代码生成与重构:大仓库理解、重构、补测试、修 Bug 依然是 Claude 的强项
- 长任务稳定性:连续多轮执行复杂任务时,风格和目标一致性通常很好
- 上下文能力:默认 200K,部分场景可申请 1M beta,更适合大型代码库和超长文档
- 工具生态:Computer Use、Bash、文本编辑、Web Fetch/Search 等工具链成熟
- Agent 场景:做 Coding Agent、研发助手、自动化流程表现突出
- 企业可用性:安全、审计和团队协作场景支持完善
相对不足:
- 高阶多模态:纯视频理解、搜索增强这类场景通常不如 Gemini 强
- 中文自然度:虽然能用,但通常不如 DeepSeek/Qwen 这类中文模型自然
- 1M 上下文尚非默认:需要注意 beta、额度和可用区限制
- 网络限制:国内直接访问仍然困难
实际体验对比
很多开发者的真实反馈:
- 写 Python/TypeScript/Rust:Claude 仍然很强
- 写 Java/Go:两者差不多
- 复杂推理:GPT-5.4 pro、Claude Opus 4.6、DeepSeek 思考模式都很能打
- 长文档和长任务:Claude Sonnet 4.6 的整体体验依然非常成熟
- 日常对话:GPT-5.4 更自然,Claude 更偏工程执行风格
Google Gemini 系列
Google 的大模型,主打多模态、搜索增强和超长上下文。截至 2026 年 3 月,Gemini 的主力线已经从 1.5/2.0 过渡到 3.1 / 2.5 并行,官方预览版迭代也非常快。
核心产品线
| 模型 | 定位 | 上下文 | 特点 | API 定价参考 |
|---|---|---|---|---|
| Gemini 3.1 Pro Preview | 前沿旗舰 | 1M | 多模态、代码、Agent、Search Grounding 最强 | 文本输入 $3/M 起,输出 $15/M 起 |
| Gemini 2.5 Pro | 稳定旗舰 | 1M | 推理强、生产更稳,适合正式上线 | 文本输入 $1.25/M 起,输出 $10/M 起 |
| Gemini 2.5 Flash | 平衡版 | 1M | 速度快、成本低,适合高频 API 调用 | 输入 $0.3/M,输出 $2.5/M |
| Gemini 3.1 Flash-Lite Preview | 极致轻量 | 1M | 批处理、抽取、分类最省钱 | 输入 $0.1/M,输出 $0.4/M |
注:Google 的 Preview 型号更新和下线速度很快。
Gemini 3 Pro Preview已于 2026-03-09 下线,官方建议迁移到Gemini 3.1 Pro Preview。
核心优势:
- 原生多模态:文字、图片、音频、视频都在一个体系里处理
- 搜索增强:Search Grounding、URL Context 这类能力是 Gemini 的明显优势
- 超长上下文:1M Token 依然够用,适合超长文档、跨文件和多素材任务
- 工具化能力:代码执行、网页检索、Agent 场景支持很完整
- 性价比分层清晰:Pro、Flash、Flash-Lite 三档价格跨度很大,路由好做
适用场景:
- 分析超长文档(合同、论文、书籍)
- 视频内容理解和分析
- 需要 Google 搜索增强的场景
- 需要低成本多模态处理的批量任务
限制:
- 国内访问受限
- Preview 版本变化快,生产环境要盯紧迁移公告
- 单纯的开放式文本对话,综合看通常不如 GPT-5.4 和 Claude
- 中文支持有进步,但整体仍不算 Gemini 的最强项
Meta Llama 系列
Llama 依然是开放权重模型里的标杆,但主线已经从 Llama 3.x 进入 Llama 4 时代,重点从纯文本模型转向了多模态和 MoE 架构。
核心产品线
| 模型 | 参数量 | 上下文 | 特点 |
|---|---|---|---|
| Llama 4 Maverick | 17B 激活 / 400B 总参数 | 1M | 当前主力多模态旗舰,性能和部署成本最平衡 |
| Llama 4 Scout | 17B 激活 / 109B 总参数 | 10M | 超长上下文,单张 H100 就能运行 |
| Llama 4 Behemoth(预告) | 288B 激活 / 2T 总参数 | - | 教师模型,Meta 主要用于蒸馏和对齐,暂未开放下载 |
Llama 的独特价值
Llama 不只是一个模型,更是一个开放权重生态系统:
- 开放权重生态:权重可下载、可部署、可微调,社区工具链极其成熟
- 商用友好:大多数公司可直接商用,但要遵守 Llama Community License
- 多模态 + MoE:Llama 4 开始明显强调图文任务和大上下文
- 部署灵活:vLLM、SGLang、TensorRT-LLM、Ollama 等生态都很完善
为什么 Llama 很重要
很多国内外的模型都是基于 Llama 架构或者受其影响:
- 直接基于 Llama 微调的:Alpaca、Vicuna、WizardLM...
- 架构借鉴 Llama 的:很多国产模型
- 训练方法借鉴的:几乎所有后来者
可以说,Llama 推动了整个开源大模型生态的繁荣。
限制:
- 这不是“无限制开源”,而是开放权重 + 社区许可;超大平台仍有额外授权要求
- 中文能力相对较弱,做中文应用往往不如 Qwen 和 DeepSeek 顺手
- 本地部署门槛依然不低,尤其是 Maverick 这一级别
- 没有 OpenAI/Claude 那样的一方托管 API 生态,需要自己部署或走第三方
国内主流模型深度解读
国内大模型这两年发展飞快。在中文场景下,国内模型的表现已经非常出色,部分任务已经进入和 GPT-5.x、Claude 同一梯队。而且没有网络限制、合规风险低,对于国内项目来说优势明显。
DeepSeek 系列
深度求索(DeepSeek)依然是国内最有代表性的高性价比模型厂商之一。截至 2026 年 3 月,官方 API 主线已经统一到 DeepSeek-V3.2,只是分成“非思考模式”和“思考模式”两个入口。
核心产品线
| 模型 | 版本/形态 | 上下文 | 特点 | API 定价参考 |
|---|---|---|---|---|
| deepseek-chat | DeepSeek-V3.2(非思考模式) | 128K | 日常主力,工具调用、JSON、FIM 都很完整 | 输入 ¥2/M(缓存命中 ¥0.2/M),输出 ¥3/M |
| deepseek-reasoner | DeepSeek-V3.2(思考模式) | 128K | 深度推理、复杂代码、工具内思考能力更强 | 输入 ¥2/M(缓存命中 ¥0.2/M),输出 ¥3/M |
| DeepSeek-V3.2-Exp(开源) | 开源部署版 | 128K | 适合私有化、自建服务和二次微调 | 自部署 |
注:DeepSeek 的价格依然处于行业最低档位,特别适合做高并发生产流量和模型路由的基础层。
DeepSeek-V3.2 / deepseek-chat 详细分析
deepseek-chat 对应的是 DeepSeek-V3.2 的非思考模式,是当前最适合多数业务场景的日常主力:
优势:
- 成本极低:在顶级模型里依然是非常夸张的低价位
- 中文能力强:中文表达、问答、总结、改写都非常实用
- 代码能力强:当前 API 主线已经不再强调单独的 Coder 产品,主力通用模型本身就能扛代码任务
- API 能力完整:Function Calling、JSON Output、FIM、Chat Prefix Completion 都有官方支持
- 开源和私有化友好:可以直接走 API,也可以自己部署开源权重
相对不足:
- 上下文偏短:128K 对大多数业务够用,但明显短于 GPT-5、Gemini、Claude 的长窗口档位
- 多模态不占优:官方 API 当前还是文本和代码任务更强
- 版本节奏快:论文名、开源名、API 名不完全一致,新人容易混淆
deepseek-reasoner 深度推理模型
deepseek-reasoner 对应 DeepSeek-V3.2 的思考模式,定位类似国际厂商的高推理档位:
适用场景:
- 数学推理
- 复杂逻辑分析
- 困难 Bug 排查
- 需要显式思考过程的复杂代码任务
不适用场景:
- 高并发简单问答
- 低延迟客服
- 批量改写和摘要
非思考模式 vs 思考模式 怎么选
- 日常问答、对话、简单任务:用
deepseek-chat(更快、更便宜) - 数学推理、复杂逻辑、深度分析:用
deepseek-reasoner(更稳,但更慢) - 代码生成:两者都可以;日常写代码优先
chat,架构和疑难问题再切reasoner
使用 DeepSeek
DeepSeek 提供多种使用方式:
- 官网 App/Web:官方对话产品,个人体验门槛最低
- API 调用:platform.deepseek.com,按量付费
- 本地部署:开源权重可自己部署
- 第三方平台:硅基流动、阿里云百炼等都提供 DeepSeek 服务
通义千问 Qwen 系列
阿里云出品,是国内开源生态最完善的模型系列。
核心产品线
| 模型 | 参数量 | 上下文 | 特点 |
|---|---|---|---|
| Qwen2.5-72B | 72B | 128K | 旗舰版,能力最强 |
| Qwen2.5-32B | 32B | 128K | 主力版,平衡性能和成本 |
| Qwen2.5-14B | 14B | 128K | 中等版,适合多数场景 |
| Qwen2.5-7B | 7B | 128K | 轻量版,部署门槛低 |
| Qwen2.5-3B | 3B | 32K | 超轻量,端侧部署 |
| Qwen2.5-1.5B | 1.5B | 32K | 极轻量,嵌入式场景 |
| Qwen2.5-0.5B | 0.5B | 32K | 最小版,资源极度受限 |
| Qwen2.5-Coder | 多种 | - | 代码专用系列 |
| Qwen2.5-Math | 多种 | - | 数学专用系列 |
Qwen 的独特优势
- 尺寸选择最丰富:从 0.5B 到 72B,覆盖所有部署场景
- 中文能力一流:国内语料、国内团队,中文表达最自然
- 开源生态完善:HuggingFace、ModelScope 资源丰富,文档详细
- Agent 能力强:工具调用、多步骤任务做得好
- 企业支持:阿里云全套云服务支持,企业级SLA
不同尺寸的选择建议
| 尺寸 | 显存需求(FP16) | 适用场景 |
|---|---|---|
| 0.5B-1.5B | 1-3GB | 端侧部署、IoT 设备、简单分类 |
| 3B | ~6GB | 入门级显卡、简单对话、基础任务 |
| 7B | ~14GB | 消费级显卡(16GB)、日常开发使用 |
| 14B | ~28GB | 中端显卡、生产级简单应用 |
| 32B | ~64GB | 专业显卡、生产级复杂应用 |
| 72B | ~144GB | 多卡服务器、顶级应用 |
Qwen2.5-72B 能力评估
在多个主流评测中,Qwen2.5-72B 的表现:
- 中文能力:评测第一梯队,中文表达非常自然
- 代码能力:很强,已经进入第一梯队
- 数学能力:强,Qwen2.5-Math 版本更强
- 综合能力:国内开源最强之一
使用方式
- 阿里云百炼:通义千问的官方 API 服务
- 魔搭社区(ModelScope):下载模型自己部署
- 硅基流动:第三方 API 服务,价格有竞争力
- 本地部署:Ollama、vLLM 等工具
智谱 GLM 系列
清华系背景,在复杂工程任务和 Agent 场景有特色。
核心产品线
| 模型 | 特点 |
|---|---|
| GLM-4-Plus | 旗舰版,综合能力强 |
| GLM-4 | 标准版 |
| GLM-4-Flash | 轻量版,速度快 |
| GLM-4V | 多模态版,支持图片 |
核心优势:
- 长程 Agent 任务:面向复杂多步骤任务设计
- 工具调用:Function Calling 能力强
- 代码能力:持续强化的方向
- 国产支持:本土公司,合规性好
适用场景:
- 需要复杂规划的 Agent 应用
- 企业级智能助手
- 长程任务自动化
其他值得关注的国产模型
Kimi(月之暗面)
- 核心特点:超长上下文处理(最高 200K)
- 擅长场景:长文档分析、论文阅读、合同审查
- 使用方式:网页版免费使用,有 API 服务
MiniMax
- 核心特点:超长上下文、角色扮演能力强
- 擅长场景:虚拟角色、游戏 NPC、内容创作
- 使用方式:API 服务
百度文心一言
- 核心特点:和百度生态紧密结合
- 擅长场景:搜索增强、企业应用
- 使用方式:百度智能云
讯飞星火
- 核心特点:语音技术结合
- 擅长场景:语音交互、教育场景
- 使用方式:讯飞开放平台
模型能力矩阵
为了方便对比,这里给出一个综合能力矩阵(基于各种评测和实际使用经验,仅供参考):
综合能力评分
| 模型 | 综合 | 中文 | 代码 | 数学 | 推理 | 创意 | 多模态 |
|---|---|---|---|---|---|---|---|
| GPT-5.4 | ★★★★★ | ★★★★☆ | ★★★★★ | ★★★★★ | ★★★★★ | ★★★★★ | ★★★★☆ |
| Claude Sonnet 4.6 | ★★★★★ | ★★★★☆ | ★★★★★ | ★★★★☆ | ★★★★★ | ★★★★☆ | ★★★★☆ |
| GPT-5.4 pro | ★★★★★ | ★★★★☆ | ★★★★★ | ★★★★★ | ★★★★★ | ★★★★☆ | ★★★★☆ |
| Gemini 3.1 Pro Preview | ★★★★★ | ★★★☆☆ | ★★★★☆ | ★★★★☆ | ★★★★☆ | ★★★★☆ | ★★★★★ |
| DeepSeek-V3.2(非思考) | ★★★★★ | ★★★★★ | ★★★★★ | ★★★★☆ | ★★★★☆ | ★★★★☆ | ★★☆☆☆ |
| DeepSeek-V3.2(思考) | ★★★★★ | ★★★★★ | ★★★★★ | ★★★★★ | ★★★★★ | ★★★☆☆ | ★★☆☆☆ |
| Qwen2.5-72B | ★★★★★ | ★★★★★ | ★★★★★ | ★★★★★ | ★★★★☆ | ★★★★☆ | ★★★★☆ |
| Qwen2.5-32B | ★★★★☆ | ★★★★★ | ★★★★☆ | ★★★★☆ | ★★★★☆ | ★★★★☆ | ★★★☆☆ |
| Qwen2.5-7B | ★★★☆☆ | ★★★★☆ | ★★★☆☆ | ★★★☆☆ | ★★★☆☆ | ★★★☆☆ | ★★☆☆☆ |
| Llama 4 Maverick | ★★★★☆ | ★★★☆☆ | ★★★★☆ | ★★★★☆ | ★★★★☆ | ★★★★☆ | ★★★★☆ |
| GLM-4 | ★★★★☆ | ★★★★★ | ★★★★☆ | ★★★★☆ | ★★★★☆ | ★★★★☆ | ★★★★☆ |
API 定价对比(参考价格,可能有变动)
| 模型 | 输入价格 | 输出价格 | 性价比评价 |
|---|---|---|---|
| GPT-5.4 | $2.5/M | $15/M | 旗舰能力,复杂任务首选 |
| GPT-5.4 pro | $30/M | $180/M | 效果最强,但只适合关键链路 |
| GPT-5 mini | $0.25/M | $2/M | 生产环境通用轻量主力 |
| GPT-5 nano | $0.05/M | $0.4/M | 分类/抽取/路由最省钱 |
| Claude Sonnet 4.6 | $3/M | $15/M | 代码和 Agent 任务很值得 |
| Gemini 2.5 Flash | $0.3/M | $2.5/M | 多模态高频任务很能打 |
| Gemini 3.1 Flash-Lite Preview | $0.1/M | $0.4/M | 批处理和抽取极省钱 |
| deepseek-chat | ¥2/M(缓存命中 ¥0.2/M) | ¥3/M | 性价比之王 |
| deepseek-reasoner | ¥2/M(缓存命中 ¥0.2/M) | ¥3/M | 推理任务很强且仍然便宜 |
| Qwen2.5-72B | ¥4/M | ¥12/M | 国产高端选择 |
| Qwen2.5-7B | ¥0.5/M | ¥2/M | 轻量部署首选 |
M = 百万 Token
场景化选型指南
不同的应用场景,对模型的要求不同。下面按场景给出具体建议:
场景一:智能客服/问答系统
需求特点:
- 响应速度要快
- 准确性要高
- 调用量可能很大
- 中文能力重要
推荐方案:
| 优先级 | 模型 | 理由 |
|---|---|---|
| 首选 | deepseek-chat | 性价比最高,中文好,响应快 |
| 备选 | Qwen2.5-14B/32B | 中文能力强,选择灵活 |
| 预算充足 | GPT-5 mini | 能力强,但需要考虑网络问题 |
成本估算(假设日均 10 万次调用,每次约 500 Token 输入 + 200 Token 输出):
- deepseek-chat:约 ¥160/天 ≈ ¥4800/月(按缓存未命中估算)
- Qwen2.5-32B:约 ¥200/天 ≈ ¥6000/月
- GPT-5 mini:约 $52.5/天 ≈ $1575/月 ≈ ¥1.1万/月
场景二:代码助手/编程辅助
需求特点:
- 代码生成准确性重要
- 需要理解复杂代码逻辑
- 调用量中等
- 响应延迟可以接受稍长
推荐方案:
| 优先级 | 模型 | 理由 |
|---|---|---|
| 首选 | Claude Sonnet 4.6 | 代码能力和 Agent 体验依然最好 |
| 备选 | GPT-5.4 / deepseek-chat | 前者上限高,后者性价比高 |
| 复杂架构 | GPT-5.4 pro / deepseek-reasoner | 需要深度推理时用 |
实际经验:
- 写日常代码:Claude、GPT-5.4、DeepSeek 都在第一梯队
- 调试复杂 Bug:Claude / GPT-5.4 往往更稳
- 设计架构:优先 GPT-5.4 pro、Claude Opus 4.6 或 deepseek-reasoner 这类强推理模型
场景三:内容创作/文案生成
需求特点:
- 创意和文采重要
- 中文表达要自然
- 可能需要特定风格
- 调用量不大
推荐方案:
| 优先级 | 模型 | 理由 |
|---|---|---|
| 中文创作 | Qwen2.5-72B | 中文表达最自然 |
| 英文创作 | GPT-5.4 | 英文创意写作和指令遵循更稳 |
| 预算有限 | deepseek-chat | 性价比高,创作能力也不错 |
Tips:
- 调高 Temperature(0.8-1.2)增加创意
- 用 Few-shot 提供风格示例
- 可以让模型先生成多个版本再选择
场景四:数据分析/报告生成
需求特点:
- 准确性第一
- 需要处理结构化数据
- 可能涉及数学计算
- 输出格式要规范
推荐方案:
| 优先级 | 模型 | 理由 |
|---|---|---|
| 首选 | deepseek-reasoner | 推理能力强,数学和结构化输出都很稳 |
| 备选 | GPT-5.4 / Gemini 2.5 Pro | 前者综合强,后者结构化与多模态更灵活 |
| 预算有限 | Qwen2.5-32B | 性能均衡 |
Tips:
- 用低 Temperature(0-0.3)确保一致性
- 明确要求输出 JSON 或 Markdown 格式
- 对于关键数据,让模型展示计算过程
场景五:RAG 知识库问答
需求特点:
- 需要基于检索结果回答
- 准确性和相关性重要
- 上下文可能较长
- 调用量可能较大
推荐方案:
| 优先级 | 模型 | 理由 |
|---|---|---|
| 首选 | deepseek-chat | 性价比最高 |
| 长文档 | Claude Sonnet 4.6 / Gemini 3.1 Pro | 上下文和长文档处理能力都很强 |
| 预算有限 | Qwen2.5-14B | 成本低,效果够用 |
RAG 特别建议:
- 不需要用推理模型(deepseek-reasoner / GPT-5.4 pro / Claude Opus 4.6),因为答案在检索结果中
- 上下文不要塞太满,精选最相关的内容
- 可以用 Temperature=0 确保输出稳定
场景六:复杂推理/数学问题
需求特点:
- 需要多步推理
- 准确性非常重要
- 响应时间可以较长
- 调用量通常不大
推荐方案:
| 优先级 | 模型 | 理由 |
|---|---|---|
| 首选 | deepseek-reasoner | 推理能力强,性价比高 |
| 备选 | GPT-5.4 pro / Claude Opus 4.6 | 国际闭源上限更高,但贵 |
| 预算有限 | deepseek-chat + CoT Prompt | 手动触发思维链 |
场景七:本地/私有化部署
需求特点:
- 数据不能出外网
- 需要自己控制模型
- 有硬件资源
- 可能需要微调
推荐方案:
| 硬件条件 | 推荐模型 | 说明 |
|---|---|---|
| 80GB+显存(A100×1) | Qwen2.5-72B-Q4 | 量化后可单卡部署 |
| 24-48GB显存 | Qwen2.5-32B-Q4 | 消费级顶配 |
| 16GB显存 | Qwen2.5-7B-FP16 | 不量化也能跑 |
| 8GB显存 | Qwen2.5-7B-Q4 | 量化后轻松跑 |
| 纯CPU | Qwen2.5-7B-Q4(GGUF) | 用 llama.cpp 或 Ollama |
预算导向选型
实际项目中,预算往往是最关键的约束。
零成本:学习实验阶段
推荐方案:
-
优先用免费额度:
- 阿里云百炼新用户免费额度
- 硅基流动新用户赠送额度
- DeepSeek 官网对话免费使用
-
本地部署小模型:
- Ollama + Qwen2.5-7B:普通笔记本就能跑
- 完全离线,无任何成本
注意事项:
- 免费额度有调用频率限制
- 小模型复杂任务效果有限
- 学习阶段别过度优化成本,先把功能跑通
小预算:几十到几百元/月
推荐方案:
- 主力:deepseek-chat(当前 DeepSeek API 主力)
- 备选:Qwen 系列(通过硅基流动等平台)
预算分配建议:
- 日均 1-5 万次调用完全够用
- 预留一些额度测试其他模型
中等预算:几百到几千元/月
推荐方案:
- 主力:deepseek-chat / deepseek-reasoner
- 按需切换:简单任务用便宜模型,复杂任务用强模型
- 可以考虑:Qwen2.5-72B(阿里云百炼)
成本优化思路:
- 实现模型路由:简单问题用小模型,复杂问题用大模型
- 缓存常见问答,减少重复调用
- 优化 Prompt,减少 Token 消耗
充足预算:企业级应用
推荐方案:
- 根据效果需求自由选择
- 可以考虑 GPT-5.4、Claude、Gemini(如果能访问)
- 自建模型服务(一次投入,长期使用)
- 阿里云、腾讯云的企业级 AI 服务
企业级考虑因素:
- SLA 保障
- 数据安全和合规
- 技术支持
- 可审计性
选型决策框架
总结一下,选模型可以按这个框架来思考:
第一步:确定基本约束
-
网络约束:能否访问国际服务?
- 能 → 可以考虑 GPT-5.x、Claude、Gemini
- 不能 → 限定国内模型
-
部署方式:API 还是私有化?
- API → 继续下一步
- 私有化 → 看硬件条件选 Qwen/Llama
-
预算范围:大致预算是多少?
- 据此确定可选模型范围
第二步:匹配场景需求
根据你的具体场景,参考上面的场景化指南,确定 2-3 个候选模型。
第三步:快速验证
不要纸上谈兵,拿真实的业务 Case 去测试。
# 准备一批测试用例
test_cases = [
{"input": "xxx", "expected": "yyy"},
{"input": "aaa", "expected": "bbb"},
# ...
]
# 在候选模型上跑一遍
for model in candidate_models:
results = run_tests(model, test_cases)
print(f"{model}: 准确率 {results['accuracy']}, 平均延迟 {results['latency']}ms")
第四步:做出决策
综合考虑:
- 效果(是否满足需求)
- 成本(是否在预算内)
- 延迟(是否能接受)
- 稳定性(服务是否可靠)
- 可迁移性(以后换模型的成本)
第五步:持续优化
上线后持续监控,根据实际情况调整:
- 发现效果不够 → 考虑升级模型
- 发现成本太高 → 考虑降级或优化 Prompt
- 发现某些场景效果差 → 考虑针对性优化
小结
这篇咱们系统梳理了主流大模型的选型指南:
国际模型:
- GPT-5.4:综合能力天花板,适合复杂通用任务
- Claude Sonnet 4.6:代码和 Agent 任务第一梯队,长任务稳定
- Gemini 3.1 Pro / 2.5 Flash:多模态和搜索增强强,但版本迭代快
- GPT-5.4 pro:推理和关键任务最强,但最贵
- Llama 4 Scout / Maverick:开放权重标杆,适合私有化和自建服务
国内模型:
- DeepSeek-V3.2 / deepseek-reasoner:性价比之王,推理能力强
- Qwen 系列:中文最强,生态最全
- GLM 系列:Agent 能力强
选型原则:
- 国内项目优先国内模型
- 效果够用就行,别追求最强
- 先跑通再优化
- 考虑长期成本和可迁移性
快速决策流程:
- 确定约束(网络、部署、预算)
- 匹配场景
- 快速验证
- 做出决策
- 持续优化
下一篇咱们来聊聊大模型的能力边界——它擅长什么、不擅长什么、遇到局限怎么破解。这对于设计合理的应用架构、避免踩坑非常重要。