跳到主要内容

提示词效果评估与迭代优化

提示词写完了，测了几个 case，感觉还行——然后就上线了。

这是很多人的做法。但这样搞，迟早要出问题。

因为你测的那几个 case 不代表所有情况。用户的问题千奇百怪，你想不到的边界情况多得是。等上线之后发现问题，再回来改，成本比一开始就做好评测要高得多。

常见误区

评测和优化不是可选项，是必选项。上线前认真评测，远比上线后救火成本低。

人工评测：最靠谱但也最贵

人工评测，说白了，就是让人来判断 AI 输出的好坏。

这是最可靠的评测方式——毕竟最终用的是人，人说好才是真的好。但它也是最贵的——需要人力、时间，而且主观性强。

评测维度设计

第一步是确定：从哪些角度来评价 AI 的输出。

不同任务侧重点不一样，但有一些通用的维度可以参考：

维度	考察点	评分提示
相关性	回答是否紧扣问题，没有跑题	完全相关得满分，部分跑题扣分，完全不相关零分
准确性	信息是否正确，有没有编造	事实都对得满分，有小错扣分，明显胡说零分
完整性	是否覆盖了问题的所有方面	信息完整得满分，遗漏重要内容扣分
逻辑性	论述是否有条理，前后是否一致	逻辑清晰得满分，有跳跃或矛盾扣分
可读性	语言是否流畅，是否易于理解	表达自然得满分，晦涩或病句扣分
格式规范	是否符合要求的输出格式	完全符合得满分，部分不符扣分

具体任务可以根据需要增减维度。比如：

客服场景可能要加"礼貌程度"和"解决问题能力"
代码生成要加"可运行性"和"代码规范"
内容创作要加"创意性"和"原创度"

打分方式选择

绝对评分：对每个输出单独打分，比如 1-5 分或 1-10 分。

优点是简单直观，可以量化比较不同版本提示词的平均分。

缺点是评分标准容易因人而异，不同评委的"5分"可能不是同一个意思。

相对排名：同时给评委看多个版本的输出，让他选哪个更好。

优点是不需要定义绝对标准，只要比较优劣就行，评委之间更容易达成一致。

缺点是只能比较相对好坏，不能量化具体差距。

实际建议：两种方式结合使用。先用相对排名筛选出明显的好坏，再用绝对评分给出细分数据。

评委选择建议

谁来评很重要：

领域专家：专业领域任务（医疗、法律、金融）最好找该领域专业人士，他们能发现外行看不出的问题
目标用户：面向普通用户的产品，找真实用户来评，感受最接近真实场景
团队成员：资源有限时，至少找几个团队成员，避免"自己觉得好就是好"的盲区

人工评测的成本控制

人工评测很费人力，怎么控制成本？

分层评测：不是所有 case 都要人工评。先用自动化方法过滤掉明显有问题的，人工只评"难以判断"的部分。
采样评测：不用评测所有输出。随机抽样或按类型分层抽样，用少量样本代表整体。
评测复用：一次评测的结果可以用于多个目的——既验证当前版本，也作为后续优化的基准。

付费内容提示

该文档的全部内容仅对「JavaUp项目实战&技术讲解」知识星球用户开放

加入星球后，你可以获得：

超级八股文：100万+字的全栈技术知识库，涵盖技术核心、数据库、中间件、分布式等深度剖析的讲解
讲解文档：超级AI智能体、黑马点评Plus、大麦、大麦pro、大麦AI、流量切换、数据中台的从0到1的详细文档
讲解视频：超级AI智能体、黑马点评Plus、大麦、大麦pro、大麦AI、流量切换、数据中台的核心业务详细讲解
1 对 1 解答：可以对我进行1对1的问题提问，而不仅仅只限于项目
针对性服务：有没理解的地方，文档或者视频还没有讲到可以提出，本人会补充
面试与简历指导：提供面试回答技巧，项目怎样写才能在简历中具有独特的亮点
中间件环境：对于项目中需要使用的中间件，可直接替换成我提供的云环境
面试后复盘：小伙伴去面试后，如果哪里被面试官问住了，可以再找我解答
远程的解决：如果在启动项目遇到问题，本人可以帮你远程解决

进入星球后，即可享受上述所有服务，保证不会再有其他隐藏费用。

知识星球二维码

1. 打开微信 -> 扫描左侧二维码 -> 加入「JavaUp项目实战&技术讲解」知识星球

2. 查看星球使用指导，获取完整项目讲解资料索引

👉 点击解锁全部付费内容

人工评测：最靠谱但也最贵

🎁优惠