栏目分类
热点资讯
你的位置:开云 (集团) 官方网站 Kaiyun- 登录入口 > 新闻中心 > 开云体育不外提议你还是了解一下浅易分类器评估模子的使命旨趣-开云 (集团) 官方网站 Kaiyun- 登录入口
开云体育不外提议你还是了解一下浅易分类器评估模子的使命旨趣-开云 (集团) 官方网站 Kaiyun- 登录入口
发布日期:2025-09-16 11:00 点击次数:80
评估模子 (Judge models) 是一种 用于评估其他神经汇聚的神经汇聚。大多数情况下它们用来评估生成文本的质料。
评估模子涵盖的范围很广,从微型的特定分类器 (举例 “垃圾邮件分类器”) 到大型的 LLM,或大而广、或小而专。使用 LLM 看成评估模子时,需要提供一个 prompt 来阐述对模子评分的详情 (举例:请对语句通顺度从 0 到 5 评分,0 分暗示十足不成矫捷,…)。
使用模子看成评估器用不错对文本中复杂和轻微的特色灵验的评估。
举例精准匹配展望文本和参考文本的任务,只可评估模子展望正确事实或数字的才气。但要评估更洞开性的教师才气 (如文本通顺水平、诗词文体质料或输入诚笃过程) 则需要更复杂的评价器用。
这等于评估模子当先的切入点。
它们频频用于三大任务。
为生成文本打分:使用事先界说的评分措施与范围来评估文本的某些属性 (如通顺度、无益性、一致性、劝服力等)。
成对比较:对比模子的两个输出,以选出在给定属性上发扬更好的文本。
伸开剩余63%策划文本相同度:用于评估参考文本和模子输出的匹配过程。
注:本文当今主要体恤 LLM + prompt 的评估设施。不外提议你还是了解一下浅易分类器评估模子的使命旨趣,因为这种设施在很多测试用例中都具有矫捷的发扬。最近也出现了一些新的有远景的设施,举例奖励模子看成评估模子
LLM 评估模子的优缺欠:
上风:
客不雅性:与东谈主类比拟,LLM 评估模子在自动化地作念出教师性判断时愈加客不雅。
领域化和可复现:LLM 评估模子不错在相配大领域数据上作念评估,而况评估效果不错复现。
本钱较低:与支付东谈主工标注员报酬比拟,由于无需磨练新模子,只好使用现存的高质料 LLM 和 prompt 就不错进行评价任务,因此评估模子本钱较低。
与东谈主类判断对都:LLM 评估效果在一定过程上与东谈主类的判断具有有关性。
缺欠:
LLM 评估模子看似客不雅,骨子上具有更难被检测到的 荫藏偏差,这是因为咱们无法主动地发掘这些偏差 (参考 手段与指示 著述)。此外,缓解东谈主类偏差不错通过筹算一些内容具体或统计安静的探望问卷的阵势 (这在社会学领域已有近百年的盘考),而缓解 LLM 偏差的阵势就没那么熏陶了。另外,使用 LLM 评估 LLM 可能会产生 “复书室效应”,即潜移暗化地加强了模子的固有偏差。
LLM 评估模子诚然具有领域化上风,但同期也会生成大宗的数据需要仔细查验。举例模子不错生成想维旅途或数据推理,但产生的效果需要更多的分析。
LLM 评估模子在频频情况下低廉,但在某些具体任务中如需赢得质料更高的评估效果而遴聘众人级东谈主工标注员,那么本钱会相应增多。
发布于:湖南省