Meta 推出“自学评估器”：无需人工注释改善评估-新科技-资讯-头部财经

Meta 推出“自学评估器”：无需人工注释改善评估

资讯 » 新科技 2024-08-07

8 月 7 日消息，meta 公司为了缓解自然语言处理（NLP）技术依赖人类注释评估 AI 模型的问题，最新推出了“自学评估器”（Self-Taught evaluator），利用合成数据训练 AI。

NPU 技术挑战

NPU 技术的发展，推动大型语言模型（LLMs）高精度地执行复杂的语言相关任务，实现更自然的人机交互。

不过当前 NPU 技术面临的一个重要挑战，就是评估模型严重依赖人工注释。

人工生成的数据对于训练和验证模型至关重要，但收集这些数据既费钱又费时。而且随着模型的改进，以前收集的注释可能需要更新，从而降低了它们在评估新模型时的效用。

目前的模型评估方法通常涉及收集大量人类对模型响应的偏好判断。这些方法包括在有参考答案的任务中使用自动度量，或使用直接输出分数的分类器。

这些方法都有局限性，尤其是在创意写作或编码等复杂场景下，可能存在多个有效回答，导致了人类判断的高差异问题和高成本。

自学评估器

meta FAIR 团队推出了名为“自学评估器”的全新方式，不需要人工注释，而是使用合成数据进行训练。

这一过程从种子模型开始，种子模型会生成对比鲜明的合成偏好对。然后，模型对这些偏好对进行评估并不断改进，在随后的迭代中利用其判断来提高性能。这种方法充分利用了模型生成和评估数据的能力，大大减少了对人工注释的依赖。

附上关键步骤如下：

1. 使用种子 LLM 为给定指令生成基线响应。

2. 创建指令的修改版本，促使 LLM 生成质量低于原始响应的新响应。

这些配对回答构成了训练数据的基础，“自学评估器”作为 LLM-as-a-Judge，为这些配对生成推理轨迹和判断。

通过反复该过程，模型通过自我生成和自我评估的数据不断提高其判断的准确性，从而有效地形成自我完善的循环。

成果

meta FAIR 团队在 Llama-3-70B-Instruct 模型上测试“自学评估器”，在 RewardBench 基准测试中将准确率从 75.4 提高到了 88.7，达到或超过了使用人类注释训练的模型的性能，性能超过GPT-4等常用大语言模型评审（LLM Judges）。

这一重大改进证明了合成数据在加强模型评估方面的有效性。此外，研究人员还进行了多次迭代，进一步完善了模型的功能。

参考

免责声明：本网信息来自于互联网，目的在于传递更多信息，并不代表本网赞同其观点。其内容真实性、完整性不作任何保证或承诺。由用户投稿，经过编辑审核收录，不代表头部财经观点和立场。
证券投资市场有风险，投资需谨慎！请勿添加文章的手机号码、公众号等信息，谨防上当受骗！如若本网有任何内容侵犯您的权益，请及时联系我们。

Meta 推出“自学评估器”：无需人工注释改善评估

2024-08-070阅读
全球瞩目焦点：华硕a豆14 Air 香氛版助你七夕异“香”天开

2024-08-070阅读
淡出天士力套现36亿，闫希军家族重心转向国台酒和帝泊洱

2024-08-070阅读
百年酒店照明史，灯光企业卷到哪了？

2024-08-070阅读
真人漫改，影视剧“翻车”重灾区

2024-08-070阅读
华为挑战数据存储“不可能三角”

2024-08-070阅读
支付宝搞内容化，马云看了也摇头？

2024-08-070阅读
小米相机团队全球顶级会议斩获7冠！获奖算法已应用小米14 Ultra

2024-08-070阅读
安卓15加入任务栏：手机Windows化了

2024-08-070阅读
电视剧《斗罗大陆2》预约破300万：史莱克七怪同框海报公布

2024-08-070阅读