site stats
原推转译:你正在参加 Perplexity 的机器学习工程师面试,面试官问你:“你的大语言模型每天要生成数百万条回复,如何在不进行人工审阅的情况下评估这些回复的质量?”该怎么回答呢?目前,大语言模型(LLM)的大规模质量评估方式其实存在根本问题。传统的评估方法,比如 BLEU 和 ROUGE
发布时间:
1
数据加载中
Markdown支持
评论加载中...
您可能感兴趣的: 更多