site stats
最近完善了下自己的中文模型能力评测集,包含如下部分:指令遵循:参考ifeval 设计,考察模型遵守指令的能力,如结构化输出。阅读理解:关注长上下文的阅读理解和回答能力。长文本检索:将LLM作为rerank代码生成:参考HumanEval 设计。工具调用:目前只设计了单轮调用,不涉及plan和reflect。…
发布时间:
1
数据加载中
Markdown支持
评论加载中...
您可能感兴趣的: 更多