最近完善了下自己的中文模型能力评测集，包含如下部分：指令遵循：参考ifeval 设计，考察模型遵守指令的能力，如结构化输出。阅读理解：关注长上下文的阅读理解和回答能力。长文本检索：将LLM作为rerank代码生成：参考HumanEval 设计。工具调用：目前只设计了单轮调用，不涉及plan和reflect。…

发布时间: 2024-04-16 13:40:56

1分

数据加载中

2

1

0

最近完善了下自己的中文模型能力评测集，包含如下部分：
指令遵循：参考ifeval 设计，考察模型遵守指令的能力，如结构化输出。
阅读理解：关注长上下文的阅读理解和回答能力。
长文本检索：将LLM作为rerank
代码生成：参考HumanEval 设计。
工具调用：目前只设计了单轮调用，不涉及plan和reflect。…
时政
( twitter.com )

1个月前由九原客提交

最近完善了下自己的中文模型能力评测集，包含如下部分：

指令遵循：参考ifeval 设计，考察模型遵守指令的能力，如结构化输出。
阅读理解：关注长上下文的阅读理解和回答能力。
长文本检索：将LLM作为rerank
代码生成：参考HumanEval 设计。
工具调用：目前只设计了单轮调用，不涉及plan和reflect。
Text2SQL，参考了sql-eval。
数学计算：参考gsm8k，考验cot能力。
行测：公务员行测最新考题，包含常识、逻辑、语言理解。

限于精力，每个子集只有30-100道不等。所有的Prompt 和数据都是中文，大量利用GPT-4辅助合成，抓取最新数据避免污染。

评估数据应该不会开放，但是评估代码在重构，重构后应该会放出。

有兴趣建设自己的模型评测数据集的可以参考。

评论加载中...

您可能感兴趣的：更多

1

2

1

1

最近密集测试了最新的多款支持中文的模型，做如下推荐：

1. 商用请选择 Aquila 或者 baichuan（需申请）。
2. 预训练模型推荐 baichuan-7B 或 Aquila-7B。
3. 开箱即用的 Chat 模型，…
推特中文圈
( twitter.com)

11个月前 • 九原客 • -- 点击 0 评论

2

2

1

1

最近两个月大家肯定看到各家模型都号称超越 ChatGPT 性能，霸榜各大测试数据集，但实际使用效果却很一般。背后最大的原因是，学术界现有的测试方法无法完善地评价 LLM 的综合能力。这篇由 Berkeley、UCSD、CMU 联合…
IT技术
( twitter.com)

11个月前 • Quinn Leng • -- 点击 0 评论

3

2

1

1

CodeFuse：蚂蚁推出的一个开源代码大模型

能够根据开发者的输入，提供智能建议和实时支持，包括自动生成代码、添加注释、生成测试用例以及修复和优化代码等功能。

CodeFuse基于蚂蚁集团的基础大模型开发而成，该模型在最近的代码补全评测中表现优异，得分达到了 74.4%，超过了 GPT-4 和…
IT技术
( twitter.com)

9个月前 • 小互 • -- 点击 0 评论

4

2

1

1

最新中文大模型评测基准SuperCLUE发布6月榜单🤖️📣

6月榜单由4部分组成：总排行榜、基础能力榜单、中文特性榜单、70亿参数量级榜单。
IT技术
( twitter.com)

11个月前 • GPTDAOCN • -- 点击 0 评论

5

3

2

2

目前英文 7B 规模的 SOTA 模型是 zephyr-7b-beta。它放弃了质量参差不齐的开源数据集，使用ChatGPT和GPT-4 全新标注了 UltraChat 和 UltraFeedback 数据集（已开源）。是 llama-index 项目实测出来唯一能够支持 Agent 的小参数模型。

与之相比，中文开源模型虽多，数据集却很少开源。
时政
( twitter.com)

7个月前 • 九原客 • -- 点击 0 评论

6

2

1

1

马斯克X AI发布Grok-1.5 Vision 多模态模型
Grok-1.5V能够处理文本以及各种视觉信息，包括文档、图表、截图和照片。
基准测试中，Grok-1.5V 的能力和GPT 4V不相上下，多项指标甚至超过GPT 4V！
在新RealWorldQA真实世界物理空间基准中的表现超过GPT 4V等所有模型！…
时政
( twitter.com)

2个月前 • 小互 • -- 点击 0 评论

7

2

1

1

达克效应：
1. 能力最差的人对自己的评价离事实最远；
2. 能力中间偏前的人对自己的评价最准；
3. 中间偏后一点的人，对自己的评价最高；
4. 能力最强的人对自己的评价偏低。
图片
( twitter.com)

1年前 • 章工GPT • -- 点击 0 评论

8

2

1

1

微软推出了一个专门用于评估大语言模型的整合性工具库：PromptBench
提供了一系列工具，包括创建不同类型的提示、进行数据集和模型加载、执行对抗性提示攻击（即测试模型对恶意输入的抵抗力）等。
以支持研究人员从不同方面对LLMs进行评估和分析。
主要特点和功能：…
IT技术
( twitter.com)

5个月前 • 小互 • -- 点击 0 评论

9

2

1

1

详细看了一下Open AI公布的DALL-E3的论文基本没有写模型训练细节。不过还是有一些有用的细节的比如系统化的AI画图模型评估体系。
各位有训练自己的SD模型的也可以按这个评估一下：

自动评估
首先使用公共的ViT-B/32模型计算CLIP分数。这是Open AI 自己开源的。…
IT技术
( twitter.com)

7个月前 • 歸藏 • -- 点击 0 评论