最近两个月大家肯定看到各家模型都号称超越 ChatGPT 性能，霸榜各大测试数据集，但实际使用效果却很一般。背后最大的原因是，学术界现有的测试方法无法完善地评价 LLM 的综合能力。这篇由 Berkeley、UCSD、CMU 联合… , page 5

sign_in_with_google

分享一个链接

发表一篇文章

任何有趣的，图片，热点新闻，视频，文字...

28290 位用户此时在线

24小时点击排行 Top 10：

2024-6-24 今日热点汇总：以色列向黎巴嫩边境派军以总统称有能力多线作战；韩国电池工厂发生火灾 18名中国公民遇难；丑闻曝光！韩国花滑女神性侵16岁男队友；大陆对 “台独分子判死刑” 台湾总统赖清回应了！中国捐赠乌干达午餐项目 16 万儿童受益引发网民吐槽；呼和浩特特大杀人案小道消息道明缘由；云南农信系统大地震！多名董事长行长被调查；国税局长称五口之家 4000 块月薪便能摆脱贫困；广东两男子骑共享单车被罚款警察称没有牌照；山东男子私家车后备箱放 6 个西瓜被罚交警：涉嫌人货混装

中国现代慰安妇

江苏苏州袭击日本人学校的事件，很可能受近期抖音上爆火的“殴打日本人”小短剧影响。这类短剧目前在抖音上非常受欢迎，剧情通常表现为在华日本人对中国底层劳动者进行侮辱，继而遭遇中国人的反击。

曾经年少时.

一名大凉山支教老师上传视频称，一名小学生因为在自己的画上写下“我爱日本人”，遭到了他的体罚。网友一致支持这名老师的做法，认为要树立孩子的正确价值观。但也有网友认为，老师并没有给这个孩子过多解释的机会，这样的做法不妥。还有网友发现，这名老师自己本身就戴着一顶印有美国国旗的帽子。

Shenzhen, June 23…

6月24日，湖南岳阳洞庭湖，大量麋鹿躲避洪水。

中国历年人口出生数，估计以后就不公布了。

这十几年，天朝最大的成就是在国际国内制造对立面。很多本来对它还有点期望，不愿看它鸡飞蛋打的，大都被它折腾成对立面；本来还有合作希望的对手，都被它折腾成敌对。天朝除了个头大，人多势众，没有什么优势，在被自己制造的无数对立面遏制的条件下，不可能发展经济。这几年，去中国化最快速的就是美

这列车管管理员是吃屎的！我非常佩服这小女孩的勇气！这老头就是狗屎！

6月22日，福建龙岩市岩前镇的灾民们挥舞国旗送别结束救灾的解放军们。

广东梅州暴雨致16万人受灾，没有上热搜，甚至没有新闻报道。

6月23日，天津。一男子身穿印有“中国”二字的红色上衣爬上世纪钟，并作伟人挥手状。随后被警察带走

6月24日，江苏常州，资深车评人韩路展示了儿子初二地理试卷，试卷中大部分题目都和华为有关。网友回复：越来越有“造神运动”那味了，可历史告诉我们，造神造到最后，都造出了个怪物。

6月24日，有媒体称长沙强降雨相当于1小时下了54个西湖。形容雨量猛，不如形容城市排水设施扑街。我去年在京津冀大洪水期间写过中国输排水系统改造专题文章，中国主要城市遵循苏联式排水系统，极其落后，完全不符合亚热带地区气候特点。而其“海绵城市”改造堪称诈骗工程🤷‍♀️

6月19日-22日，江苏连云港。华杰双语学校近期传出将由私立转为公立学校，不少家长不同意转公，原因是如果转公，就需要买学区房才能上学。家长们聚集在赣榆区政府维权，并和警方发生推搡。 22日，家长们继续在区政府前维权，并要求释放被警察抓走的家长。

这个动图太牛逼了！

“踏上美國國土的一瞬間我就醒悟了”，這種話聽了太多人這樣說了。

24岁的男子盐田被捕，他涉嫌诱骗16岁女高中生拍AV。还说是女高中生用假证件，骗自己说年满18岁了。而这位女高中生拍AV是为了赚钱给爱豆应援……🫥

1881年，71岁左宗棠娶了20岁的章怡为妾，洞房花烛夜，章怡慌忙拭去眼角的泪，准备伺候左宗棠就寝，谁料左宗棠摆摆手表示：自己这把年纪还纳什么妾，让章怡给自己当孙女吧……

6月23日，江苏苏州。网传中华园西村19栋2单元一男子被饿死。

厲害了你們的大媽

网友在梅州洪涝新闻下方吐槽：他要是不行的话，赶紧下了吧，不能再这样下去了

6月24日，广西。一位癌症病人跳河自杀，并在岸边留下纸条，写道：我是癌症病人，不要救我。好心人帮忙打电话给我女儿。在评论区，不少癌症病患家属讲述自己家因为癌症倾家荡产的经历。

突发 NHK报道，24日下午，一对日本籍母子在江苏苏州被一名男子刺伤，母子均无生命危险，行凶男子被警方抓获。

本站自动实时分享网络热点
24小时实时更新
所有言论不代表本站态度
欢迎对信息踊跃评论评分
评分越高，信息越新，排列越靠前

2

1

0

最近两个月大家肯定看到各家模型都号称超越 ChatGPT 性能，霸榜各大测试数据集，但实际使用效果却很一般。背后最大的原因是，学术界现有的测试方法无法完善地评价 LLM 的综合能力。这篇由 Berkeley、UCSD、CMU 联合…
IT技术
( twitter.com )

1年前由 Quinn Leng 提交

1周内 1个月内 1年内全部时间

1
2
3
4
5
6
7
8
9
10
...
400
下一页

1

2

1

1

最近不少基友都封了，所以大家知道我为何冷却这个小号了吧？
时政
( twitter.com)

2年前 • twitter机器人 • -- 点击 0 评论

2

2

1

1

给家里人看现在发生的事
他们：这么大规模同时闹事肯定有人操控都是境外势力组织的
…
哪tmd境外势力月球吗！？.jpg
（我在这种家庭里长大竟然不是粉红战狼真是奇迹…
推特精选
( twitter.com)

1年前 • twitter机器人 • -- 点击 0 评论

3

2

1

1

我大学院时的同学生第一个孩子后抱怨过，赚的工资基本上都交给babysitter了，但绝不可能不工作回家看孩子。后来她一路奋斗到大公司的partner，最近说工作太累，在家休息了两个月，又决定推掉offer再多休半年，反现在她找工作…
推特精选
( twitter.com)

1年前 • twitter机器人 • -- 点击 0 评论

4

2

1

1

#本周热读中美两国在2018年至2020年期间打了一场堪称20世纪30年代以来最大规模的贸易战。但中美两国都没有从贸易战中得到各自所寻求的让步，而且两国经济也都受到了创伤。而从很多方面来看，这场贸易战真正的受益者是越南等一些迅速…
推特中文圈
( twitter.com)

2年前 • twitter机器人 • -- 点击 0 评论

5

2

1

1

有个爱炫富的英国小哥... 号称自己是全英国最年轻的乐透彩票赢家... 每天po着各种奢靡生活... 上着各种电视节目.... 呵呵.. 然而... 树大招风，这小哥最近被太阳报盯上了..........
图片
( ww1.sinaimg.cn)

9年前 • 有趣图片 • -- 点击 0 评论

6

2

1

1

放假了，给大家预判个密码：

Flappy Moonbird 月鸟OG创立的休闲游戏，上周官宣了领头，两轮总共融了800万美元，$FMB代币模型已加入白皮书，目前看到的披露是Bybit, CyberConn…
币圈
( twitter.com)

1年前 • 老陌 • -- 点击 0 评论

7

2

1

1

最近，经常有一些骗子，盗走我们好友的telegram账号，然后通过好友的身份向我们发送信息，让大家截图Telegram的界面给他看看，结果号就被盗了。总结一下这场Telegram大规模盗号的套路
骗术1：我的Telegram里有两…
推特中文圈
( twitter.com)

1年前 • 寒涟漪 • -- 点击 0 评论

8

2

1

1

各国卫生部门从来没有想过：在过去的两年多里，竟然是他们这个平常屁都放不了一个的部门最风光。

赚足了眼球，发足了号令，赚足了钱财，就连各国愚蠢的国家元首也会被他们耍得团团转。

他们的号令超越了一切宪法和法律的界限，…
推特中文圈
( twitter.com)

2年前 • twitter机器人 • -- 点击 0 评论

9

2

1

1

赞有行动力的朋友。最近一周已有两位国内朋友拿到了国外的offer。（注，跟我没啥关系，都是人家自己的努力合付诸行动，大家看到这个不要都联系我）
图片
( twitter.com)

1年前 • twitter机器人 • -- 点击 0 评论

10

2

1

1

期待明天有啥公众号的文章分析下各国的羽绒服哪个最好看。我看中了两三个国家的款式，想知道在哪里买。
推特中文圈
( twitter.com)

2年前 • twitter机器人 • -- 点击 0 评论

11

2

1

1

【揭秘郑州“皇家一号”：女公关最低月入10万】硬件超过北京“天上人间”，房间价格从990元到9900元不等，人均消费都会超过5000元。刚开业时，女公关数量超过1000人。女公关模仿空姐举止，空姐必备的拉杆箱也人手一个。“最差的女公关，每月的收入都不会低于10万元。”
大陆资讯
( politics.caijing.com.cn)

10年前 • 财经网 • -- 点击 0 评论

12

2

1

1

这是我目前为止看到胸部比例最佳的PFP，我肯定艺术家通过了无数实践才能画出这么棒的图，感谢你。
@visionofviii
@ether 肯定是个好老婆。
币圈
( twitter.com)

1年前 • twitter机器人 • -- 点击 0 评论

13

2

1

1

美国两党中，越极端的越活跃，闹得动静越大。不只是美国，其他国家也这样。好在大部分国家，极端分子不占多数。不管那个党派、那种政治取向，极端到一定程度都是些人间祸害。
推特中文圈
( www.pewresearch.org)

2年前 • twitter机器人 • -- 点击 0 评论

14

2

1

1

有一次家里长辈请客，请一家上海人，我们孩子辈作陪，8个人，上海菜，点到后来那个上海长辈说别点了，太多了，肯定吃不完，然后长辈看看我们几个孩子，微笑说肯定能。

最后吃了个半饱，那个上海长辈看我们吃饭的眼神我记到现在。
推特中文圈
( twitter.com)

3年前 • twitter机器人 • -- 点击 0 评论

15

2

1

1

某币，跌到0.03反抽到0.12附近，最近跌倒0.01反抽到0.043附近。

大户，庄家全部都是国字号。

每次反弹都时间，大v情绪造势浓厚。

不出意外我会熬到家人们的梦想的起点0.003-0.004。
推特中文圈
( twitter.com)

2年前 • twitter机器人 • -- 点击 0 评论

16

2

1

1

这年头，大阪泥棒越来越嚣张了，偷东西偷到我家了。这个大阪泥棒胆大包天，居然敢在太岁头上动土，他肯定是忘了我的另一个外号：大阪人克星。海康威视全彩8K HDR夜间红外摄像头已经全程录像，人马上就抓到了。
图片
( twitter.com)

1年前 • twitter机器人 • -- 点击 0 评论

17

2

1

1

20大前习近平称号又增：马克思主义政治家、思想家、战略家
图片
( www.rfi.fr)

1年前 • twitter机器人 • -- 点击 0 评论

18

2

1

1

面对一个厨子的叛乱，普京怂了，习近平傻了。
两个独裁者个性中的弱点在突发事件面前暴露无遗。
随着时间推移，各方势力会越来越清楚的看到独裁者的无能和虚弱。
大BOSS已经残血，装备即将爆出，哪路玩家会完成最后一击？
时政
( twitter.com)

1年前 • 佛瑞德里希4th😷 • -- 点击 0 评论

19

2

1

1

推荐阅读：《深入了解大语言模型运维 (LLMOps) [译]》
这篇文章 5 月份的，但并没有过时，对于大语言模型的运维(LLMOps)讲的非常系统。
随着大语言模型的普及，未来的 Ops 肯定离不开 LLMOps ，甚至于需要专门的团队做 LLMOps。
文章中把 LLMOps 分成了几个关键步骤：
第 1 步：选择基础模型…
IT技术
( twitter.com)

6个月前 • 宝玉 • -- 点击 0 评论

20

2

1

1

#国际漫评 “嘘！大家都要装作不知道！”
《华尔街日报》近期发文称，越来越多的俄原油被以隐匿的方式出口到西方国家。这些国家嘴上高喊着“制裁俄罗斯”，背地里却通过模糊目的地的方式将俄罗斯原油源源不断地运往自己国家。
图片
( twitter.com)

2年前 • twitter机器人 • -- 点击 0 评论

21

2

1

1

任何产品都有可能被颠覆，只要他们道德底线拉低，就会被超越。美团定酒店民宿，三人看到的房价都不一样，差价近一倍。机型从左到右分别是：vivo x50 pro，ip13，ip13 pro max。同一个房价分别是556，870，108…
时政
( twitter.com)

1年前 • twitter机器人 • -- 点击 0 评论

22

2

1

1

【净利下降五成，南京富豪的孩子王，3个月少了上百亿】在业界，孩子王一直被当作母婴线下业态的典型，号称母婴零售领域的“山姆会员店”，其大店模式和会员制，让它在众多母婴零售企业中备受关注。截至2021年末，孩子王在全国拥有495家大型实体门店，有超过5000万个家庭注册成为它的会员。
大陆资讯
( www.aicaijing.com.cn)

2年前 • 洞房花钱夜 • -- 点击 0 评论

23

2

1

1

李家超在12月6日的发言，越来越有大陆那味了。
时政
( twitter.com)

6个月前 • Jacobson🌎🌸贴贴BOT • -- 点击 0 评论

24

2

1

1

无差别杀人，进入四月，号称最安全国家的每一天都有暴力事件发生。
时政
( twitter.com)

1年前 • iPaul🇨🇦🇺🇦 • -- 点击 0 评论

25

2

1

1

家家跑分都碾压GPT-4，大模型评测榜单是时候升级了？
大陆资讯
( www.jiemian.com)

6个月前 • 捂裆大湿兄 • -- 点击 0 评论

1
2
3
4
5
6
7
8
9
10
...
400
下一页