弱智吧竟成最佳中文AI训练数据?!中科院等:8项测试第一

据量子位消息,百度贴吧的弱智吧竟然登上了正经AI论文,还成了最好的中文训练数据。

据悉,使用弱智吧数据训练的大模型,跑分超过百科、知乎、豆瓣、小红书等平台,甚至是研究团队精心挑选的数据集。

弱智吧

在问答、头脑风暴、分类、生成、总结、提取等8项测试中取得最高分。论文中的Ruozhiba就是指百度贴吧弱智吧,一个充满荒谬、离奇、不合常理发言的百度贴吧社区。

 

弱智发言成指令微调神器

这项研究起初为解决中文大模型训练中的诸多问题

  • 中文数据集很多是从英文翻译过来的,没有很好地契合中文的语言习惯和文化背景
  • 不少数据集是用AI生成的,质量难以保证,容易出现事实性错误
  • 即使是人工标注的数据集,也存在数据量小、覆盖领域不全面等问题

为了解决这些痛点,团队从中文互联网的各种知识源头直接收集数据,比如知乎、豆瓣、百科、小红书等,经过一系列严格的清洗和人工审核,打造成高质量、多样化的中文指令微调数据集COIG-CQIA

除了探索不同数据源的作用,团队还专门从中抽取出一个精华子集CQIA-Subset

在众多数据来源中,弱智吧成了最特别的一个。

由500个点赞最高的帖子标题+人工或GPT-4的回复组成指令微调数据集, 经过人工审核后,最终留下了240组指令-回复数据对。

 

模型训练推理表现上:

在规模较小的Yi-6B模型上,纯弱智吧版本总分排名第三,还不算太突出。到了Yi-34B,弱智吧版本表现就一骑绝尘了。

只有在改写和数学任务上没能取得最高分,但成绩也比较靠前。

另外,在安全评估上弱智吧版本也能排上第二。

 

对于这类现象,研究人员在分析中也给出简单猜测:

可能是弱智吧问题增强了AI的逻辑推理能力,从而使指令遵循任务受益。

当然弱智吧并不是这项研究的全部,它的真正贡献在于为中文大模型开发提供了一个高质量的指令微调数据集COIG-CQIA。

 

当初网友为了调戏大模型专门搜集的弱智吧问题测试集,没想到有一天也能摇身一变,成了训练集。

思路确实是被打开了~

 

 

论文地址:
https://arxiv.org/abs/2403.18058

版权声明:
1,Mac996站内所有应用软件及资料(除原创内容外)均来源于网络,如本站的内容对您的权利造成了影响,请与我们联系,我们会在第一时间进行修改或删除。
2,本站相关软件资源,仅供研究和学习使用,请在下载后24小时内删除。日常使用及商业用途的,请务必支持和购买正版。
3,本站赞助全凭自愿,您的赞助行为仅仅是出于对mac996的喜爱和支持,赞助将被用来提高网站的访问体验,而非购买资源。
4,如有问题/建议可加QQ群反馈,群号:958611112
5,本站统一解压密码:mac996.com
Mac996 » 弱智吧竟成最佳中文AI训练数据?!中科院等:8项测试第一

发表回复