《Abel：计算大模型的新星，超越ChatGPT，开源榜首引领未来》

AI与情感2yrs ago (2024)update lida

213 0 0

文章主题：数学能力, ChatGPT, 上海交大, 计算大模型

666ChatGPT办公新姿势，助力做AI时代先行者！

原标题：数学能力超过ChatGPT！上海交大计算大模型登开源榜首

克雷西发自凹非寺

量子位 | 公众号 QbitAI

国产数学大模型，能力已经超过了ChatGPT！

最新榜单中，上海交大GAIR实验室出品的Abel专有大模型：

准确率高达83.6%，在开源模型中位列第一。

《Abel：计算大模型的新星，超越ChatGPT，开源榜首引领未来》

据团队介绍，该模型是用挪威数学家尼尔斯·阿贝尔（Niels Abel）的名字命名的，以此向阿贝尔在代数和分析方面的开创性工作致敬。

《Abel：计算大模型的新星，超越ChatGPT，开源榜首引领未来》

在GSM8k数据集上，70B参数量的Abel碾压所有开源模型，还超过了ChatGPT。

甚至在新数据集TALSCQ-EN上，Abel的表现比GPT-4还要强。

《Abel：计算大模型的新星，超越ChatGPT，开源榜首引领未来》

而实现这样效果的Abel，成分可以说是十分“单纯”：

没有使用工具
没有使用数学领域的大规模预训练数据
没有使用奖励模型
没有使用RLHF
仅使用有监督精调（Supervised Fine-tuning，SFT）

那么Abel的效果究竟怎么样呢？

成绩超越开源模型SOTA

这里我们选择同样是开源的Llama-2来和Abel对比。

首先来看下这个鸡兔同笼问题的变体：

Brown由牛和鸡一共60只，鸡的数量是牛的两倍，一共有多少条腿？

这道题Llama-2出师不利，而且不是计算错误，是逻辑上就有问题：

《Abel：计算大模型的新星，超越ChatGPT，开源榜首引领未来》

Abel则成功地解决了这个问题。

《Abel：计算大模型的新星，超越ChatGPT，开源榜首引领未来》

再来看下一个问题：

12，21，6，11和30的中位数与平均数的和是多少？

两个模型都正确理解了所涉及的概念，但Llama还是在计算和排序上出了错。

《Abel：计算大模型的新星，超越ChatGPT，开源榜首引领未来》

而Abel依旧是正确地做出了这道题：

《Abel：计算大模型的新星，超越ChatGPT，开源榜首引领未来》

再从测试数据上看看Abel的表现。

首先，我们需要关注的是由OpenAI所提出的GSM8k数据集，这个数据集大致反映了美国高中学生的学术难度。在此次排名中，Abel的名字出现了三次，这得益于他在不同参数规模下的出色表现。

开源模型当中，70B规模的Abel打败了曾经的SOTA——WizardMath。

在考虑商业闭源模型的情况下，Abel的表现同样不容忽视，其排名紧随GPT-4、Claude-2和PaLM-2-Flan等知名模型之后。

甚至ChatGPT也不是Abel的对手。

《Abel：计算大模型的新星，超越ChatGPT，开源榜首引领未来》

△地球代表开源模型，锁代表闭源模型

在更为复杂的MATH(竞赛题目)数据集上，Abel模型以其卓越表现脱颖而出，轻松占据前三名的位置，其规模涵盖了从小型到大型。此外，封闭式模型在排名中同样表现出色，仅落后于Google和OpenAI的产品。

《Abel：计算大模型的新星，超越ChatGPT，开源榜首引领未来》

研究团队还使用了新数据集TALSCQ-EN对Abel进行测试，结果超过了GPT-4。

那么，研究团队是怎么调教出这样一款高性能模型的呢？

“保姆级”微调训练策略

核心奥义就是高质量的训练数据。

Abel使用数据是经过精心策划的，不仅包含问题的答案，还要能告诉模型找到正确答案是的方法。

为了实现这一目标，研究团队设计了一种名为“家长监督”的“保姆级”微调训练策略。

在家长监督的原则之下，团队仅通过SFT方式就完成了Abel的训练。

在评估Abel的鲁棒性时，我们的研究团队采用了更为严谨的方法。我们利用先进的GPT4技术，对GSM8k数据集中的数字进行了深入的修改，从而全面检验Abel在处理这类问题上的性能表现。这一举措确保了我们在测试过程中，能够准确判断Abel是否能仍然正确地解答问题。

根据数据显示，在优化版的GSM8k数据集下，拥有70B参数的Abel模型在鲁棒性方面表现出了超越同规模WizardMath的能力。

《Abel：计算大模型的新星，超越ChatGPT，开源榜首引领未来》

在Abel的介绍的最后，研究团队还留下了一个彩蛋：

Abel的下一代，将进化成为Bernoulli（伯努利）

《Abel：计算大模型的新星，超越ChatGPT，开源榜首引领未来》

不过团队并没有对其中的含义进行说明，我们不妨期待一番。

团队简介

Abel由上海交通大学GAIR（生成式人工智能研究组）团队打造。

该团队还曾推出过大模型高考Benchmark、AIGC事实核查工具Factool等成果。

该小组负责人、清源研究院刘鹏飞副教授同时也是Abel项目的负责人。

对这个数学模型感兴趣的读者，可以到GitHub页面详细了解。

GitHub页面：

https://github.com/GAIR-NLP/abel

— 完—

「量子位2023人工智能年度评选」开始啦！

今年，量子位2023人工智能年度评选从企业、人物、产品/解决方案三大维度设立了5类奖项！欢迎扫码报名

最具影响力的年度智能商业峰会MEET 2024智能未来大会已启动！点此了解详情。

点这里?关注我，记得标星哦～

一键三连「分享」、「点赞」和「在看」

科技前沿进展日日相见 ~

返回搜狐，查看更多

责任编辑：

数学能力, ChatGPT, 上海交大, 计算大模型

AI时代，拥有个人微信机器人AI助手！AI时代不落人后！

免费ChatGPT问答，办公、写作、生活好得力助手！

搜索微信号aigc666aigc999或上边扫码，即可拥有个人AI助手！

# AI与情感 # # AIGC # ChatGPT # GPT4

文章版权归作者所有，未经允许请勿转载。

Midjourney会员的区别及选择指南

lida

188

对话火山引擎总裁谭待：从同质化的云服务中突围 | 数字思考者50人这一次，“挖呀挖”黄老师，“底裤”都被扒掉了

lida

164

科大讯飞AI硬件销售增长强劲：讯飞星火大模型助力

lida

133

太强！AI绘图领域的扛把子Midjourney首次对中国用户开启内测申请马云问董明珠：我这种男人你能看上吗？董明珠高情商回答令人满意

lida

142

【亿邦原创】腾讯混元大模型内测，阿里云通义千问开源70亿参数模型

lida

415

ChatGPT律师案：AI伪造引文，法律人如何重振精神？

lida

189

No comments

No comments...

《Abel：计算大模型的新星，超越ChatGPT，开源榜首引领未来》

DALL·E3携手ChatGPT：一场图像生成的革命

《AI领域下一个大赢家？探寻ChatGPT之后的其他明星产品》

Related posts

No comments