文章主题:数学能力, ChatGPT, 上海交大, 计算大模型
原标题:数学能力超过ChatGPT!上海交大计算大模型登开源榜首
克雷西 发自 凹非寺
量子位 | 公众号 QbitAI
国产数学大模型,能力已经超过了ChatGPT!
最新榜单中,上海交大GAIR实验室出品的Abel专有大模型:
准确率高达83.6%,在开源模型中位列第一。
据团队介绍,该模型是用挪威数学家尼尔斯·阿贝尔(Niels Abel)的名字命名的,以此向阿贝尔在代数和分析方面的开创性工作致敬。
在GSM8k数据集上,70B参数量的Abel碾压所有开源模型,还超过了ChatGPT。
甚至在新数据集TALSCQ-EN上,Abel的表现比GPT-4还要强。
而实现这样效果的Abel,成分可以说是十分“单纯”:
没有使用工具
没有使用数学领域的大规模预训练数据
没有使用奖励模型
没有使用RLHF
仅使用有监督精调(Supervised Fine-tuning,SFT)
那么Abel的效果究竟怎么样呢?
成绩超越开源模型SOTA
这里我们选择同样是开源的Llama-2来和Abel对比。
首先来看下这个鸡兔同笼问题的变体:
Brown由牛和鸡一共60只,鸡的数量是牛的两倍,一共有多少条腿?
这道题Llama-2出师不利,而且不是计算错误,是逻辑上就有问题:
Abel则成功地解决了这个问题。
再来看下一个问题:
12,21,6,11和30的中位数与平均数的和是多少?
两个模型都正确理解了所涉及的概念,但Llama还是在计算和排序上出了错。
而Abel依旧是正确地做出了这道题:
再从测试数据上看看Abel的表现。
首先,我们需要关注的是由OpenAI所提出的GSM8k数据集,这个数据集大致反映了美国高中学生的学术难度。在此次排名中,Abel的名字出现了三次,这得益于他在不同参数规模下的出色表现。
开源模型当中,70B规模的Abel打败了曾经的SOTA——WizardMath。
在考虑商业闭源模型的情况下,Abel的表现同样不容忽视,其排名紧随GPT-4、Claude-2和PaLM-2-Flan等知名模型之后。
甚至ChatGPT也不是Abel的对手。
△地球代表开源模型,锁代表闭源模型
在更为复杂的MATH(竞赛题目)数据集上,Abel模型以其卓越表现脱颖而出,轻松占据前三名的位置,其规模涵盖了从小型到大型。此外,封闭式模型在排名中同样表现出色,仅落后于Google和OpenAI的产品。
研究团队还使用了新数据集TALSCQ-EN对Abel进行测试,结果超过了GPT-4。
那么,研究团队是怎么调教出这样一款高性能模型的呢?
“保姆级”微调训练策略
核心奥义就是高质量的训练数据。
Abel使用数据是经过精心策划的,不仅包含问题的答案,还要能告诉模型找到正确答案是的方法。
为了实现这一目标,研究团队设计了一种名为“家长监督”的“保姆级”微调训练策略。
在家长监督的原则之下,团队仅通过SFT方式就完成了Abel的训练。
在评估Abel的鲁棒性时,我们的研究团队采用了更为严谨的方法。我们利用先进的GPT4技术,对GSM8k数据集中的数字进行了深入的修改,从而全面检验Abel在处理这类问题上的性能表现。这一举措确保了我们在测试过程中,能够准确判断Abel是否能仍然正确地解答问题。
根据数据显示,在优化版的GSM8k数据集下,拥有70B参数的Abel模型在鲁棒性方面表现出了超越同规模WizardMath的能力。
在Abel的介绍的最后,研究团队还留下了一个彩蛋:
Abel的下一代,将进化成为Bernoulli(伯努利)
不过团队并没有对其中的含义进行说明,我们不妨期待一番。
团队简介
Abel由上海交通大学GAIR(生成式人工智能研究组)团队打造。
该团队还曾推出过大模型高考Benchmark、AIGC事实核查工具Factool等成果。
该小组负责人、清源研究院刘鹏飞副教授同时也是Abel项目的负责人。
对这个数学模型感兴趣的读者,可以到GitHub页面详细了解。
GitHub页面:
https://github.com/GAIR-NLP/abel
— 完—
「量子位2023人工智能年度评选」开始啦!
今年,量子位2023人工智能年度评选从企业、人物、产品/解决方案三大维度设立了5类奖项!欢迎扫码报名
最具影响力的年度智能商业峰会MEET 2024智能未来大会已启动!点此了解详情。
点这里?关注我,记得标星哦~
一键三连「分享」、「点赞」和「在看」
科技前沿进展日日相见 ~
责任编辑:
数学能力, ChatGPT, 上海交大, 计算大模型
AI时代,拥有个人微信机器人AI助手!AI时代不落人后!
免费ChatGPT问答,办公、写作、生活好得力助手!
搜索微信号aigc666aigc999或上边扫码,即可拥有个人AI助手!