梦晨 发自 凹非寺
量子位 | 公众号 QbitAI
自动测试分数达到ChatGPT的99.3%,人类难以分辨两者的回答……
这是开源大模型最新成果,来自羊驼家族的又一重磅成员——华盛顿大学原驼(Guanaco)。
更关键的是,与原驼一起提出的新方法QLoRA把微调大模型的显存需求从>780GB降低到<48GB。
开源社区直接开始狂欢,相关论文成为24小时内关注度最高的AI论文。
以Meta的美洲驼LLaMA为基础,得到原驼650亿参数版只需要48GB显存单卡微调24小时,330亿参数版只需要24GB显存单卡微调12小时。
24GB显存,也就是一块消费级RTX3090或RTX4090显卡足以。
不少网友在测试后也表示,更喜欢它而不是ChatGPT。
英伟达科学家Jim Fan博士对此评价为:大模型小型化的又一里程碑。
先扩大规模再缩小,将成为开源AI社区的节奏。
🚀🚀新技术速递!QLoRA,一款高效的微调工具,以其强大的性能在开源社区中掀起热议,瞬间成为热门话题!🏆🏆HuggingFace团队的敏锐洞察力和及时响应,让这款先进的技术无缝融入平台,为开发者们提供了便捷的访问路径。👩💻👨💻只需轻轻一点,即可体验到QLoRA带来的高效微调魅力,加速你的研究进程!欲了解更多详情,敬请关注我们的最新动态哦~SEO优化提示:#QLoRA #微调方法 #HuggingFace #开源社区 #技术更新
GPT-4做裁判,原驼得分达到ChatGPT的99.3%
论文中,团队对原驼总共做了三项测试,自动评估、随机匹配和人类评估。
测试数据来自小羊驼Vicuna和Open Assistant。
自动评估由大模型天花板GPT-4当裁判,对不同模型的回答进行打分,以ChatGPT(GPT3.5)的成绩作为100%。
🏆【超新力作】揭秘AI语言模型实力排名!🌟🔥最新数据揭示,顶尖AI聊天机器人ChatGPT以惊人的99.3%荣登榜首,其卓越性能令人赞叹不已!🔍相比之下,GPT-4的表现也不遑多让,以114.5%的高分紧随其后。谷歌Bard虽表现出色,但还是略逊一筹,以94.8%的成绩排名第三。🔥每一项突破都标志着人工智能技术的飞跃,这些语言模型不仅改变了我们的交流方式,更在知识生成和创新思维上展现出强大的潜力。🔍不论是教育、科研,还是娱乐领域,它们都在持续推动着行业的变革。🌟让我们期待未来AI如何继续超越,为人类智慧注入更多可能!🌍🚀
随机匹配,采用棋类专业比赛和电子竞技同款的Elo记分机制,由GPT-4和人类共同做裁判。
原驼650亿和330亿版最终得分超过ChatGPT(GPT3.5)。
人类评估,则是把原驼650亿版的回答和ChatGPT的回答匿名乱序放在一起,人类来盲选哪个最好。
🌟研究人员揭秘!共同一作背后实况并非易辨,我们巧妙地将科研测试转化为趣味小游戏,在#Colab平台# 上公开,邀请全球智慧来一决高下。📚挑战不设门槛,每一份贡献都值得尊重和赞赏。快来探索这个隐藏的学术盛宴,让我们一起在知识的海洋中遨游!🌐
这里节选其中一个问题(附中文翻译),你能分辨出哪个是ChatGPT回答的吗?
🌟想要提升时间利用效率,首先得了解自己的“时间地图”!分析每天的时间分配,识别哪些活动占用了过多或过少的时间。🚀制定明确的目标和优先级,学会说“不”,避免无效的干扰。⏰使用日程表、待办事项清单等工具,让计划可视化,提高执行力。📚合理安排学习和休息,保持身心健康,这样才能持久高效。💪持续反思和调整,不断优化时间管理策略,时间就像海绵里的水,挤挤总会有的!
(完整测试地址在文末)
总的来说,原驼的优势在于不容易被问题中的错误信息误导,比如能指出地球从来没有被科学界认为是平的。
以及擅长心智理论(Theory of Mind),也就是能推测理解他人的心理状态。
但原驼也并非没有弱点,团队发发现它不太擅长数学,以及容易用提示注入攻击把要求保密的信息从它嘴里套出来。
🌟模型虽强,ChatGPT难以复制🔍!尽管一些算法在特定数据集上的表现令人惊叹,能够无限逼近ChatGPT的卓越能力,但要达到它那无处不在、无所不能的高度并非易事。通用性是AI领域的挑战明珠🏆,ChatGPT的独特之处正是其强大的多语言理解和生成能力,这背后需要海量训练和深度优化。让我们期待更多创新,超越现有界限🚀!
全新方法QLoRA,iPhone都能微调大模型了
原驼论文的核心贡献是提出新的微调方法QLoRA。
其中Q代表量化(Quantization),用低精度数据类型去逼近神经网络中的高精度浮点数,以提高运算效率。
LoRA是微软团队在2021年提出的低秩适应(Low-Rank Adaptation)高效微调方法,LoRA后来被移植到AI绘画领域更被大众熟知,但最早其实就是用于大语言模型的。
通常来说,LoRA微调与全量微调相比效果会更差,但团队将LoRA添加到所有的线性层解决了这个问题。
具体来说,QLoRA结合了4-bit量化和LoRA,以及团队新创的三个技巧:新数据类型4-bit NormalFloat、分页优化器(Paged Optimizers)和双重量化(Double Quantization)。
最终QLoRA让4-bit的原驼在所有场景和规模的测试中匹配16-bit的性能。
QLoRA的高效率,让团队在华盛顿大学的小型GPU集群上每天可以微调LLaMA 100多次……
最终使用Open Assistant数据集微调的版本性能胜出,成为原驼大模型。
Open Assistant数据集来自非盈利研究组织LAION(训练Stable Diffusion的数据集也来自这里),虽然只有9000个样本但质量很高,经过开源社区的人工仔细验证。
🌟【优化版】欲提升模型效能,不必拘泥于海量数据!🚀通过微调大模型这一创新策略,我们已证明了9000个精选样本足以达到显著的效果,这远超出了使用100万条指令进行传统Instruction Finetune的谷歌FLAN v2。🌟每一条指令背后都是精心设计与优化,确保每一项微调都能精准地转化为模型的力量。🔍这样的精简方法不仅减少了资源消耗,还可能带来更高效、更针对性的学习体验。🏆让我们的技术在有限中展现出无限可能!🌍
研究团队也据此提出两个关键结论:
数据质量 >> 数据数量指令微调有利于推理,但不利于聊天
最后,QLoRA的高效率,还意味着可以用在手机上,论文共同一作Tim Dettmers估计以iPhone 12 Plus的算力每个晚上能微调300万个单词的数据量。
这意味着,很快手机上的每个App都能用上专用大模型。
论文:
https://arxiv.org/abs/2305.14314
GitHub:
https://github.com/artidoro/qlora
与ChatGPT对比测试:
https://colab.research.google.com/drive/1kK6xasHiav9nhiRUJjPMZb4fAED4qRHb
330亿参数版在线试玩:
https://huggingface.co/spaces/uwnlp/guanaco-playground-tgi
参考链接:
[1]https://twitter.com/Tim_Dettmers/status/1661379376225697794
[2]https://huggingface.co/blog/4bit-transformers-bitsandbytes
AI时代,掌握AI大模型第一手资讯!AI时代不落人后!
免费ChatGPT问答,办公、写作、生活好得力助手!
扫码右边公众号,驾驭AI生产力!