原驼大模型震撼登场，ChatGPT遭99.3%碾压，开源社区沸腾！你能否分辨出区别？

AIGC与游戏10mos agoupdate lida

132 0 0

文章主题：量子位, AI论文, 原驼

666ChatGPT办公新姿势，助力做AI时代先行者！

梦晨发自凹非寺

量子位 | 公众号 QbitAI

自动测试分数达到ChatGPT的99.3%，人类难以分辨两者的回答……

这是开源大模型最新成果，来自羊驼家族的又一重磅成员——华盛顿大学原驼（Guanaco）。

更关键的是，与原驼一起提出的新方法QLoRA把微调大模型的显存需求从>780GB降低到<48GB。

开源社区直接开始狂欢，相关论文成为24小时内关注度最高的AI论文。

原驼大模型震撼登场，ChatGPT遭99.3%碾压，开源社区沸腾！你能否分辨出区别？

以Meta的美洲驼LLaMA为基础，得到原驼650亿参数版只需要48GB显存单卡微调24小时，330亿参数版只需要24GB显存单卡微调12小时。

24GB显存，也就是一块消费级RTX3090或RTX4090显卡足以。

不少网友在测试后也表示，更喜欢它而不是ChatGPT。

原驼大模型震撼登场，ChatGPT遭99.3%碾压，开源社区沸腾！你能否分辨出区别？

英伟达科学家Jim Fan博士对此评价为：大模型小型化的又一里程碑。

先扩大规模再缩小，将成为开源AI社区的节奏。

原驼大模型震撼登场，ChatGPT遭99.3%碾压，开源社区沸腾！你能否分辨出区别？

🚀🚀新技术速递！QLoRA，一款高效的微调工具，以其强大的性能在开源社区中掀起热议，瞬间成为热门话题！🏆🏆HuggingFace团队的敏锐洞察力和及时响应，让这款先进的技术无缝融入平台，为开发者们提供了便捷的访问路径。👩‍💻👨‍💻只需轻轻一点，即可体验到QLoRA带来的高效微调魅力，加速你的研究进程！欲了解更多详情，敬请关注我们的最新动态哦～SEO优化提示：#QLoRA #微调方法 #HuggingFace #开源社区 #技术更新

原驼大模型震撼登场，ChatGPT遭99.3%碾压，开源社区沸腾！你能否分辨出区别？

GPT-4做裁判，原驼得分达到ChatGPT的99.3%

论文中，团队对原驼总共做了三项测试，自动评估、随机匹配和人类评估。

测试数据来自小羊驼Vicuna和Open Assistant。

自动评估由大模型天花板GPT-4当裁判，对不同模型的回答进行打分，以ChatGPT（GPT3.5）的成绩作为100%。

🏆【超新力作】揭秘AI语言模型实力排名！🌟🔥最新数据揭示，顶尖AI聊天机器人ChatGPT以惊人的99.3%荣登榜首，其卓越性能令人赞叹不已！🔍相比之下，GPT-4的表现也不遑多让，以114.5%的高分紧随其后。谷歌Bard虽表现出色，但还是略逊一筹，以94.8%的成绩排名第三。🔥每一项突破都标志着人工智能技术的飞跃，这些语言模型不仅改变了我们的交流方式，更在知识生成和创新思维上展现出强大的潜力。🔍不论是教育、科研，还是娱乐领域，它们都在持续推动着行业的变革。🌟让我们期待未来AI如何继续超越，为人类智慧注入更多可能！🌍🚀

原驼大模型震撼登场，ChatGPT遭99.3%碾压，开源社区沸腾！你能否分辨出区别？

随机匹配，采用棋类专业比赛和电子竞技同款的Elo记分机制，由GPT-4和人类共同做裁判。

原驼650亿和330亿版最终得分超过ChatGPT（GPT3.5）。

原驼大模型震撼登场，ChatGPT遭99.3%碾压，开源社区沸腾！你能否分辨出区别？

人类评估，则是把原驼650亿版的回答和ChatGPT的回答匿名乱序放在一起，人类来盲选哪个最好。

🌟研究人员揭秘！共同一作背后实况并非易辨，我们巧妙地将科研测试转化为趣味小游戏，在#Colab平台# 上公开，邀请全球智慧来一决高下。📚挑战不设门槛，每一份贡献都值得尊重和赞赏。快来探索这个隐藏的学术盛宴，让我们一起在知识的海洋中遨游！🌐

原驼大模型震撼登场，ChatGPT遭99.3%碾压，开源社区沸腾！你能否分辨出区别？

这里节选其中一个问题（附中文翻译），你能分辨出哪个是ChatGPT回答的吗？

🌟想要提升时间利用效率，首先得了解自己的“时间地图”！分析每天的时间分配，识别哪些活动占用了过多或过少的时间。🚀制定明确的目标和优先级，学会说“不”，避免无效的干扰。⏰使用日程表、待办事项清单等工具，让计划可视化，提高执行力。📚合理安排学习和休息，保持身心健康，这样才能持久高效。💪持续反思和调整，不断优化时间管理策略，时间就像海绵里的水，挤挤总会有的！

原驼大模型震撼登场，ChatGPT遭99.3%碾压，开源社区沸腾！你能否分辨出区别？

原驼大模型震撼登场，ChatGPT遭99.3%碾压，开源社区沸腾！你能否分辨出区别？

（完整测试地址在文末）

总的来说，原驼的优势在于不容易被问题中的错误信息误导，比如能指出地球从来没有被科学界认为是平的。

原驼大模型震撼登场，ChatGPT遭99.3%碾压，开源社区沸腾！你能否分辨出区别？

以及擅长心智理论（Theory of Mind），也就是能推测理解他人的心理状态。

原驼大模型震撼登场，ChatGPT遭99.3%碾压，开源社区沸腾！你能否分辨出区别？

但原驼也并非没有弱点，团队发发现它不太擅长数学，以及容易用提示注入攻击把要求保密的信息从它嘴里套出来。

原驼大模型震撼登场，ChatGPT遭99.3%碾压，开源社区沸腾！你能否分辨出区别？

🌟模型虽强，ChatGPT难以复制🔍！尽管一些算法在特定数据集上的表现令人惊叹，能够无限逼近ChatGPT的卓越能力，但要达到它那无处不在、无所不能的高度并非易事。通用性是AI领域的挑战明珠🏆，ChatGPT的独特之处正是其强大的多语言理解和生成能力，这背后需要海量训练和深度优化。让我们期待更多创新，超越现有界限🚀！

原驼大模型震撼登场，ChatGPT遭99.3%碾压，开源社区沸腾！你能否分辨出区别？

全新方法QLoRA，iPhone都能微调大模型了

原驼论文的核心贡献是提出新的微调方法QLoRA。

其中Q代表量化（Quantization），用低精度数据类型去逼近神经网络中的高精度浮点数，以提高运算效率。

LoRA是微软团队在2021年提出的低秩适应（Low-Rank Adaptation）高效微调方法，LoRA后来被移植到AI绘画领域更被大众熟知，但最早其实就是用于大语言模型的。

通常来说，LoRA微调与全量微调相比效果会更差，但团队将LoRA添加到所有的线性层解决了这个问题。

原驼大模型震撼登场，ChatGPT遭99.3%碾压，开源社区沸腾！你能否分辨出区别？

具体来说，QLoRA结合了4-bit量化和LoRA，以及团队新创的三个技巧：新数据类型4-bit NormalFloat、分页优化器（Paged Optimizers）和双重量化（Double Quantization）。

最终QLoRA让4-bit的原驼在所有场景和规模的测试中匹配16-bit的性能。

原驼大模型震撼登场，ChatGPT遭99.3%碾压，开源社区沸腾！你能否分辨出区别？

QLoRA的高效率，让团队在华盛顿大学的小型GPU集群上每天可以微调LLaMA 100多次……

最终使用Open Assistant数据集微调的版本性能胜出，成为原驼大模型。

Open Assistant数据集来自非盈利研究组织LAION（训练Stable Diffusion的数据集也来自这里），虽然只有9000个样本但质量很高，经过开源社区的人工仔细验证。

🌟【优化版】欲提升模型效能，不必拘泥于海量数据！🚀通过微调大模型这一创新策略，我们已证明了9000个精选样本足以达到显著的效果，这远超出了使用100万条指令进行传统Instruction Finetune的谷歌FLAN v2。🌟每一条指令背后都是精心设计与优化，确保每一项微调都能精准地转化为模型的力量。🔍这样的精简方法不仅减少了资源消耗，还可能带来更高效、更针对性的学习体验。🏆让我们的技术在有限中展现出无限可能！🌍

研究团队也据此提出两个关键结论：

数据质量 >> 数据数量指令微调有利于推理，但不利于聊天

最后，QLoRA的高效率，还意味着可以用在手机上，论文共同一作Tim Dettmers估计以iPhone 12 Plus的算力每个晚上能微调300万个单词的数据量。

这意味着，很快手机上的每个App都能用上专用大模型。

原驼大模型震撼登场，ChatGPT遭99.3%碾压，开源社区沸腾！你能否分辨出区别？

论文：

https://arxiv.org/abs/2305.14314

GitHub：

https://github.com/artidoro/qlora

与ChatGPT对比测试：

https://colab.research.google.com/drive/1kK6xasHiav9nhiRUJjPMZb4fAED4qRHb

330亿参数版在线试玩：

https://huggingface.co/spaces/uwnlp/guanaco-playground-tgi

参考链接：

[1]https://twitter.com/Tim_Dettmers/status/1661379376225697794

[2]https://huggingface.co/blog/4bit-transformers-bitsandbytes

原驼大模型震撼登场，ChatGPT遭99.3%碾压，开源社区沸腾！你能否分辨出区别？

AI时代，掌握AI大模型第一手资讯！AI时代不落人后！

免费ChatGPT问答，办公、写作、生活好得力助手！

扫码右边公众号，驾驭AI生产力！

# AIGC与游戏 # # 教育 # Bard # ChatGPT # GPT3.5 # 学会 # 微软 # 教育 # 消费 # 管理 # 行业

© Copyright notes

文章版权归作者所有，未经允许请勿转载。

Related posts

互联网已无退路？新技术抵达临界点，元宇宙与ChatGPT背后的真意何在?

lida

172

OpenAI：安卓版 ChatGPT 现已面向法国、英国等 16 国用户推出投资500万被套，短视频创业变成“庞氏骗局”？历经百年“尘与土”，人形机器人离云和月还有几千里？opk欧派克罗荣出席香山思辩会：系统化创新助力企业实现品牌价值最大化网易王怡：游戏行业已走到技术关键转型期，有能力酝酿下一个“芯片级”技术突破盒马鲜生：做题家、造词人与大厂梦哪吒S最新OTA升级智能驾驶系统释放美团做直播，一开始就输了「Foraged」完成270万美元种子轮融资，打造直连消费者和野生食品的特色市场一加Ace 2 Pro首发！一加航天级天工散热系统发布：史上最强营收首破10000亿！佳能Q2财报出炉：相机居然卖这么好港中文「1026实验室」往事：贾佳亚与他的学生们对话原钉钉VP张斯成：生成式AI，能否避免“中式SaaS”的陷阱？小米MIX Fold 2发布近一年还是原价：超保值高能轻薄的生产力利器：华硕无畏Pro15 2023测评材质创新三枚欧米茄”陶瓷”表推荐

lida

156

ChatGPT助手的情感文章创作之路

lida

280

AICanon：从基础到前沿，全面了解现代AI

lida

125

AI助力游戏开发：ChatGPT代码解释器带来无限创意

lida

179

辟谣！科大讯飞澄清星火大模型无套壳ChatGPT，商业落地显成效

lida

131

No comments

No comments...

AIGC资源大全，AIGC工具大全，AI生产力工具，AI时代人才必备，666AI资源导航，集网址、资源、资讯于一体，涵盖百度文心一言，通义千问，ChatGLM，OPEN AI ChatGPT，Midjourney，Stable Diffusion等所有国内外先进问答绘画大模型！

Copyright © 2025 666AIGC资源岛粤ICP备2021125297号-8