“阿里云推出开源大规模视觉语言模型Qwen-VL：多模态信息理解与视觉定位能力”

通义千问2yrs ago (2023)update lida

141 0 0

大模型资讯：

阿里云开源通义千问多模态大模型Qwen-VL

今天，阿里云正式推出了开源大规模视觉语言模型Qwen-VL。该模型基于通义千问70亿参数模型Qwen-7B，专注于研发，能够处理图文输入并具备多模态信息理解能力。

Qwen-VL是一款具备多元语言支持的视觉语言(Vision Language, VL)模型。相较于先前的VL模型,Qwen-VL不仅拥有基本的图文识别、描述、问答以及对话功能,还进一步拓展了其视觉定位和图像中文字理解的能力。这意味着Qwen-VL能够更好地理解和处理多种语言的视觉信息,为相关应用提供了更加强大的支持。

在主流的多模态任务评测和多模态聊天能力评测中，Qwen-VL取得了远超同等规模通用模型的表现。

“阿里云推出开源大规模视觉语言模型Qwen-VL：多模态信息理解与视觉定位能力”

IBM将参与Hugging Face2.35亿美元D轮融资

IBM与开源人工智能平台Hugging Face近日联合宣布了一项重要协议。根据公告，IBM积极参与了Hugging Face的2.35亿美元D轮融资，这标志着双方在人工智能领域的合作进一步加深。

Hugging Face进一步巩固了其作为开源和开放科学人工智能领域的领先地位，近日与IBM宣布达成协议，共同开发基于IBM的生成式人工智能平台watsonx的跨领域基础模型。这一举措将助力企业快速构建、部署及定制所需的基础模型，从而在多个领域实现更好的应用效果。

在 Watson X 中,人工智能构建者可以借助 IBM 和 Hugging Face 社区所提供的模型,这些经过预先训练的模型能够支持各种自然语言处理(NLP)任务,包括但不限于问题回答、内容生成和摘要、文本分类以及信息抽取等。

AMD 收购 AI软件公司 Mipsology，将加强 AMD AI 软件开发能力

据 AMD 官网显示，AMD 宣布收购AI软件公司 Mipsology。

AMD 表示， Mipsology 的软件团队将加入 AMD AI Group，帮助进一步加快 AMD 的客户参与度并扩展 AMD的 AI 软件开发能力。该团队将帮助开发AMD完整的人工智能软件堆栈，扩展AMD的软件工具、库和模型的开放生态系统，为在 AMD 硬件上运行的人工智能模型的简化部署铺平道路。

Mipsology 成立于 2015 年，总部位于法国帕莱索。该公司主要开发针对 AMD 硬件量身定制的领先 AI 推理、优化解决方案和工具。

微软 Teams 引入 Typeface AI 工具，加强品牌营销内容

微软近日宣布，将为微软 Teams 加入 AI 工具 Typeface 。

据悉， Typeface 整合了Azure 机器学习、Azure OpenAI 服务和 Typeface 品牌个性化AI 的强大能力，可以用于创建创意简报、电子邮件营销活动以及多媒体在线广告等内容。用户可以在无须切换应用程序的情况下增强品牌内容。企业可以使用 Affinity AI 模式来训练 Typeface AI 应用程序，创建自己的专属内容。

Meta AI 公布开源基础模型 Code Llama，专攻代码生成

Meta AI 近日发布论文，公布了一款针对代码生成功能的基础大语言模型 Code Llama。

据悉，Code Llama基于Llama 2开发，具有开放式模型中领先的性能、填充能力、对大型输入上下文的支持以及用于编程任务的零指令跟随能力。它提供包括基础模型、Python专用版本以及指令跟随模型等多个模型，每个模型的参数分别为7B、13B和34B。所有模型都是基于16k标记序列进行训练，并在最多100k标记输入上显示出改进。

Code Llama以宽松许可证方式开源，允许研究和商业使用。

奇安信发布Q-GPT安全机器人和大模型卫士

奇安信集团在京发布了Q-GPT（奇安信大模型）安全机器人和大模型卫士。

据介绍，Q-GPT安全机器人是基于奇安信大模型的“虚拟安全专家”，可以全天候工作。大模型卫士集安全风险发现、大模型访问控制、数据泄露管控、违法违规行为溯源等功能为一体。

会上，京东方集团和吉利集团等客户现场签约，成为国内首批Q-GPT安全机器人和安全大模型用户。

重点论文：

中国科学技术大学联手新加坡管理大学，推出图像生成模型CgT-GAN

据 Arxiv 页面显示，中国科学技术大学近日联手新加坡管理大学发布一款图像生成模型 CgT-Gan。

CgT-GAN通过将图像纳入训练过程，使模型能够“看到”真实的视觉模态。具体来说，研究团队采用对抗训练来教导CgT-GAN模型模仿外部文本语料库的短语，同时利用基于CLIP的奖励机制提供语义指导。

实验结果显示，CgT-GAN在所有指标上明显优于现有的方法。

阿里云, 开源, 大模型, 多模态