《阿里云推出大规模视觉语言模型Qwen-VL，AI领域再掀热潮》

通义千问2yrs ago (2024)update lida

149 0 0

文章主题：关键词：ChatGPT，AI产品，视觉语言模型，通义千问

随着 ChatGPT 的快速进化吸引了全球网友的眼球，国内厂商也纷纷表示将推出相似的产品。

在不久的之前，我国人工智能领域发生了翻天覆地的变化，一系列国产AI产品相继面世并投入使用。其中包括百度公司推出的“文心一言”、阿里巴巴集团旗下的“通义千问”以及360公司的“360智脑”等。在这些AI产品中，百度的AI技术发展最为迅速，目前已经在某些场景下实现了实际应用。

就在昨晚，我国知名云计算服务商阿里云正式推出了一款全新的视觉语言模型——Qwen-VL，并已在ModeScope平台开源。此消息并非空穴来风，事实上，根据前方媒体的报道，阿里云在此之前已成功开源了通义千问70亿参数的通用模型Qwen-7B以及对话模型Qwen-7B-Chat。

据报道，Qwen-VL 是一款具备多语言支持的视觉语言（Vision Language，简称 VL）模型。与之前的 VL 模型相比，这款新模型在基本图文识别、描述、问答以及对话功能的基础上，进一步拓展了视觉定位和图像中文字理解的能力。

Qwen-VL，该模型的基础是Qwen-7B语言模型，它在架构中融入了视觉编码器，从而赋予了模型处理视觉信号的能力。值得注意的是，该模型所支持的图像输入分辨率达到了448，相较于之前的开源LVLM模型，其支持的224分辨率有了显著的提升。

官方宣称，此模型在知识问答、图像标题生成、图像问答、文档问答和细粒度视觉定位等多样化应用场景中均表现优异，其多模态任务评测及多模态聊天能力评测成绩更是远胜于同规模的其他通用模型。

在Qwen-VL的基础上，通义千问团队运用对齐机制，构建了基于LLM的视觉AI助手Qwen-VL-Chat。这一创新性方案使得开发者能够迅速地搭建出拥有多模态功能的对话应用，从而进一步拓展了人工智能技术的应用范围。

通义千问团队同步表明，为了检验模型的多模态对话性能，他们设计并构建了一套基于GPT-4评分体系的测试数据集“试金石”，用于对Qwen-VL-Chat和其他模型进行对比实验。在中文和英文的双语对齐评估中，Qwen-VL-Chat都取得了开源LVLM的优秀成绩。

据此前的消息报道，阿里云已成功开源了通义千问 70 亿参数模型，其中包括通用模型 Qwen-7B 和对话模型 Qwen-7B-Chat。这两款模型现已正式上线至魔搭社区，向公众提供开源、免费且可商用的服务。这一举措进一步展示了阿里云在人工智能领域的技术实力与支持，同时也为广大开发者提供了丰富的资源与工具，助力他们更好地开展相关研究和应用工作。

在今年 4 月时，阿里云发布了最新大语言模型 ” 通义千问 “。阿里云智能 CTO 周靖人曾表示，将开放通义千问的能力，帮助每家企业打造自己的专属大模型。据悉，阿里所有产品未来将接入通义千问进行全面改造，钉钉、天猫精灵率先接入测试，将在评估认证后正式发布新功能。

周靖人还介绍，未来每一个企业在阿里云上既可以调用通义千问的全部能力，也可以结合企业自己的行业知识和应用场景，训练自己的企业大模型，” 所有软件都值得接入大模型升级改造 “。

通过阿里云一步步操作来看，正在逐渐实现其之前的说法，对后续发展感兴趣的小伙伴可以保持关注。

近期文章精选：

商务合作 kejimeixue@163.com

关键词：ChatGPT，AI产品，视觉语言模型，通义千问