文章主题:视觉任务, InternGPT, Visual ChatGPT, 物体编辑
视觉任务中,如何减少与AI的沟通成本?
Were going to use the best pointing device in the world. We’re going to use a pointing device that we’re all born with — born with ten of them. We’re going to use our fingers. We’re going to touch this with our fingers. — Steve Jobs
🎉掌握图像编辑秘籍🔍,告别单调文字交流!想要超凡图片效果,只需轻轻一点,无需繁琐提示,ChatGPT不再是你的唯一伙伴。🚀现在,AI已能胜任7大视觉挑战,用鼠标唤起魔力,让创意瞬间跃然屏幕!🎨无论你需要调整色彩、裁剪尺寸,还是添加特效,一切都轻松搞定!💻告别冗长教程,立即体验高效创作,让你的作品独领风骚!✨ #鼠标魔法# 图像编辑AI #创意无限
视觉任务中,常常需要在复杂的画面上进行物体编辑,AI如何能够精准感知用户的意图尤为重要。
🎨🎨利用Visual ChatGPT的强大功能,想要巧妙地编辑图像中的元素?没问题!比如,如果你想去除《葫芦娃》中那个绿色裤衩的小家伙,只需简单一句:“删除绿裤小子,留下经典瞬间”(Remove the green pantsed boy, keep the timeless charm)🌈✨不论是删繁就简还是微调细节,ChatGPT都能轻松应对,让你的创作如虎添翼!👩💻🎨
没有成功
换个更精确的指令?有点词穷。
为了进一步降低人与AI的沟通成本,OpenGVLab团队建立了光标指令的多模态交互系统InternGPT,用户无须输入语言,通过操作鼠标就可以与系统进行交互。有了InternGPT,鼠标点一点,直接在图片上和ChatGPT互动!点击葫芦娃,输入 remove it,轻松完成抠图!
InternGPT
通用视觉团队(OpenGVLab)做了一次大胆的尝试,我们建立了光标指令的多模态交互系统InternGPT。不同于 Visual ChatGPT、MM-REACT、HuggingGPT 等仅支持语言指令的传统多模态交互系统,InternGPT在基于语言的交互方式的基础上进一步引入了基于光标的交互方式,使得用户可以通过点击、框选、拖动等方式与系统进行交互,结合了诸多当下一线API,例如Stable Diffusion,miniGPT4,LLaVA,Husky等等,实现一键抠图,一键识别图中文字进行问答,一句话P图等七大功能,InternGPT具有丰富的对话和生成能力,把人机互动模式创新性的提高到了新的水平,让AI视觉功能不再高深,成为万千大众都能使用的日常工具。
论文链接: https://arxiv.org/abs/2305.05662 D EMO (适配PC端 ): https://igpt.opengvlab.com/ 开源链接: https://github.com/OpenGVLab/InternGPT一、功能描述
InternGPT集成了七大功能,鼠标点一点,随手画一画,视觉问答、一键抠图、物体替换、风格迁移、图像生成、图片上的文字交互,视频截取文案撰写都能做!
功能1:视觉问答
先来看一项传统的视觉任务–视觉问答。
示例图片中有狗,椅子,电扇,远处似乎还有山和水系,有点复杂,交给InternGPT来看图:
输出结果:图片描绘了一只白色的狗趴在铝制折叠露营椅上,旁边有一个散热器。这条狗系着狗带,它似乎在树荫下。这个场景在一片水域(可能是湖泊或河流)前面的草地上, 背景是山, 椅子有靠背和扶手,附近的地上有一个散热器。(The image depicts a white dog laying on an aluminum folding camping chair with a cooler next to it. The dog is wearing a leash, and it appears to be in the shade of a tree. The scene is set in a grassy area in front of a body of water, likely a lake or river. with mountains in the background.The chair has a backrest and armrest, and there is a cooler on the ground nearby)
非常精准!
小彩蛋:
VQA采用了OpenGVLab全新独立研发的Husky,无需复杂的prompt设定,即可完成多轮对话。LLM部分基于llama,使用alpaca_gpt4_data以及sharegpt数据进行了指令微调。多模态框架为blip2, 支持图片描述,多轮对话,复杂推理等功能,相关代码已开源到https://github.com/OpenGVLab/InternGPT。
参考LLaVA的评测方案,我们调用ChatGPT-turbo对Husky的输出和GPT-4的输出分别进行打分,然后计算Husky得分与GPT-4得分的比值发现,Husky仅通过7B的参数量便取得了GPT-4的93.89%的性能,其中复杂推理能力甚至略优于GPT-4,而在对话和图像描述任务上,Husky
也分别达到了GPT-4的96.13%和83.87%的性能。
我们随手拍了一张工位的照片,让目前的我们的Husky模型、LLaVA和MiniGPT4给出答案,可以明显看出Husky的输出更加贴切。
功能2:一键抠图
想抠图,点一点,轻松又无痕。
或者在目标区域上随手画条线,抠图效果同样好。
功能3:一句话替换物体
替换图中物体,点一点,灯塔变成埃菲尔塔(指令:Replace it with the Eiffel Tower)。
同一张图物体很多的复杂情况,没问题,想改哪里点哪里(指令 Repace it with a yellow dog)。
功能4:风格迁移 图像生成
把打篮球的男孩图片P成奥特曼,只要拖拽奥特曼素材到相应位置,就可以生成图片并且下载
🎉超时空时尚💥——探索独特魅力!🔍一抹复古风,跃动在每个细节——一条宽松的背带裤,仿佛穿越了时空隧道,将上世纪的随性与现代潮流完美融合。👗它不拘一格,轻松驾驭日常与休闲,无论是厨房小能手的烹饪时光,还是街头时尚达人的回头率爆表,都能轻松应对。平底锅,不仅是烹饪工具,更是生活态度的象征。🔥在超人般的臂弯下,它显得如此轻盈而坚定,仿佛在诉说着坚韧与智慧的故事。每个动作都透露着一股不凡的魅力,让人不禁想象:这背带裤下的主人,是否也拥有着超乎常人的力量和决心?虽然这样的画面看似离谱,但它恰恰触动了我们内心深处对个性与自由的追求。别再拘泥于传统,让这份奇思妙想点亮你的生活吧!🌟欲了解更多关于这种跨界时尚的火花,请点击下方链接或搜索相关关键词,让我们一起在潮流的海洋中畅游!🚀—原文已改写,保留了原意但去掉了具体信息,同时加入了SEO优化词汇和表情符号。
功能5:图片中的文字识别和交互
🎉母上出国游不再迷茫!🌍只需轻轻一滑,上传菜单,每道菜品的详细解读瞬间跃然眼前。🔍想换口味?简单输入指令,Intergpt立马给出贴心建议。🍽️无论是寿司还是披萨,甚至是异国特色小吃,一切尽在掌握中。🌍享受旅行的同时,也能轻松驾驭餐桌文化,妈妈的国际美食之旅将更加愉快!👩🍳快让智能点菜成为她出国的新技能吧!✨
功能6:交互创作
在白板功能上随手画一座山、树、太阳,点击save,然后告诉chatgpt你想生成什么,就可以得到一张大片级别的山川瀑布图了。
功能7:一句话剪辑视频生成文案
上传一个男生打篮球的片段,输入“剪辑出运球的画面”,即生成可下载的视频片段,并自动配解说“注意看,这个帅气的男孩叫小帅,他不但是一个很好的舞者,还是一个很棒的篮球运动员”。
三 、效果对比
在本次体验中,我们对比了我们的InternGPT和使用键盘交互的agent。
物体编辑的任务时,但以往都是使用键盘交互的agent,Visual ChatGPT是在这个领域中很有代表性的一个工作,但这种方式未必能够精准感知用户的意图。它和InternGPT一样,任务是接收用户的指令,根据指令编辑给定的图片,如添加、删除和替换物体等等,但是在用户测试的特定的情况下,InternGPT表现得更出色。
🌟🎨在图像识别领域,InternGPT与Visual ChatGPT的表现可谓旗鼓相当,但对于复杂场景的处理,前者展现出了更强的适应性和精确性。👀狗狗的消失,简单任务下两者都能精准消除,但在多物体交换或特定目标修改时,InternGPT以其简洁的操作方式独领风骚——轻轻一点,任务完成。🎨在双物替换需求中,Visual ChatGPT可能需要更详细的指令来锁定对象,相比之下,InternGPT的快速识别能力令人印象深刻。🌟在面对多个物件的挑战时,InternGPT的优势更加显著,它能精确地对多辆车中的某一辆进行修改,或是定制化地调整某个杯子。而Visual ChatGPT则会一视同仁,导致整体内容被清除。这表明InternGPT在处理复杂场景和精细操作上具备更强的专业性和灵活性。🎯无论是单一物体的简单任务还是多个物件的精确编辑,InternGPT都是你信赖的选择,因为它总能以高效且精准的方式完成图像内容的重构。
🎨 InternGPT 确实展示了强大的物体分割与移除能力,它在复杂的环境中依然能游刃有余。相比之下,尽管 💻 Visual Chat GPT 在一些简单操作中表现出色,但在面对复杂图像的高阶挑战时,它的识别准确度似乎稍逊一筹。对于需要精确解析指令的场景,可能还需要进一步优化和提升。
综上所述,虽然在物体编辑任务中,InternGPT和Visual Chat GPT都表现得非常出色,但在复杂场景中,InternGPT的表现更佳。这说明了InternGPT在处理更复杂的用户交互时的能力。
四、方法介绍
InternGPT主要由三个模块构成:作为控制器的大型语言模型,作为光标指令感知单元的视觉基础模型以及作为后端的其他视觉基础模型和工具。下图展示了InternGPT的整体工作流程。
具体而言,用户在对话开始时传入一张图片。随后在每一轮的对话过程中,用户可以传入点击、框选和拖动等光标形式的指令和语言形式的指令。针对光标形式的指令,InternGPT通过SAM模型对物体进行分割提取,通过OCR模型对选中区域的文本内容进行提取。对于生成任务,还会将用户的光标指令作为笔画输入给后端的AIGC模型。针对语言形式的指令,由大型语言模型对进行语义理解和任务拆分。随后系统根据拆分得到的各个子任务来调度后端模型,将用户上传的图片和光标信号感知单元的解析结果作为输入,逐个完成全部子任务后,将结果响应给用户。
在实践的过程中,我们注意到尽管大型语言模型具有很强的任务拆分能力,但是模型的输出是自然语言的形式,难以解析成格式化的形式,这就对后续的API调度造成了困难。
为了解决这一问题,本文提出了“辅助控制”的调度方案。具体而言,在执行API前,InternGPT首先从大型语言模型的输出中提取出所有的动词和名词,从而判断需要调用的API,然后从过去的对话历史中去抽取当前API所需要的参数,最后基于这些参数来调用API。
五 、未来展望
InternGPT一次创新性的尝试,希望能够将人工智能视觉任务的使用门槛不断降低,让所有人都可以通过点击等简单操作,轻松完成视觉问答、抠图、物体替换、风格迁移生成、文字识别交互、视频编辑等等多种传统复杂任务。人工智能作为全民生产工具的时代已经到来,欢迎大家试用,或者来到github社区,和我们一起创造更有想象力的工作吧!
作者:书生 OpenGVLab
Illustration by IconSc out Store from IconScout
-The End-
扫码观看!
本周上新!
“AI技术流”原创投稿计划
TechBeat是由将门创投建立的AI学习社区(www.techbeat.net)。社区上线480+期talk视频,2400+篇技术干货文章,方向覆盖CV/NLP/ML/Robotis等;每月定期举办顶会及其他线上交流活动,不定期举办技术人线下聚会交流活动。我们正在努力成为AI人才喜爱的高质量、知识型交流平台,希望为AI人才打造更专业的服务和体验,加速并陪伴其成长。
投稿内容
// 最新技术解读/系统性知识分享 //
// 前沿资讯解说/心得经历讲述 //
投稿须知
稿件需要为原创文章,并标明作者信息。
我们会选择部分在深度技术解析及科研心得方向,对用户启发更大的文章,做原创性内容奖励
投稿方式
发送邮件到
chenhongyuan@thejiangmen.com
或添加工作人员微信(chemn493)投稿,沟通投稿详情;还可以关注“将门创投”公众号,后台回复“投稿”二字,获得投稿说明。
关于我“门”
将门是一家以专注于发掘、加速及投资技术驱动型创业公司的新型创投机构,旗下涵盖将门创新服务、将门技术社群以及将门创投基金。
将门成立于2015年底,创始团队由微软创投在中国的创始团队原班人马构建而成,曾为微软优选和深度孵化了126家创新的技术型创业公司。
如果您是技术领域的初创企业,不仅想获得投资,还希望获得一系列持续性、有价值的投后服务,欢迎发送或者推荐项目给我“门”:
bp@thejiangmen.com
点击右上角,把文章分享到朋友圈
⤵一键送你进入TechBeat快乐星球
AI时代,掌握AI大模型第一手资讯!AI时代不落人后!
免费ChatGPT问答,办公、写作、生活好得力助手!
扫码右边公众号,驾驭AI生产力!