视觉AI能力大一统！图像自动检测分割，可控文生图，来自华人团队

2023-04-14 12:45:07 admin 人工智能已售次关注154次已收录

明敏发自凹非寺

量子位 | 公众号 QbitAI

现在AI圈确实到了拼手速的时候啊。

这不，Meta的SAM刚刚推出几天，就有国内程序猿来了波buff叠加，把目标检测、分割、生成几大视觉AI功能all in one！

比如基于Stable Diffusion和SAM，就能让照片中的椅子无缝换成沙发：

换装、换发色也是so easy：

项目一经发布就让不少人惊呼：手速也太快了吧！

还有人表示：我和新垣结衣的新结婚照有了。

如上就是Gounded-SAM带来的效果，项目在GitHub上已揽星1.8k。

简单来说，这就是一个zero-shot视觉应用，只需要输入图片，就能自动化检测和分割图像。

该研究来自IDEA研究院（粤港澳大湾区数字经济研究院），创始人兼理事长为沈向洋。

无需额外训练

Grounded SAM主要由Grounding DINO和SAM两个模型组成。

其中SAM（Segment Anything）是4天前Meta刚刚推出的零样本分割模型。

它可以为图像/视频中的任何物体生成mask，包括训练过程中没出现过的物体和图像。

通过让SAM对于任何提示都返回有效的mask，能够让模型在即使提示是模糊的或者指向多个对象的情况下，输出也应该是所有可能中一个合理的mask。这一任务用于预训练模型并通过提示解决一般的下游分割任务。

模型框架主要由一个图像编玛器、一个提示编玛器和一个快速mask解玛器组成。在计算图像嵌入后，SAM能够在50毫秒内根据web中的任何提示生成一个分割。

Grounding DINO是该研究团队已有的成果。

这是一个零样本检测模型，能够生成带有文字描述的物体box和标签。

二者结合后，可以通过文本描述找到图片中的任意物体，然后通过SAM强大的分割能力，细粒度地分割出mask.

在这些能力之上，他们还叠加了Stable Diffusion的能力，也就是开头所展示的可控图像生成。

值得一提的是，Stable Diffusion此前也能够实现类似功能。只要涂抹掉想替换的图像元素，再输入文本提示就可以。

这一回，Grounded SAM能够省去手动选区这个步骤，直接通过文本描述来控制。

另外结合BLIP（Bootstrapping Language-Image Pre-training），生成图片标题、提取标签，再生成物体box和mask。

目前，还有更多有趣的功能正在开发中。

比如人物方面的一些拓展：更换衣服、发色、肤色等。

具体食用方法也已在GitHub上给出。项目需要Python 3.8以上版本，pytorch 1.7以上版本，torchvision 0.8以上版本，并要安装相关依赖项。具体内容可看GitHub项目页。

该研究团队来自IDEA研究院（粤港澳大湾区数字经济研究院）。

公开消息显示，该研究院是一所面向人工智能、数字经济产业及前沿科技的国际化创新型研究机构，前微软亚研院首席科学家、前微软全球智行副总裁沈向洋博士担任创始人及理事长。

One More Thing

对于Grounded SAM的未来工作，团队有几点展望：

自动生成图像构成新数据集
具有分割预训练的强大基础模型
和（Chat-）GPT合作
构成一个自动生成图像标签、box和mask的pipeline，并能生成新的图像。

值得一提的是，该项目的团队成员中，有不少都是知乎AI领域活跃的答主，这次也在知乎上自答了关于Grounded SAM的内容，感兴趣的童鞋可以去留言请教~

参考链接：

[1]https://zhuanlan.zhihu.com/p/620271321

[2]https://github.com/IDEA-Research/Grounded-Segment-Anything

[3]https://segment-anything.com/

— 完 —

量子位 QbitAI · 头条号签约

以上就是【视觉AI能力大一统！图像自动检测分割，可控文生图，来自华人团队】的相关内容，查看其它ai资讯请关注微咔网

服务及版权声明

根据二〇〇二年一月一日《计算机软件保护条例》第十七条规定：为了学习和研究软件内含的设计思想和原理，通过安装、显示、传输或者存储软件等方式使用软件的，可以不经软件著作权人许可，不向其支付报酬。

本网站所有发布的源码、软件和资料，均为作者提供或网友推荐收集各大资源网站整理而来，仅供功能验证和学习研究使用。

所有资源的文字介绍均为网络转载，本站不保证相关内容真实可信，同时不保证所有资源100%无错可用，也不提供相应的技术支持，介意勿下。

您必须在下载后24小时内删除，不得用于非法商业用途，不得违反国家法律，一切关于该资源的商业行为与本站无关。

如果您喜欢该程序，请支持正版源码，得到更好的正版服务。、如有侵犯你的版合法权益，请邮件与我们联系处理【投诉/建议发送至邮箱：3066548754@qq.com】，本站将立即改正并删除。

本声明为本站所有资源最终声明，所有与本声明不符的表述均以本声明内容为准。

微咔网 » 视觉AI能力大一统！图像自动检测分割，可控文生图，来自华人团队

admin 皇帝

分享到：

相关推荐

智能钢琴教弹琴、机器人做热干面……这些场景亮相黄陂科技周

智能钢琴教弹琴、机器人做热干面……这些场景亮相黄陂科技周

$马斯克\”忌惮\”的ChatGPT，让人类更聪明还是更愚蠢？$

马斯克\”忌惮\”的ChatGPT，让人类更聪明还是更愚蠢？

第六届数字中国建设成果展，南威软件新成果引关注

第六届数字中国建设成果展，南威软件新成果引关注

AI 也得拧螺丝，苹果这台机器人拆掉 120 万部 iPhone

AI 也得拧螺丝，苹果这台机器人拆掉 120 万部 iPhone

智能家居行业：AI浪潮下迎发展新契机

智能家居行业：AI浪潮下迎发展新契机

中国AIGC50榜单出炉，AIGC前景如何？未来会如何影响人们生活？

中国AIGC50榜单出炉，AIGC前景如何？未来会如何影响人们生活？

对话中关村科金*：通用大模型落地企服赛道，领域适配是门槛

对话中关村科金*：通用大模型落地企服赛道，领域适配是门槛

AI*姿，数字人的商业机遇与永生梦想

AI*姿，数字人的商业机遇与永生梦想

特惠红包
博客
模式
更新
日历
本站
指数

运营天数：1849+

资源总数： 35320+

用户总数： 3733+

今日更新：0+

访问次数：9479152+

本周更新： 0+

最后更新： 2023-11-4
全屏

享更多特权，建议使用 QQ 登录

喜欢我嘛？喜欢就按“ctrl+D”收藏我吧！♡