「复刻」版DragGAN开源

　　DragGAN 非官方实现来了！完美复刻拖拽秒P图功能，可以直接上手尝试。

　　还记得前几天发布的 DragGAN 吗？

　　没错，就是那个「轻轻点两下」1 秒修图的工具。

　　拍的照片表情不好？修！脸型不够瘦？修！脸冲镜头的角度不对？修！

　　搞不好，「让大象转个身」这个远古 PS 段子，可能就要成真了

　　这个 AI 修图工具演示视频一经发布，瞬间在国内外火得一塌糊涂。

　　许多网友纷纷直呼，「PS 不存在了」。

　　还没几天，DragGAN 非官方实现竟能上手试用了。这一功能已经被集成到 InternGPT 中，界面长这样↓

　　体验地址：https://igpt.opengvlab.com/

　　没想到，演示入口一开放，直接被挤爆。

　　官方演示

　　从官方放出的演示视频来看，再现的 DragGAN 效果绝了。

　　咧嘴笑

　　先是怎么把一个没笑的人p笑。只要选中两个嘴角，直接 Drag 就好了。

　　可以看到，最终生成的结果毫无违和感。因为面部肌肉也在一起变化，不是单纯的咧嘴。

　　合上嘴

　　脸部编辑

　　这个瘦脸功能大家就太熟悉了，选中两个脸蛋往里挤，输出还是非常自然的。

　　男性瘦脸。不过这个有点瘦过了，输出结果一眼假，下巴太尖了。

　　这个必须强推！植发！多少秃头人士的福音。

　　不过从输出结果看，就算选中额头那里，也是全部地方的毛发等比例增长，最后的结果有点像美猴王。

　　转脸

　　脸部转动也是一个很实用的功能，补齐的部分非常自然。

　　其它功能

　　除了小范围的修图，InternGPT 本身还有很多其它可以进行的亮眼操作。

　　移除遮盖的对象

　　单击想要在图片中进行操作的部分，在 prompt 中输入「移除」就可以了。

　　图像生成

　　这个功能比较有意思，先上传一张图片，输入 prompt 让 DragGAN 分割，然后再输入一个 prompt 生成想要的图片。

　　露出黑脚了？（不是）

　　视频高光解说

　　用 prompt 还可以一键剪辑视频。

　　交互式视觉问答

　　甚至识别完图片上的信息还能联网直接查询。

　　交互式图像生成

　　随手的涂鸦都能一键变成美图。

　　反正看完这些功能小编是真震惊了。所有功能就突出两个特点：「傻瓜式操作，且究极好用」。

　　这谁能不爱？

　　技术实现

　　看了这么多酷炫的功能，那么这个 InternGPT 到底是什么？

　　InternGPT（简称 iGPT）/InternChat（简称 iChat）是一种基于指向语言驱动的视觉交互系统，用户可以通过点击、拖动和绘制与 ChatGPT 进行互动。

　　与依赖纯语言的现有交互系统不同，通过整合指向指令，iGPT 显著提高了用户与聊天机器人之间的沟通效率，以及聊天机器人在视觉为中心任务中的准确性，尤其在复杂的视觉场景中更是如此。

　　论文地址：https://arxiv.org/pdf/2305.05662.pdf

　　下图就是 InternGPT 的整体架构。

　　我们可以看到，这个 GPT 既可以处理图像、视频，也可以处理语音、文字。

　　对于图像或视频输入，InternGPT 就会用 SAM（图像分割模型）、OCR（图像识别模型）等等进行处理。

　　在识别出地理位置、物品或者线条之后，还有一整个工具箱进行进一步处理，其中都是我们耳熟能详的工具。

　　比如 BLIP（音频）、Stable Diffusion（图像）、Pix2Pix（图像翻译）等等。

　　同样地，对于文字或者语音输入，InternGPT 就会调用 GPT-4、LLaMA 等模型或工具进行处理，后续同样有一整个工具箱。

　　InternGPT 的整体架构

　　使用提示

　　而在使用过程中，整个流程也是非常方便的。

　　用户在图片上传成功后，可以发送如下消息与 iGPT 进行多模态相关的对话：

　　"what is it in the image?" or "what is the background color of image?".

　　同样，用户也可以交互式地操作、编辑或者生成图片，具体如下：

　　· 点击图片上的任意位置，然后按下 Pick 按钮，预览分割区域。也可以按下 OCR 按钮，识别具体位置处存在的所有单词；

　　· 要在图像中删除掩码区域，可以发送如下消息：

　　“remove the masked region”

　　· 要在图像中替换掩码的物体为其他物体，可以发送如下消息：

　　“replace the masked region with {your prompt}”

　　· 想生成新图像，可以发送如下消息：

　　“generate a new image based on its segmentation describing {your prompt}”

　　· 想通过涂鸦创建新图像，按下 Whiteboard 并在白板上绘制。绘制完成后，需要按下保存按钮并发送如下消息：

　　“generate a new image based on this scribble describing {your prompt}”

　　网友评论

　　那个令人震惊的 DragGAN 现在有一个非官方的版本。正式版本将在 6 月发布，这只是未来的预览。

　　DragGAN 已经集成到 InternGPT 了，这么快就出来了，修图神器。

　　参考资料：

　　https://igpt.opengvlab.com/

最新文章

分类

标签云

阅读排行榜

推荐排行榜

回复排行榜

最近回复

邮件订阅