引言

ChatGPT-4的推出,展示了许多令人印象深刻的功能。例如ChatGPT-4可以产生非常详细和准确的图像描述、解释不寻常的视觉现象,甚至基于手写文本指令构建网站。尽管ChatGPT-4表现出了非凡的能力,但其卓越能力背后的方法仍然是个谜。

但现在不一样了,来自阿卜杜拉国王科技大学的人员推出了类似产品 ——MiniGPT-4,也具有识别图片功能。

MiniGPT-4介绍

来自King Abdullah University of Science and Technology(阿卜杜拉国王科技大学)的Deyao Zhu* , Jun Chen*, Xiaoqian Shen, Xiang Li, Mohamed Elhoseiny 提出了MiniGPT-4,它只使用一个投影层将冻结的视觉编码器与冻结的LLM Vicuna对齐。

他们的研究结果表明,MiniGPT-4具有许多与GPT-4类似的功能,如通过手写草稿生成详细的图像描述和创建网站。此外,他们还观察到MiniGPT-4中的其他新兴功能,包括根据给定的图像创作故事和诗歌,为图像中显示的问题提供解决方案,教用户如何根据食物照片烹饪等。

在实验中,他们发现,只有对原始图像-文本对进行预训练,才能产生缺乏连贯性的非自然语言输出,包括重复和碎片句子。为了解决这个问题,他们在第二阶段策划了一个高质量、对齐良好的数据集,以使用对话模板微调我们的模型。事实证明,这一步骤对于增强模型的生成可靠性和整体可用性至关重要。值得注意的是,他们的模型计算效率很高,因为他们只使用大约500万对对齐的图像-文本对来训练投影层。

MiniGPT-4官方网站:https://minigpt-4.github.io/

MiniGPT-4 GitHub地址:https://github.com/Vision-CAIR/MiniGPT-4

MiniGPT-4论文地址:https://github.com/Vision-CAIR/MiniGPT-4/blob/main/MiniGPT_4.pdf

MiniGPT-4中文教程:https://www.rgznbk.com/archives/minigpt4.html

MiniGPT-4模型

MiniGPT-4由一个带有预训练的ViT和Q-Former的视觉编码器、一个单一的线性投影层和一个高级的Vicuna大型语言模型组成。MiniGPT-4只需要训练线性层,使视觉特征与Vicuna对齐。

这个标志设计简单而简约,画了一只火烈鸟单腿站在水中的粉红色线条。该设计简洁易识别,适合在各种场合使用,如海滩度假胜地或火烈鸟主题活动的标志。使用火烈鸟作为象征为设计增添了一丝奇思妙想和乐趣,使其令人难忘和引人注目。总的来说,这是一个精心设计的标志,有效地传达了品牌的信息

MiniGPT-4应用

MiniGPT-4效果到底如何呢?我们先从几个示例来说明。此外,为了更好的体验 MiniGPT-4,建议使用英文输入进行测试。

图片详细描述

对于左边的图,MiniGPT-4 给出的回答大致为

「这张图片显示了一株仙人掌植物矗立在冰湖中央。仙人掌被水面上形成的大冰晶包围着。背景中是一片群山,山峰被雪覆盖。天空晴朗湛蓝,远处漂浮着几朵蓬松的云朵。这张照片的整体氛围是平和宁静的,在结冰的湖面中央,高高的仙人掌傲视群雄。」

假如你接着询问这种景象能够发生在现实世界中吗?MiniGPT-4 给出的回答是这张图像在现实世界并不常见,并给出了原因。

不,这张照片在世界上并不常见。虽然水母可能在寒冷的气候中生长,但很可能看到水母站在结冰的湖中。此外,在水面上形成大冰晶也不常见。这张照片可能是数字创作或操纵

图片问题识别

接着,在来看看 MiniGPT-4 图片问答能力。问:「这棵植物出现了什么问题?我该怎么办?」MiniGPT-4 不但指出了问题所在,表示带有棕色斑点的树叶可能由真菌感染引起,并给出了治疗步骤:

这张图片显示的是一种带有褐色斑点的亚麻。这些斑点很可能是由真菌感染引起的,可以用杀菌剂治疗。重要的是要确定引起斑点的真菌类型,以便选择适当的治疗方法。
要处理这种植物,您可以尝试以下步骤:
1.识别导致叶子上斑点的真菌类型
2.使用专门针对您已鉴定的真菌类型标记的杀菌剂。
3.按照产品说明书使用杀菌剂,确保覆盖所有受影响的叶子。每7至14天重复一次治疗,或按照产品说明进行治疗,直到真菌完全消失。
5.处理后给植物充分浇水,以帮助杀菌剂渗透到叶子中
6.将植物放在通风良好的区域,避免阳光直射,以防止过热。7.监测植物的进展,如果出现新的斑点,则重新进行处理。
通过提供适当的浇水、护理、施肥和修剪等措施来保持植物的健康也很重要。这将有助于植物恢复并防止未来的真菌感染。

产品广告生成 

借助 MiniGPT-4,给图片写广告语也变得非常简单。要求 MiniGPT-4 给左边的杯子写广告文案。MiniGPT-4 精准的指出了杯子上有嗜睡猫图案,非常适合咖啡爱好者以及猫爱好者使用,还指出了杯子的材质等等:

当然,这里有一则广告
马克杯:
介绍我们的新系列令人惊叹的可爱猫咪设计!这些马克杯非常适合咖啡爱好者和猫咪爱好者。每个马克杯都由优质陶瓷制成,经久耐用,可以用洗碗机清洗。独特的设计是手绘的,使每个马克杯成为独一无二的艺术品。
无论你是在早上喝咖啡,还是在晚上喝一杯热饮,这些马克杯都是给你的日常生活增添一丝猫科动物的完美方式。它们会成为你一生中爱猫人士的绝佳礼物。
那么,既然你可以有一个以猫为主题的杯子,为什么还要选择一个普通的旧杯子呢?立即订购您的饮料,开始享受时尚的饮料吧!

食谱生成

MiniGPT-4 还能对着一张图片生成菜谱,变身厨房小能手:

要做这道菜,你需要以下食材:
*4只大龙虾
*2汤匙橄榄油
*2瓣大蒜,切碎
*1茶匙干百里香
*1茶匙干牛至
*1/2茶匙辣椒粉
盐 和 胡椒

个人身份识别

解释广为流传的梗图:

照片中的人是特斯拉和太空探索技术公司的首席执行官埃隆·马斯克。他因在电动汽车、太空探索和可再生能源领域的工作而闻名。他还以其古怪的个性和对各种话题的直言不讳而闻名。

诗歌生成

当然,这里有一首关于你提供的图像的诗:
一个人坐在山上,他的狗在他身边
太阳落在他们身后,投下金色的光芒
下面的城市很繁华,但他们很平静
享受这一刻,在彼此的怀抱中
这个男人的胳膊搂着他毛茸茸的朋友
当他们轻轻地弯下腰看着世界流逝时,狗的头靠在了男人的肩膀上
象征着他们牢不可破的友谊
天空五彩缤纷,一派美丽的景象
但正是男人和他的狗之间的爱让人眼前一亮
这是一个纯粹的快乐时刻,一段需要保存的记忆
当他们坐着哭泣时,永远刻在他们的心中
所以,让我们和我们的四条腿的朋友一起珍惜这些时刻
因为他们给我们带来了如此多的幸福,直到最后
即使他们走了,他们的爱也会继续存在
在我们的记忆中,永远而坚强。

网站代码生成

MiniGPT-4 还能从手写文本和渲染的网站生成网站代码,

让 MiniGPT-4 按照上面的草稿图绘制出网页,指令为

向写一个简短的HTML/S,把这个模型变成一个丰富多彩的网站,用一个真实的笑话代替中间笑话内容区

收到指令后,MiniGPT-4 给出对应的代码如下:

HTML代码如下

<!DOCTYPE html>
<html>
<head>
<title>A Joke Website</title>
<link rel="stylesheet"
type="text/css" href="style.css">
</head>
<body>
<div>
<h1>A Joke Website</h1>
<nav>
<ul>
<li><a href="#">Home</a></li>
<li><a href="#">About</a></li>
<li><a href="#">Contact</a></li>
</ul>
</nav>
</div>
<div>
<h2>Today's Joke</h2>
<p>Why did the tomato turn red?</p>
<p>Because it saw the salad
dressing!</p>
</div>
<div>
<p>&copy; 2023 A Joke Website</p>
</div>
<script src="script.js"></script>
</body>
</html>

CSS代码

body {
background-color: #f2f2f2;
font-family: Arial, sans-serif;
}
#header {
background-color: #333;
color: #fff;
padding: 20px;
text-align: center;
}
#header h1 {
margin: 0;
}
#header nav ul {
list-style: none;
margin: 0;
padding: 0;
}
#header nav ul li {
display: inline-block;
margin-right: 20px;
}
#header nav a {
color: #fff;
text-decoration: none;
}
#main {
background-color: #fff;
padding: 20px;
text-align: center;
}
#main h2 {
margin: 0;
}
#main p {
margin: 20px 0;
}
#footer {
background-color: #333;
color: #fff;
padding: 20px;
text-align: center;
}

js代码

// Today's Joke
var joke = "Why did the tomato turn
red? Because it saw the salad
dressing!";
document.getElementById("main").innerHTML
= joke;

 生成网站图如下

故事生成

对于左边的图,MiniGPT-4 给出的回答为

从前,有一只棕熊、一只白兔和一只黑猫住在森林里。他们是好朋友,喜欢共度时光。有一天,他们决定在树下野餐。熊带来了一些蜂蜜,兔子带来了一些胡萝卜,猫带来了一些牛奶。
当他们围坐在桌子旁时,熊说:“我太饿了,我可以吃一整罐蜂蜜!”兔子咯咯地笑着说:“太饿了!我可以吃整整一袋胡萝卜!”猫喵喵叫着说:
他们都笑了,狼吞虎咽地吃着。熊喜欢蜂蜜,兔子喜欢胡萝卜,猫喜欢牛奶。他们都非常高兴和满足。
他们吃完饭后,决定去森林里散步。他们穿过一条小溪,熊说:“我们去游泳吧!”兔子和猫有点犹豫,但熊说服了他们加入。
他们在水中游泳和玩耍都玩得很开心。熊喜欢四处飞溅,兔子喜欢潜水,猫喜欢追逐飞溅物。他们都很开心,玩得很开心。
游泳后,他们决定回到野餐地点,吃更多的食物。他们围坐在桌子旁,熊说:“我太饿了,我又能吃一整罐蜂蜜了!”兔子咯咯地笑着说:“太饿了!我又能喝一整袋胡萝卜了!”猫喵喵叫着说,“我太饥饿了,我还能再喝一整碗牛奶!”
他们都笑了,狼吞虎咽地吃着。他们都非常高兴和满足。从那以后,他们幸福地生活着。

对于右边的图,MiniGPT-4 给出的回答为

图像中的和尚是一个聪明而开明的人,他花了很多年的时间研究思想的运作。他花了无数个小时冥想和思考意识的本质,因此,他对心灵的内部运作有了深刻的理解。
他手中的大脑象征着他对心灵的深刻理解。他用它来帮助他人理解自己思想和情感的本质,并引导他们走上启蒙之路。
尽管这位僧人有着伟大的智慧,但他是一个谦逊而富有同情心的人。他用自己的知识帮助他人,并总是愿意与那些寻求他的指导的人分享他的见解。他是社区中受人尊敬的人物,许多人来找他寻求帮助和指导。
僧侣的长袍象征着他对自己精神道路的承诺。他佩戴它们是为了提醒人们他对贫穷、贞洁和服从的誓言,也是他致力于为他人服务的生活的象征。总的来说,图像中的僧侣是一个明智而富有同情心的人,他毕生致力于理解心灵的本质,并在启蒙的道路上帮助他人

识别图像中有趣的方面

对于左边的图,MiniGPT-4 给出的回答为

图片显示,一只穿着蓝色饼干怪物服装的猫坐在沙发上,面前放着一盘饼干。这只猫张着嘴,似乎在享受饼干。标题写道:“又是一个狂野的周六晚上。”这张照片是一只穿着饼干怪物服装的猫在周六晚上享用饼干的可爱而有趣的画面。这只猫的表情和它面前的一盘饼干增加了这张照片的幽默感。标题强化了这只猫正在度过一个狂野而有趣的夜晚的想法。

这张照片很有趣,因为它描绘了一只穿着饼干怪物服装的猫坐在沙发上,面前放着一盘饼干。这只猫的表情和面前的一盘饼干增加了这张照片的幽默感。标题强化了这只猫正在度过一个狂野而有趣的夜晚的想法,这增加了图片的幽默感。此外,猫严肃的表情和饼干怪物服装的顽皮本质之间的对比创造了一种幽默的并置。总的来说,这张照片很有趣,因为它结合了可爱和幽默的元素,描绘了一只猫在周六晚上享用饼干的有趣画面。

右边的图,MiniGPT-4 给出的回答为

这个表情包很有趣,因为它显示一只狗躺在地板上,头靠在爪子上,好像很累或很困。标题“星期一就是星期一”更增添了幽默感,暗示这只狗和许多人在星期一的感觉一样,星期一通常被认为是一周中最可怕的一天。这个表情包具有相关性和幽默性,在互联网用户中很受欢迎

事实陈述 

对于左边的图,MiniGPT-4 给出的回答为

《教父》是一部经典的美国犯罪剧情片,由弗朗西斯·福特·科波拉执导,于1972年上映。它根据马里奥·普佐的同名小说改编,讲述了纽约市一个强大的黑手党家族科里昂家族的故事。这部电影由马龙·白兰度饰演家族族长维托·科利昂,阿尔·帕西诺饰演他的儿子迈克尔·科利昂。《教父》以其标志性的表演、令人难忘的对话以及对美国黑手党生活方式的刻画而闻名。它被认为是有史以来最伟大的电影之一,对流行文化产生了持久的影响。

对于右边的图,MiniGPT-4 给出的回答为

这是萨尔瓦多·达利的超现实主义画作,名为《记忆的坚持》。这是达利最著名的作品之一,被认为是超现实主义艺术中最伟大的作品之一。这幅画描绘了沙漠景观中融化的时钟和其他物体,背景是日落。这幅画的总体主题是时间不是固定的,它可以被扭曲和操纵。这幅画被认为是超现实主义的杰作,被广泛认为是达利最重要的作品之一。
艺术家萨尔瓦多·达利是一位西班牙超现实主义画家和雕塑家。他被认为是艺术史上最重要的人物之一,以其独特而富有想象力的作品而闻名。达利1904年出生于西班牙,很小就开始画画。他最为人所知的是他的超现实主义绘画,这些绘画经常以融化的时钟、扭曲的人物和其他奇怪和幻想的元素为特色。达利的作品对艺术界产生了重大影响,至今仍广受钦佩和研究

下面是网友在使用MiniGPT-4 的情形

图片显示,一架白色大飞机在城市街道上空低空飞行。这架飞机有一个白色的机身,机翼上有红蓝条纹,尾部有红白条纹。飞机低空飞行,发动机轰鸣。背景中的城市是由有许多窗户的高楼大厦组成的。有汽车在路上行驶,有人在人行道上行走。天空多云,空气中没有雨水。
图片显示,一架大型商用飞机在城市街道上空低空飞行。这架飞机是一架波音777-300ER,是一架受欢迎的长途客机。这架飞机有一个白色的机身,机翼上有红蓝条纹,尾部有红白条纹。飞机低空飞行,发动机轰鸣。背景中的城市由所有带窗户的建筑组成。路上有汽车行驶,人们走在人行道上。天空多云,空气中有一丝降雨。

MiniGPT-4体验地址 

此外,值得一提的是,MiniGPT-4 Demo 已经开放,在线可玩,大家可以亲自体验一番(建议使用英文测试):

MiniGPT-4体验地址:https://minigpt-4.github.io/

MiniGPT-4是开源,可以在本地安装部署,也可以在Google Colab上部署。另外还可以在Hugging face中体验

MiniGPT-4总结

MiniGPT-4开发团队来自KAUST(沙特阿卜杜拉国王科技大学),包括4位华人成员和他们的导师 Mohamed Elhoseiny。

使用MiniGPT-4可以无差体验ChatGPT-4识图能力,MiniGPT-4看图聊天、还能草图建网站。

当前的服务器非常火爆,需要排很长的队,需要体验的可以自行部署或者要耐心等等。

了解MiniGPT-4及AI领域的最新消息、更新和见解。访问 "https://www.rgznbk.com/ 并进入社群。