分类 大语言模型 下的文章

在生物学研究中,蛋白质的结构和功能是理解生命机制的关键。谷歌DeepMind的AlphaFold 3,以其革命性的AI技术,为这一领域带来了前所未有的突破。AlphaFold 3通过使用AI革命中最核心的架构——Transformer+Diffusion,能够以原子精度预测生物分子的结......    阅读全文

在人工智能领域,多模态理解一直是一个挑战,因为它要求模型能够同时处理和理解来自不同源(如文本、图像、声音等)的信息。上海AI Lab最近开源的InternVL 1.5模型,正是为了应对这一挑战而生。下面,我们将深入探讨这一模型的主要特点和性能表现。InternVL 1.5的主要特点:多......    阅读全文

Open-Sora 技术报告全面解读最新功能概览作者团队在 GitHub 上正式发布了 Open-Sora 技术报告[1],根据笔者的了解,本次更新主要包括以下几项关键特性:支持长视频生成;视频生成分辨率最高可达 720p;单模型支持任何宽高比,不同分辨率和时长的文本到图像、文本到视频......    阅读全文

4月18日,Meta 宣布开源 LLaMa 3 系列大语言模型,包括 8B (80亿参数)、70B (700亿参数)、400B+ (仍在训练中) 三个参数规模。在 Meta 公布的基准测试结果中,8B 和 70B 大模型表现相当出色,追平甚至超越了同等参数量级的大模型。Meta 官方预......    阅读全文

3Blue1Brown 是一个非常受欢迎的 YouTube 频道,主要是用可视化方式展示高等数学/机器学习/深度学习等领域的复杂概念。最近,3Blue1Brown 新开了一个系列,第一个视频讲解「GPT (Generative Pre-trained Transformer)」的工作原......    阅读全文

Anthropic推出其新一代Claude 3系列模型,在业界树立了全新的认知任务处理标准。Claude 3家族包含了三个尖端模型,分别是Claude 3 Haiku、Claude 3 Sonnet以及最高阶的Claude 3 Opus,它们按照能力递增排列,为用户提供了在智慧性、速度......    阅读全文

阿里巴巴集团智能计算研究院日前上线了一款新的 AI 图片-音频-视频模型技术EMO,官方称其为“一种富有表现力的音频驱动的肖像视频生成框架”。据悉,你只需要提供一张照片和一段任意音频文件,EMO即可生成会说话唱歌的 AI 视频,以及实现无缝对接的动态小视频,最长时间可达1分30秒左右。......    阅读全文

生成式 AI 顶级技术公司 Stability AI 放了一个大招 ——Stable Diffusion 3。该公司表示,这是他们最强大的文生图模型。与之前的版本相比,Stable Diffusion 3 生成的图在质量上实现了很大改进,支持多主题提示,文字书写效果也更好了。以下是一些......    阅读全文

谷歌推出了全新的开源模型系列「Gemma」。相比 Gemini,Gemma 更加轻量,同时保持免费可用,模型权重也一并开源了,且允许商用。本次发布包含两种权重规模的模型:Gemma 2B 和 Gemma 7B。每种规模都有预训练和指令微调版本。想使用的人可以通过 Kaggle、谷歌的 ......    阅读全文

2月16日,OpenAI推出其首款文生视频大模型Sora。该模型能根据提示词生成长达1分钟的视频,或者扩展生成的视频使其更长,同时视觉质量相当惊艳。相比以往的视频模型,Sora的亮点非常明显,不仅对文本理解更深刻,可以准确地呈现提示词,而且能在一个生成的视频中创建多个镜头,准确地保留角......    阅读全文

AlphaGeometry是一种新型的几何定理证明系统,它通过合成数百万个不同复杂度的定理和证明,避免了对人类演示的依赖。这个神经符号系统结合了从头开始在大规模合成数据上训练的神经语言模型和符号推理引擎,能够在复杂问题中引导无限分支点。在30个最新的奥林匹克级别问题的测试集上,Alph......    阅读全文

Suno.ai 是一个基于AI的音乐创作平台,可以根据用户输入的简单提示词生成带有伴奏和人声的音乐,还支持自定义设置歌词、风格和歌名2022年,音乐家和AI科学家组建团队,在努力了18个月后成功推出 Suno.ai 并获得了广泛的认可。不需要乐理知识,不需要任何乐器,只需要想象力就可以......    阅读全文

预训练大语言模型的配方模型架构:介绍了大型语言模型基于Transformer架构的衍生版本,包括仅解码器的Transformer架构,以及如何通过参数和输入数据的交互来定义模型的具体实现训练数据集:强调了训练数据集的重要性,包括自然语言文本、编程语言代码和其他结构化信息,以及数据集的规......    阅读全文

2023年即将结束,回顾这一年,自然语言处理的研究取得了重大的突破,并进入了大模型(LLM)时代,这一年也被称为“大模型元年”。大模型的崛起标志着人工智能技术迈向了一个新的阶段,众多科技巨头、研究机构、知名高校也纷纷在这一领域展开激烈的竞争。临近年底,带大家盘一盘2023年NLP领域的......    阅读全文

Mistral AI 是欧洲最强模型团队,核心成员是来自 DeepMind 和 Meta 的三位年轻大佬。公司成立后不久就成功推出 Mistral-7B 开源模型,近期推出的 Mixtral-8x7B-MoE 开源模型更是凭借超强性能吸引了全世界的目光。为什么 Mixtral-8x7B......    阅读全文

澳大利亚悉尼科技大学科学家开发出了首款便携式、非侵入性的人工智能系统,可解码无声的想法并将其转化为有形的文本。通过学习脑电波数据,模型成功地把受试者的脑电图信号翻译成了文本。而且整个过程不需要大型设备,只要一块特制的“头巾”就能实现。由于用了大模型来读脑,因此报道DeWave的iFLS......    阅读全文

6 个月前,三名来自 Meta 和 DeepMind 的研究人员在法国巴黎创办了 Mistral AI,种子轮融资 1.13 亿美元,刚刚又被曝完成了 4.87 亿美元的融资,估值 20 亿美元。现在 Mistral AI 的投资人包括,a16z、英伟达、Salesforce、Lig......    阅读全文

12月13日,微软正式发布了「Microsoft Ignite 2023」大会上提到的大语言模型「Phi-2」。虽说是大语言模型,但是 Phi-2 的参数量很「小」,只有 2.7B (也就是27亿),相较于 7B 起步的 Llama 家族的确算得上是「小模型」。据微软官方博文,6月份微......    阅读全文

「作为一家 AI-First 的公司,我们已经走过了近八年的历程,进步的步伐只会不断加快。Gemini,这是 Google AI 新时代的开始」,Google CEO 桑达尔·皮查伊(Sundar Pichai)在为这个新模型亲自站台时表示,「这个模型开创的新时代代表了我们作为一家公司......    阅读全文

上海交大 & 上海 AI Lab 发布 Radiology Foundation Model (RadFM),开源 14B 多模态医疗基础模型,首次支持 2D/3D 放射影像输入。论文链接:https://arxiv.org/abs/2308.02463代码链接:https://git......    阅读全文