分类 大语言模型 下的文章

大型语言模型(LLM)在众多语言任务和自然语言处理(NLP)基准测试中表现出了卓越的能力。基于这些“通用”模型的产品用例正在增加。在这篇博客文章中,我们将为希望将LLM适应并整合到项目中的小型AI产品团队提供指导。让我们首先澄清围绕LLM的(通常令人困惑的)术语,然后简要比较可用的不同......    阅读全文

谷歌公司于8月19日宣布通过 Google Cloud API,目前已经向研究人员开放健康声学表征(Health Acoustic Representations,简称 HeAR)AI 模型。谷歌 HeAR AI 模型可以帮助人类诊断疾病,可以通过分析人的咳嗽和呼吸,诊断出疾病。谷歌表......    阅读全文

8月6日,MiniCPM-V 开源项目重磅更新了「小钢炮」 MiniCPM-V 2.6。仅 8B 参数,单图、多图、视频理解全面超越GPT-4V,稳坐端侧最强多模态铁王座。8B 参数的模型很有意义,这种小模型可以在手机端侧落地。MiniCPM-V 2.6 刷新了端侧多模态复杂推理能力。......    阅读全文

智谱AI的视频生成模型CogVideoX-2B正式开源了。模型已上架GitHub、Hugging Face,FP16精度下的推理仅需18GB显存,微调则只需要40GB,单张4090显卡可推理,单张A6000可微调。CogVideoX-2B的提示词上限为226个token,视频长度为6秒......    阅读全文

项目简介Stable Fast 3D 是一个由 Stability AI 开发的开源项目,旨在为三维建模和渲染提供高效、稳定的解决方案。该项目集成了先进的图形算法和优化技术,旨在提升三维图形生成的速度和质量。用户可以通过该项目快速创建和渲染复杂的三维场景,适用于游戏开发、动画制作以及虚......    阅读全文

谷歌DeepMind开源了轻量级模型Gemma 2 2B,其在大模型竞技场上的分数超越了GPT-3.5、Llama 2 70B等更大参数的模型。只有20亿参数使得Gemma 2 2B可以轻松在手机、PC等终端设备上快速运行。开发者实测在Google AI Studio上,其推理速度达到......    阅读全文

摘要自驾行业通常雇用专业艺术家来制作精美的 3D 汽车模型。然而,制作大规模的数字资产成本高昂。由于已经有许多包含大量汽车图像的数据集,我们专注于从这些数据集中重建高质量的 3D 汽车模型。然而,这些数据集只包含前行场景中汽车的一侧图像。我们尝试使用现有的生成模型提供更多的监督信息,但......    阅读全文

上海交通大学联合退格数字共同研发的基于扩散模型的框架——Stable-Hair!在生成人像时,可以更好地控制头发的生成效果了。Stable-Hair 采用了双阶段设计:第一阶段用光头转换器将原图变成秃头第二阶段则精准地将目标发型移植上去框架的核心包含三大模块:发型提取器:负责从参考图中......    阅读全文

Traini是一款AI狗语翻译器,可以在你和狗狗之间,进行跨物种翻译:你能听懂你家狗什么时候是想要吃的、什么时候是分离焦虑,你家狗也能听懂你说的“给我拿遥控器”“爱我就抱抱我”。Traini不仅能让用户听懂狗狗的叫声,还能看懂狗狗的面部表情、身体行为等语言,来了解狗狗的心理状况。训练模......    阅读全文

LivePortrait是快手推出的人像视频生成框架,由快手可灵大模型团队开源,只需1张原图就能生成动态视频。LivePortrait专注于高效、可控地将驱动视频的表情和姿态迁移至静态或动态人像,创造出富有表现力的视频。该技术通过隐式关键点框架实现,利用大规模高质量训练数据和混合训练策......    阅读全文

北美时间7月23日,Meta(原Facebook,脸书)公司正式官宣发布了开源模型Llama 3.1。不出意外的话,根据各项AI模型基准测试的结果来看,Llama 3.1将会成为史上最强大的开源LLM模型。Llama 3.1模型具备128K的上下文长度,支持八种语言,并推出了首个开放源......    阅读全文

谷歌的研究人员在Gemini模型的基础之上,微调出了专用于个人健康的大语言模型PH-LLM。用户通过将健康数据与PH-LLM相结合,就能快速获取个性化健康建议、日常疾病问答、健康报告预测等专家级医疗咨询服务。数据整合PH-LLM会先通过数据整合模块,将来自智能手表、健身追踪器等智能设备......    阅读全文

中山大学&字节智创数字人团队提出了一个名为MMTryon的虚拟试穿框架,可以通过输入多个服装图像及指定穿法的文本指令来生成高质量的组合试穿结果。比如选中一件大衣、一条裤子,再配一个包,用语言描述穿法,“啪”的一键就穿到了人像上:无论是真人图像又或是漫画人物,都能一键按照搭配试穿衣服: ......    阅读全文

在Semicon West 2024大会上,Aitomatic发布了首个SemiKong半导体行业设计的新模型,将革新半导体工艺和制造技术。SemiKong是由Aitomatic与FPT Software合作开发,在处理行业特定任务时,表现优于通用大模型,如GPT和 Llama 3。S......    阅读全文

Moshi是由法国的的人工智能研究实验室Kyutai推出的一款端到端实时音频多模态AI模型,拥有听、说、看的能力,并能模拟70种不同的情绪和风格进行交流。作为平替[GPT-4o]的开源模型,Moshi在普通笔记本上即可运行,具有低延迟特性,支持本地设备使用,保护用户隐私。Moshi的开......    阅读全文

近日,上海交通大学与上海人工智能实验室联合团队发布3D医学图像分割大模型SAT(Segment Anything in radiology scans, driven by Text prompts),在3D医学图像(CT、MR、PET)上,基于文本提示实现对人体497种器官/病灶的通......    阅读全文

2022 年,一个加州大学伯克利分校的 3 人团队从一个加速 OPT-175B 训练推理的 demo 项目开始,在两年的时间里搭建出了全球范围内最受欢迎的开源大模型推理加速框架 vLLM。vLLM 的目标是,搭建最快速、最易用的开源 LLM 推理服务引擎 (Build the fast......    阅读全文

Meta推出了一种名为Meta 3D Gen的端到端3D素材生成模型,可以在不到一分钟的时间内根据文本描述创建高质量的3D素材。Meta 3D Gen结合了Meta的两个现有模型:用于生成 3D 网格素材的AssetGen和用于精细纹理化的 TextureGen。Meta 表示,这种集......    阅读全文

6月6日,著名开源大模型平台Stability.ai在官网宣布,开源最新文生音频模型Stable Audio Open。用户通过文本就能生成最多47秒,钢琴、笛子、鼓点、模拟人声等不同类型的44.1kHz音效。值得一提的是,Stable Audio Open支持数据微调,歌手、音乐人可......    阅读全文

StoryDiffusion是由字节跳动和南开大学合作推出的一款AI工具,该项目不仅能生成一致性图像,还能预测视频中的运动,为用户提供了一个创造长视频的新方法。主要功能魔法故事和视频展示:StoryDiffusion能够生成引人入胜的图像和视频故事;漫画生成:它可以生成风格多样的漫画,......    阅读全文