分类大语言模型下的文章

谷歌开源小模型Gemma 2 2B

作者: 智东西
时间: 2024-08-05
分类: 大语言模型
标签: None
阅读(725)
推荐(0)
评论(0)

谷歌DeepMind开源轻量级模型Gemma 2 2B，性能超越GPT-3.5等大模型，可在手机、PC等终端设备上快速运行。Gemma Scope增强模型可解释性，ShieldGemma过滤有害内容。Gemma 2 2B提供灵活的部署方式，适用于研究和商业应用。阅读全文

DreamCar：高质量的3D汽车模型

作者: PaperWeekly
时间: 2024-08-01
分类: 大语言模型
标签: None
阅读(692)
推荐(0)
评论(0)

本文介绍了一种名为DreamCar的新方法，能够从有限数量的图像中重建高质量的3D汽车模型。通过利用Car360数据集和多种技术，包括图像分割、姿态估算、逐步由粗到细的几何重建、纹理优化等，DreamCar显著优于现有方法。代码已开源。阅读全文

Stable-Hair：开源换发AI技术

作者: AI面
时间: 2024-07-28
分类: 大语言模型
标签: None
阅读(1545)
推荐(0)
评论(0)

上海交通大学联合退格数字研发基于扩散模型的开源换发AI技术Stable-Hair，采用双阶段设计，实现精准移植目标发型并保持源图身份特征。通过全新Latent ControlNet结构，解决颜色不一致问题，超越现有方法。Stable-Hair支持跨域发型转移，更多细节与特性请访问官网及代码仓库了解。阅读全文

Traini：AI狗语翻译器

作者: 智能涌现
时间: 2024-07-26
分类: 大语言模型
标签: None
阅读(5421)
推荐(0)
评论(0)

Traini是一款创新的AI狗语翻译器，实现跨物种沟通。它不仅能翻译狗狗的语言，包括叫声、面部表情及身体行为，还能为宠物提供医疗诊断及训练指导。创始人孙邻家基于多年创业经验及对宠物市场的洞察，成功将AI技术应用于宠物领域。Traini已收集超过10万只狗的声音和表情数据，翻译准确度达八...... 阅读全文

LivePortrait：可控人像视频生成框架

作者: 快手
时间: 2024-07-24
分类: 大语言模型
标签: 快手
阅读(1021)
推荐(0)
评论(0)

LivePortrait：高效可控人像视频生成框架，利用隐式关键点技术实现表情与姿态迁移，生成高质量动态视频。支持多种风格与分辨率，具备快速生成与强大泛化能力。阅读全文

Meta发布最强开源模型Llama 3.1

作者: AI信息Gap
时间: 2024-07-23
分类: 大语言模型
标签: Meta
阅读(723)
推荐(0)
评论(0)

Meta发布最新开源模型Llama 3.1，据称成为史上最强大的开源LLM模型。支持八种语言，推出首个开放源码前沿级AI模型Llama 3.1 405B。具有广泛的用途和领先的性能，可与市场上的顶级闭源模型相媲美。提供多种型号以满足不同需求，并配备安全工具以支持负责任的开发。阅读全文

PH-LLM：专用于个人健康的大语言模型

作者: AIGC开放社区
时间: 2024-07-21
分类: 大语言模型
标签: None
阅读(965)
推荐(0)
评论(0)

谷歌最新研究PH-LLM：个人健康大语言模型的详细介绍，从数据整合、上下文理解到专家知识集成。结合智能手表等智能设备数据，提供个性化健康建议、日常疾病问答等。注重隐私保护，并与医学专家合作验证建议准确性。阅读全文

MMTryon：虚拟试穿界的天花板

作者: zhexuan
时间: 2024-07-15
分类: 大语言模型
标签: None
阅读(1118)
推荐(0)
评论(0)

中山大学与字节智创数字人团队推出MMTryon虚拟试穿框架，通过输入服装图像和穿法指令生成高质量组合试穿结果。支持多图换装，无需分割，文本指令即可实现。在基准测试中表现优异，预训练服装编码器提升换装效果。研究团队采用大模型数据扩增，构建增强数据集，实现真实虚拟试穿效果。阅读全文

SemiKong：芯片设计开源大模型

作者: 新智元
时间: 2024-07-10
分类: 大语言模型
标签: None
阅读(1265)
推荐(1)
评论(0)

在Semicon West 2024大会上，Aitomatic联合FPT Software发布首个针对半导体行业设计的开源大模型SemiKong。该模型经过特定领域训练，基于Llama 3 Instruct微调，拥有8B参数，显著改进了准确性、相关性和对半导体工艺的理解。CEO Chr...... 阅读全文

Moshi：实时音频多模态AI模型

作者: zhexuan
时间: 2024-07-09
分类: 大语言模型
标签: None
阅读(1608)
推荐(0)
评论(0)

Moshi是由Kyutai实验室推出的实时音频多模态AI模型，具备听、说、看的能力，能模拟70种情绪和风格交流。它在普通笔记本上运行，低延迟，支持本地设备，保护隐私。Moshi的开发和训练流程高效，很快将开源代码、权重和技术论文，供全球免费使用。阅读全文

SAT：开源3D医学大模型

作者: ScienceAI
时间: 2024-07-08
分类: 大语言模型
标签: None
阅读(1860)
推荐(0)
评论(0)

上海交通大学与上海人工智能实验室联合团队发布3D医学图像分割大模型SAT，基于文本提示实现通用分割，主要贡献包括注入人体解剖学知识、构建多模态医疗知识图谱及大规模数据集SAT-DS。模型精准编码解剖学术语，涵盖多种医学图像模态，展示强大泛化能力。阅读全文

vLLM：开源LLM推理服务引擎

作者: zhexuan
时间: 2024-07-04
分类: 大语言模型
标签: None
阅读(2028)
推荐(0)
评论(0)

vLLM是加州大学伯克利分校团队开发的开源大型语言模型（LLM）推理加速框架，提供高效的推理服务引擎，支持多种最新开源LLM和广泛硬件架构。通过全新注意力算法PagedAttention解决内存消耗问题，实现高吞吐量。vLLM社区活跃，拥有众多外部协作者和贡献者。阅读全文

Meta发布最强3D素材生成模型

作者: 智能涌现
时间: 2024-07-03
分类: 大语言模型
标签: Meta
阅读(787)
推荐(0)
评论(0)

Meta推出名为Meta 3D Gen的端到端3D素材生成模型，根据文本快速创建高质量3D素材。结合AssetGen和TextureGen，实现从文本到图像再到3D的转化，生成逼真素材。与其他文生3D模型相比，更具优势。可模仿不同材料和艺术风格，实现全局与局部修改。阅读全文

Stability开源文生音频模型Stable Audio Open

作者: AIGC开放社区
时间: 2024-06-07
分类: 大语言模型
标签: Stability
阅读(1040)
推荐(0)
评论(0)

Stability.ai开源最新文生音频模型Stable Audio Open，可生成钢琴、笛子、鼓点等音效，支持数据微调并遵循商业许可规定。模型表现优秀，但需关注语言限制和学术使用限制。体验在线demo，探索更多可能性。阅读全文

StoryDiffusion：开源连贯图像视频AI

作者: YupengZhou
时间: 2024-05-13
分类: 大语言模型
标签: None
阅读(1016)
推荐(0)
评论(0)

StoryDiffusion是字节跳动和南开大学合作推出的AI工具，能生成连贯图像和视频。它可生成吸引人的图像和视频故事、风格多样的漫画、高质量视频及卡通角色。通过图像语义运动预测器，StoryDiffusion为用户创造长视频提供新方法。体验Demo，了解更多项目和论文详情，访问相关链接。阅读全文

Google发布AlphaFold 3预测所有生物分子

作者: 新智元
时间: 2024-05-10
分类: 大语言模型,AI应用
标签: None
阅读(838)
推荐(0)
评论(0)

谷歌DeepMind发布AlphaFold 3，以革命性AI技术预测所有生物分子结构和相互作用。该技术大幅提升预测准确率，推动药物设计领域发展。尽管存在使用限制，但仍是AI生物学领域的重要里程碑。AlphaFold 3的架构创新和未来发展备受期待。阅读全文

上海AI Lab开源多模态大语言模型InternVL 1.5

作者: 夕小瑶科技说
时间: 2024-05-06
分类: 大语言模型
标签: None
阅读(1698)
推荐(0)
评论(0)

上海AI Lab最新开源多模态大语言模型InternVL 1.5，具备卓越的多模态理解能力。模型在OCR、多模态等18个基准测试中取得先进成果。采用强视觉编码器与动态高分辨率技术，支持高达4K分辨率的输入。官方提供demo供体验。未来展望及参考资源一并呈现。阅读全文

Open-Sora：开源的文生视频模型

作者: GitHubDaily
时间: 2024-04-26
分类: 大语言模型
标签: None
阅读(1059)
推荐(0)
评论(0)

最新发布的Open-Sora技术报告全面解读，包含最新功能概览、时空扩散模型ST-DiT-2、多阶段训练、统一的图生视频/视频生视频框架、支持多时间/分辨率/长宽比/帧率训练以及数据收集和预处理流程等详细内容。Open-Sora能够将文本描述转化为动态视频，效果展示引人瞩目。阅读全文

Meta发布LLaMa 3系列大模型

作者: ShowMeAI研究中心
时间: 2024-04-19
分类: 大语言模型
标签: None
阅读(974)
推荐(0)
评论(0)

Meta发布LLaMa 3系列大模型，包括8B、70B和400B+三种规模。LLaMa 3大模型表现优异，尤其是400B模型具备多模态功能等先进特性。Meta持续开源，加速全球LLM技术发展。LLaMa 3的使用方式多样，包括直接使用、第三方API和本地部署。这是一件值得关注和讨论的大事件。阅读全文

可视化讲解GPT工作原理

作者: 3Blue1Brown
时间: 2024-04-12
分类: 大语言模型
标签: None
阅读(985)
推荐(0)
评论(0)

通过3Blue1Brown的YouTube频道，以可视化方式生动讲解GPT（Generative Pre-trained Transformer）的工作原理。动画演示结合数学原理，助你轻松理解语言模型如何基于上下文预测下一个词的出现概率。涵盖深度学习神经网络、反向传播、Word Emb...... 阅读全文

分类大语言模型下的文章

谷歌开源小模型Gemma 2 2B

DreamCar：高质量的3D汽车模型

Stable-Hair：开源换发AI技术

Traini：AI狗语翻译器

LivePortrait：可控人像视频生成框架

Meta发布最强开源模型Llama 3.1

PH-LLM：专用于个人健康的大语言模型

MMTryon：虚拟试穿界的天花板

SemiKong：芯片设计开源大模型

Moshi：实时音频多模态AI模型

SAT：开源3D医学大模型

vLLM：开源LLM推理服务引擎

Meta发布最强3D素材生成模型

Stability开源文生音频模型Stable Audio Open

StoryDiffusion：开源连贯图像视频AI

Google发布AlphaFold 3预测所有生物分子

上海AI Lab开源多模态大语言模型InternVL 1.5

Open-Sora：开源的文生视频模型

Meta发布LLaMa 3系列大模型

可视化讲解GPT工作原理

最新文章

分类

标签云

阅读排行榜

推荐排行榜

回复排行榜

最近回复

邮件订阅

分类 大语言模型 下的文章

最新文章

分类

标签云

阅读排行榜

推荐排行榜

回复排行榜

最近回复

邮件订阅

分类大语言模型下的文章