谷歌开源小模型Gemma 2 2B 作者: 智东西 时间: 2024-08-05 分类: 大语言模型 标签: None 阅读(360) 推荐(0) 评论(0) 谷歌DeepMind开源轻量级模型Gemma 2 2B,性能超越GPT-3.5等大模型,可在手机、PC等终端设备上快速运行。Gemma Scope增强模型可解释性,ShieldGemma过滤有害内容。Gemma 2 2B提供灵活的部署方式,适用于研究和商业应用。 阅读全文
DreamCar:高质量的3D汽车模型 作者: PaperWeekly 时间: 2024-08-01 分类: 大语言模型 标签: None 阅读(318) 推荐(0) 评论(0) 本文介绍了一种名为DreamCar的新方法,能够从有限数量的图像中重建高质量的3D汽车模型。通过利用Car360数据集和多种技术,包括图像分割、姿态估算、逐步由粗到细的几何重建、纹理优化等,DreamCar显著优于现有方法。代码已开源。 阅读全文
Stable-Hair:开源换发AI技术 作者: AI面 时间: 2024-07-28 分类: 大语言模型 标签: None 阅读(884) 推荐(0) 评论(0) 上海交通大学联合退格数字研发基于扩散模型的开源换发AI技术Stable-Hair,采用双阶段设计,实现精准移植目标发型并保持源图身份特征。通过全新Latent ControlNet结构,解决颜色不一致问题,超越现有方法。Stable-Hair支持跨域发型转移,更多细节与特性请访问官网及代码仓库了解。 阅读全文
Traini:AI狗语翻译器 作者: 智能涌现 时间: 2024-07-26 分类: 大语言模型 标签: None 阅读(2398) 推荐(0) 评论(0) Traini是一款创新的AI狗语翻译器,实现跨物种沟通。它不仅能翻译狗狗的语言,包括叫声、面部表情及身体行为,还能为宠物提供医疗诊断及训练指导。创始人孙邻家基于多年创业经验及对宠物市场的洞察,成功将AI技术应用于宠物领域。Traini已收集超过10万只狗的声音和表情数据,翻译准确度达八...... 阅读全文
LivePortrait:可控人像视频生成框架 作者: 快手 时间: 2024-07-24 分类: 大语言模型 标签: 快手 阅读(624) 推荐(0) 评论(0) LivePortrait:高效可控人像视频生成框架,利用隐式关键点技术实现表情与姿态迁移,生成高质量动态视频。支持多种风格与分辨率,具备快速生成与强大泛化能力。 阅读全文
Meta发布最强开源模型Llama 3.1 作者: AI信息Gap 时间: 2024-07-23 分类: 大语言模型 标签: Meta 阅读(346) 推荐(0) 评论(0) Meta发布最新开源模型Llama 3.1,据称成为史上最强大的开源LLM模型。支持八种语言,推出首个开放源码前沿级AI模型Llama 3.1 405B。具有广泛的用途和领先的性能,可与市场上的顶级闭源模型相媲美。提供多种型号以满足不同需求,并配备安全工具以支持负责任的开发。 阅读全文
PH-LLM:专用于个人健康的大语言模型 作者: AIGC开放社区 时间: 2024-07-21 分类: 大语言模型 标签: None 阅读(473) 推荐(0) 评论(0) 谷歌最新研究PH-LLM:个人健康大语言模型的详细介绍,从数据整合、上下文理解到专家知识集成。结合智能手表等智能设备数据,提供个性化健康建议、日常疾病问答等。注重隐私保护,并与医学专家合作验证建议准确性。 阅读全文
MMTryon:虚拟试穿界的天花板 作者: zhexuan 时间: 2024-07-15 分类: 大语言模型 标签: None 阅读(662) 推荐(0) 评论(0) 中山大学与字节智创数字人团队推出MMTryon虚拟试穿框架,通过输入服装图像和穿法指令生成高质量组合试穿结果。支持多图换装,无需分割,文本指令即可实现。在基准测试中表现优异,预训练服装编码器提升换装效果。研究团队采用大模型数据扩增,构建增强数据集,实现真实虚拟试穿效果。 阅读全文
SemiKong:芯片设计开源大模型 作者: 新智元 时间: 2024-07-10 分类: 大语言模型 标签: None 阅读(747) 推荐(1) 评论(0) 在Semicon West 2024大会上,Aitomatic联合FPT Software发布首个针对半导体行业设计的开源大模型SemiKong。该模型经过特定领域训练,基于Llama 3 Instruct微调,拥有8B参数,显著改进了准确性、相关性和对半导体工艺的理解。CEO Chr...... 阅读全文
Moshi:实时音频多模态AI模型 作者: zhexuan 时间: 2024-07-09 分类: 大语言模型 标签: None 阅读(1127) 推荐(0) 评论(0) Moshi是由Kyutai实验室推出的实时音频多模态AI模型,具备听、说、看的能力,能模拟70种情绪和风格交流。它在普通笔记本上运行,低延迟,支持本地设备,保护隐私。Moshi的开发和训练流程高效,很快将开源代码、权重和技术论文,供全球免费使用。 阅读全文
SAT:开源3D医学大模型 作者: ScienceAI 时间: 2024-07-08 分类: 大语言模型 标签: None 阅读(1204) 推荐(0) 评论(0) 上海交通大学与上海人工智能实验室联合团队发布3D医学图像分割大模型SAT,基于文本提示实现通用分割,主要贡献包括注入人体解剖学知识、构建多模态医疗知识图谱及大规模数据集SAT-DS。模型精准编码解剖学术语,涵盖多种医学图像模态,展示强大泛化能力。 阅读全文
vLLM:开源LLM推理服务引擎 作者: zhexuan 时间: 2024-07-04 分类: 大语言模型 标签: None 阅读(1398) 推荐(0) 评论(0) vLLM是加州大学伯克利分校团队开发的开源大型语言模型(LLM)推理加速框架,提供高效的推理服务引擎,支持多种最新开源LLM和广泛硬件架构。通过全新注意力算法PagedAttention解决内存消耗问题,实现高吞吐量。vLLM社区活跃,拥有众多外部协作者和贡献者。 阅读全文
Meta发布最强3D素材生成模型 作者: 智能涌现 时间: 2024-07-03 分类: 大语言模型 标签: Meta 阅读(394) 推荐(0) 评论(0) Meta推出名为Meta 3D Gen的端到端3D素材生成模型,根据文本快速创建高质量3D素材。结合AssetGen和TextureGen,实现从文本到图像再到3D的转化,生成逼真素材。与其他文生3D模型相比,更具优势。可模仿不同材料和艺术风格,实现全局与局部修改。 阅读全文
Stability开源文生音频模型Stable Audio Open 作者: AIGC开放社区 时间: 2024-06-07 分类: 大语言模型 标签: Stability 阅读(595) 推荐(0) 评论(0) Stability.ai开源最新文生音频模型Stable Audio Open,可生成钢琴、笛子、鼓点等音效,支持数据微调并遵循商业许可规定。模型表现优秀,但需关注语言限制和学术使用限制。体验在线demo,探索更多可能性。 阅读全文
StoryDiffusion:开源连贯图像视频AI 作者: YupengZhou 时间: 2024-05-13 分类: 大语言模型 标签: None 阅读(634) 推荐(0) 评论(0) StoryDiffusion是字节跳动和南开大学合作推出的AI工具,能生成连贯图像和视频。它可生成吸引人的图像和视频故事、风格多样的漫画、高质量视频及卡通角色。通过图像语义运动预测器,StoryDiffusion为用户创造长视频提供新方法。体验Demo,了解更多项目和论文详情,访问相关链接。 阅读全文
Google发布AlphaFold 3预测所有生物分子 作者: 新智元 时间: 2024-05-10 分类: 大语言模型,AI应用 标签: None 阅读(516) 推荐(0) 评论(0) 谷歌DeepMind发布AlphaFold 3,以革命性AI技术预测所有生物分子结构和相互作用。该技术大幅提升预测准确率,推动药物设计领域发展。尽管存在使用限制,但仍是AI生物学领域的重要里程碑。AlphaFold 3的架构创新和未来发展备受期待。 阅读全文
上海AI Lab开源多模态大语言模型InternVL 1.5 作者: 夕小瑶科技说 时间: 2024-05-06 分类: 大语言模型 标签: None 阅读(1113) 推荐(0) 评论(0) 上海AI Lab最新开源多模态大语言模型InternVL 1.5,具备卓越的多模态理解能力。模型在OCR、多模态等18个基准测试中取得先进成果。采用强视觉编码器与动态高分辨率技术,支持高达4K分辨率的输入。官方提供demo供体验。未来展望及参考资源一并呈现。 阅读全文
Open-Sora:开源的文生视频模型 作者: GitHubDaily 时间: 2024-04-26 分类: 大语言模型 标签: None 阅读(594) 推荐(0) 评论(0) 最新发布的Open-Sora技术报告全面解读,包含最新功能概览、时空扩散模型ST-DiT-2、多阶段训练、统一的图生视频/视频生视频框架、支持多时间/分辨率/长宽比/帧率训练以及数据收集和预处理流程等详细内容。Open-Sora能够将文本描述转化为动态视频,效果展示引人瞩目。 阅读全文
Meta发布LLaMa 3系列大模型 作者: ShowMeAI研究中心 时间: 2024-04-19 分类: 大语言模型 标签: None 阅读(573) 推荐(0) 评论(0) Meta发布LLaMa 3系列大模型,包括8B、70B和400B+三种规模。LLaMa 3大模型表现优异,尤其是400B模型具备多模态功能等先进特性。Meta持续开源,加速全球LLM技术发展。LLaMa 3的使用方式多样,包括直接使用、第三方API和本地部署。这是一件值得关注和讨论的大事件。 阅读全文
可视化讲解GPT工作原理 作者: 3Blue1Brown 时间: 2024-04-12 分类: 大语言模型 标签: None 阅读(579) 推荐(0) 评论(0) 通过3Blue1Brown的YouTube频道,以可视化方式生动讲解GPT(Generative Pre-trained Transformer)的工作原理。动画演示结合数学原理,助你轻松理解语言模型如何基于上下文预测下一个词的出现概率。涵盖深度学习神经网络、反向传播、Word Emb...... 阅读全文