分类 大语言模型 下的文章

中山大学与字节智创数字人团队推出MMTryon虚拟试穿框架,通过输入服装图像和穿法指令生成高质量组合试穿结果。支持多图换装,无需分割,文本指令即可实现。在基准测试中表现优异,预训练服装编码器提升换装效果。研究团队采用大模型数据扩增,构建增强数据集,实现真实虚拟试穿效果。   阅读全文

在Semicon West 2024大会上,Aitomatic联合FPT Software发布首个针对半导体行业设计的开源大模型SemiKong。该模型经过特定领域训练,基于Llama 3 Instruct微调,拥有8B参数,显著改进了准确性、相关性和对半导体工艺的理解。CEO Chr......    阅读全文

Moshi是由Kyutai实验室推出的实时音频多模态AI模型,具备听、说、看的能力,能模拟70种情绪和风格交流。它在普通笔记本上运行,低延迟,支持本地设备,保护隐私。Moshi的开发和训练流程高效,很快将开源代码、权重和技术论文,供全球免费使用。   阅读全文

上海交通大学与上海人工智能实验室联合团队发布3D医学图像分割大模型SAT,基于文本提示实现通用分割,主要贡献包括注入人体解剖学知识、构建多模态医疗知识图谱及大规模数据集SAT-DS。模型精准编码解剖学术语,涵盖多种医学图像模态,展示强大泛化能力。   阅读全文

vLLM是加州大学伯克利分校团队开发的开源大型语言模型(LLM)推理加速框架,提供高效的推理服务引擎,支持多种最新开源LLM和广泛硬件架构。通过全新注意力算法PagedAttention解决内存消耗问题,实现高吞吐量。vLLM社区活跃,拥有众多外部协作者和贡献者。   阅读全文

Meta推出名为Meta 3D Gen的端到端3D素材生成模型,根据文本快速创建高质量3D素材。结合AssetGen和TextureGen,实现从文本到图像再到3D的转化,生成逼真素材。与其他文生3D模型相比,更具优势。可模仿不同材料和艺术风格,实现全局与局部修改。   阅读全文

StoryDiffusion是字节跳动和南开大学合作推出的AI工具,能生成连贯图像和视频。它可生成吸引人的图像和视频故事、风格多样的漫画、高质量视频及卡通角色。通过图像语义运动预测器,StoryDiffusion为用户创造长视频提供新方法。体验Demo,了解更多项目和论文详情,访问相关链接。   阅读全文

谷歌DeepMind发布AlphaFold 3,以革命性AI技术预测所有生物分子结构和相互作用。该技术大幅提升预测准确率,推动药物设计领域发展。尽管存在使用限制,但仍是AI生物学领域的重要里程碑。AlphaFold 3的架构创新和未来发展备受期待。   阅读全文

上海AI Lab最新开源多模态大语言模型InternVL 1.5,具备卓越的多模态理解能力。模型在OCR、多模态等18个基准测试中取得先进成果。采用强视觉编码器与动态高分辨率技术,支持高达4K分辨率的输入。官方提供demo供体验。未来展望及参考资源一并呈现。   阅读全文

最新发布的Open-Sora技术报告全面解读,包含最新功能概览、时空扩散模型ST-DiT-2、多阶段训练、统一的图生视频/视频生视频框架、支持多时间/分辨率/长宽比/帧率训练以及数据收集和预处理流程等详细内容。Open-Sora能够将文本描述转化为动态视频,效果展示引人瞩目。   阅读全文

Meta发布LLaMa 3系列大模型,包括8B、70B和400B+三种规模。LLaMa 3大模型表现优异,尤其是400B模型具备多模态功能等先进特性。Meta持续开源,加速全球LLM技术发展。LLaMa 3的使用方式多样,包括直接使用、第三方API和本地部署。这是一件值得关注和讨论的大事件。   阅读全文

通过3Blue1Brown的YouTube频道,以可视化方式生动讲解GPT(Generative Pre-trained Transformer)的工作原理。动画演示结合数学原理,助你轻松理解语言模型如何基于上下文预测下一个词的出现概率。涵盖深度学习神经网络、反向传播、Word Emb......    阅读全文

Anthropic推出新一代Claude 3系列模型,包含Claude 3 Haiku、Claude 3 Sonnet和最高阶的Claude 3 Opus。它们树立了新的认知任务处理标准,具有智能新标准、实时结果、强大视觉能力等特点。Claude 3 Opus在多个AI系统评估基准上表......    阅读全文

阿里巴巴发布AI图生视频模型EMO,以图片和音频为输入,生成会说话唱歌的AI视频,实现无缝对接的动态小视频,最长时间可达1分30秒。表情到位,语音图像对应精准,技术革新引领AI视频生成新纪元。   阅读全文

Stable Diffusion 3是Stability AI推出的最新文生图模型,相比前版本有重大改进,支持多主题提示,文字书写效果更佳。生成图像质量更高,为创作者带来革命性的体验。团队采取安全措施,防止滥用。提交申请即可尝鲜。   阅读全文

谷歌推出全新的开源大语言模型系列——Gemma。该模型轻量级且免费可用,允许商用,并在关键基准测试中表现优异。Gemma提供预训练和指令微调版本,可通过Kaggle、Colab Notebook或Google Cloud访问。模型支持多种语言,并提供不同尺寸以满足各种计算限制和应用程序需求。   阅读全文

OpenAI推出全新文生视频大模型Sora,能根据提示词生成高质量视频,呈现惊艳视觉效果。Sora具备深刻文本理解、多镜头创建、细节处理等多项亮点,并支持图像生成、静止图像转视频等功能。业内专家热议其影响,周鸿祎称Sora加速AGI实现,贾扬清分享行业趋势观点。了解更多关于Sora的信......    阅读全文

AlphaGeometry:革命性的几何定理证明系统。通过结合神经语言模型和符号推理引擎,该系统实现了几何定理的高效自动证明。在解决奥林匹克级别问题的测试中,其表现超越先前最佳方法,接近国际数学奥林匹克竞赛金牌选手水平。探索其工作原理及应用前景,深入理解AlphaGeometry如何引......    阅读全文

Suno.ai:无需乐理与乐器,简易创作音乐的神奇工具。通过AI技术,只需提示词即可生成伴奏和人声音乐,自定义歌词、风格和歌名。与微软Copilot合作,拓展音乐创作可能性。Suno创建的Bark模型能生成多语言高度逼真的语音及其他音频。探索音乐与语音的无限可能。   阅读全文