文心大模型4.5系列正式开源

国内资讯 (93) 发布于:2025-07-01 11:16:58 更新于:2025-07-01 11:16:58 来自:百度
项目申报

6月30日,文心4.5系列模型正式开源。发布包括47B、3B激活参数的混合专家(MoE)模型,以及0.3B参数的稠密型模型等10款模型,并实现预训练权重和推理代码的完全开源。目前开源模型API服务也可在百度智能云千帆大模型平台使用。

文心4.5系列模型开源说明

文心大模型4.5系列正式开源

本次发布的全部模型(包括预训练权重和推理代码)和项目均已完全开源至Hugging Face(https://huggingface.co/baidu),GitHub(https://github.com/PaddlePaddle/ERNIE),飞桨星河社区(https://aistudio.baidu.com/overview),更多技术细节可以下载技术报告(https://yiyan.baidu.com/blog/publication)查阅。

针对MoE架构,我们提出了一种创新性的多模态异构模型结构,通过跨模态参数共享机制实现模态间知识融合,同时为各单一模态保留专用参数空间。此架构非常适用于从大语言模型向多模态模型的持续预训练范式,在保持甚至提升文本任务性能的基础上,显著增强多模态理解能力。

文心4.5系列模型均使用飞桨深度学习框架进行高效训练、推理和部署。在大语言模型的预训练中,模型FLOPs利用率(MFU)达到47%。实验结果显示,该系列模型在多个文本和多模态基准测试中达到SOTA水平,在指令遵循、世界知识记忆、视觉理解和多模态推理任务上效果尤为突出。模型权重按照Apache 2.0协议开源,支持开展学术研究和产业应用。此外,基于飞桨提供开源的产业级开发套件,广泛兼容多种芯片,降低后训练和部署门槛。

以下是文心4.5系列开源模型核心技术亮点:

多模态混合专家模型预训练

文心4.5通过在文本和视觉两种模态上进行联合训练,更好地捕捉多模态信息中的细微差别,提升在文本生成、图像理解以及多模态推理等任务中的表现。为了让两种模态学习时互相提升,我们提出了一种多模态异构混合专家模型结构,结合了多维旋转位置编码,并且在损失函数计算时,增强了不同专家间的正交性,同时对不同模态间的词元进行平衡优化,达到多模态相互促进提升的目的。

高效训练推理框架

为了支持文心4.5模型的高效训练,我们提出了异构混合并行和多层级负载均衡策略。通过节点内专家并行、显存友好的流水线调度、FP8混合精度训练和细粒度重计算等多项技术,显著提升了预训练吞吐。推理方面,我们提出了多专家并行协同量化方法和卷积编码量化算法,实现了效果接近无损的4-bit量化和2-bit量化。此外,我们还实现了动态角色转换的预填充、解码分离部署技术,可以更充分地利用资源,提升文心4.5 MoE模型的推理性能。基于飞桨框架,文心4.5在多种硬件平台均表现出优异的推理性能。

针对模态的后训练

为了满足实际场景的不同要求,我们对预训练模型进行了针对模态的精调。其中,大语言模型针对通用语言理解和生成进行了优化,多模态大模型侧重于视觉语言理解,支持思考和非思考模式。每个模型采用了SFT、DPO或UPO(Unified Preference Optimization,统一偏好优化技术)的多阶段后训练。

为方便广大开发者及企业级用户使用需求,文心4.5系列开源模型已全部上架千帆大模型平台,并提供相关API服务,模型信息及请求示例:https://cloud.baidu.com/doc/WENXINWORKSHOP/s/4mchtzl8s

百度智能云千帆大模型平台始终致力于为用户提供全流程、一站式的AI服务,以开放性、易用性、低成本的平台理念,企业用户和开发者能够更高效地探索大模型应用,提升创新效率,加速各类AI应用从概念到落地的转化,为AI技术在更多领域的拓展与应用注入强大动力。

THE END

温馨提示:

本站部分信息来源于互联网,如有侵权请联系删除。
新媒体服务

下一篇

已是最新文章