首页 > 公司 > 内容
百川智能发布超千亿参数大模型Baichuan 3
2024-01-29 14:49:34来源:中国证券网
分享到:

上证报中国证券网讯(记者 孙小程)1月29日,百川智能发布超千亿参数大语言模型Baichuan 3。在多个英文评测中,Baichuan 3表现接近GPT-4水平。在CMMLU、GAOKAO、HumanEval和MBPP等多个中文评测榜单上,Baichuan 3超越GPT-4,展现了其在中文任务上的优势。此外,在MT-Bench、IFEval等对齐榜单评测中,Baichuan 3超越了GPT-3.5、Claude等大模型。

在对逻辑推理能力及专业性要求极高的MCMLE、MedExam、CMExam等权威医疗评测上,Baichuan 3的中文效果同样超过GPT-4,是中文医疗任务表现最佳的大模型之一。Baichuan 3还突破“迭代式强化学习”技术,进一步提升了语义理解和生成能力,在诗词创作的格式、韵律、表意等方面表现优异。

据介绍,为了给Baichuan3注入丰富的医疗知识,百川智能在模型预训练阶段构建了超过千亿Token的医疗数据集,包括医学研究文献、真实的电子病历资料、医学领域的专业书籍和知识库资源、针对医疗问题的问答资料等。该数据集涵盖从理论到实际操作,从基础理论到临床应用等各个方面的医学知识,确保了模型在医疗领域的专业度和知识深度。

与百亿、几百亿级别参数模型训练不同,超千亿参数模型在训练过程中对高质量数据,训练稳定性、训练效率的要求都高出几个量级。为更好解决相关问题,百川智能在训练过程中针对性提出了“动态数据选择”“重要度保持”以及“异步CheckPoint存储”等多种创新技术手段及方案,有效提升了Baicuan 3的各项能力。

为全面提升数据质量,百川智能设计了一套基于因果采样的动态训练数据选择方案,该方案能够在模型训练过程中动态选择训练数据,极大提升数据质量。训练效率方面,百川智能针对超千亿参数模型的并行训练问题进行了一系列优化,通过多种技术创新,Baichuan 3的训练框架在性能方面相比业界主流框架提升超过30%。

在拥有丰富高质量专业医疗知识,并能通过调优后的Prompt对这些知识进行充分激发基础上,结合超千亿参数的推理能力,Baichuan 3在医疗领域的任务效果提升显著,在各类中英文医疗测试中的成绩提升了2到14个百分点。

中方信富公众号
更多资讯关注
中方信富公众号