浪潮信息发布“源2.0”基础大模型,全面开源

文章最后更新时间:2023-11-29,由天天资讯负责审核发布,若内容或图片失效,请联系客服!

广告3宽

11月27日,浪潮信息发布“源2.0”基础大模型,并宣布全面开源。 2.0基础大模型包括1026亿、518亿、21亿三种参数规模的模型,展现了编程、推理、逻辑等方面的先进能力。

当前,大模型技术正在驱动生成型人工智能产业快速发展,而基础大模型的关键能力是大模型在行业和应用中表现的核心支撑。 然而,基础大模型的发展也面临算法和数据方面的挑战。 以及计算能力方面的许多挑战。 2.0基础大模型提出了新的改进方法,实现了能力的提升。

算法方面, 2.0提出并采用了新的注意力算法结构:局部注意力过滤增强机制(LFA:-based)。 通过先学习相邻词之间的相关性,然后计算全局相关性,LFA可以更好地学习自然语言的局部和全局语言特征,更准确、更人性化地理解自然语言的相关语义。 ,提高了模型的自然语言表达能力,从而提高了模型的准确率。

在数据方面, 2.0通过使用中英文书籍、百科全书、论文等优质中英文资料,降低互联网语料内容的比例,并结合高效的数据清洗流程,提供高质量的专业数据。用于大型模型训练的数据集和逻辑。 推理数据集。 为了获取中国数学数据,我们从2018年至今清理了约12PB的互联网数据,但只获得了约10GB的数学数据。 投入巨大,收益却很小。 为了更高效地获取相对稀缺的高质量中文数学和代码数据集, 2.0采用了基于大模型的数据生产和过滤方法,既保证了数据的多样性,又提高了各个方面的数据质量。类别并获得一批高质量的数学和代码预训练数据。

在计算能力方面, 2.0采用非均匀流水线并行的方法,综合运用流水线并行+优化器参数并行+数据并行的策略,使模型在流水线并行各阶段的内存使用更加均衡和避免内存瓶颈的发生。 该方法显着降低了大型模型对片间P2P带宽的需求,为硬件差异较大的训练环境提供了高性能的训练方法。

2.0作为千亿级基础大规模模型,在代码生成、数学问题求解、事实解答等方面都经过了业界公开评测的检验。 测试结果表明, 2.0在多个模型评估中表现出了相对先进的性能。 能力表现。

继续阅读:

广告3宽
文章版权声明:除非注明,否则均为演示站原创文章,转载或复制请以超链接形式并注明出处。
取消
微信二维码
微信二维码
支付宝二维码