中国电信发布 全球首个单体稠密万亿参数语义模型
近日,在北京智源大会上,中国电信人工智能研究院(TeleAI)联合北京智源人工智能研究院发布全球首个单体稠密万亿参数语义模型Tele-FLM-1T,成为国内首批发布稠密万亿参数大模型的机构。
针对大模型训练算力消耗高的问题,TeleAI与智源基于模型生长和损失预测等关键技术联合研发出的Tele-FLM系列模型仅使用了业界普通训练方案9%的算力资源。基于112台A800服务器,用4个月完成3个模型总计2.3T tokens的训练。模型训练全程做到了零调整零重试,算力能效高且模型收敛性和稳定性好。Tele-FLM-1T版本即将开源,期望为社区训练万亿稠密模型提供技术参考,避免万亿模型训练收敛难等问题。
作为最早布局并首先开源大模型的央企机构,TeleAI在中国电信CTO、TeleAI院长李学龙带领下,坚持全链路完全自主研发创新,去年便发布了千亿参数“星辰”语义大模型,性能处于国内同级别参数模型的前列。今年2月,TeleAI自主研发的星辰大模型首次通过了“境内深度合成服务算法备案”。随后,在5月15日,根据北京市生成式人工智能服务备案信息公告,星辰大模型再次通过产品备案。“双备案”标志着星辰大模型可正式对外提供生成式人工智能服务。
同时,TeleAI也积极通过开源推动大模型技术进步和大模型国产化进程,加快研发创新,接连开源7B、12B、52B参数规模大模型,吸引国内外开源社区开发者广泛讨论和使用,开源模型下载量过万,积累超40W+用户。随着TeleChat系列模型的发布,TeleAI也同步对多个大模型落地项目进行了能力升级,显著提升了项目交付的质量。在某市民生诉求场景项目上,通过引入TeleChat-52B模型能力,整体应用效果提升40%,达到了行业内领先水平。同时,在长文生成和知识采编等多个应用领域,也取得了显著的进步。
此外,依托中国电信在多个行业深耕多年的深厚优势与丰富经验,携手行业领军者共同打造了覆盖教育、政务、应急等超过20个行业的大型模型。并通过不断升级的语音、视觉以及多模态大模型技术能力,共同推动大模型技术与各行业的深度融合,助力千行百业转型升级。未来,TeleAI也将进一步为客户、生态伙伴、开发者及个人用户等提供前沿的AI能力,赋能千行百业变革的同时也提升个人工作效率和日常生活便利性,切实推进国内AI技术进步及落地应用,加速全社会迈向通用人工智能时代。
(文章来源:中国电信集团有限公司)