国产万卡系统究竟怎么样了?中国工程院院士郑纬民:国产万卡很重要,但也很难,异地卡联合训练不太可行
编辑 | 言征
出品 | 51CTO技术栈(微信号:blog51cto)
临近年底 ,国产国工业内曝出了不少大新闻,系统训练比如大模型撞墙 、究竟谷歌的样中院士Gemini 2 Flash和量子芯片Willow ,再比如英伟达面临着中国反垄断调查的程院产万危机等 ,所有这些 ,郑纬让国产AI算力的民国话题再次成为圈内的热议点 。
那么 ,卡重可行国产算力中心构建究竟什么情况 ?但也地背后支撑大模型训练和推理的计算机系统现在都面临着怎样的难题?为什么包括ChatGPT在内的大模型时不时就会出现宕机的情况?
“为什么异地卡联合训练很难 ?数据从从北京到贵州需要5天 ,香港云服务器有了结果后再到上海又需要5天。难异”
12月13日,联合中国工程院院士郑纬民教授在中科金主办的不太《大模型技术与应用创新论坛》上带来了一场信息密度极大的内容分享,既有干货,国产国工也有一些有趣的系统训练猛料。
郑院士表示 ,究竟构建国产万卡系统非常重要但难度也很大 ,真相非常残酷——异构卡联合训练不如单一架构联合训练划算 ,而异地卡联合训练效果同样不佳。
此外,大模型完整的训练和推理过程不止GPU算力那么简单 ,还有很多的源码下载系统工作需要深入研究 ,比如存放训练数据的硬盘 、再比如数据预处理,有消息称GPT4 ,1万块A100要训练11个月 ,有5个月的时间都在做预处理