大模型的参数和训练数据往往无法装载在一块显卡的显存中,需要借助多GPU集群进行训练。
此时,显卡的通信性能成为影响训练效率的关键。
支持多卡并行的显卡架构,如NVIDIA的NVLink技术,使得多GPU之间的通信延迟大幅降低,模型切分更加高效。
为了满足大模型对显存的高需求,AI大模型通常需要占用大量显存。
例如,训练一个130B参数规模的语言模型,至少需要每卡80GB以上的显存,否则很难存储前向传播和反向传播的梯度数据。
高端GPU和消费级GPU都在支持模型训练方面发挥着不同程度的作用。
模型训练完成后,进入推理部署阶段,虽然对算力的要求相对较低,但响应速度、并发请求能力、功耗等因素对GPU提出了新的要求。
这章没有结束,请点击下一页继续阅读!
例如利用INT8量化后,GPT-3模型能在仅16GB显存的显卡上运行,极大降低了对硬件的依赖。
目前市面上,最先进的显卡就是星海科技的显卡。
当然了,星海科技在最初,使用的还是英伟达的显卡。
周末通过自己的指点,让研发人员提前好几年研发出了用更少的算力来实现大模型的训练。
这在后来,也是非常恐怖的发现。
因为要知道,那个时候,阿美莉卡都准备对全球输出算力了。
可是最终,在2025年初的时候,直接被东大的DS给打懵了。
DS-V3是DS于2024年12月26日发布的模型,其基座模型采用了混合专家机制,总共有6710亿参数。
该模型在2048块英伟达H800 GPU集群上完成训练,在阿美莉卡数学竞赛和全国高中数学联赛上大幅超过其他所有开源闭源模型,生成吐字速度从20TPS大幅提高至60TPS。
DS-R1是基于DS-V3 Base基座模型,通过纯强化学习方法训练出来的推理模型。
DeepSeek团队仅用29.4万美元和极短的训练时间就训练出了该模型,极大地降低了顶级AI模型的研发门槛。
DS最终证明了,训练大模型根本不需要这么多功能强大的显卡!
DS训练大模型使用的算力,只是Meta的1/11,甚至十分之一都不到。
但是DS的性能却赶上了世界先进水平。
不过其他公司并不知道这种情况。
这就给了星海科技收割其他科技公司的机会!
星海科技这次可不会手软的!