孙坚知道所谓的特殊渠道,不过就是加价从其他公司购买,或者让第三方去购买罢了。
他刚才在刘旭那里也了解了,训练合适的,可以让所有人都使用的大模型,肯定需要非常多的算力来支持。
东大每年购买的显卡数量也都差不多,如果短时间内出现大量波动,导致接下来一个月购买的显卡数量是之前的好几倍,只要不是傻子,都会知道有问题。
所以,孙坚对周末说的表示一些担忧。
周末笑着说道:“孙叔,目前可以缓慢购买一些显卡,数量上尽最大的努力就可以,等什么时候买不到了再说。”
周末之所以让孙坚去邀请这些人,主要还是前世的深度求索需要的算力成本非常低,对于显卡的数量要求不是特别巨大。
在模型架构上有多项创新,如混合专家架构(MoE)可将推理成本降至传统模型的1/10。
多头潜在注意力(MLA)使128K长文本处理显存占用仅为行业标准的13%。
FP8混合精度训练让训练速度提升50%的同时保持模型精度。
其DeepSeek-V3模型以较低训练成本达到GPT-4级别的性能表现。
2024年12月26日,DeepSeek-V3首个版本上线并开源,以低成本训练出性能超越GPT-4o的大模型,震惊业界。
2025年1月20日发布DeepSeek-R1模型,性能比肩OpenAI o1正式版。
一下子就打破了阿美莉卡制造的谎言,甚至一度使得英伟达的股价下跌超过四分之一。
可以说,深度求索推出的deepseek对西方国家的打击是巨大的,让他们的谎言也不攻自破。
接着,孙坚和刘旭就开始去准备了。
与此同时,互联网上又席卷来了一场波澜。
……
王原吸烟的新闻瞬间冲上了热搜,只要打开互联网软件,第一个出现的就是这个。
可以说,如果没有人在后面推波助澜,肯定不会这样。
对此,东大政府也是睁一只眼闭一只眼,每隔一段时间都有明星塌房,他们也习惯了。