傲世皇朝动态 NEWS真实、正向、传递价值

当前位置: 首页 > 傲世皇朝动态 > 公司新闻

抛弃英伟达算力集群!特斯拉正着手打造下一代AI计算集群

日期:2023-04-26 10:58:36 / 人气:

不知道什么时候开始,某鱼上出现了大批之前英伟达专门为特斯拉定制的GPU图形计算卡,并且正在以骨折价抛售。

这些不寻常的迹象,似乎印证了特斯拉正在逐渐抛弃英伟达的算力集群,着手打造下一代,自研程度更高的算力集群。

早在之前的AI DAY上,特斯拉就透露出不少关于下一代人工智能的构想,其中特斯拉未来的全自动驾驶,在设计上都更趋向于“World Model”,也就是世界模型方向。

而这之中最关键的部分,就是实现“经验积累”,通过大量的数据模型,来解决现实中可能发生的问题。目前特斯拉的解决方案,与其他品牌基本相同,回传特斯拉车主的行车视频,让电脑进行分析学习,并对其中所有驾驶的可能性进行建模,整个过程就是一个穷尽所有可能性的过程。当然理论上来说,永远无法穷尽所有的可能性,只能无限接近。

特斯拉这种“穷尽所有的可能性”的建模方式,就是基于海量数据的处理与学习。之前特斯拉要完成以上的数据收集整合,依靠的就是英伟达GPU图形计算卡组成算力集群中,一万个GPU专门用来训练自动驾驶的神经网络。

这一整套基于英伟达的神经网络计算群,已经是目前算力顶尖的超级计算机群,不过,即便是拥有这样的超级算力,在遇到特斯拉这种需要大量视频数据训练神经网络的使用场景,仍然会感到吃力。

换句话来说,英伟达的学习训练GPU算力群,已经不能满足特斯拉的实际需求,从某种程度上来说,已经限制了特斯拉自动驾驶的发展。或许,这时候有人会说,既然算力不够,那就继续增加GPU的数量和规模,问题不就解决了吗?

当然,问题并没有这么简单,计算集群的规模和数量并不能完全等同于计算效能,越大型的神经网络,对计算集群的利用效能利用率就越低,大号神经网络无法在一块GPU上训练,只能多块GPU分工,而多块GPU之间需要通讯,传输数据,这就会严重损耗计算效能,严重时甚至可能损失80%以上的计算效能。因此。为提升计算效能,特斯拉才要搞自己的超算集群——Dojo。

特斯拉Dojo的设计思路主要可以分为三个方面,首先是加大算力集群的密度,根据前段时间AI DAY上的信息爆料,1个Dojo机箱中将有两个大的GPU显卡,每个大GPU显卡由6块小显卡组成,而每块小显卡上又有25片DOJO晶片,也就是说一个Dojo机箱集成了300个Dojo晶片计算单位。从其账面数据来看,Dojo机箱是目前一般商用机箱的10倍,计算集群的密度提升以后,减少了数据在不同机箱间传输的损耗,也就提升了计算效能。

除此之外,为了避免海量数据进出系统造成的瓶颈,特斯拉用自家开发的通讯协议,以网卡的形式连接了起来,在不同单位之间建立了通讯捷径,使由数据传输导致的计算延迟比现有算力集群降低了三十倍,单块计算单位在实际训练中的计算效能超过了原来的两倍。

最后一个也是最关键的部分,就是对编译器的优化,也就是由编程语言转换为机器语言的部分,这也会极大的影响计算程序的效率,给Dojo开发和优化编译器是目前最大的难点,也是目前特斯拉Dojo团队工作的重中之重。

如果顺利的话,特斯拉的Dojo只需4个Dojo机箱,1200个晶片就能提供现阶段72个机箱,4000个GPU所提供的算力。照此数据计算,只需两个Dojo集群,特斯拉就能取代现有的14000个GPU显卡组成的计算集群,而这样的Dojo集群,特斯拉计划组建7个,等同于70000个GPU组成计算集群的算力。

Dojo组建完成之后,特斯拉将拥有目前全世界企业中最顶级的神经网络训练能力,这将极大加快特斯拉在自动驾驶系统上的开发迭代能力。

之前需要一个月时间才能完成的完整自动驾驶神经网络训练,今后可能只需要几小时的时间就可以完成。

除此之外,Dojo也给了人们更多的想象空间,虽然目前AGI通用人工智能的开发尚没有定论,但普遍的共识是需要人造智能把自己也包含在构筑的世界模型之中,也就是我们经常在科幻电影中看到的,产生自我意识。

高效的Dojo超算系统再加上“World Model”世界建模,让人工智能有望获得接近人类水平的“经验积累”,而这很可能就是打开AGI通用人工智能的钥匙。科幻电影才会出现的场景,这次也许真的可以“梦想照进现实”。

当然,只有类似特斯拉Dojo这样的技术探索,才是开启下一代人工智能的关键。


平台注册入口