特斯拉超算核心D1芯片,自主研发的神经网络训练 - UWB芯片实验室

特斯拉超算核心D1芯片,自主研发的神经网络训练

特斯拉自己开发超级计算机,并且将于2023年7月投入生产,有媒体认为未来特斯拉或许不再依赖英伟达。

特斯拉的人工智能团队最近公布了关于特斯拉定制超级计算机平台Dojo的产品进展时间线。据官方表示,该计算机预计将在今年7月开始投入生产,并计划在2024年初成为全球先进的五台超级计算机之一。

此举被业内视为特斯拉在AI领域的又一大动作。目前,英伟达A100等GPU芯片在人工智能领域拥有绝对话语权,但特斯拉自研人工智能训练和推断芯片或许可以降低对传统芯片公司的依赖。

为了计算和处理FSD数据,特斯拉采购了大量由英伟达GPU构成的大型超级计算机,以实现更完善的自动驾驶模型。单单依靠外部硬件来支撑日益增长的算力需求已经变得力不从心,特斯拉也因此坚定了自主开发超算的决心。2020年,马斯克首次提出Dojo的概念,正式开始向超算领域进军。

这一芯片采用7nm制程工艺,搭载超过500亿个晶体管和354个训练计算节点,具备超高的带宽——基于这一特性,Dojo超算的每个训练模块将由25个D1芯片组成。

Dojo是特斯拉在2021年人工智能日(AI Day)上推出的一款专门用于人工智能机器学习的超级计算机,它使用特斯拉设计的芯片和整个基础设施,以及来自特斯拉车队的视频数据进行神经网络能力训练,这些训练对于支持特斯拉自动驾驶工作的计算机视觉技术至关重要。

软件是自动驾驶的关键,特斯拉正在通过“自动驾驶软件”FSD的销售来推动公司利润率的提升。此前,特斯拉已经在使用由英伟达的NVIDIA GPU驱动的大型超级计算机来处理FSD自动驾驶数据。

具体而言,英伟达的这台超级计算机由720块NVIDIA A100板组装而成,其中每一块板拥有8个NVIDIA A100 GPU,GPU总数量达到5760个,具有1.8 exaflops性能,也是目前世界上最快的超级计算机之一。该系统执行的任务之一是“自动标记”,即为原始数据添加标签,使其成为决策系统的一部分。

但现在,特斯拉承诺Dojo将大幅加快这些模型的改进速度,声称只需4个Dojo系统机柜就可以完成与放在72个机架中的4000个GPU相当的自动标记工作。特斯拉计划在其帕洛阿尔托数据中心部署7个由Dojo系统机柜组成的集群,并将其命名为exapod。每个exapod由10个Dojo机柜组成,能执行1.1exaflops的任务,7个exapod处理能力将接近8 exaflops,主要用于处理特斯拉自动驾驶汽车的AI模型。

特斯拉所说的即将投入生产的就是指首台由10个Dojo机柜组成的Dojo exapod系统,但尚未透露另外6台何时会进入生产。业内预计,当Dojo超级计算机开始交付后,可能会看到特斯拉FSD更快的迭代和改进。

据介绍,Dojo由“图块”组成,工作方式与基于CPU或基于GPU的超级计算机有很大不同。特斯拉称,Dojo的D1芯片模块并不是由很多较小的芯片组合在一起,而是一个具有354个内核的大型芯片组成,专门针对AI和机器学习,每个Dojo机柜可容纳4248个内核,10个机柜的组成的exapod可容纳42480个内核。因此对于相同的数据中心占用空间来说,Dojo要比CPU或者GPU快几个数量级。

在这样的算力硬件支撑下,特斯拉将有能力处理更大量的FSD数据,迭代更新更加完善的自动驾驶模型。

欢迎投稿至UWB芯片实验室uwblab.cn

发表回复

您的电子邮箱地址不会被公开。 必填项已用 * 标注