本栏推荐

相关阅读

快讯信息

您现在的位置是:主页 > 汽车快讯 > 特斯拉 >

特斯拉推出D1人工智能芯片:涵盖500亿晶体管及400W热设计功耗

发布时间:2021年08月22日 19:25:24 特斯拉 人已围观

简介在最近的特斯拉AI日活动上,特斯拉展示了其新推出的AI训练芯片“D1”,该芯片规模庞大且令人惊叹。D1芯片采用台积电7nm工艺制造,核心面积达到645平方毫米,仅次于NVIDIA Ampere架构的...

在最近的特斯拉人工智能日活动中,特斯拉展示了他们的新型AI训练芯片“D1”,其规模令人惊叹。

这款芯片是采用台积电7纳米制程工艺制造,核心面积达到645平方毫米,仅次于NVIDIA Ampere架构的A100超级计算核心(826平方毫米)和AMD CDNA2架构的Arcturus核心(约750平方毫米),其集成的晶体管数目高达500亿个,约为Intel Ponte Vecchio计算芯片的一半。

芯片内部的布线总长度超过11英里,换算下来大约是18公里。

该芯片集成了四个64位超标量CPU核心,提供高达354个训练节点,特别设计用于执行8×8乘法,支持如FP32、BFP64、CFP8、INT16和INT8等多种数据指令格式,主要应用于AI训练。

特斯拉表示,D1芯片的FP32单精度浮点运算性能可达每秒22.6万亿次(22.6TFlops),而BF16/CFP8的计算性能则提升至362TFlops(每秒362万亿次)。

为了满足AI训练的扩展需求,该芯片的互联带宽惊人,可达到10TB/s,由576个通道组成,每个通道的带宽为112Gbps。

所有这些的实现,设定的热设计功耗仅为400W。

特斯拉D1芯片能够通过DIP(Dojo接口处理器)进行互连,25颗构成一个训练单元(Training Tile),而多个训练单元可以进一步连接,单个单元对外带宽可达36TB/s,双向带宽则为9TB/s。

如此巨型设计,其耗电与散热能力也非常庞大,电流可达到18000A配合一个矩形散热解决方案,散热能力高达15kW。

特斯拉在活动中还展示了实验室内的一种训练单元,其运行频率为2GHz,最高计算性能可达到9PFlops(每秒9千万亿次)。

利用D1芯片,特斯拉打造了AI超级计算机“ExaPOD”,其配备有120个训练单元、3000颗D1芯片,以及1062000个训练节点,峰值FP16/CFP8训练性能可达到1.1EFlops(每秒110亿亿次计算)。

竣工后,这台计算机将成为全球最快的AI超级计算机,与特斯拉目前基于NVIDIA方案的超级计算机相比,成本大致相当,但性能提升四倍,能效提升1.3倍,体积则缩小至五分之一。

Tags: CPU处理器  特斯拉