这篇文章我们来看下国产GPU的性能,主要是结合关老师在知识星球”半导体综研:专业数据分享“中统计的GPU的官方性能数据以及本营的一些调研纪要。
最近几年做GPU/NPU的厂商,凡是找TSMC代工的,基本都不敢公布自己的实际参数了;其实即便是官方之前公布的参数,我们也不能信以为真,往往公布的参数和实际的表现会有较大差距。

单看算力,再后面就是昆仑芯、沐曦、平头哥和寒武纪。其实根据本营的纪要,海光BW100的性能表现也非常不错,这个表中没有统计。
根据本营的纪要,寒武纪590的性能相较于英伟达H800约为30%-35%,具体表现取决于其片上网络交换芯片的设计质量。海光 BW100的深算能力约为400多T,相当于H800的50%左右。而910C经过测试,其性能大致达到H800的60%。
总体来看,910C在这三款卡中性能表现相对更优。 海光BW100作为一款全精度计算卡,其单卡可用性能实测达到87%左右,而寒武纪590能否达到80%尚不确定。此外,海光BW100采用了较为先进的交换芯片设计,在单卡上传方面表现良好。需要注意的是,寒武纪590推出时间 早于海光BW100,因此后者在技术更新和优化上具有一定优势。
在本营的一个纪要中,曾给出了这样的性能排名:第一位是910C;第二位是海光BW100C;第三位是华为910B;第四位是公司的卡(百度、阿里的自研卡);第五位是寒武纪;第六位包括沐曦和天数智芯等其他厂商产品。其他大未测试过。
价格方面,目前市场上海光BW100目前采购价格约为10万元/张,而910B和910C分别为7万和18万元左右。寒武纪590则从最初报价8 万-8.5万元下降至6万-7万元之间。由于很多参数并未官方公布,下表中的参数仅供参考。
从显存上来看,国内GPU大部分最新的产品都是使用HBM2e,受制裁的影响,没办法使用最先进的HBM3e。在推理任务中,显存是首要考虑的指标。推理模型在启动时需要足够的显存支持,如果显存容量不足,模型将无法启动,这直接导致后续推理任务无法进行。只有在模型成功启动后,才会进一步考量算力、性能和显存带宽等因素对实际处理能力的影响。但扩展HBM高带宽显存容量其实难度并不是很大,还是要看验证的稳定性上,所以在下面这个表格上,可以看到其实大家的显存容量都能做到64GB。
但在显存带宽上,华为就遥遥领先了。