在生成式AI规模化落地过程中,推理环节的成本控制与性能平衡成为企业核心诉求。AWS自主设计的Inferentia芯片,以“高性能+低成本”为核心定位,在Amazon EC2实例中构建起高效的深度学习推理解决方案,成为众多企业部署AI应用的优选算力支撑。

Inferentia芯片历经两代迭代,性能与成本优势持续升级。第一代Inferentia芯片为Amazon EC2 Inf1实例提供支持,与同类实例相比,吞吐量提升多达2.3倍,每次推理成本降低70%,已被Finch AI、Sprinklr、Amazon Alexa等客户广泛采用,验证了其在实际场景中的实用性。升级后的Inferentia2芯片实现性能跨越式提升,吞吐量较初代提高4倍,延迟低至前者的1/10,基于该芯片的EC2 Inf2实例成为首个支持横向扩展分布式推理的推理优化实例,通过芯片间超高速连接,可高效部署大语言模型(LLM)、潜在扩散模型等复杂模型。
硬件参数的优化的是Inferentia竞争力的核心支撑。Inferentia2芯片搭载两个第二代NeuronCore,每个芯片支持高达190万亿次浮点运算(TFLOPS)的FP16性能,配备32GB HBM内存,较初代实现内存容量4倍、内存带宽10倍的提升,为处理海量模型参数提供坚实基础。在数据类型支持上,Inferentia2新增FP32、TF32及可配置FP8(cFP8)类型,配合AWS Neuron SDK的自动转换功能,可将高精度FP32模型自动转换为低精度格式,在保障准确性的同时优化性能,无需额外进行低精度再培训,大幅缩短上市时间。
生态适配与场景落地能力进一步放大了Inferentia的价值。Neuron SDK与PyTorch、TensorFlow等主流机器学习框架原生集成,开发者可沿用现有代码与工作流程,降低迁移成本,避免供应商绑定。在实际应用中,Leonardo.ai通过采用Inferentia2,在不牺牲性能的前提下将成本降低80%,彻底重构价值主张;Metagenomi借助该芯片将大规模蛋白质设计成本降低56%;NetoAI实现300-600毫秒的低推理延迟,为实时AI服务提供保障。此外,Inferentia2还针对动态输入大小、自定义运算符进行硬件优化,支持随机舍入技术,兼顾高性能与高精度,同时Inf2实例较同类产品实现50%的性能功耗比提升,助力企业达成可持续发展目标。