金年会登录入口-Meta推出自研AI芯片，专攻生成式AI推理任务

作为该系列芯片中最先进的型号，MTIA 500 在处理 MX8 格式数据时，性能可达 10 拍字节每秒（Petaflops），同时还支持效率更高的 MX4 数据格式。后者通过减少 AI 模型响应提示词时需分析的字节数量，实现了处理速度的提升。MX 系列数据格式属于微缩向量类型，MX4 格式以 3 位尾数共享 8 位指数的设计，在保证模型效果的前提下最大化压缩数据量，是生成式 AI 推理的关键优化技术之一。

MTIA 500 采用四颗逻辑芯粒（Chiplet）执行计算任务，芯粒周围环绕着多堆叠高带宽内存（HBM），总存储容量高达 516 吉字节（GB），是前代产品 MTIA 300 的两倍。该处理器的核心组件还包括一颗系统级芯片（SoC）芯粒，负责与主机服务器进行信息传输，实现数据的双向流转。

MTIA 500 预计将于 2027 年投产，同期推出的还有性能稍低的同系列芯片 MTIA 450。这两款处理器均针对生成式 AI 推理工作负载进行了专项优化，内置专用电路以加速推理流程中硬件密集型的关键环节，例如闪存注意力机制（FlashAttention）—— 这是大型语言模型（LLM）分析输入数据时采用的主流注意力机制实现方案，通过分块计算、算子融合等创新设计，将传统注意力机制的内存复杂度从 O (N²) 降低至 O (N)，大幅提升长文本处理效率。

Meta 工程师表示：“在系统层面，MTIA 400、450 和 500 共享相同的机架、机柜和网络基础设施。因此，新一代芯片可直接适配现有物理部署环境，加速从芯片研发到量产部署的转化进程。我们采用的模块化、可复用设计，还能最大限度减少多代芯片研发与部署所需的资源投入。” 这种统一架构设计让 Meta 的数据中心无需大规模改造，即可实现芯片的无缝升级，降低了技术迭代的成本与风险。

为充分发挥 MTIA 芯片的性能潜力，Meta 开发了定制化编译器，用于对 AI 模型进行针对性优化。另一款定制软件模块 ——“Hoot” 集体通信库（Hoot Collective Communications Library），则负责管理处理器间的数据流转。该库采用近内存计算架构，利用内存单元附近的晶体管执行特定计算任务，缩短了数据传输距离，进而提升了整体性能。这一设计贴合 AI 计算 “数据搬运耗时占比高” 的痛点，通过硬件与软件的协同优化，进一步释放算力。

值得关注的是，此次自研芯片发布距 Meta 与英伟达达成数十亿美元的处理器采购协议尚不足一个月。Meta 此举旨在构建 “商用 GPU + 自研芯片” 的混合算力架构，既满足自身快速增长的 AI 计算需求，又降低对单一供应商的依赖，形成多元化的供应链布局。

-金年会登录入口