Skip to content
团子云技术 Lite 1.048596
Go back

Modular 这家公司到底在做什么:一个 AI 推理基础设施的调研

团团虾声明:基于 Modular 官网、官方博客及公开资料整理而成。不是广告——笔者对技术狠人的创业路线比较感兴趣,想了解他们的技术和商业逻辑,顺手整理成文。


如果你关注 AI 基础设施,可能在过去一两年里偶尔看到过 Modular 这个名字。它跟 LLVM、Swift、Mojo 这些关键词绑定在一起,创始人是编译器圈子里的大神 Chris Lattner。但 Modular 具体卖什么、技术路线是什么、现在走到哪一步了,网上的信息其实比较碎片化。

本文试着把它串起来,做一个相对完整的梳理。

公司背景:编译器大神的二次创业

Modular 成立于 2022 年,总部在西雅图。两位联合创始人都是 Google Brain / TensorFlow 体系出来的:

团队规模不大,官网 schema 标注的员工数在 50-200 人之间。2025 年 9 月,Modular 宣布完成 2.5 亿美元融资,累计融资达到 3.8 亿美元,估值 16 亿美元。Reuters 在报道中把它放在”挑战 NVIDIA 软件生态”的位置来看。这家公司从成立起就不差钱——创始人光环加上 AI 基础设施赛道的热度,融资一直比较顺利。

核心问题:AI 推理基础设施太碎了

Modular 给自己定位的”敌人”,不是某个具体的竞争对手,而是整个 AI 软件栈的碎片化

现在的 AI 推理生产环境,通常是这样拼凑起来的:一个框架做模型定义(PyTorch/TensorFlow),一个编译器做图优化(XLA/TorchInductor),一个运行时做调度(Triton/vLLM),一个服务层做 API 封装(FastAPI/Triton Inference Server),再加上一堆手写 CUDA kernel 处理特殊算子。每一层来自不同团队、不同项目,接口不统一,优化也不贯通。

Modular 的观点是:这种”东拼西凑”的架构,在模型规模和硬件种类继续膨胀的情况下,会越来越难维护、越来越低效。他们想做的是一个从 GPU kernel 到云服务的统一栈

产品矩阵:三层结构

Modular 的产品可以分成三层来看:

层级产品作用
语言层Mojo一门新语言,Python 语法 + 系统级性能,目标是写高性能 GPU/CPU kernel
框架层MAX统一的 AI 推理框架,覆盖图编译、kernel 调度、模型服务
服务层Modular Cloud托管推理服务,支持共享/专属端点,按 token 或按分钟计费

Mojo:Python 语法,C++ 性能

Mojo 是 Modular 最早出圈的东西。它的设计思路很直接:保留 Python 的语法和生态兼容性,但在需要性能的地方提供系统级控制能力。

几个关键特性:

Mojo 目前还没发布 1.0(计划 2026 年内),但已经开源了标准库和大量示例代码。2025 年,Modular 把 MAX 的 AI kernel(45 万行 Mojo 代码)和 Mojo 标准库都开源了,算是给社区吃了定心丸。

MAX:统一的推理引擎

MAX 是 Modular 的核心技术资产。它是一个端到端的推理框架,把几个通常分离的环节包在了一起:

  1. 图编译:把模型计算图编译成优化后的执行计划。
  2. Kernel 生成/调度:自动或手写 GPU kernel,统一管理内存和流水线。
  3. 服务层:内置 HTTP/gRPC 服务,支持动态批处理、请求路由、多模型编排。

MAX 的一个关键卖点是硬件可移植性。同一套代码可以在 NVIDIA、AMD、Intel、ARM、Apple Silicon 上运行,不需要为每个平台重写 kernel。官网给出的性能数据是:在 NVIDIA B200 上,Gemma 4 的推理吞吐量比 vLLM 高 15%;在 AMD MI355X 上,他们声称用了两周就做到了 SOTA 性能。

这个”两周上 AMD”的故事,Modular 讲了很多次。背后的技术支撑是 MAX 的统一抽象层——kernel 代码通过一层硬件无关的接口写,底层自动映射到不同 GPU 的 ISA 和内存模型。当然,这种抽象能覆盖多少实际场景、性能损耗有多大,还需要更多第三方验证。

Modular Cloud:托管推理服务

这是 Modular 的变现层。提供三种部署模式:

支持的模型包括 DeepSeek V4、Gemma 4、FLUX.2、Kimi K2.6 等。除了文本,还支持图像生成、语音合成、代码生成。

2026 年初,Modular 还推出了 Mammoth——一个 Kubernetes-native 的控制平面,面向企业级大规模 GenAI 部署,支持推理分离(disaggregated inference)、prefill-aware routing、智能路由、多模型编排。目前还在 preview 阶段。

商业模式:开源打底,云服务变现

Modular 的商业逻辑比较清晰:开源语言和框架建立生态,托管云服务赚钱

2026 年 2 月,Modular 收购了 BentoML——一个开源的模型服务框架,被 1 万多家组织使用,包括 50 多家 Fortune 500。这次收购补齐了 Modular 在”生产级服务层”的短板。BentoML 继续以 Apache 2.0 开源,但会和 MAX 做深度集成。

技术路线的几个看点

1. 从底层往上打

Modular 选择了一条跟大多数 AI 基础设施公司相反的路:从kernel 层开始构建,而不是从服务层往下包。

vLLM、SGLang、TGI(Text Generation Inference)这些项目,本质上是”在现有 PyTorch/CUDA 生态上搭服务层”。它们的优势是兼容性好、社区成熟。Modular 的做法是”重写底层”——用 Mojo 写 kernel,用 MAX 替代 PyTorch + Triton + vLLM 的组合。

好处是优化空间更大,没有历史包袱。风险是生态迁移成本高,开发者愿不愿意学一门新语言、换一个框架,是个未知数。对普通团队来说,vLLM 或 SGLang 可能已经够用,迁到 MAX/Mojo 的收益必须用真实 workload 证明。

2. 硬件中立是刚需还是卖点

Modular 反复强调”任何硬件,同一套代码”。这在当前的市场环境下确实是个痛点——NVIDIA 的 CUDA 生态太强势,AMD、Intel 的 GPU 在软件支持上一直吃亏。

但”硬件中立”的技术代价也不小。从 Modular 自己的博客可以看到,NVIDIA Blackwell 和 AMD MI355X 的线程模型(warp 32 vs wave 64)、寄存器分配(动态 vs 静态)、内存屏障(mbarrier vs s_barrier)、异步引擎(TMA vs load_to_lds)差异很大。MAX 的抽象层能把这些差异藏起来多少、性能损耗控制在什么范围,还需要更多实际 workload 的检验。官方文档也坦诚说明:生产级 LLM 仍强烈建议使用数据中心 GPU,硬件覆盖、模型覆盖、精度格式、量化路径都会影响可用性。

3. AI 编程代理的试验场

Modular 最近几个月的博客有一个有趣的趋势:他们在主动展示AI 编程代理(coding agents)在 MAX/Mojo 上的能力

比如 2026 年 4 月的一篇文章,记录了让 Claude、GPT、Gemini、Kimi、Qwen 五个前沿模型在 20 小时内重建 Wan 2.1 视频扩散管线——不用 PyTorch,只用 MAX/Mojo。结果是两个代理成功做出了能跑的管线。

这个实验的设计很巧妙:它同时证明了 MAX 的 API 对 AI 代理足够友好(agent-discoverable),也暗示了 Modular 的一个长期赌注——未来的 AI 基础设施可能不是人类手写 kernel,而是 AI 代理用高级语言自动生成和优化

当前处境:有亮点,也有问号

Modular 的 2025 年成绩单确实有不少硬货:AMD SOTA、NVIDIA Blackwell 性能记录、TTS 模型 latency 第一、45 万行 Mojo kernel 开源、BentoML 收购、2.5 亿刀融资。

但放到整个 AI 基础设施赛道来看,Modular 还处在证明阶段

一个工程师视角的观察

说实话,Modular 做的事情让我既兴奋又谨慎。

兴奋的是,Chris Lattner 团队确实在做一件”正确但困难”的事。AI 推理软件栈的碎片化是个真问题,不是伪需求。如果 MAX 能在保持硬件中立的同时做到接近手写 CUDA 的性能,那它的价值是巨大的。

谨慎的是,“统一栈”这条路历史上失败的项目比成功的多。LLVM 成功了,但 LLVM 花了十几年才成为业界标准。AI 赛道的节奏比编译器快得多,Modular 有没有足够的时间窗口来培育生态,是个未知数。

另一个观察是:Modular 的叙事在 2024-2025 年有一个明显的重心转移。早期更多是”Mojo 是一门革命性的语言”,后来逐渐变成”MAX 是一个统一的推理平台”,最近又加入了”Modular Cloud 是生产级推理服务”。这种从”技术”到”产品”到”商业”的叙事演进,说明公司本身也在快速调整定位。

适合谁,不适合谁

Modular 不是万能药。从产品和商业模式来看,它更适合这几类客户:

不太适合:轻量调用通用模型 API、推理账单还不大、vLLM/SGLang 已经满足需求、团队缺少推理优化能力的场景。

参考链接


Share this post on:

Previous Post
AI 存储革命:从 HBM 阴影里走出来的新主战场
Next Post
llm-d KV Cache 感知与流量编排技术报告