Posts

All the articles I've posted.

Mooncake TE 阅读手记-01-Buffer Segment Slice 三层抽象

26 May, 2026

Transfer Engine 最核心的三层数据抽象：Buffer（已注册内存块）、Segment（可发现数据空间）、Slice（传输最小粒度），严格的嵌套关系
高性能线程模型梳理

26 May, 2026

从数据传输和网络框架的角度，梳理常见高性能线程模型的职责划分与适用场景
【转载】自回归下一个 token 预测与 Transformer 中的 KV Cache

21 May, 2026

深入浅出地讲解 Transformer 中的 KV Cache 原理：从 prefill 前向传播到 decode 阶段的缓存复用，图解自回归语言模型如何高效生成 tokens。
【转载】推理的下一级：为什么你的单节点 vLLM 需要 Prefill-Decode 分离

21 May, 2026

AMD 与 Embedded LLM 联合展示：在单台 8-GPU MI300X 节点上通过 MORI-IO 实现 PD 分离，Goodput 提升 2.5 倍，消除 ITL 尖峰。
tokenspeed：用眼睛感受 LLM 的 token 生成速度

21 May, 2026

一个让你用眼睛感受 token 生成速度的小工具，从 5 tok/s 到 800 tok/s，按数字键就能切换
【转载】用 vLLM × Mooncake 规模化服务 Agentic 工作负载

20 May, 2026

vLLM 团队与 Mooncake 合作，通过分布式 KV cache 池将 Agentic 推理吞吐提升 3.8 倍、TTFT 降低 46 倍，在 60 块 GB200 GPU 上近线性扩展。
【转载】00年互联网泡沫，半导体都发生了什么？悲剧重演？历史已给出答案！

19 May, 2026

美投讲美股对2000年互联网泡沫期间半导体行业兴衰的深度复盘，并与当下AI半导体行情进行全面对比。
为什么 FFN 不需要 KV Cache——兼谈 Prefill 与 Decode 的计算本质

18 May, 2026

从 FFN 为什么不需要缓存这一问题出发，串起因果掩码、计算瓶颈、以及 Prefill 与 Decode 在 GPU 上的根本差异。
从 Softmax 梯度消失到 KV Cache 的深度解密：拆解 Transformer 的时空内幕

18 May, 2026

从 Softmax 导数陷阱出发，推导自注意力的物理本质，并揭开 KV Cache 将大模型推理复杂度降低一个维度的工程奥秘。
深入大模型底层：从残差洪流到 Softmax 瓶颈的架构演进

18 May, 2026

深度拆解 Transformer 解码器中最核心的四个数据阀门：Input RMSNorm、残差连接、Final Norm 以及 Softmax 层，探究它们如何协同工作治理深度网络中的数值洪流。

Posts

Mooncake TE 阅读手记-01-Buffer Segment Slice 三层抽象

高性能线程模型梳理

【转载】自回归下一个 token 预测与 Transformer 中的 KV Cache

【转载】推理的下一级：为什么你的单节点 vLLM 需要 Prefill-Decode 分离

tokenspeed：用眼睛感受 LLM 的 token 生成速度

【转载】用 vLLM × Mooncake 规模化服务 Agentic 工作负载

【转载】00年互联网泡沫，半导体都发生了什么？悲剧重演？历史已给出答案！

为什么 FFN 不需要 KV Cache——兼谈 Prefill 与 Decode 的计算本质

从 Softmax 梯度消失到 KV Cache 的深度解密：拆解 Transformer 的时空内幕

深入大模型底层：从残差洪流到 Softmax 瓶颈的架构演进