Posts
All the articles I've posted.
-
Mooncake TE 阅读手记-07-RDMA 寻址深度解析
RDMA rkey+addr 缺一不可的原理、target_offset 的真实含义(远端虚拟地址)、cpu:0 的 NUMA 拓扑作用
-
Mooncake TE 阅读手记-06-Segment 与元数据发现
Segment 概念深入、openSegment 底层流程(从 etcd 拉取→缓存分配)、registerLocalMemory 的完整链路
-
Mooncake TE 阅读手记-05-最小 C++ 示例全解
端到端可编译运行的 Mooncake Transfer Engine 最小示例,逐行解读 target 和 initiator 角色的完整代码流程
-
Mooncake TE 阅读手记-04-Mooncake Store 分层 KV 存储
基于 Transfer Engine 的分布式 KV Cache 对象存储:初始化/注册/挂载/传输四阶段、SSD 三层存储、远端 SSD 读的 TE 配合
-
Mooncake TE 阅读手记-03-TENT 与经典 TE 架构演进
Transfer ENgine nexT(v2 重构版)与经典 TE 在配置、分层、容错、并发、抽象、可观测性六个维度的全面对比
-
Mooncake TE 阅读手记-02-Buddy Allocator 与两层池化
TransferEnginePy 的 Buddy Allocator 与 Store 的 ClientBufferAllocator 两层独立内存池设计
-
Mooncake TE 阅读手记-01-Buffer Segment Slice 三层抽象
Transfer Engine 最核心的三层数据抽象:Buffer(已注册内存块)、Segment(可发现数据空间)、Slice(传输最小粒度),严格的嵌套关系
-
高性能线程模型梳理
从数据传输和网络框架的角度,梳理常见高性能线程模型的职责划分与适用场景
-
【转载】自回归下一个 token 预测与 Transformer 中的 KV Cache
深入浅出地讲解 Transformer 中的 KV Cache 原理:从 prefill 前向传播到 decode 阶段的缓存复用,图解自回归语言模型如何高效生成 tokens。
-
【转载】推理的下一级:为什么你的单节点 vLLM 需要 Prefill-Decode 分离
AMD 与 Embedded LLM 联合展示:在单台 8-GPU MI300X 节点上通过 MORI-IO 实现 PD 分离,Goodput 提升 2.5 倍,消除 ITL 尖峰。