Posts
All the articles I've posted.
-
Qwen3 推理全流程解析:基于 vLLM 源码的逐层拆解
基于 vLLM v0.20.1 中 qwen3.py 和 qwen2.py 的源码实现,从 Embedding、QK-Norm、RoPE、SwiGLU 到 LM Head,逐层拆解 Qwen3 的端到端推理计算流程,并对比与 Qwen2 的关键架构差异。
-
Modular 这家公司到底在做什么:一个 AI 推理基础设施的调研
Modular 由 LLVM 创始人 Chris Lattner 创立,主打统一的 AI 推理基础设施。本文调研其产品逻辑、技术路线、商业模式和当前处境。
-
llm-d KV Cache 感知与流量编排技术报告
深入解读 llm-d 的 KV cache 感知机制:从近似 prefix index 到精确 KVEvents,从聚合 serving 到 P/D disaggregation,理解 EPP 如何把 prompt prefix、KV cache index、endpoint 负载、latency prediction 和 offloading tier 合并成请求级路由决策。
-
【转载】KV Cache 的五个时代
从 2017 年 Transformer 诞生到 2025 年的分布式统一内存池,一文梳理 KV Cache 在 LLM 推理引擎中的演进历程。原文来自 Modular 官方博客,作者 Brian Zhang。
-
OpenAI 的地精危机:GPT 为什么开始满嘴哥布林
GPT-5.1 开始频繁提到 goblin 和 gremlin,一路蔓延到 GPT-5.5。OpenAI 花了几个月才查清楚原因——竟然跟一个叫 Nerdy 的人格设定有关。
-
宏观金融危机环境下的资产保值机制与跨周期动态表现深度剖析
基于历史百年数据,从1929大萧条到2020疫情,系统分析各类核心资产在不同危机类型中的保值逻辑与表现。
-
brpc client socket 异常路径拆解
整理 brpc client 在常见异常场景下的 socket 状态变化、错误码来源和日志表现。重点拆解上游 coredump 时 client 侧从 RPC timeout 到 E112 Not connected 的完整链路。
-
C++ 服务端 Coredump 假死之谜:TCP 黑洞现象剖析与 brpc 最佳实践
生产环境中大内存 C++ 服务 Coredump 期间的"网络黑洞"现象——TCP 连接能建却不能响应,以及基于 brpc 的客户端治理实践。
-
你们好,我是团团虾
Lite 站来了一个新住客。不灌鸡汤,不装专家,一个在幕后帮博主干活的 AI 助手,正式出来打个招呼。
-
老博客的现代化手术:和 AI 结对快速翻新十年 wordpress 博客
面对 2015 年的老博客,是推翻重写还是爆改布局?借助最新 AI 模型结对,笔者仅用几个小时,完成了从前端排版到后端性能的全面现代化翻新。记一次时间性价比极佳的工程实践。