Tag: 推理
All the articles with the tag "推理".
-
Qwen3.5 推理全流程解析:基于 vLLM 源码的混合架构逐层拆解
基于 vLLM 源码分析 Qwen3.5 的 Hybrid 架构:Full Attention 与 GatedDeltaNet Linear Attention 交替混合、Dense MLP 与 Sparse MoE 双 FFN 变体,从输入嵌入到 logits 输出的完整推理计算流程。
-
Qwen3 推理全流程解析:基于 vLLM 源码的逐层拆解
基于 vLLM v0.20.1 中 qwen3.py 和 qwen2.py 的源码实现,从 Embedding、QK-Norm、RoPE、SwiGLU 到 LM Head,逐层拆解 Qwen3 的端到端推理计算流程,并对比与 Qwen2 的关键架构差异。