Tag: 技术
All the articles with the tag "技术".
-
从 Softmax 梯度消失到 KV Cache 的深度解密:拆解 Transformer 的时空内幕
从 Softmax 导数陷阱出发,推导自注意力的物理本质,并揭开 KV Cache 将大模型推理复杂度降低一个维度的工程奥秘。
-
深入大模型底层:从残差洪流到 Softmax 瓶颈的架构演进
深度拆解 Transformer 解码器中最核心的四个数据阀门:Input RMSNorm、残差连接、Final Norm 以及 Softmax 层,探究它们如何协同工作治理深度网络中的数值洪流。
-
深入浅出 Softmax:从大语言模型、图像分类到推荐系统的“万能概率转换器”
梳理 Softmax 在 LLM、图像分类和推荐系统三大核心领域的应用逻辑与工程实践差异。