Mini-SGLang 源码解析(五):注意力机制系统
Mini-SGLang 源码解析(四):GPU 计算引擎系统
Mini-SGLang 源码解析(三):调度系统详细实现
Mini-SGLang 源码解析(二):推理流程与多进程架构
Mini-SGLang 源码解析(一):核心数据结构与设计模式
Mini-Infer (35): 插件架构实战 — 从旧架构到新架构的迁移
Mini-Infer (34): 插件架构 (下) — PluginRegistry 与自动注册
Mini-Infer (33): 插件架构 (中) — CRTP 基类与静态多态
Mini-Infer (32): 插件架构 (上) — IPlugin 接口设计
Mini-Infer (31): CUDA 后端支持 (下) — TensorRT 风格权重预加载
Mini-Infer (30): CUDA 后端支持 (中) — CUDADeviceContext 与异构执行环境
Mini-Infer (29): CUDA 后端支持 (上) — CUDAAllocator 与显存管理
Mini-Infer (28): Core 数据结构优化 — Storage 与 Tensor 分离
Mini-Infer (27): 运行时架构重构 (下) — ExecutionContext 与零拷贝执行
Mini-Infer (26): 运行时架构重构 (上) — InferencePlan 与 Build-Time 优化
Mini-Infer (25): 动态形状的基石 — `OptimizationProfile` 设计与实现
avatar
James He
#远离喧嚣 向野而生#
Follow Me
公告
当你穿过了暴风雨,你就不再是原来的那个人了
充实每一天