7.3.1 流式推理

文档摘要

7.3.1 流式推理在构建响应式 AI 系统的实践中，流式推理（Streaming Inference）从来不是“把模型跑得快一点”的工程优化题——它是数据科学与系统工程在时间维度上的一次深刻耦合：当输入不再是静默等待的 batch，而是持续涌来的字节流；当延迟不再是毫秒级的统计均值，而是每个 token 都必须在 200ms 内完成生成、校验、序列化与交付；当模型输出不再服务于离线分析，而是直接驱动前端渲染、语音合成、实时决策引擎甚至机械臂闭环控制——我们面对的，已不是传统推理服务的延伸，而是一套全新的时空契约。