5.1.1 LLM 推理流水线(Tokenization, Generation, Sampling) 在Intel OpenVINO生态中,GenAI扩展库的诞生不是一次简单的功能叠加,而是一场面向LLM推理场景的底层重构——它把过去分散在PyTorch、Transformers、vLLM甚至自定义C++后端中的推理逻辑,重新锚定在OpenVINO原生IR(Intermediate Representation)与硬件感知调度器的交汇点上。当我们聚焦于“5.1.1 LLM 推理流水线(Tokenization, Generation, Sampling)”这一环节时,绝不能将其视为三个孤立模块的线性拼接;它实则是一个由语义约束驱动、内存布局敏感、计算图可重配、采样策略可插拔的闭环反馈系统。