1.3.1 InferenceSession:生命周期与上下文管理 在深度学习推理引擎的精密齿轮组中, 不是接口、不是抽象类、更不是一句轻飘飘的“会话对象”——它是模型从静态图谱跃入动态执行世界的第一道闸门,是内存、设备、上下文、状态与调度策略交汇的活体枢纽。你调用一次 ,看似只是一次函数跳转;但背后,是数十个子系统在毫秒级完成对齐:CUDA流同步、TensorRT引擎上下文绑定、ONNX Runtime 的 Execution Provider 切换、内存池分配策略触发、输入张量的零拷贝视图映射、异步队列的优先级仲裁……这一切,都由 的生命周期与上下文管理机制无声承载。 这不是一个“创建—运行—销毁”的线性剧本。