3.1.3.2.3 Braintrust

文档摘要

3.1.3.2.3 Braintrust 3.1.3.2.3 Braintrust：面向智能体执行过程的高保真追踪与评估体系在构建基于大型语言模型（LLM）的智能体系统时，我们常常面临一个根本性挑战：如何有效理解、调试并持续优化这些“黑箱”代理的行为？尤其是在 OpenAI Agents Python 框架下，智能体不仅调用 LLM，还可能串联多个工具、执行多轮推理、进行动态决策——其执行路径复杂且高度上下文依赖。此时，传统的日志记录已远远不够；我们需要一种能够完整还原执行轨迹、精确捕获中间状态、支持定量评估与人工反馈闭环的追踪基础设施。这正是 Braintrust 在外部追踪处理器集成中所扮演的关键角色。