verl-multiturn-searchR1-like_ZH

文档摘要

Search-R1 & veRL-SGLang：Train LLMs with Multi-Turn RL to Reason and Call a Search Engine 大家好，SGLang 社区联合 Search R1 团队基于先前开源的 multi-turn RL 快速复现了 Search-R1: Training LLMs to Reason and Leverage Search Engines with Reinforcement Learning，欢迎大家上手体验，共同开发。具体来说，我们实现了如下的功能：先前 SGLang 社区已经实现了工具调用，支持在 Actor rollout 期间，让模型能够调用特定工具，并将返回结果无缝地融合到训练流程中。