verl-multiturn-searchR1-like_ZH


文档摘要

Search-R1 & veRL-SGLang:Train LLMs with Multi-Turn RL to Reason and Call a Search Engine 大家好,SGLang 社区联合 Search R1 团队基于先前开源的 multi-turn RL 快速复现了 Search-R1: Training LLMs to Reason and Leverage Search Engines with Reinforcement Learning,欢迎大家上手体验,共同开发。具体来说,我们实现了如下的功能: 先前 SGLang 社区已经实现了工具调用,支持在 Actor rollout 期间,让模型能够调用特定工具,并将返回结果无缝地融合到训练流程中。


发布者: 作者: 转发
评论区 (0)
U