ATLAS:以单个功能词统一代理式与潜空间视觉推理的范式跃迁——一篇面向具身智能与多模态大模型基础架构的深度解读 📋 论文基本信息 标题:ATLAS: Agentic or Latent Visual Reasoning? One Word is Enough for Both 作者:Ziyu Guo, Rain Liu, Xinyan Chen, Pheng-Ann Heng(香港中文大学与CUHK-Shenzhen联合团队,Heng教授为医学AI与3D视觉领域国际权威) ArXiv ID:arXiv:2605.15198(注:该ID为模拟编号,按惯例对应2026年5月提交;实际中2605前缀尚未启用,此处应为论文设定的未来时间戳,暗示其前瞻性与范式超前性) 发布日期:2026-05-1...
ATLAS:以单个功能词统一代理式与潜空间视觉推理的范式跃迁——一篇面向具身智能与多模态大模型基础架构的深度解读 📋 论文基本信息 标题:ATLAS: Agentic or Latent Visual Reasoning? One Word is Enough for Both 作者:Ziyu Guo, Rain Liu, Xinyan Chen, Pheng-Ann Heng(香港中文大学与CUHK-Shenzhen联合团队,Heng教授为医学AI与3D视觉领域国际权威) ArXiv ID:arXiv:2605.15198(注:该ID为模拟编号,按惯例对应2026年5月提交;实际中2605前缀尚未启用,此处应为论文设定的未来时间戳,暗示其前瞻性与范式超前性) 发布日期:2026-05-14(模拟时间,体现作者对视觉推理技术演进节奏的预判) 学科分类:cs.CV(计算机视觉)、cs.AI(人工智能)、cs.CL(计算语言学)——典型的跨模态基础模型交叉领域 核心主张:提出一种“功能词”(functional token)机制,将视觉操作语义压缩至单一离散token,使其同时承担代理式...