第 7 章 多模态记忆摄入 智能体的输入不止聊天文字。memU 内置对话、文档、图片、视频、音频五条预处理管道——本章讲清每种模态的行为、配置要点与典型场景。 7.1 多模态在记忆中的价值 所有模态最终汇聚为 文本描述(caption),再进入同一套提取流水线。检索侧无需区分模态——除非你要按 过滤。 7.2 五种 modality 对照 modality | 输入示例 | 预处理 | 典型 memorytype | 聊天 JSON、消息列表 | 解析 role/content | profile, event | Markdown、PDF 文本、日志 | 纯文本提取 | knowledge, tool | PNG、JPG、截图 | Vision 模型 caption |