4.3.2 深度学习架构

文档摘要

4.3.2 深度学习架构在解码模型的工程实践中，我们常陷入一种错觉：模型越深、参数越多、结构越新，效果就一定越好。但真实世界里，一个在ImageNet上准确率98%的ViT模型，放到工业级OCR解码任务中可能连行切分都对不齐；一个在WMT上BLEU值破40的Transformer-XL，在车载语音后处理场景下却因延迟超标被直接砍掉——解码不是模型能力的秀场，而是约束条件下的最优求解：低延迟、高鲁棒、可解释、易部署、能回滚。这正是“4.3.