6.2.2 跨数据源Join与谓词下推 6.2.2 跨数据源Join与谓词下推 在现代数据湖仓架构中,数据不再集中于单一系统,而是分散在关系型数据库、对象存储、NoSQL引擎甚至流处理平台之中。当用户发起一条看似简单的SQL查询,例如“找出上月销售额超过10万元的客户及其订单明细”,这条语句背后可能涉及MySQL中的客户表、S3上的Parquet订单日志、以及Redis中的实时库存状态。此时,跨Catalog联邦查询便成为刚需,而其中最核心、也最具挑战性的技术环节,莫过于跨数据源的Join操作与谓词下推(Predicate Pushdown)优化。 若不加以优化,这类查询极易退化为“全量拉取+本地Join”的暴力模式——不仅网络带宽被海量中间数据压垮,计算资源也在无谓搬运中耗尽。