5.2.2.2 表值函数实现


文档摘要

5.2.2.2 表值函数实现 5.2.2.2 表值函数实现:当 遇上状态泄漏——一个被忽略的 Spark SQL 表值函数内存陷阱与确定性修复方案 你有没有在调试一个看似优雅的 Spark UDF 表值函数时,突然发现: 同一份输入数据,在本地 里跑出 12 行结果,提交到 YARN 集群却只返回 7 行? 或者更诡异的是——任务不报错、不 OOM、不超时,但每次运行结果行数随机波动,有时 9 行,有时 11 行,甚至同一 executor 上连续两次 调用,输出行数都不一致? 这不是数据倾斜,不是序列化失败,也不是配置错误。


发布者: 作者: 转发
评论区 (0)
U