5.1.3 处理器架构:FPGA + DSP + GPU 的并行计算 在嵌入式系统演进的漫长征途中,我们曾习惯于将“实时性”交给DSP,“灵活性”托付给FPGA,“吞吐量”押注于GPU——仿佛三座孤岛,各自矗立于性能光谱的不同岸线。但当毫米波雷达点云实时聚类、4D成像声呐的空时联合滤波、或工业级高光谱图像在线端到端解混成为刚需,单一架构的边际效益早已触顶:DSP在1024×1024×256维张量卷积中陷入指令流水线气泡;GPU面对微秒级确定性中断响应束手无策;FPGA虽可定制数据通路,却在浮点密集型迭代算法(如共轭梯度法求解稀疏线性系统)中因缺乏原生双精度FP64单元而反复折返于定点缩放与溢出校验之间。