3.3.2 非线性降维与可视化:t-SNE, UMAP


文档摘要

3.3.2 非线性降维与可视化:t-SNE, UMAP 在高维数据的迷宫中穿行,我们常被一种直觉牵引:真实世界的结构不该如此“臃肿”。一个基因表达矩阵动辄上万维,一张ResNet-50提取的图像特征向量有2048维,而用户行为序列嵌入甚至可达768或1024维——可人类视觉系统只擅长处理二维或三维空间里的形状、距离与聚类。于是,降维不再是锦上添花的预处理步骤,而是一场必须完成的语义解压:它要保留那些让样本“彼此靠近”或“泾渭分明”的本质关系,同时把冗余的、噪声的、线性不可分的维度悄然抹去。 但当PCA(主成分分析)在手,我们很快会撞上一堵墙:它只能发现全局线性结构。


发布者: 作者: 转发
评论区 (0)
U