高维数据降维可视化中决策边界的测度估计与几何分析 1. 项目概述从高维数据到几何直觉最近在整理一些机器学习模型的可解释性工作时我反复遇到一个核心的几何问题当我们试图理解一个在高维特征空间比如几百甚至上千维中运作的分类器时模型本质上是在用一系列“超平面”对这个空间进行切割。每一个决策边界都可以看作一个超平面。一个很自然的想法是我们能不能把高维空间中的数据点“投影”到某个我们更容易理解的、维度更低的子空间比如一个平面或一条直线上同时还能保留原始超平面所施加的“分类”或“划分”信息这个想法引出了“高维空间超平面限制投影”这一操作。简单来说“高维空间超平面限制投影的测度估计与几何分析”这个标题描述的就是一套方法论旨在解决这样一个问题当你把一个高维数据集通过某个线性或非线性映射投影降维到低维空间进行可视化或分析时如何量化并理解原始高维空间中那些至关重要的分类边界即超平面在降维后的形态、有效性及其对数据分布的影响这里的“测度估计”关注的是投影后原本由超平面划分的各个区域其数据点的“比例”、“密度”或“体积”等度量发生了怎样的变化“几何分析”则深入探究投影本身如何扭曲了空间的几何结构比如超平面变成了什么形状数据点之间的相对位置和分类一致性是否得以保持这绝不是一个纯理论的数学游戏。在数据科学、机器学习、生物信息学乃至金融风控的实践中我们每天都在面对高维数据。例如一个基于文本的垃圾邮件过滤器其词袋模型特征可能高达数万维。我们训练出一个SVM支持向量机其核心就是找到一个最优超平面来分隔“垃圾邮件”和“正常邮件”。当我们想向业务方解释这个模型为什么把某封邮件判为垃圾时常用的t-SNE或UMAP降维图虽然漂亮但图中的每一个点簇已经和原始空间中SVM的那个精确的超平面边界失去了直接、可量化的联系。我们看到的分离可能是降维算法“创造”的假象也可能扭曲了真实的决策难度。本项目探讨的正是如何在这种降维可视化中找回并评估那个“消失的边界”从而让高维模型的可解释性不仅仅停留在“黑箱”的输入输出层面而是能落实到可感知、可测量的几何层面。2. 核心思路从投影失真到测度补偿整个工作的核心思路可以类比为制作一张世界地图。地球是三维球面地图是二维平面。把球面投影到平面上必然会产生失真面积失真、角度失真、距离失真。著名的墨卡托投影保持了方向和角度对于航海至关重要但严重扭曲了高纬度地区的面积格陵兰岛看起来和非洲差不多大。我们的高维空间到低维空间的投影同样存在各种“失真”。2.1 问题定义与挑战拆解假设我们有一个高维空间 $\mathbb{R}^D$$D$ 很大其中定义了一个超平面 $H: \mathbf{w}^T \mathbf{x} b 0$它将空间划分为正负两个半空间 $H^$ 和 $H^-$。同时我们有一个数据集 $X {\mathbf{x}_i} \subset \mathbb{R}^D$以及一个投影函数 $P: \mathbb{R}^D \to \mathbb{R}^d$其中 $d \ll D$通常 $d2$ 或 $3$ 以便可视化。我们计算了低维表示 $Y {P(\mathbf{x}_i)}$。现在直接观察 $Y$我们失去了 $H$ 的明确信息。我们面临的挑战是边界形态的扭曲超平面 $H$ 在经过投影 $P$ 后在低维空间 $\mathbb{R}^d$ 中变成了什么对于线性投影 $P(\mathbf{x}) A\mathbf{x}$$A$ 是 $d \times D$ 矩阵$H$ 的像 $P(H)$ 仍然是一个超平面或更低维的仿射子空间。但对于非线性投影如t-SNE, UMAP$P(H)$ 会变成一个复杂、可能高度弯曲的“曲面”或“流形”。我们如何描述这个新边界分类一致性的量化在高维空间点 $\mathbf{x}_i$ 根据其与 $H$ 的关系被标记如正类或负类。投影后点 $P(\mathbf{x}_i)$ 的标签未变但低维空间的直观“分离度”可能与此标签不符。我们需要一个指标来衡量在低维视图中基于原始高维标签的点的“混合”程度。区域测度的变化在高维空间被 $H$ 划分的两个区域 $H^$ 和 $H^-$ 可能拥有某种数据测度如概率质量。投影后这两个区域在低维空间的像 $P(H^)$ 和 $P(H^-)$ 的测度例如在低维散点图中点的数量比例是否与高维原始测度成比例投影是否无意中放大了某一类或压缩了另一类解决这些挑战的思路不是去寻求一个“无失真”的投影这在 $d D$ 时对于非线性数据流形是不可能的而是主动建模、估计并可视化这种失真从而让我们在观察低维图时能心中有数知道哪些分离是可靠的哪些边界是扭曲的以及扭曲的程度有多大。2.2 核心方法论框架我们的方法框架围绕三个核心步骤构建边界追踪与近似对于给定的投影点集 $Y$ 和其对应的高维标签由 $H$ 决定在低维空间 $\mathbb{R}^d$ 中学习一个分类器 $f: \mathbb{R}^d \to {-1, 1}$试图从 $Y$ 和标签中重建出 $P(H)$ 的近似边界。这个低维分类器 $f$ 的决策边界就是 $P(H)$ 的一个估计。对于线性投影我们可以解析地计算这个边界对于非线性投影我们可以训练一个简单的模型如线性SVM、逻辑回归甚至一个浅层神经网络来拟合。这个拟合的边界 $\hat{H}_d$ 就是我们能在低维图上直接画出来的“代理决策边界”。一致性测度计算定义并计算一系列指标用以量化投影的保真度。分类一致性得分计算有多少数据点在低维空间中根据其到估计边界 $\hat{H}_d$ 的几何关系例如在 $\hat{H}_d$ 的哪一侧得到的预测标签与其原始高维标签一致。高一致性意味着投影较好地保持了原始超平面的划分结构。边界锐度/模糊度我们可以考察低维分类器 $f$ 在估计边界 $\hat{H}_d$ 附近的置信度例如逻辑回归的概率值或SVM的间隔大小。一个清晰、置信度高的边界意味着投影后两类仍然分离良好一个模糊、低置信度的边界则意味着投影导致两类在边界处严重混合。局部保距/保角失真估计对于非线性投影 $P$我们可以采样高维空间 $H$ 附近的数据点计算它们在原始高维空间中的局部距离或角度再与它们在低维投影中的局部距离或角度进行比较。通过统计这种局部几何畸变我们可以绘制出“失真热力图”直观显示 $H$ 的哪些部分在投影中被扭曲得最厉害。测度校正与可视化增强基于上述分析我们可以对低维可视化进行“增强”。绘制代理边界将步骤1中得到的 $\hat{H}_d$ 直接绘制在散点图$d2$上让观察者一眼就能看到高维决策边界在低维的“影子”。着色与透明度根据每个低维数据点的“边界距离”或“分类置信度”对其进行着色或调整透明度。距离边界近或置信度低的点可以半透明显示暗示这些点在投影中的位置可能不可靠。标注失真区域在图上叠加步骤3中计算出的失真热力图用等高线或颜色渐变区域标示出几何扭曲严重的区域提醒解释者注意这些区域的视觉信息可能具有误导性。注意这里的关键在于我们并不假设投影是完美的而是承认失真并对其进行测量。这个框架将降维可视化从一个“艺术性”的展示工具部分转变为一个带有“误差条”和“失真标注”的分析工具。3. 关键技术实现与算法细节理论框架需要具体的算法来实现。下面我将拆解几个核心环节的实现细节包括线性与非线性投影的不同处理策略以及关键指标的数值计算方法。3.1 线性投影场景下的解析解当投影 $P$ 是线性变换即 $P(\mathbf{x}) A\mathbf{x}$其中 $A \in \mathbb{R}^{d \times D}$。这是最简单也最理想的情况因为几何关系是线性的我们可以获得精确解。1. 投影后超平面的形态高维超平面 $H: \mathbf{w}^T \mathbf{x} b 0$。对于任意 $\mathbf{x} \in H$有 $\mathbf{w}^T \mathbf{x} -b$。将其投影$\mathbf{y} A\mathbf{x}$。我们想找到 $\mathbf{y}$ 满足的方程。这不是直接代入就能得到的因为 $A$ 可能不是方阵且 $\mathbf{w}$ 在高维空间。实际上投影 $P(H)$ 是 $H$ 这个 $(D-1)$ 维仿射子空间在线性映射 $A$ 下的像。它的维数最多是 $\min(d, D-1)$。在 $\mathbb{R}^d$ 中$P(H)$ 本身仍然是一个仿射子空间。我们可以通过求解线性方程组来找到它的方程。一个更直观的方法是考虑对偶空间。在 $\mathbb{R}^d$ 中我们想找到一个法向量 $\mathbf{v} \in \mathbb{R}^d$ 和偏移 $c$使得对于所有 $\mathbf{x} \in H$都有 $\mathbf{v}^T (A\mathbf{x}) c 0$。因为 $\mathbf{x} \in H$ 满足 $\mathbf{w}^T \mathbf{x} b 0$即 $\mathbf{w}^T \mathbf{x} -b$。如果存在某个 $\mathbf{v}$ 使得 $\mathbf{v}^T A \lambda \mathbf{w}^T$ 对于某个标量 $\lambda$ 成立那么 $\mathbf{v}^T A \mathbf{x} \lambda \mathbf{w}^T \mathbf{x} -\lambda b$。此时如果我们令 $c \lambda b$那么 $\mathbf{v}^T A \mathbf{x} c 0$ 就对所有 $\mathbf{x} \in H$ 成立。因此问题转化为寻找 $\mathbf{v} \in \mathbb{R}^d$ 和 $\lambda$使得 $A^T \mathbf{v} \lambda \mathbf{w}$。这是一个关于 $(\mathbf{v}, \lambda)$ 的方程。由于 $A^T$ 是 $D \times d$ 矩阵$\mathbf{w}$ 是 $D$ 维向量这个方程不一定有解除非 $\mathbf{w}$ 位于 $A^T$ 的列空间即 $\mathbf{w} \in \text{Col}(A^T)$。如果 $\mathbf{w} \in \text{Col}(A^T)$那么存在 $\mathbf{v}$ 使得 $A^T \mathbf{v} \mathbf{w}$此时 $\lambda1$。这意味着高维法向量 $\mathbf{w}$ 可以被投影矩阵的转置的列线性表示即 $\mathbf{w}$ 位于投影所张成的低维子空间的原像中。在这种情况下$P(H)$ 是 $\mathbb{R}^d$ 中的一个 $(d-1)$ 维超平面其方程为 $\mathbf{v}^T \mathbf{y} b 0$其中 $\mathbf{v}$ 满足 $A^T \mathbf{v} \mathbf{w}$。如果 $\mathbf{w} \notin \text{Col}(A^T)$那么 $P(H)$ 将充满整个低维空间 $\mathbb{R}^d$因为 $H$ 的法向量方向有分量垂直于投影子空间投影后这个约束丢失了。在实际的数据可视化中如果我们的线性投影如PCA刻意选择了方差最大的方向而分类超平面的法向量 $\mathbf{w}$ 恰好与这些主成分方向相关性很低那么投影图上将看不到清晰的分类边界两类点会完全混合。这本身就是一个重要的发现该分类器依赖的特征方向在主要的方差方向上没有体现。2. 测度变化的计算在线性投影下如果数据在高维空间中的分布是已知的例如假设两类数据分别服从高斯分布 $N(\mu_, \Sigma_)$ 和 $N(\mu_-, \Sigma_-)$那么投影后的分布也是高斯的$N(A\mu_, A\Sigma_ A^T)$ 和 $N(A\mu_-, A\Sigma_- A^T)$。我们可以解析地计算投影后被估计的低维超平面 $\hat{H}_d$或真实的 $P(H)$ 如果存在所划分的两个区域中各自的数据概率质量。通过比较这个低维概率质量与高维原始概率质量可以精确得到测度扭曲的程度。例如高维空间中正类样本被正确分类的比例即落在 $H^$ 的概率可以通过多元高斯分布的累积分布函数CDF在超平面半空间上的积分来计算虽然计算复杂但有数值方法。投影后我们计算低维高斯分布在低维超平面半空间上的积分。两者的比值或差值就是由于投影导致的该类“能见度”或“代表性”的偏差。3.2 非线性投影场景下的数值方法对于 t-SNE、UMAP 等非线性投影我们无法获得解析解必须依赖数值和机器学习方法。1. 低维代理分类器的训练这是整个流程的核心步骤。我们拥有低维坐标 $Y \in \mathbb{R}^{n \times d}$ 和对应的高维标签 $L \in {-1, 1}^n$。我们训练一个分类器 $f: \mathbb{R}^d \to {-1, 1}$。选择什么分类器有讲究线性分类器如线性SVM、逻辑回归如果 $f$ 能用一个超平面在低维空间达到不错的分类精度说明 $P(H)$ 在低维空间近似为一个超平面投影的线性保持性好。我们得到的权重向量 $\mathbf{v}_d$ 就是低维代理边界的法向量。非线性分类器如核SVM、小规模神经网络如果线性分类器效果很差但一个轻微非线性的分类器效果很好说明 $P(H)$ 是一个平滑弯曲的曲面。我们可以用这个非线性分类器的决策边界来近似 $P(H)$。为了可视化我们可以通过密集采样的方式绘制出这个决策边界的等高线对于 $d2$。实操心得这里有一个重要的技巧——防止过拟合。我们的目的不是获得一个在 $Y$ 上分类精度最高的模型而是获得一个最能反映$P$ 对 $H$ 的映射关系的模型。因此训练代理分类器时不应该使用全部投影数据 $Y$ 来训练和测试。更好的做法是利用原始高维数据 $X$ 和超平面 $H$生成大量新的、在 $H$ 附近均匀采样的高维点 $\tilde{X}$。将这些点通过相同的投影函数 $P$ 映射到低维得到 $\tilde{Y}$。用 $(\tilde{Y}, \text{sign}(\mathbf{w}^T \tilde{X} b))$ 作为训练集来训练代理分类器 $f$。用原始数据投影 $Y$ 作为测试集来评估 $f$ 的“泛化”能力。 这样做的好处是我们迫使分类器去学习从低维坐标到高维标签的、由投影 $P$ 所诱导的映射规律而不是去记忆有限数据点 $Y$ 的特定位置。这能得到一个更稳健、更通用的低维边界估计。2. 几何失真度的局部估计对于非线性投影我们希望知道 $H$ 附近区域的几何结构被扭曲了多少。我们可以这样做在高维空间 $H$ 超平面上采样一组锚点 ${\mathbf{a}_i}$。对每个锚点 $\mathbf{a}_i$在其高维邻域内例如在 $H$ 的切空间内随机扰动采样若干点 ${\mathbf{a}_i \delta\mathbf{u}_j}$其中 $\delta$ 很小$\mathbf{u}_j$ 是切向的单位向量。计算高维局部距离矩阵 $D_H^{(i)}$其中元素是这些扰动点之间的欧氏距离。将这些点投影到低维得到 ${P(\mathbf{a}_i), P(\mathbf{a}_i \delta\mathbf{u}_j)}$并计算低维局部距离矩阵 $D_L^{(i)}$。计算两个距离矩阵的差异例如可以用应力Stress公式的一个局部版本$\text{Distortion}i \sqrt{ \frac{\sum{j,k} (D_H^{(i)}[j,k] - D_L^{(i)}[j,k])^2}{\sum_{j,k} (D_H^{(i)}[j,k])^2} }$。将每个锚点 $\mathbf{a}_i$ 对应的失真度 $\text{Distortion}_i$映射回其在低维的投影点 $P(\mathbf{a}_i)$ 上。通过插值我们可以在低维散点图上绘制出一张“失真热力图”颜色越深如红色表示该区域对应的原始高维几何特别是超平面 $H$ 附近的局部结构在投影中被扭曲得越严重。4. 实战应用以图像分类器特征空间为例让我们用一个具体的例子来串联整个流程。假设我们训练了一个卷积神经网络CNN用于图像分类例如猫 vs 狗。倒数第二层全连接层的输出是一个高维特征向量比如 512 维。这个特征空间中的点通过最后的分类层权重 $\mathbf{w}$ 和偏置 $b$ 被一个超平面 $H$ 划分。目标我们想用 UMAP 将测试集的 512 维特征投影到 2 维平面进行可视化并分析这个投影在多大程度上保留了 CNN 分类器的决策逻辑。步骤 1数据准备与投影收集测试集图像通过 CNN 前向传播提取 512 维特征向量 $X_{\text{test}}$。根据 CNN 分类层的 $\mathbf{w}$ 和 $b$为每个特征向量计算 $s_i \mathbf{w}^T \mathbf{x}_i b$并赋予标签 $l_i \text{sign}(s_i)$。使用 UMAP 将 $X_{\text{test}}$ 降维至 2 维得到 $Y_{\text{test}}$。绘制散点图用标签 $l_i$ 着色。步骤 2训练低维代理分类器关键生成合成数据。我们不能直接用 $Y_{\text{test}}$ 训练数据量少且可能不覆盖边界区域。在 512 维特征空间中沿着分类超平面 $H$ 的方向进行采样。一个有效的方法是找到两类特征向量的均值点 $\mu_$ 和 $\mu_-$。计算连接这两个均值的向量 $\mathbf{d} \mu_ - \mu_-$。这个方向通常与分类超平面的法向量 $\mathbf{w}$ 高度相关。在 $\mathbf{d}$ 方向即垂直于 $H$ 近似方向上围绕 $H$即 $s0$ 附近进行均匀采样。同时在 $H$ 的切空间即与 $\mathbf{d}$ 正交的子空间内进行随机采样以覆盖超平面上的多样性。生成数万个合成高维特征点 $\tilde{X}$并计算其高维得分 $s$ 和标签。使用相同的 UMAP 模型至关重要必须使用拟合 $X_{\text{test}}$ 时得到的相同 UMAP 变换器将 $\tilde{X}$ 投影到 2 维得到 $\tilde{Y}$。用 $(\tilde{Y}, \text{label})$ 训练一个线性 SVM 作为代理分类器 $f$。如果线性 SVM 在 $\tilde{Y}$ 上交叉验证准确率很高85%说明投影后边界近似线性如果很低则尝试使用带 RBF 核的 SVM。步骤 3可视化与分析在 $Y_{\text{test}}$ 的散点图上绘制代理分类器 $f$ 的决策边界。对于线性 SVM这是一条直线对于核 SVM需要绘制决策等高线。计算分类一致性得分用训练好的 $f$ 预测 $Y_{\text{test}}$ 的标签与原始高维标签 $l_i$ 比较计算准确率。假设得到 92%。这意味着尽管 UMAP 是一种高度非线性的、旨在保持流形局部结构的投影但它仍然有 92% 的概率保持了原始 CNN 分类器对于这些测试样本的“相对位置关系”即在超平面的哪一侧。边界置信度可视化对于每个测试点 $P(\mathbf{x}_i)$计算其到代理分类器 $f$ 决策边界的符号距离对于 SVM就是函数间隔。用这个距离的绝对值来调制数据点的透明度或颜色饱和度。距离边界越近的点越透明越远的点越饱和。这立刻让观察者识别出投影中分类“模糊”或“不确定”的区域。局部失真热力图进阶在 512 维空间中沿着估计的 $H$ 超平面例如使用 $\mathbf{w}$ 作为法向量并穿过所有满足 $\mathbf{w}^T \mathbf{x} b 0$ 的点的中心采样一组锚点。对每个锚点执行 3.2 节所述的局部失真估计。在 2D 散点图上将这些锚点的低维投影 $P(\mathbf{a}_i)$ 用圆圈标记并用其对应的 $\text{Distortion}_i$ 值着色例如viridis 颜色映射。观察者可以直观看到原始决策边界上的哪些区段在 UMAP 投影中被拉伸、压缩或弯曲得最厉害。步骤 4解读与洞见通过上述分析我们可能得到如下洞见“投影保留了核心判别结构”如果一致性得分高如 90%且代理边界清晰说明 UMAP 投影成功地将 CNN 分类所依赖的最主要特征差异捕捉并呈现在了 2D 平面上。低维视图中的分离是可靠的。“投影混淆了某些子类”如果一致性得分中等如 70%-85%且发现某些远离代理边界的点却被原始分类器判为另一类这可能意味着存在一些“对抗性”或“异常”样本它们在高维空间中位于分类边界的一侧但在投影的几何扭曲下跑到了低维视图的另一侧。这些样本值得深入检查。“分类依赖的特征与主方差方向不同”如果线性代理分类器效果很差但核分类器效果好说明 CNN 的决策边界在高维空间可能是高度非线性的而 UMAP 的投影通常保持局部结构将这种非线性也带到了低维。这提醒我们用一条直线去解释这个分类器可能过于简化。“失真热力图揭示可视化盲区”热力图可能显示散点图中某个看似空旷、分离良好的区域其实对应着高维边界上几何扭曲极大的部分。这意味着我们对这个区域的解读要格外谨慎那里的点距看似大但在原始空间中可能很小或者反之。5. 常见陷阱、调试技巧与扩展思考在实际操作中你会遇到各种预料之外的情况。下面分享一些我踩过的坑和总结的技巧。5.1 陷阱与应对策略陷阱一合成数据分布与真实数据分布不匹配问题在步骤2中如果在高维空间采样合成数据 $\tilde{X}$ 时分布与真实特征分布 $X_{\text{test}}$ 差异巨大那么训练出的代理分类器 $f$ 在真实数据投影 $Y_{\text{test}}$ 上的表现会不可靠。例如如果你只在超平面 $H$ 的零点附近采样而真实数据大多远离边界那么 $f$ 可能只学会了边界附近一个非常局部的模式。解决采样策略需要模拟真实数据的分布。一个稳健的方法是对真实数据 $X_{\text{test}}$ 进行核密度估计KDE然后从该分布中采样。更简单实用的方法是对 $X_{\text{test}}$ 应用 SMOTE 过采样或添加高斯噪声在真实数据点周围生成“邻居”点再计算这些点的标签。这能保证合成数据覆盖真实数据所在的流形区域。陷阱二投影函数的非确定性或不稳定性问题t-SNE、UMAP 等算法具有随机性每次运行结果略有不同。你这次分析得到的代理边界和失真图下次重新运行 UMAP 可能就变了。解决固定随机种子这是最基本的要求确保实验可复现。多次运行取统计量对于关键的一致性得分指标可以运行 UMAP 多次比如10次每次重新训练代理分类器并计算得分然后报告均值与标准差。这能评估投影随机性对分析结论的影响。使用更稳定的投影考虑使用确定性更强的降维方法作为基准对比如 PCA 或 Isomap。虽然它们可能视觉效果不如 UMAP但稳定性高便于进行严谨的几何分析。陷阱三高维边界本身过于复杂问题如果原始高维分类器如深度神经网络的决策边界极其复杂、分形甚至是非连续的那么任何到低维的连续投影都必然导致巨大的信息损失。此时低维代理分类器无论如何也无法很好地拟合一致性得分会很低。诊断与应对首先检查原始高维分类器在测试集上的置信度。如果置信度本身就不高很多点靠近决策边界那么低一致性是可以预期的。其次可以尝试在低维使用极其复杂的模型如深度神经网络作为代理分类器。如果这样仍然无法提高一致性那么基本可以断定这个高维边界的内在复杂性使得其无法在低维被忠实地概括。此时我们的分析结论就是“该模型的决策逻辑过于复杂无法通过低维投影进行直观的几何解释”。这本身就是一个有价值的发现它建议我们转向其他可解释性方法如基于特征的归因LIME, SHAP。5.2 性能优化与实用技巧合成数据生成的加速在高维空间如1024维进行大量采样和投影可能很慢。一个技巧是先在原始数据 $X_{\text{test}}$ 上训练一个简单的生成模型如变分自编码器VAE或归一化流Normalizing Flow。然后从该生成模型的潜在空间采样再解码回特征空间。这通常比直接在高维空间操作更快且生成的数据更符合真实流形。低维分类器的选择从简单模型开始。永远先尝试线性模型。线性SVM或逻辑回归训练快解释性强其权重向量可以粗略视为低维视图中的“重要方向”。只有当线性模型表现明显不佳时如交叉验证准确率低于70%才考虑非线性模型。对于非线性模型优先选择高斯过程分类GPC或带RBF核的SVM因为它们能提供预测概率便于计算置信度。失真热力图的简化计算完全按照3.2节计算局部失真计算量很大。一个有效的近似是只计算锚点 $\mathbf{a}_i$ 与其 $k$ 个最近邻在高维和低维空间中分别计算的距离排序的差异。例如计算信任度Trustworthiness和连续性Continuity这两个衡量降维保序性的经典指标但将其计算范围限制在 $H$ 超平面附近的局部邻域内。这能更快地估计局部几何保持程度。5.3 方法扩展与应用场景这套方法不仅限于分析一个超平面。它可以扩展用于分析更复杂的决策结构多分类问题对于有 $C$ 个类别的分类器最终层通常有 $C$ 个权重向量形成 $C$ 个“一对多”的超平面。我们可以对每一个超平面重复上述分析在低维图上绘制出 $C$ 条代理决策边界并计算每个边界的一致性得分。这能揭示模型区分不同类别时所依赖的特征在投影中的呈现是否清晰。层次化或嵌套决策边界在一些树形模型或层级分类器中决策是分阶段的。我们可以分析不同层级决策边界在投影中的形态。例如先分析“动物 vs 非动物”的边界再在“动物”簇内分析“猫 vs 狗”的边界。回归问题对于回归模型其“决策”是输出一个连续值。我们可以将输出值离散化为几个区间例如高、中、低将每个区间的阈值视为一个“超平面”然后分析这些阈值在特征空间投影中的体现。或者我们可以直接用低维坐标去拟合回归值并计算拟合优度如 R²来衡量投影在多大程度上保持了输出值的连续性。异常检测在单类分类或异常检测中决策边界可能是一个包围“正常”数据点的封闭曲面如SVDD的超球面。我们可以将这个曲面近似为一系列切超平面然后分析这些超平面在投影中的情况从而理解异常点为何在低维视图中位于“正常”簇之外。这个从“高维超平面”到“低维投影分析”的框架其核心思想是建立高维模型逻辑与低维可视化之间的可测量、可解释的桥梁。它不满足于“看起来分开”的模糊结论而是追求用定量的指标和增强的可视化元素告诉我们这个“分开”有多可靠边界在哪里以及哪些部分可能欺骗了我们的眼睛。在模型可解释性需求日益增长的今天这种严谨的几何分析视角或许能帮助我们更自信地理解那些隐藏在成百上千个维度背后的智能决策。