第四章：NAS 的核心要素：评估策略 (Evaluation Strategy)

文档摘要

第四章：NAS 的核心要素：评估策略 (Evaluation Strategy) 第四章：NAS 的核心要素：评估策略 (Evaluation Strategy) 引言神经网络架构搜索 (Neural Architecture Search, NAS) 旨在自动化设计高性能神经网络架构的过程，以应对日益增长的复杂任务和不断变化的应用场景。如同任何工程实践，有效的评估是 NAS 成功的基石。如果无法准确、高效地评估候选架构的优劣，搜索过程将如同盲人摸象，难以找到真正优秀的网络结构。因此，评估策略在 NAS 流程中占据着核心地位，它直接决定了搜索效率、最终模型性能以及整个 NAS 方法的实用性。本章将深入探讨 NAS 中至关重要的核心要素——评估策略。

第四章：NAS 的核心要素：评估策略 (Evaluation Strategy)

引言

神经网络架构搜索 (Neural Architecture Search, NAS) 旨在自动化设计高性能神经网络架构的过程，以应对日益增长的复杂任务和不断变化的应用场景。如同任何工程实践，有效的评估是 NAS 成功的基石。如果无法准确、高效地评估候选架构的优劣，搜索过程将如同盲人摸象，难以找到真正优秀的网络结构。因此，评估策略在 NAS 流程中占据着核心地位，它直接决定了搜索效率、最终模型性能以及整个 NAS 方法的实用性。

本章将深入探讨 NAS 中至关重要的核心要素——评估策略。我们将从评估策略的必要性与面临的挑战出发，逐一剖析当前主流的评估方法，包括完全训练评估、基于代理任务的评估、基于权重共享的评估以及新兴的零成本代理。最后，我们将对不同评估策略进行对比分析，并探讨如何在实际应用中进行合理选择，为读者构建一套完整的 NAS 评估策略知识体系。

4.1 评估策略的必要性与挑战

在传统的神经网络设计流程中，架构师通常凭借经验和直觉手工设计网络结构，并通过在目标任务上进行完整训练来评估其性能。然而，NAS 的目标是自动化这一过程，这就意味着我们需要一种方法来自动评估大量候选架构的性能，以便在搜索空间中高效地寻找到最优解。

4.1.1 评估策略的必要性

评估策略在 NAS 中扮演着至关重要的角色，其必要性主要体现在以下几个方面：

指导搜索方向： NAS 的核心目标是在庞大的架构搜索空间中找到最优或接近最优的架构。评估策略就像是指南针，为搜索算法指明方向。通过评估候选架构的性能，搜索算法可以判断哪些架构更具潜力，并引导搜索过程朝着更有希望的区域前进。缺乏有效的评估策略，NAS 搜索将沦为随机探索，效率低下且难以收敛到理想的解。
决定搜索效率： NAS 的计算成本通常很高，很大程度上取决于评估策略的效率。完全训练评估虽然精度高，但耗时巨大，难以支撑大规模的架构搜索。高效的评估策略能够大幅降低搜索成本，加速 NAS 过程，使其在实际应用中更具可行性。
影响最终模型性能： 评估策略的准确性直接影响最终搜索到的模型性能。如果评估策略与真实性能存在偏差，NAS 可能会错误地选择次优架构。因此，选择与目标任务性能高度相关的评估策略至关重要，以确保最终搜索到的模型能够真正满足应用需求。
连接搜索算法与实际应用： 评估策略是连接 NAS 搜索算法和实际应用场景的桥梁。通过在特定任务和数据集上进行评估，NAS 可以针对性地搜索适用于特定场景的架构，从而更好地满足实际应用需求。

4.1.2 评估策略面临的挑战

尽管评估策略在 NAS 中至关重要，但设计和应用有效的评估策略也面临着诸多挑战：

计算成本高昂： 最直接也是最准确的评估方法是对每个候选架构进行完整训练，但这在计算资源和时间上都非常昂贵。尤其是在大型搜索空间和复杂任务中，对成千上万甚至数百万个架构进行完整训练是不可行的。
评估精度与效率的权衡： NAS 的核心挑战之一就是在评估精度和效率之间取得平衡。高精度的评估方法（如完全训练）往往效率低下，而高效率的评估方法（如代理任务或零成本代理）则可能牺牲一定的评估精度。如何在保证一定评估精度的前提下，尽可能提高评估效率，是评估策略设计面临的关键问题。
泛化性问题： 基于代理任务或权重共享的评估方法，其评估结果可能与目标任务上的真实性能存在偏差。如何确保评估策略能够准确预测架构在目标任务上的泛化能力，避免过拟合到代理任务或权重共享的特定设置，是一个重要的挑战。
搜索空间与评估策略的适配性： 不同的搜索空间和任务特点可能需要不同的评估策略。例如，对于小型搜索空间，完全训练评估可能还能接受；而对于超大型搜索空间，则必须采用更高效的评估方法。如何根据具体的搜索空间和任务特点选择或设计合适的评估策略，也是一个需要考虑的问题。
超参数敏感性： 一些评估策略的性能可能对超参数设置比较敏感。例如，代理任务评估中，代理任务的选择、数据集大小、训练轮数等超参数都会影响评估结果的可靠性。如何选择合适的超参数，确保评估策略的稳定性和可靠性，也是一个需要关注的方面。

为了应对以上挑战，研究人员提出了各种不同的评估策略，旨在在评估精度、效率、泛化性等方面取得更好的平衡。接下来的章节将详细介绍几种主流的 NAS 评估策略，并分析它们的优缺点和适用场景。

4.2 完全训练评估 (Full Training Evaluation)

4.2.1 完全训练评估的概念与流程

完全训练评估是最直接、最朴素的评估策略，也是理论上最准确的评估方法。顾名思义，完全训练评估是指对每一个候选架构，都进行完整的模型训练，直到模型收敛或达到预设的训练轮数，然后根据模型在验证集上的性能指标（如准确率、损失值等）来评估该架构的优劣。

其基本流程可以概括为以下步骤：

架构采样： 从预定义的搜索空间中采样得到一个候选神经网络架构。
模型初始化： 根据采样得到的架构，初始化神经网络模型参数。
完全训练： 使用训练数据集，采用预设的优化算法、学习率策略等训练模型，直到模型在验证集上的性能不再显著提升或达到预设的训练轮数。
性能评估： 在验证集或测试集上评估训练好的模型的性能指标，作为该架构的评估结果。

可以用图示表示如下：

4.2.2 完全训练评估的优点与缺点

优点：

评估精度高： 完全训练评估直接反映了候选架构在目标任务上的真实性能。通过充分的训练，模型能够充分学习数据特征，评估结果更加可靠和准确。
与实际应用场景一致： 完全训练评估的流程与实际应用中模型训练的流程完全一致，评估结果与模型部署后的性能具有高度的相关性。
无需额外假设： 完全训练评估不需要引入额外的假设或近似，评估结果直接基于模型在目标任务上的表现，具有较强的理论基础。

缺点：

计算成本极高： 完全训练评估最大的缺点就是计算成本极其高昂。对于复杂的任务和大型搜索空间，对每个候选架构进行完整训练需要大量的计算资源和时间。这使得完全训练评估难以应用于大规模的 NAS 搜索，尤其是当搜索空间非常庞大时。
搜索效率低下： 由于完全训练评估耗时巨大，导致 NAS 搜索过程非常缓慢，效率低下。在有限的时间和资源下，难以探索庞大的搜索空间，找到全局最优解。
难以扩展到大型数据集和复杂任务： 随着数据集规模和任务复杂度的增加，完全训练评估的计算成本会进一步上升，使其更难以应用于实际的大规模 NAS 任务。

4.2.3 完全训练评估的适用场景

尽管完全训练评估存在计算成本高昂的缺点，但在以下场景中，仍然可以考虑使用或部分使用完全训练评估：

小型搜索空间： 当搜索空间较小时，例如只搜索网络的层数、滤波器数量等少量参数，候选架构的数量相对有限，完全训练评估的计算成本尚可接受。
对评估精度要求极高的场景： 在一些对模型性能要求极高的应用场景中，例如医疗诊断、自动驾驶等，为了追求极致的性能，可以考虑使用完全训练评估来确保评估结果的准确性。
作为基准评估方法： 完全训练评估可以作为其他评估策略的基准方法，用于评估和验证其他评估策略的有效性和可靠性。
在 NAS 的最后阶段： 在 NAS 搜索过程的早期，可以使用更高效的评估策略快速筛选出有潜力的架构。在搜索过程的最后阶段，可以对少数几个候选架构进行完全训练评估，以最终确定最优架构。

总结： 完全训练评估是评估精度最高的评估策略，但其计算成本过高，限制了其在大规模 NAS 中的应用。在实际应用中，通常需要结合其他更高效的评估策略，或者在特定场景下有选择地使用完全训练评估。

4.3 基于代理任务的评估 (Proxy Task Evaluation)

4.3.1 代理任务评估的概念与原理

为了克服完全训练评估计算成本高昂的缺点，研究人员提出了基于代理任务的评估策略。代理任务评估的核心思想是：使用一个计算成本更低的“代理任务”来近似评估候选架构在目标任务上的性能。 如果代理任务与目标任务之间存在较强的相关性，那么在代理任务上表现良好的架构，在目标任务上也有望取得不错的性能。

代理任务可以是以下几种形式：

简化数据集： 使用目标任务数据集的一个子集进行训练和评估。例如，可以使用 CIFAR-10 数据集的 10% 或 20% 的数据作为代理数据集。
缩短训练轮数： 减少每个候选架构的训练轮数。例如，只训练 5 个或 10 个 epoch，而不是完全训练所需的数百个 epoch。
降低输入分辨率： 对于图像任务，可以降低输入图像的分辨率。例如，将 CIFAR-10 的 32x32 图像降低到 16x16 或 8x8。
使用更简单的任务： 在某些情况下，可以使用一个与目标任务相似但更简单的任务作为代理任务。例如，可以使用图像分类任务作为目标检测任务的代理任务。

4.3.2 代理任务评估的流程

基于代理任务的评估流程与完全训练评估类似，主要区别在于将目标任务替换为代理任务：

架构采样： 从预定义的搜索空间中采样得到一个候选神经网络架构。
模型初始化： 根据采样得到的架构，初始化神经网络模型参数。
代理任务训练： 使用代理任务数据集，采用预设的优化算法、学习率策略等训练模型，直到模型在代理任务的验证集上性能不再显著提升或达到预设的训练轮数（通常较短）。
性能评估： 在代理任务的验证集或测试集上评估训练好的模型的性能指标，作为该架构在代理任务上的评估结果，并将其作为该架构在目标任务上的性能估计。

可以用图示表示如下：

4.3.3 代理任务评估的优点与缺点

优点：

计算成本显著降低： 由于代理任务通常使用更小的数据集、更少的训练轮数或更简单的任务，因此代理任务评估的计算成本相比完全训练评估大大降低，可以加速 NAS 搜索过程。
搜索效率提高： 评估速度的提升使得 NAS 能够在相同的时间内探索更多的候选架构，提高搜索效率。
适用于大规模搜索空间： 代理任务评估的低计算成本使其能够应用于大规模的 NAS 搜索，即使搜索空间非常庞大，也能够在可接受的时间内完成搜索。

缺点：

评估精度可能降低： 代理任务评估的精度取决于代理任务与目标任务之间的相关性。如果代理任务与目标任务差异较大，评估结果可能与架构在目标任务上的真实性能存在偏差，导致 NAS 搜索到次优架构。
需要仔细选择代理任务： 选择合适的代理任务至关重要。如果代理任务选择不当，例如代理任务过于简单或与目标任务无关，则评估结果将不可靠。
泛化性问题： 在代理任务上表现良好的架构，不一定在目标任务上也能表现良好。存在过拟合到代理任务的风险，导致搜索到的架构泛化能力较差。
超参数敏感性： 代理任务评估的性能可能对代理任务的超参数设置（如数据集大小、训练轮数等）比较敏感，需要仔细调整超参数以获得可靠的评估结果。

4.3.4 代理任务评估的适用场景

代理任务评估适用于以下场景：

大规模搜索空间： 当搜索空间非常庞大，完全训练评估的计算成本无法承受时，代理任务评估是更可行的选择。
对搜索效率要求较高的场景： 在需要快速完成 NAS 搜索的任务中，代理任务评估可以显著缩短搜索时间。
作为 NAS 的早期阶段： 在 NAS 搜索过程的早期，可以使用代理任务评估快速筛选出有潜力的架构，缩小搜索范围。
需要快速迭代和验证的场景： 代理任务评估可以用于快速迭代和验证新的 NAS 算法或搜索策略。

总结： 代理任务评估是一种以牺牲一定评估精度为代价，换取更高评估效率的策略。在实际应用中，需要仔细选择代理任务，并尽可能提高代理任务与目标任务之间的相关性，以保证评估结果的可靠性。

4.4.1 权重共享评估的概念与原理

权重共享评估是另一种旨在提高 NAS 效率的评估策略。其核心思想是：在多个候选架构之间共享模型参数（权重），从而避免对每个架构进行独立训练。 通过共享权重，可以在训练一个“超级网络”（Supernet）的同时，评估多个子网络的性能。

最常见的权重共享方法是单路径单次网络 (One-Shot Network)。在一个 One-Shot 网络中，所有的候选架构都被嵌入到一个更大的“超级网络”中，这些候选架构共享超级网络的权重。在训练超级网络的过程中，通过采样不同的路径（对应不同的架构）来训练不同的子网络。训练完成后，可以直接根据子网络在验证集上的性能来评估其优劣，而无需对每个子网络进行独立训练。

4.4.2 权重共享评估的流程

基于权重共享的评估流程通常包括以下步骤：

构建超级网络： 根据预定义的搜索空间，构建一个包含所有候选架构的“超级网络”。超级网络通常包含多个可选择的操作（如卷积、池化等）和连接方式，每个候选架构对应超级网络中的一条特定路径。
权重共享： 超级网络中的所有候选架构共享相同的权重参数。这意味着，当训练超级网络时，所有候选架构都会同时得到训练。
超级网络训练： 使用训练数据集，训练超级网络。在训练过程中，通常采用采样策略，随机选择超级网络中的一条路径（对应一个候选架构）进行训练。不同的采样策略会影响训练效果和评估精度。
性能评估： 在验证集上评估超级网络中各个候选架构的性能。由于所有候选架构共享权重，因此可以直接根据其在验证集上的表现来评估其优劣，而无需进行独立训练。
架构选择： 根据评估结果，选择性能最佳的架构。

可以用图示表示如下：

4.4.3 权重共享评估的优点与缺点

优点：

评估效率极高： 由于所有候选架构共享权重，因此只需要训练一次超级网络，就可以评估多个架构的性能，极大地提高了评估效率。
节省计算资源： 避免了对每个架构进行独立训练，显著节省了计算资源。
适用于大规模搜索空间： 权重共享评估的高效率使其能够应用于非常大规模的 NAS 搜索，即使搜索空间包含数百万个候选架构，也能够在可接受的时间内完成搜索。

缺点：

权重干扰： 不同架构共享权重可能会导致权重干扰，影响评估精度。一个架构的训练可能会影响其他架构的性能，导致评估结果与真实性能存在偏差。
采样策略敏感： 超级网络的训练效果和评估精度对采样策略非常敏感。不同的采样策略可能会导致不同的训练结果，影响最终的架构选择。
过度共享： 过度共享权重可能会限制模型的表达能力，导致搜索到的架构性能受限。
与独立训练的差距： 共享权重训练的架构性能与独立训练的架构性能之间可能存在差距。在权重共享评估中表现良好的架构，在独立训练时可能无法达到相同的性能。

4.4.4 权重共享评估的适用场景

权重共享评估适用于以下场景：

超大规模搜索空间： 当搜索空间非常庞大，其他评估策略的计算成本无法承受时，权重共享评估是唯一的选择。
对搜索效率要求极高的场景： 在需要快速完成 NAS 搜索的任务中，权重共享评估可以显著缩短搜索时间。
作为 NAS 的早期阶段： 在 NAS 搜索过程的早期，可以使用权重共享评估快速筛选出有潜力的架构，缩小搜索范围。

总结： 权重共享评估是一种以极高的评估效率为优势的策略，但其评估精度受到权重干扰、采样策略等因素的影响。在实际应用中，需要仔细设计超级网络结构和采样策略，尽可能减小权重干扰，提高评估精度。

4.5 零成本代理 (Zero-Cost Proxies)

4.5.1 零成本代理的概念与原理

零成本代理是一种新兴的 NAS 评估策略，其目标是在不进行任何训练的情况下，仅通过分析架构的某些属性来预测其性能。这些属性被称为“零成本代理”，因为它们可以以极低的计算成本（几乎为零）计算出来。

零成本代理的核心思想是：某些架构的内在属性与其最终性能之间存在相关性。 例如，一个架构的参数数量、梯度范数、激活值分布等都可能与其性能有关。通过分析这些属性，可以快速评估架构的优劣，而无需进行任何训练。

常见的零成本代理包括：

参数数量 (Number of Parameters): 参数数量通常与模型的容量和复杂度有关。
浮点运算数 (FLOPs): FLOPs 反映了模型的计算复杂度。
梯度范数 (Gradient Norm): 梯度范数可以反映模型的训练难度和优化潜力。
激活值分布 (Activation Distribution): 激活值分布可以反映模型的表达能力和信息传递效率。
网络复杂度指标 (Network Complexity Metrics): 例如，神经复杂度、谱范数等。

4.5.2 零成本代理的流程

基于零成本代理的评估流程通常包括以下步骤：

架构采样： 从预定义的搜索空间中采样得到一个候选神经网络架构。
零成本代理计算： 计算该架构的零成本代理指标，例如参数数量、FLOPs、梯度范数等。
性能预测： 使用零成本代理指标来预测该架构的性能。可以使用简单的线性模型或更复杂的机器学习模型来建立零成本代理指标与性能之间的关系。
架构选择： 根据预测的性能，选择性能最佳的架构。

可以用图示表示如下：

4.5.3 零成本代理的优点与缺点

优点：

评估效率极高： 无需进行任何训练，仅通过计算架构的属性即可评估其性能，评估效率几乎达到极致。
计算成本极低： 计算零成本代理指标的成本非常低廉，几乎可以忽略不计。
适用于超大规模搜索空间： 零成本代理的高效率使其能够应用于极其庞大的 NAS 搜索，甚至可以探索无限搜索空间。

缺点：

评估精度较低： 零成本代理的评估精度通常较低，因为它们仅仅基于架构的某些属性来预测性能，而忽略了数据和训练过程的影响。
泛化性问题： 零成本代理的有效性可能依赖于特定的任务和数据集。在不同的任务和数据集上，零成本代理的预测能力可能会发生变化。
需要仔细选择零成本代理： 选择合适的零成本代理至关重要。如果选择的代理指标与真实性能无关，则评估结果将不可靠。
对架构设计有一定的约束： 某些零成本代理可能对架构设计有一定的约束，例如限制了架构的深度或宽度。

4.5.4 零成本代理的适用场景

零成本代理适用于以下场景：

极其庞大的搜索空间： 当搜索空间过于庞大，其他评估策略无法应用时，零成本代理是唯一的选择。
对搜索速度要求极高的场景： 在需要以极快的速度完成 NAS 搜索的任务中，零成本代理可以发挥作用。
作为 NAS 的初始阶段： 在 NAS 搜索过程的初始阶段，可以使用零成本代理快速筛选出极少数有潜力的架构，然后使用更精确的评估策略进行进一步评估。
探索新的架构设计空间： 零成本代理可以用于快速探索新的架构设计空间，发现一些具有潜力的架构模式。

总结： 零成本代理是一种以极高的评估效率为优势，但评估精度较低的策略。在实际应用中，通常需要结合其他更精确的评估策略，或者在特定场景下有选择地使用零成本代理。

4.6 不同评估策略的比较与选择

至此，我们已经介绍了四种主流的 NAS 评估策略：完全训练评估、基于代理任务的评估、基于权重共享的评估以及零成本代理。每种策略都有其自身的优点和缺点，适用于不同的场景。

下表对这四种评估策略进行了总结和比较：

评估策略	评估精度	评估效率	计算成本	适用场景
完全训练评估	高	低	高	小型搜索空间，对评估精度要求极高的场景，作为基准评估方法，在 NAS 的最后阶段
基于代理任务的评估	中	中	中	大规模搜索空间，对搜索效率要求较高的场景，作为 NAS 的早期阶段，需要快速迭代和验证的场景
基于权重共享的评估	低-中	高	低	超大规模搜索空间，对搜索效率要求极高的场景，作为 NAS 的早期阶段
零成本代理	低	极高	极低	极其庞大的搜索空间，对搜索速度要求极高的场景，作为 NAS 的初始阶段，探索新的架构设计空间

如何选择合适的评估策略？

选择合适的评估策略需要综合考虑以下因素：

搜索空间的规模： 搜索空间越大，越需要选择评估效率更高的策略，例如基于权重共享的评估或零成本代理。
计算资源的限制： 计算资源越有限，越需要选择计算成本更低的策略，例如基于代理任务的评估或零成本代理。
对评估精度的要求： 对评估精度要求越高，越需要选择评估精度更高的策略，例如完全训练评估或基于代理任务的评估。
任务的复杂程度： 任务越复杂，可能需要选择更精确的评估策略，例如完全训练评估或基于代理任务的评估。
搜索效率的要求： 对搜索效率要求越高，越需要选择评估效率更高的策略，例如基于权重共享的评估或零成本代理。

在实际应用中，通常需要结合多种评估策略，例如：

先使用零成本代理快速筛选出极少数有潜力的架构，然后使用基于代理任务的评估进行进一步评估，最后使用完全训练评估确定最优架构。
使用基于权重共享的评估快速搜索出一些有潜力的架构，然后使用完全训练评估或基于代理任务的评估进行微调和验证。

结论

评估策略是 NAS 的核心要素之一，直接决定了搜索效率、最终模型性能以及整个 NAS 方法的实用性。不同的评估策略各有优缺点，适用于不同的场景。在实际应用中，需要根据具体的搜索空间、计算资源、评估精度和搜索效率等因素，选择合适的评估策略或组合策略，以达到最佳的 NAS 效果。随着 NAS 领域的不断发展，相信未来还会涌现出更多高效、准确的评估策略，推动 NAS 技术的进步和应用。

第四章：NAS 的核心要素：评估策略 (Evaluation Strategy)

文档摘要