基于Vision Transformer的系外行星径向速度信号分类检测方法 1. 项目概述从回归到分类的范式转变在系外行星探测的战场上径向速度法Radial Velocity Method一直是我们的主力武器。它的原理听起来很直观行星围绕恒星公转时其引力会“拉扯”恒星导致恒星在视线方向上产生微小的周期性速度变化即径向速度RV变化。通过高精度光谱仪测量恒星光谱线的多普勒频移我们就能反推出这颗看不见的行星的存在及其基本轨道参数比如轨道周期和速度半振幅。然而现实远比原理骨感。恒星本身并非安静的背景板其表面的黑子、耀斑、对流等活动会产生复杂的“噪声”信号其幅度常常远超地球这类小质量行星引起的微弱信号通常小于1 m/s。这就好比在嘈杂的摇滚音乐会上试图听清一根针落地的声音。传统的数据处理流程如使用高斯过程Gaussian Process对恒星活动噪声建模虽然有效但计算成本高昂且严重依赖先验知识和手动调参。近年来机器学习特别是深度学习为我们提供了新的可能性。早期尝试多采用回归模型直接预测连续的周期和振幅值。但我和团队在实际工作中发现这条路走起来坑洼不平。对于低信噪比SNR的信号或者当行星信号与恒星活动信号在时域上重叠时回归模型如使用均方误差MSE损失经常收敛失败或者产生离谱的预测误差。一个微小的异常值就能把整个训练过程带偏导致结果极不稳定。于是我们转换了思路为什么不把连续参数估计变成一个分类问题我们将轨道周期例如1到1000天和速度半振幅例如0.1到10 m/s的取值范围均匀或不均匀地划分成一系列离散的区间bins。模型的任务不再是输出一个具体的数值而是输出一个概率向量表示输入数据对应的真实参数落入每个区间的可能性。这个简单的转变带来了意想不到的稳定性和鲁棒性。分类模型对异常值不那么敏感因为一个极端的错误预测只会影响它所在的那个“桶”而不会像回归那样产生巨大的梯度冲击整个模型。更重要的是这个概率向量本身就成了预测不确定性的天然度量——如果概率分布很集中一个bin的概率接近1说明模型很自信如果分布很平缓多个bin都有相近的概率那就提醒我们这里存在歧义需要谨慎对待。这为后续的“重点区域”精修分析提供了清晰的路线图。我们的核心目标就是利用这种分类范式结合强大的Vision Transformer模型在恒星活动的“海洋”中更可靠地捞出系外行星的“信号”。2. 模型架构选型为何是Vision Transformer面对径向速度数据——本质上是一系列非均匀时间戳下的速度测量值及其误差——我们需要一个能理解其复杂时空依赖关系的模型。我们系统评估了几种主流的深度学习架构。2.1 CNN与LSTM的局限性首先尝试的是卷积神经网络CNN。CNN在图像识别领域功勋卓著它通过卷积核在输入数据上滑动能高效提取局部特征如边缘、纹理。如果我们将一段时间序列的RV数据视为一维“图像”CNN或许能捕捉到信号中的局部模式。然而RV数据的关键特征——长期的周期性——需要模型具备捕捉长程依赖的能力而CNN的感受野受限于卷积核大小尽管通过堆叠层数可以扩大但效率不高且可能丢失早期的精细信息。接着是长短期记忆网络LSTM。作为循环神经网络RNN的明星变体LSTM专门为序列数据设计通过其精巧的门控机制输入门、遗忘门、输出门来学习长期依赖关系理论上非常适合时间序列预测。但在实际测试中LSTM处理我们的数据效果并不理想。一个根本原因是RV观测数据是非均匀采样的。天文观测受天气、望远镜时间分配、目标天体可见性等限制数据点之间的时间间隔是不规则的。LSTM本质上是为等间隔序列设计的这种不规则性会干扰其内部状态更新机制影响其对周期性规律的建模能力。此外无论是CNN还是LSTM在我们将数据组织成二维矩阵时间 vs 相位折叠后的CCF剖面进行输入时都难以同时、高效地建模谱线轮廓空间/光谱维度随时间时间维度的变化关系。它们要么偏重空间特征要么偏重时间特征在融合多维度信息上显得笨拙。2.2 Vision Transformer的核心优势这正是Vision TransformerViT大显身手的地方。Transformer架构最初在自然语言处理NLP中革命性地解决了长距离依赖问题其核心是自注意力机制Self-Attention Mechanism。ViT将这一思想迁移到计算机视觉把一张图像分割成一个个固定大小的图像块patch把这些块线性嵌入后加上位置编码然后送入标准的Transformer编码器进行处理。自注意力机制的精髓在于“动态权重”。对于序列中的每一个元素比如一个图像块对应我们数据中的一个时间点的CCF剖面自注意力机制会计算它与序列中所有其他元素包括它自己的关联度注意力分数。这意味着模型可以自主决定在分析某个时刻的信号时应该更多地“关注”哪些其他时刻的信号。这对于区分恒星活动噪声和行星信号至关重要恒星活动如黑子可能具有与恒星自转周期相关的相关性而行星信号则严格遵循开普勒轨道周期。ViT能够同时捕捉这两种不同时间尺度上的依赖关系。更重要的是ViT对输入序列的顺序没有内在的强假设。它依靠位置编码来注入顺序信息因此天生就能更好地处理非均匀采样数据。我们数据中不规则的时间间隔只是作为位置编码的一部分输入模型而不会像在LSTM中那样破坏序列处理的固有流程。我们将每个观测时刻获取的一维CCF交叉相关函数剖面视为一个“patch”所有时间点的CCF堆叠起来就形成了一幅二维“图像”。ViT以并行的方式处理所有这些patch通过自注意力全局地分析它们之间的关系从而同时挖掘光谱轮廓特征和其随时间演化的模式。3. 数据处理与模型输入构建模型再强大也离不开高质量、合理组织的输入数据。我们的数据处理流程是将原始的、充满噪声的RV时间序列转化为ViT能够“理解”的、富含物理信息的二维结构化表示。3.1 从径向速度到二维CCF矩阵原始数据来自高分辨率光谱仪如HARPS、ESPRESSO。对于每次观测我们得到一条恒星光谱。标准流程是通过与模板光谱进行交叉相关计算出一条CCF剖面。这个剖面反映了在某个径向速度值上光谱与模板的匹配程度其峰值位置就给出了该次观测的视向速度测量值。然而只用一个峰值速度值会丢失大量信息。CCF剖面的形状宽度、不对称性、偏斜度对恒星活动非常敏感。活动区域黑子、耀斑会扭曲谱线轮廓进而扭曲CCF的形状。因此我们保留完整的CCF剖面作为一次观测的“指纹”。对于一颗恒星长达数年的观测我们会得到数百个这样的CCF剖面每个剖面是一个一维向量。我们按观测时间顺序将这些剖面堆叠起来就形成了一个二维矩阵。矩阵的行对应不同的观测时间MJD列对应不同的径向速度偏移量通常以m/s为步长。个矩阵就是我们模型的原始输入图像。它同时编码了时间维度和速度维度对应光谱特征维度的信息。3.2 相位折叠与数据增强直接使用上述矩阵存在一个问题行星的RV信号是周期性的但原始观测时间序列是线性的。为了强化模型对周期的感知我们引入了相位折叠这一关键步骤。对于每一个待检测的候选周期覆盖我们关心的周期范围如1-1000天我们对时间轴进行相位折叠。具体来说对于某个假设周期P我们将每个观测时间t转换为相位 φ (t / P) mod 1。然后我们按照相位φ的顺序而不是实际时间t的顺序重新排列CCF剖面。如果P恰好是真实的行星轨道周期那么所有由该行星引起的RV信号将在相位折叠后的图中对齐形成一条清晰的、周期性的曲线而恒星活动噪声通常不会在错误的周期上对齐会显得更加随机。因此对于每一个候选周期我们都能生成一张独特的相位折叠后的二维CCF矩阵。在实际操作中我们不会对无限多个周期进行尝试而是将目标周期范围离散化成我们分类任务中的周期bins。每个bin的中心周期值就作为相位折叠的假设周期。这样我们实际上为模型构建了与输出类别直接相关的、富含物理意义的输入特征。数据增强对于提高模型泛化能力至关重要。我们会对合成的训练数据在模拟RV信号上加入不同水平的恒星活动噪声和仪器噪声进行多种变换添加高斯白噪声模拟仪器读数噪声。对CCF剖面进行随机缩放和偏移模拟恒星活动引起的轮廓变化。随机掩蔽Mask部分时间点的数据模拟真实观测中常见的数据缺失情况这也能迫使模型不过度依赖任何单个数据点。在相位折叠时加入小的周期抖动让模型对周期bin边界附近的情况更鲁棒。3.3 标签生成与损失函数我们的模型有两个并行的输出头分别对应轨道周期分类和速度半振幅分类。标签生成对于一个训练样本即一个模拟的RV数据集可能包含一个行星信号也可能没有如果存在行星其真实周期P_true和半振幅K_true是已知的。我们根据预设的bin划分方案找到P_true和K_true各自所属的bin索引。例如周期bins可能是对数均匀划分的[1, 2, 4, 8, 16, 32, 64, 128, 256, 512, 1024]天。那么P_true50天的样本其周期标签就是第6个bin32-64天。我们使用独热编码One-hot Encoding来表示这个标签即一个长度等于bin数量的向量仅在对应索引处为1其余为0。对于“无行星”场景我们为其设定一个特殊的类别标签。损失函数由于是多分类任务我们使用标准的交叉熵损失。对于两个输出头总损失是周期分类损失和振幅分类损失的加权和。在实践中我们发现由于“无行星”样本和不同振幅区间的样本数量可能不均衡需要对损失函数进行加权给样本稀少的类别赋予更高的权重以防止模型忽略它们。4. Vision Transformer模型详解与实现下面我们深入ViT模型的具体实现细节这是项目工程化的核心。4.1 Patch Embedding与位置编码我们的输入是一个形状为(T, V)的矩阵T是时间点/相位点数量V是CCF的速度通道数量。在标准ViT处理自然图像时会将2D图像切割成16x16的patch。在我们的场景中物理意义有所不同每一行一个时间/相位点上的完整CCF剖面被视作一个patch。Patch Embedding层每个长度为V的一维CCF剖面即一行通过一个可训练的线性投影层一个全连接层映射到一个D维的嵌入向量。这个操作将每个patch转换为模型内部表示的一个“词向量”。假设我们有T个时间点经过嵌入后我们得到一个形状为(T, D)的序列。[CLS] Token借鉴BERT我们在序列开头添加一个可学习的[CLS]token。这个token的最终输出状态将用作整个序列的聚合表示并输入到最终的分类头中。位置编码这是处理时序信息的关键。由于Transformer本身是置换不变的打乱输入顺序自注意力输出不变我们必须显式地注入位置信息。我们使用标准的正弦余弦位置编码公式为序列中第pos个位置生成一个D维的编码向量。这个向量会加到对应位置的patch嵌入向量上。这样模型就能同时知道某个CCF剖面所代表的光谱信息以及它在时间/相位序列中所处的位置。注意对于相位折叠后的数据这里的“位置”是相位值而非原始时间。这直接帮助模型学习周期性结构。4.2 多头自注意力机制这是Transformer的灵魂。嵌入并加上位置信息的序列被送入由L个相同的Transformer编码器层堆叠而成的骨干网络。每一层主要包含一个多头自注意力模块和一个前馈神经网络。自注意力机制的计算过程如下对于输入序列X我们通过三个不同的线性变换生成查询矩阵Q、键矩阵K和值矩阵V。计算注意力分数Attention(Q, K, V) softmax(QK^T / sqrt(d_k)) V。这里QK^T计算了序列中每个元素对所有其他元素的相似度除以sqrt(d_k)是为了稳定梯度。Softmax函数将这些分数归一化为权重。“多头”意味着我们将D维的嵌入空间分割成h个头在每个头对应的子空间里独立进行上述注意力计算。这允许模型在不同的表示子空间中并行地关注不同方面的信息。例如一个头可能专注于学习恒星活动的短期相关性另一个头可能专注于寻找行星的全局周期性模式。所有头的输出被拼接起来再经过一个线性投影得到多头自注意力层的最终输出。4.3 模型输出与训练细节经过L层Transformer编码器后我们取[CLS]token对应的输出向量分别通过两个独立的全连接层分类头每个头包含一个线性层加Softmax激活函数得到两个概率分布向量P_period: 形状为(num_period_bins,)表示属于各个周期bin的概率。P_amplitude: 形状为(num_amplitude_bins,)表示属于各个半振幅bin的概率其中包含一个特殊的“无行星”bin。训练配置优化器使用AdamW优化器它比Adam具有更好的权重衰减处理方式有助于防止过拟合。学习率采用带热启动的余弦退火学习率调度初始学习率设为1e-4这有助于模型在初期稳定收敛后期精细调优。正则化除了权重衰减还在注意力权重和中间层输出上应用了Dropout以进一步提升模型泛化能力。硬件使用单个或多个NVIDIA A100 GPU进行训练利用混合精度训练AMP来节省显存并加速。5. 实验结果分析与“无行星”场景挑战经过大量训练和验证模型在测试集上展现出了令人鼓舞的性能但也暴露了一个关键挑战。5.1 分类性能与混淆矩阵分析在包含各种信噪比和活动噪声水平的合成测试数据上模型对于存在行星信号的样本在周期和振幅分类上达到了较高的准确率。混淆矩阵显示预测类别与真实类别主要集中在对角线附近。特别是对于周期预测模型能较好地将信号归类到正确的周期bin内即使不能精确到单个值也能将候选周期范围大幅缩小这对于后续的精细分析如用马尔可夫链蒙特卡洛MCMC采样意义重大。模型展现出了强大的抗恒星活动干扰能力。通过自注意力机制模型学会了区分由行星引起的、相位折叠后对齐的“干净”速度变化和由恒星活动引起的、更随机或具有不同时间尺度如恒星自转周期的CCF剖面形变。注意力权重可视化显示当存在行星信号时模型会高度关注那些在折叠周期下相位对齐的数据点而对于纯活动噪声的数据注意力分布则更加分散。5.2 “无行星”场景的误判与对策然而模型在识别“无行星”系统时遇到了显著困难。这是本项目中一个非常典型且重要的失败模式。现象即使经过微调当输入的数据仅包含恒星活动噪声和仪器噪声没有任何注入的行星信号时模型很少会将其明确分类到“无行星”的振幅类别中。相反它表现出强烈的偏见周期预测超过90%的“无行星”样本被预测到最短的周期bin例如45天。超过一半的样本被集中到最低的周期类别。这说明模型倾向于将高频的恒星活动噪声或随机波动解释为短周期信号。振幅预测约80%的“无行星”样本被预测到最低的半振幅bin。只有约20%的样本被正确归类到“无行星”类别。根源分析数据不平衡在训练数据中“有行星”样本的数量可能远多于“无行星”样本导致模型对“无行星”模式学习不足。噪声的迷惑性恒星活动噪声特别是与恒星自转相关的准周期性信号有时会“模仿”短周期行星信号。模型可能学到了“任何周期性或类周期性变化都更可能对应一个行星”的错误模式。分类任务本质模型被强制要求在每个样本上都选出一个“最可能”的周期和振幅bin。对于纯粹的噪声这个选择本身可能就是没有意义的但模型仍然会给出一个答案而这个答案往往落在参数空间的边界最短周期、最小振幅。工程应对策略后处理阈值我们不能单纯依赖模型的原始分类输出。一个更稳健的策略是设定一个置信度阈值。例如只有当模型在某个周期/振幅bin上输出的概率超过一个高阈值如0.8且该bin不是最短周期或最小振幅bin时我们才将其视为一个可靠的行星候选信号。对于低概率或预测为边界值的信号需标记为“可疑”需要结合其他证据如光谱活动指标、光子噪声水平进行综合判断。改进损失函数为“无行星”类别设置更高的损失权重强制模型更加关注学习噪声模式。两阶段模型可以训练一个专门的二分类模型作为“守门员”首先判断“有信号”还是“纯噪声”然后再用当前的ViT模型对“有信号”的数据进行参数估计。这符合实际天文数据分析中先“检测”后“表征”的流程。不确定性量化利用模型输出的概率分布本身。一个“健康”的行星信号预测其概率分布通常集中在一个或几个相邻的bin上。而一个“无行星”样本的预测其概率分布可能非常平坦模型不确定或者反常地高度集中在不合理的短周期bin上。我们可以设计一个基于概率分布熵或形状的指标来过滤掉不可靠的预测。6. 部署考量与未来展望将研究原型转化为可供天文学家日常使用的工具还需要考虑许多工程实践细节。推理效率训练好的ViT模型进行单次前向传播速度很快通常在毫秒级。这比运行一套完整的MCMC采样分析要快数个数量级。这使得它可以作为大规模RV数据普查的快速筛选工具从成千上万的恒星数据中快速挑出最有可能存在行星的候选目标供后续深度分析。可解释性虽然深度学习常被诟病为“黑箱”但Transformer的自注意力机制提供了一扇窗。通过可视化不同注意力头在不同层关注的数据点我们可以定性理解模型做出决策的依据。例如我们可以确认模型在判断一个长周期信号时是否真的关注了跨越整个时间基线的数据点这有助于建立天文学家对模型的信任。领域适应与迁移学习这是我们未来工作的重点。一个理想的愿景是在大量太阳的RV数据作为恒星活动的“罗塞塔石碑”上预训练一个强大的ViT模型学习恒星活动的通用表示。然后当面对一台新的光谱仪或一颗新的恒星时只需要用相对少量的新数据进行微调模型就能快速适应。ViT在计算机视觉中展现出的强大迁移学习能力让我们对此抱有期待。这能极大降低对每个目标星都需要大量模拟训练数据的需求。与传统方法结合机器学习模型不是要完全取代传统的贝叶斯方法如高斯过程。一个更强大的工作流是ViT模型作为“侦察兵”快速扫描数据提供候选周期和振幅的初步估计及其不确定性范围。然后将这些估计作为先验信息输入到像exoplanet或radvel这样的传统拟合工具中进行精确的、物理参数完整的贝叶斯推断。这种人机结合、取长补短的方式可能是未来系外行星探测数据分析的标准范式。在实际部署中我们构建了一个完整的Pipeline从原始光谱FITS文件开始自动调用数据缩减流程生成CCF然后组织成二维矩阵输入训练好的ViT模型进行批量推理最后输出带有置信度评估的候选信号列表和参数估计区间。这个过程极大地提升了数据分析的自动化程度和效率让天文学家能将更多精力投入到最有趣的物理问题上去。