机器学习在射电天文数据分类中的应用:以MIGHTEE巡天SFG/AGN分类为例 1. 项目概述当机器学习遇见深空射电巡天在射电天文学领域我们正经历一场数据洪流。以MeerKAT望远镜阵列主导的MIGHTEE巡天项目为例其在COSMOS天区的一次早期科学数据释放就在不到1平方度的天区内探测到了超过6000个射电源。传统上天文学家需要依赖红外-射电相关、中红外颜色、光学形态、X射线光度等多达五种诊断图并结合大量人工核查才能将每个源区分为以恒星形成为主的星系SFG和以黑洞吸积为主的活动星系核AGN。这个过程不仅耗时费力更关键的是面对即将到来的平方公里阵列SKA时代数据量将呈指数级增长传统方法将完全不可行。这正是机器学习大显身手的舞台。我最近深度复现并拓展了Walter Silima等人2025年发表在MNRAS上的一项研究核心就是利用监督学习算法自动化地完成MIGHTEE-COSMOS巡天中射电源的SFG/AGN分类。这项工作远不止是简单调用几个sklearn库函数它涉及从原始多波段星表的数据清洗、特征工程到模型选择、超参数调优再到结果物理可解释性分析的全链条。实测下来最优模型在仅使用20%数据训练时F1分数就能稳定超过90%其中基于距离的k近邻kNN算法表现出了极高的准确性和稳定性。这为处理未来更大规模的巡天数据如SKA、ngVLA提供了一条清晰、高效的技术路径。无论你是刚接触天文数据科学的初学者还是希望将ML应用于特定领域的研究者这篇文章将带你走完一个完整的、可复现的项目流程并分享那些论文里不会写的实操细节与避坑指南。2. 数据基石理解MIGHTEE-COSMOS多波段星表任何机器学习项目的成败一半取决于数据质量。在开始建模之前我们必须彻底理解手中数据的来龙去脉、优势与局限。2.1 射电数据核心MIGHTEE早期科学数据我们的数据基石是MIGHTEE巡天在COSMOS天区的早期科学数据。这里有几个关键细节需要厘清观测参数数据来自MeerKAT的L波段接收机856–1712 MHz积分时间约17.5小时。成像处理采用了Briggs稳健加权为0的参数最终得到的热噪声约为1.7 μJy/beam合成束相当于分辨率为8.6角秒。这里有个容易忽略的坑论文中提到高灵敏度数据在视场中心会受到经典混淆噪声的影响导致实际噪声升至4-5 μJy/beam。这意味着如果你直接使用星表中统一的噪声值进行后续分析比如计算信噪比筛选源对于视场中心的源可能会产生偏差。在实际操作中更严谨的做法是使用星表提供的局部噪声local_rms字段或者根据位置对噪声进行建模。源表构建研究使用了在中心0.86平方度天区内、峰值亮度超过局部背景噪声5σ的6102个射电成分表。但射电成分不等于物理上的星系。一个延展的射电星系可能在图像上被分解成多个“成分”。因此关键的一步是宿主星系证认。作者团队通过目视交叉匹配将射电源与UltraVISTA巡天的Ks波段探测到的源进行关联最终为5223个射电源找到了光学对应体这才构成了我们后续分析的基础样本。这一步无法自动化体现了前期数据准备工作的重要性。2.2 多波段数据融合构建特征向量单一的射电流量信息远不足以区分SFG和AGN。我们必须引入多波段信息构建每个源的特征“指纹”。本研究所用的MIGHTEE-COSMOS多波段星表是一个典范它集成了光学与近红外来自HSC SSP的grizy波段、CFHTLS的u*波段、UltraVISTA DR4的YJHKs波段数据。中红外来自斯皮策太空望远镜IRAC的3.6、4.5、5.8、8.0微米波段数据。远红外来自赫歇尔空间的PACS100、160微米和SPIRE250、350、500微米数据用于研究尘埃辐射。辅助数据光谱红移2427个源或光度红移2796个源、通过SED拟合得到的恒星质量、HST ACS I波段图像导出的光学致密性参数class_star以及X射线和VLBI探测信息。实操心得数据缺失值处理如此多的波段必然存在数据缺失。例如并非所有源都在赫歇尔远红外波段被探测到。论文中他们将X射线和VLBI特征排除在模型输入之外正是因为这两个特征的完备性太低。在我们的复现中对于其他波段的缺失值需要谨慎处理。直接删除缺失特征的样本会导致数据量大幅减少。一个常见的策略是对于连续型特征如流量、颜色可以考虑用该特征在同类天体SFG或AGN中的中位数进行填充。但要注意这可能会引入偏差。增加缺失指示符为每个可能缺失的特征增加一个布尔型特征标记该值是否被填充。这有时能为模型提供额外信息。使用对缺失值不敏感的模型如树模型随机森林、XGBoost本身可以处理缺失值但需要了解其内部处理机制通常是将缺失值单独分为一类或导向增益最大的分支。在本项目中我们主要依赖完备性高的特征如qIR、class_star、恒星质量、IRAC颜色等这本身也是一种基于领域知识的特征筛选。2.3 “金标准”标签传统分类结果监督学习需要“真值”标签。本研究直接使用了Whittam et al. (2022) 通过五种传统诊断方法得到的分类结果射电超量基于红外-射电相关IRRC参数qIR。qIR值显著低于由恒星质量和红移决定的预期值的源被认为是射电过量的即AGN。中红外颜色使用Donley et al. (2012) 的IRAC颜色-颜色图筛选出具有幂律谱特征的源AGN。光学形态利用HST高分辨率图像class_star参数大于0.9的被认为是点源即光学致密AGN。X射线光度静止帧0.5-10 keV X射线光度大于10^42 erg/s的源被归为X射线AGN。VLBI探测被VLBI探测到的源其亮度温度通常远高于恒星形成区被归为VLBI AGN。只要满足以上任一条件即被分类为AGN全部不满足的则为SFG。这里有一个重要的数据处理细节由于X射线观测深度有限对于红移大于0.5且未被X射线探测到的源无法确认其X射线光度是否低于阈值。因此仅通过前4种方法判断为非AGN的源被标记为“可能的SFG”。在机器学习任务中为了简化问题我们将“可能的SFG”合并入“SFG”类别。最终我们得到了1806个AGN和2806个SFG共4612个带有高质量标签的样本用于后续的模型训练与测试。3. 特征工程寻找区分SFG与AGN的关键“指纹”特征工程是机器学习项目的灵魂尤其是在天体物理领域它连接了物理图像与数据模型。我们的目标是从18个候选物理参数中找出最能区分SFG和AGN的那些。3.1 单维特征分析K-S检验与直方图首先我们采用最直观的方法分别绘制AGN和SFG样本在每个特征上的分布直方图并计算两者的Kolmogorov-SmirnovK-S检验统计量。K-S统计量量化了两个累积分布函数CDF之间的最大垂直距离值越大表明两个分布差异越显著。分析结果与物理解读红外-射电相关参数qIRK-S统计量高达0.71毫无争议地成为最佳判别特征。其物理图像非常清晰SFG的射电辐射主要来自超新星遗迹加速的相对论性电子在磁场中的同步辐射与红外辐射自恒星加热的尘埃热辐射之间存在紧密的经验关系。而AGN尤其是射电噪AGN其喷流贡献了额外的射电辐射导致qIR值显著偏低。直方图显示AGN的qIR分布整体向更小值偏移但与SFG分布仍有重叠这部分重叠可能对应着射电宁静的AGN。光学致密性参数class_starK-S统计量0.23排名第二。class_star接近1表示源更像一个点源PSF接近0则像延展源。AGN中心明亮的核球活动使其在HST的高分辨率图像中更可能呈现点源特征而SFG通常呈现为延展的盘状或结构。中红外颜色log(S8.0/S4.5)和log(S5.8/S3.6)K-S统计量分别为0.20和0.18。AGN的尘埃环torus会在中红外产生幂律连续谱而SFG的中红外辐射主要来自恒星加热的尘埃热辐射其光谱在IRAC波段有特定形状。这两个颜色是经典“中红外颜色-颜色图”方法的核心能有效筛选出具有AGN特征的源。恒星质量log(Mstar)K-S统计量0.20。总体上AGN倾向于寄居在更大恒星质量的星系中这与“星系与黑洞共同演化”的图景相符。大质量星系更可能拥有大质量黑洞并提供更多的吸积物质。另一个中红外颜色log(S4.5/S3.6)K-S统计量0.17也显示出一定的判别能力。注意单维特征分析虽然直观但我们必须清醒地认识到即使是最佳的qIR其AGN和SFG的分布也存在大量重叠。这意味着仅靠任何一个单一特征都无法完美分类必须考虑特征的组合。3.2 多维特征关联分析与t-SNE可视化传统分类方法本身就依赖于多维空间如颜色-颜色图。我们将上述6个顶级特征两两组合绘制散点图并计算95%置信椭圆。qIRvslog(Mstar)这是Whittam et al. (2022) 用来挑选射电超量AGN的方法。图中可以看到SFG基本都落在AGN的置信椭圆内。这是因为他们使用的IRRC关系本身就是恒星质量和红移的函数。这个组合的优势在于物理清晰但缺点也很明显会漏掉所有射电宁静的AGN。IRAC颜色-颜色图 (log(S8.0/S4.5)vslog(S5.8/S3.6))这是另一个经典诊断图。尽管两个种群的点云仍有重叠但一个关键的发现是AGN和SFG的置信椭圆主轴方向不同。AGN呈现正相关颜色随颜色同步增长而SFG呈现负相关。这暗示在更高维的空间中两者的分布可能更容易被分离。为了验证这一点我们使用了t-SNE这种非线性降维技术将6维特征空间压缩到2维进行可视化。结果令人振奋在t-SNE生成的二维空间中AGN和SFG的分离度大大增强。这强有力地证明在原始的高维特征空间中两个类别确实是线性不可分的但通过复杂的非线性变换可以被很好地分开。这为使用像随机森林、XGBoost这类能捕捉非线性关系的模型提供了理论依据。然而t-SNE有一个重大缺陷它是无监督的且降维后的坐标轴没有物理意义。我们无法解释“t-SNE维度1”代表什么物理量。因此t-SNE特征绝不能直接用作模型训练的输入它只是一个强大的探索性数据分析工具。3.3 自动化特征重要性评估除了上述“肉眼”分析我们采用了三种不依赖于特定模型内部机制的自动化评估方法结果相互印证。置换重要性其原理非常巧妙。对于一个训练好的模型我们随机打乱数据集中某个特征的值破坏该特征与标签的关系然后重新评估模型性能如F1分数的下降程度。下降越多说明该特征越重要。这种方法与模型无关结果可靠。在我们的分析中置换重要性给出的排名与K-S检验高度一致qIRclass_starlog(S8.0/S4.5)log(Mstar)log(S5.8/S3.6)log(S4.5/S3.6)。随机森林内置重要性基于基尼不纯度减少量计算。结果同样将qIR列为最重要特征class_star和log(S8.0/S4.5)的重要性非常接近。树模型内置的重要性计算速度快但在特征高度相关时可能会高估连续型或高基数特征的重要性。序列特征选择这是一种“贪心”的前向选择算法。它从空特征集开始每次添加一个能使模型性能提升最大的特征。最终选择的顺序是qIR-class_star-log(S8.0/S4.5)-log(Mstar)-log(S5.8/S3.6)。这个顺序与置换重要性略有不同主要是因为log(Mstar)与qIR存在物理上的相关性IRRC与质量有关当qIR被选入后log(Mstar)的边际贡献相对降低。ROC曲线与AUC面积我们对每个特征单独绘制ROC曲线并计算AUC面积。qIR的AUC面积最大接近0.9再次确认其最强判别力。随后我们进行了迭代剔除去掉qIR后class_star的AUC排名第一以此类推。这个动态过程帮助我们理解在排除主导特征后其他特征的相对重要性。结论综合所有分析我们确定将qIR,class_star,log(Mstar),log(S8.0/S4.5),log(S5.8/S3.6)这五个特征作为机器学习模型的输入。这恰好对应了传统分类方法中最有效的三个诊断射电超量qIR、光学形态class_star和中红外颜色两个IRAC颜色比再加上恒星质量这个重要的星系全局参数。特征工程不仅验证了物理经验的可靠性也为其量化提供了依据。4. 模型实战五大监督学习算法对比与优化有了高质量的数据和精选的特征接下来就是模型的选择、训练与优化。我们对比了五种广泛使用的监督学习算法逻辑回归、支持向量机、k近邻、随机森林和XGBoost。选择这五种模型是因为它们代表了不同的机器学习思想线性模型、基于核的方法、基于距离的方法、集成学习中的Bagging和Boosting。4.1 数据预处理与数据集划分在喂给模型之前数据必须经过预处理。标准化由于特征量纲不同qIR是比值log(Mstar)是对数值我们必须进行标准化将每个特征缩放到均值为0、方差为1的分布。这对于基于距离的算法如SVM、kNN和依赖梯度下降的算法至关重要。我们使用StandardScaler进行拟合和转换。处理类别不平衡我们的数据中SFG2806略多于AGN1806但不算严重失衡约1.55:1。对于这种轻微的不平衡我们主要采用评估指标如F1分数来监控而非强制过采样或欠采样。但在训练时可以为少数类AGN设置更高的类别权重如class_weightbalanced。数据集划分我们采用分层抽样将4612个样本按8:2的比例随机划分为训练集3689个和测试集923个确保两个集合中SFG和AGN的比例与原数据集一致。这里有一个关键点论文中提到“即使只使用20%的数据训练F1分数也能超过90%”。为了验证这一点我们额外进行了实验从训练集中再随机抽取20%约738个样本作为一个小型训练集用于训练模型并在完整的测试集上评估。4.2 模型训练与超参数调优我们使用网格搜索结合5折交叉验证来寻找每个模型的最优超参数。以下是每个模型的核心调优思路和注意事项逻辑回本质是线性分类器。我们主要调节正则化强度C和正则化类型L1或L2。L1正则化可以产生稀疏解起到特征选择的作用。在特征已经过精心筛选的情况下L2正则化通常表现更稳定。支持向量机核心是选择核函数。对于可能非线性可分的数据我们测试了径向基函数核。关键超参数是正则化参数C和RBF核的系数gamma。gamma过大容易过拟合过小则模型过于平滑。我们使用网格搜索在C和gamma的对数空间中进行搜索。k近邻算法简单但效果惊人地好。核心超参数是k邻居数量。k太小对噪声敏感k太大则决策边界过于平滑。我们同时测试了不同的距离度量如欧氏距离、曼哈顿距离。实操中发现在特征标准化后欧氏距离配合一个适中的k值如5-15通常效果最佳。随机森林需要调节树的个数n_estimators、树的最大深度max_depth、分裂节点所需的最小样本数min_samples_split等。为了防止过拟合我们通常不会让树完全生长即不设置max_depth而是通过交叉验证来限制模型复杂度。XGBoost作为梯度提升的先进实现参数较多。我们重点调节提升轮次n_estimators、学习率learning_rate、树的最大深度max_depth以及控制模型复杂度的参数如gamma和reg_lambda。XGBoost对学习率非常敏感较小的学习率配合更多的提升轮次通常能得到更优解但计算成本更高。避坑指南交叉验证的陷阱在进行网格搜索时务必确保交叉验证的折数内也进行了分层抽样。特别是对于kNN这类基于距离的算法如果某一折中某个类别的样本突然变少会导致距离计算失真影响参数评估的稳定性。使用StratifiedKFold可以避免这个问题。4.3 模型性能评估与对比我们使用精确率、召回率和F1分数作为主要评估指标并以测试集上的表现为准。全训练集80%数据结果 所有五种模型都表现优异F1分数均高于92%。其中k近邻表现最为突出F1分数最高约94%且精确率和召回率非常均衡。这说明kNN在这个问题上找到了一个非常清晰的“特征空间”结构同类源在空间中确实更聚集。随机森林和XGBoost紧随其后F1分数也在93%以上。它们能捕捉复杂的非线性关系且对噪声相对鲁棒。逻辑回归作为线性模型取得了超过92%的F1分数这令人惊喜。它表明SFG和AGN在精选的五个特征所张成的空间中近似是线性可分的。这给了我们一个非常简洁且可解释性强的基线模型。支持向量机表现稍逊但也在92%左右。其性能对核函数和参数的选择比较敏感。小训练集20%数据结果 这是检验模型鲁棒性和数据效率的关键。令人印象深刻的是即使只用738个样本训练k近邻的F1分数仍然维持在91%以上下降幅度最小展现了极强的稳定性。随机森林和XGBoost的F1分数降至90%左右。集成模型需要足够的数据来构建多样且准确的弱学习器数据量减少对其影响相对明显。逻辑回归和支持向量机的分数也下降到89-90%区间。结论kNN在这个特定分类任务中胜出不仅因为其高精度更因为其对训练数据量变化的稳健性。在真实的天文巡天项目中我们往往只有一部分有“金标准”标签的数据如深场而需要将其学到的模式推广到海量无标签的巡天数据中。kNN的稳定性意味着用一个相对较小的、高质量的训练集构建的分类器在大规模应用时性能衰减的风险更低。5. 结果解读、局限性与未来展望5.1 为什么kNN表现最好这个结果初看可能反直觉因为通常更复杂的模型如XGBoost会在表格数据上占优。我们可以从数据特性来理解特征空间的结构性经过精心筛选的五个特征已经很好地将SFG和AGN区分开来。在标准化后的特征空间中同类源聚集形成“簇”不同类源的“簇”之间有相对清晰的间隔。kNN这种基于局部距离投票的方法在这种结构清晰的空间中如鱼得水。特征数量少维度不高我们只有5个特征避免了“维数灾难”。在高维空间中欧氏距离会变得没有区分度但5维还在kNN的有效工作范围内。数据质量高噪声相对小MIGHTEE-COSMOS星表的数据质量极高标签基于多方法综合判定可靠性强。kNN对噪声敏感但在干净的数据上其简单性反而成了优势——没有复杂的假设不易过拟合。与物理图像的契合天文学中很多分类本身就基于在参数空间中的“位置”比如颜色-颜色图。kNN的本质就是判断一个新源在参数空间中离哪类已知源更近这与传统天文学家的思维方式非常接近。5.2 模型的可解释性与局限性机器学习不是黑箱尤其是对于科学应用我们必须理解模型为何做出决策。逻辑回归我们可以直接查看每个特征的系数。系数的大小和正负直接反映了该特征对“判定为AGN”这一事件的贡献方向和力度。例如qIR的系数很可能为负qIR越小是AGN的概率越大这与物理预期完全一致。树模型可以通过查看特征重要性如平均不纯度减少来理解。随机森林和XGBoost给出的特征重要性排名与我们之前做的置换重要性分析高度吻合这交叉验证了特征工程的有效性。kNN可解释性体现在“最近邻”样本上。对于一个被分类为AGN的源我们可以找出训练集中离它最近的k个源查看它们大多是哪些类型的AGN射电噪光学致密这能提供非常直观的“相似性”依据。局限性标签依赖性与偏差模型的性能上限受制于“金标准”标签的质量。传统分类方法本身存在局限例如射电宁静的、光学延展的、中红外无幂律谱的AGN即“隐藏”的AGN可能被错误地标记为SFG。模型会学习并延续这种偏差。红移与选择效应我们的训练样本集中在某个红移和亮度范围内。直接将训练好的模型应用到更高红移或更暗的源上可能会因为“训练集与测试集分布不同”而导致性能下降。这被称为“域适应”问题。对极端源的泛化能力对于训练集中很少见的极端类型如极高光度的类星体或极低表面亮度的矮星系模型的分类可能不可靠。5.3 向未来巡天拓展自动化分类流水线构建基于本项目我们可以规划一个面向未来大规模巡天的自动化分类流水线数据输入层接入巡天数据发布星表自动提取所需特征qIR需计算需要红外对应流量class_star需要高分辨率光学图像测光。预处理与特征计算层自动处理缺失值、进行标准化。计算必要的衍生参数如颜色。模型服务层加载预先在高质量深场数据上训练好的最优模型例如kNN模型。考虑到数据量可能需要使用近似最近邻算法进行加速。分类与输出层对每个源给出分类标签SFG/AGN并可以附加一个分类概率或置信度分数。对于处于分类边界概率接近0.5的源可以打上“不确定”标签供人工后续检查。持续学习与更新当新的深场数据或更精确的分类方法出现时可以不断用新数据更新训练集重新训练模型迭代提升分类器性能最终建议在实际部署中不必局限于单一模型。可以采用集成策略例如用逻辑回归或kNN作为主分类器同时用随机森林计算每个源的分类概率和不确定性估计。对于概率处于中间范围的源可以触发更复杂的模型或甚至提请人工审核形成一个“人机混合”的高效分类系统。机器学习不是要取代天文学家而是将我们从重复性的初筛劳动中解放出来让我们能更专注于那些真正奇特、有趣的源和背后的物理问题。