从Fst到Tajima‘D:手把手教你用WGS重测序数据做群体遗传分析(附代码解读) 从Fst到TajimaD实战WGS重测序数据的群体遗传分析指南当你手握一份WGS重测序数据完成了基础变异检测后如何从中挖掘群体遗传学的宝藏本文将带你用主流工具实操计算Fst、Pi、TajimaD等核心参数避开理论迷雾直击代码实现与结果解读。1. 环境准备与数据检查在开始分析前确保你的Linux系统已安装以下工具vcftools(v0.1.16)plink(v1.9)popgenWindows(最新版)R(v4.0用于可视化)检查VCF文件质量是第一步。用以下命令快速查看基本信息vcftools --vcf your_data.vcf --check常见问题排查缺失率过高--max-missing 0.9过滤低质量位点测序深度不均--min-meanDP 10设置最低平均深度样本混杂用--keep参数指定目标群体样本提示原始VCF建议先进行bcftools filter预处理去除INDEL和低质量SNP2. 群体分化分析Fst计算实战Fst是衡量群体分化的金标准。假设我们比较亚洲(A)和欧洲(E)两个群体vcftools --vcf input.vcf \ --weir-fst-pop A_samples.txt \ --weir-fst-pop E_samples.txt \ --out A_vs_E关键输出文件A_vs_E.weir.fst包含三列染色体位置窗口内Fst均值加权Fst值结果解读阈值Fst范围分化程度生物学意义0-0.05低群体间基因流频繁0.05-0.15中存在地理隔离0.15高强烈分化或选择信号用R绘制曼哈顿图观察基因组分布library(qqman) fst_data - read.table(A_vs_E.weir.fst, headerT) manhattan(fst_data, chrCHROM, bpPOS, pWEIR_AND_COCKERHAM_FST, suggestiveline0.15, genomewideline0.25)3. 多样性分析π与θ参数计算核苷酸多样性π反映群体遗传变异水平。计算全基因组滑动窗口π值vcftools --vcf input.vcf \ --window-pi 100000 \ --window-pi-step 50000 \ --out genome_pi参数解析--window-pi窗口大小(bp)--window-pi-step滑动步长θ参数则通过分离位点数目估算vcftools --vcf input.vcf \ --sites-with-missing \ --Tajima 100000 \ --out theta_estimates比较π与θ的三种典型情况π≈θ符合中性进化πθ提示平衡选择πθ可能经历定向选择4. 选择压力检测TajimaD全流程TajimaD是检测非中性进化的利器。计算10kb窗口的D值vcftools --vcf input.vcf \ --TajimaD 10000 \ --out tajima_results结果解读指南D0中性进化D0群体收缩或平衡选择D0群体扩张或正选择典型错误处理# 报错Insufficient polymorphic sites vcftools --vcf input.vcf --maf 0.05 # 先过滤低频变异用Python筛选显著信号区域import pandas as pd data pd.read_csv(tajima_results.Tajima.D, sep\t) sig_regions data[(data[TajimaD] 2) | (data[TajimaD] -2)] sig_regions.to_csv(significant_regions.csv, indexFalse)5. 高级分析XP-CLR跨群体选择扫描XP-CLR需要预先分群体VCF文件。以群体A为参考检测群体B的选择信号xpclr --inputA groupA.vcf \ --inputB groupB.vcf \ --out xpclr_results \ --chr 1-22 \ --wsize 0.1关键参数--wsize窗口大小(遗传距离)--min-snps窗口最少SNP数(建议≥10)结果可视化代码片段xpclr - read.table(xpclr_results.xpclr, headerF) plot(xpclr$V2, -log10(xpclr$V7), xlabPosition, ylab-log10(XP-CLR))6. 结果整合与生物学解读将各指标结果合并分析paste fst.txt pi.txt tajima.txt | awk {print $1,$2,$3,$6,$9} combined_results.txt多指标联合判断选择信号正选择区域高Fst 低π 负TajimaD平衡选择区域中等Fst 高π 正TajimaD中性区域低Fst π≈θ D≈0实战案例某作物抗病基因区域分析Fst0.21 (群体间高度分化)π0.003 (低于基因组背景0.012)TajimaD-2.3 (P0.01)XP-CLR得分top 1% 结论该区域可能受到定向选择