SweepFinder2 使用一种基于 Composite Likelihood Ratio (CLR) 的方法来检测正选择。CLR 是一种统计量,通过比较基因组中特定区域的观察到的核苷酸频率与背景频率(中性模型假设)来确定正选择的可能性。
主要特点
背景选择的校正:
背景选择是指由于中性突变附近的有害突变减少了多样性,从而对选择性扫荡检测产生干扰。SweepFinder2 引入了 Huber 等人(2015)和 DeGiorgio 等人(2016)提出的背景选择模型,使得选择性扫荡的检测更加准确。
适用于大规模数据:
提升了算法效率,能够处理全基因组范围的高密度变异数据。
多功能性:
既可以检测单个群体中的选择性扫荡,也可用于多群体数据分析。
提供了灵活的参数和输入格式选项,适合不同研究需求。
工作原理
SweepFinder2 基于复合似然比(Composite Likelihood Ratio, CLR)的方法,评估特定基因组区域的观察等位基因频率与中性模型假设下的频率之间的偏离程度。
背景频率的估计:
通过基因组大部分区域的等位基因频率构建背景中性模型,作为参考。
复合似然比计算:
比较基因组中特定区域的观察频率与背景频率的差异。
CLR 值越高,表明该区域可能受到正选择作用。
背景选择校正:
使用改进的模型对背景选择对等位基因频率的影响进行校正,降低假阳性率。
计算示例:
最简单的检测选择信号
./SweepFinder2 -s G FreqFile OutFile
./SweepFinder2 -sg g FreqFile OutFile
./SweepFinder2 -su GridFile FreqFile OutFile
-s: 使用均匀网格搜索清扫。
-sg: 使用指定的网格间距 (g) 搜索清扫。
g: 网格间距(单位:碱基)。
-su: 使用用户定义的网格文件 (GridFile) 搜索清扫。
使用预计算的频谱寻找清扫
./SweepFinder2 -l G FreqFile SpectFile OutFile
./SweepFinder2 -lg g FreqFile SpectFile OutFile
./SweepFinder2 -lu GridFile FreqFile SpectFile OutFile
-l: 使用频率谱文件进行分析。
-lg: 使用指定网格间距 (g) 和频率谱文件。
-lu: 使用用户定义的网格文件和频率谱文件。
SpectFile: 输入的频谱文件。
使用重组率和预计算频谱寻找清扫
./SweepFinder2 -lr G FreqFile SpectFile RecFile OutFile
./SweepFinder2 -lrg g FreqFile SpectFile RecFile OutFile
./SweepFinder2 -lru GridFile FreqFile SpectFile RecFile OutFile
-lr: 使用频率谱和重组率文件。
RecFile: 重组率文件,包含位置和对应的重组率(以 cM 表示)。
使用 B 值和预计算频谱寻找清扫
./SweepFinder2 -lb G FreqFile SpectFile BValFile N1 N2 T OutFile
./SweepFinder2 -lbg g FreqFile SpectFile BValFile N1 N2 T OutFile
./SweepFinder2 -lbu GridFile FreqFile SpectFile BValFile N1 N2 T OutFile
-lb: 使用 B 值文件。
BValFile: B 值文件,包含位置和对应的 B 值。
N1: 样本 1 的大小。
N2: 样本 2 的大小。
T: 选择清扫的时间参数。
同时使用重组率和 B 值进行分析
./SweepFinder2 -lrb G FreqFile SpectFile RecFile BValFile N1 N2 T OutFile
./SweepFinder2 -lrbg g FreqFile SpectFile RecFile BValFile N1 N2 T OutFile
./SweepFinder2 -lrbu GridFile FreqFile SpectFile RecFile BValFile N1 N2 T OutFile
G: 网格间距(均匀网格)。
g: 自定义网格间距(不均匀网格)。
GridFile: 自定义网格文件。
FreqFile: 等位基因频率文件。
SpectFile: 预计算的频率谱文件。
RecFile: 重组率文件。
BValFile: B 值文件。
N1/N2: 两个种群的样本大小。
T: 时间参数。
输入文件:
1)Allele frequency file

第一列:染色体上的位置
该位点在基因组中的物理位置,通常用碱基对位置表示。
第二列:等位基因计数
表示该位点衍生等位基因(derived allele)的计数(即观察到的该等位基因的数量)。
第三列:样本大小
样本中检测到的等位基因总数,包括衍生和祖先等位基因。
第四列:极化指示器
一个布尔值(1 或 0),指示该位点的等位基因是否已被极化。如果已知是衍生(derived)或祖先(ancestral)等位基因,则为 1。如果无法确定极化状态,则为 0。
2)Recombination file

第一列:染色体上的位置(Position)
指定位点在基因组中的物理位置(以碱基对为单位)。
第二列:重组率(Recombination Rate, cM)
表示当前位点与文件中上一位点之间的重组率,单位为厘摩尔(cM)。对于文件中的第一个位置,其重组率应为0。
3)B-value file

第一列:染色体上的位置(Position)
指定位点在基因组中的物理位置,单位为碱基对(bp)。
第二列:B 值(B-value)
B 值是背景选择强度的一个度量,用以描述基因组中选择性约束的程度。
4)User-defined grid file

通过提供自定义网格文件 (user-defined grid file) 指定计算选择性清扫统计量的位置,而不是使用默认的均匀网格选项。
自定义网格文件是一个简单的文本文件,每行包含一个基因组位置(以碱基对为单位),后续将仅对这些指定位置计算选择性清扫统计量。
5)empirical frequency spectrum
在使用 SweepFinder2 进行基因组范围的选择性清扫分析时,通常需要计算经验频率谱(empirical frequency spectrum),作为中性假设下的等位基因频率分布。
首先要准备 CombinedFreqFile,将所有染色体的等位基因频率文件(格式为上述 Allele frequency file)逐行合并为一个文件CombinedFreqFile。
而后使用 SweepFinder2 提供的 -f 选项计算频率谱。
./SweepFinder2 -f CombinedFreqFile SpectFile
生成的验频率谱,可以用于后续的选择性清扫检测。
