重测序分析(14)全基因组关联分析GWAS介绍

全基因组关联分析(GWAS)

全基因组关联分析(Genome wide association study,GWAS)是对多个个体在全基因组范围的遗传变异(如SNP)多态性进行检测,进而将基因型与表型进行相关性分析,挖掘性状相关基因。


GWAS分析流程

  • 准备样本表型数据
  • 进行基因型检测
  • 基因型和表型关联
  • 查找候选基因组

性状数据

  • 质量性状
    单基因控制
  • 数量性状
    符合正态分布
    表型数据离散时建议进行数据转换
    剔除异常表型值样本
    多年多点重复观测,相互验证
  • 分级性状
    多基因控制

效应与基因频率

突变效应:一个突变对性状的影响程度


群体结构和亲缘关系的干扰

做GWAS的一个理想群体是,群体内部的所有个体随机交配,个体间的距离一致、差异度一致,那么群体内的最大差异就是目标表型的差异。但是,我们的群体一定会存在亲缘关系或者亚群的干扰。所以,我们在分析的时候要做一些处理(加Q或者K矩阵矫正)。


常用的模型

一般线性模型GLM


该模型认为表型由遗传效应(SNP的干扰)和群体结构的干扰再加上随机误差一起生效的。

混合线性模型MLM


在一般线性模型的基础上多加了一个亲缘关系(随机效应)

GWAS曼哈顿图

阈值计算:Bonferroni test,0.05/total_SNPs,0.01/total_SNPs 或 FDR


QQ-plot

QQ-plot:quantile-quantile plot ,分位数-分位数图,主要用于检查观测到的p-value和期望的p-value一致性。进而推断GWAS使用的统计模型是否合理。



一般比较好的结果是前面重合,后面尾巴翘起。

GWAS分析常用的软件

• GWAS分析软件
– Tassel
– GAPIT
– Plink
– Emmax
• GWAS绘图软件
– qqman(R包)
– CMplot(R包)

样本和测序数量

• 推荐测序量:
– 单个样品>5X以上,大群体可以适当降低测序量
• 个体数目
– 越多越好,200个以上
• 样本间不能有明显的亚群分化


欢迎关注Bioinfor 生信云!

©著作权归作者所有,转载或内容合作请联系作者
平台声明:文章内容(如有图片或视频亦包括在内)由作者上传并发布,文章内容仅代表作者本人观点,简书系信息发布平台,仅提供信息存储服务。

推荐阅读更多精彩内容