好文档 - 专业文书写作范文服务资料分享网站

牛SNP芯片分型检出率和分型错误率对基因型填充准确率的影响

天下 分享 时间: 加入收藏 我要投稿 点赞

牛SNP芯片分型检出率和分型错误率对基因型填充准确率

的影响

李智1,2,3,何俊1,3,蒋隽1,4,Richard G. Tait Jr.3,Stewart Bauck3,过伟2,吴晓林1,3,4

【摘 要】摘要:SNP芯片已被广泛应用于动植物的遗传研究和生产实践,其基因分型的准确性至关重要。但在实际应用中,常有一定数量的基因型因缺失而需要去估计(填充)。此外,由于各种原因,又常常需要在不同芯片的基因型之间相互填充彼此没有的SNP基因型,或从低密度SNP填充到高密度SNP基因型。因此,基因型填充准确率直接影响后续数据分析的准确性和可靠性。为深入了解基因型填充准确率的影响因素,本研究利用20 116头美国荷斯坦牛的50K SNP芯片基因分型数据,在SNP分型检出率与错误率存在相关和没有相关两种情形下,分别评估了上述两个因素对下游基因型填充准确率的影响。当两者不相关时,模拟的SNP分型检出率从100%降低到50%,SNP分型错误率由0%提升到50%。当两者存在相关时,基因分型的检出率和错误率之间的关系是基于一个实际数据中这两个变量之间的线性回归方程来确定,即模拟的SNP分型检出率从100%降低到50%,SNP分型错误率从0% 升高到 13.35%。最后,采用5折交叉验证的方法评估基因型填充的准确率。结果表明,当原始数据的SNP分型检出率与错误率彼此独立发生时,基因型填充的错误率受原始SNP分型检出率影响不大(P>0.05),却随着原始SNP分型错误率的升高而显著提高(P<0.01)。当原始数据的SNP分型检出率与错误率存在负相关时,基因型填充的错误率随着原始SNP分型检出率的降低而显著提高(P<0.01)。在这两种情形下,建议SNP分型检出率应在90%以上,基因型填充准确率才能不低

于98%。该结果可为提升实际的SNP分型和下游数据分析的质控提供参考依据。

【期刊名称】《遗传》 【年(卷),期】2019(041)007 【总页数】9

【关键词】关键词: SNP芯片;基因型分型;填充准确率;检出率;错误率 随着高通量DNA测序和基因分型技术水平的不断提高,SNP芯片在各类遗传学研究和动植物育种中均得到了广泛应用[1,2],如全基因组关联分析(genome-wide association study, GWAS)[3,4]、基因组选择(genomic selection)[5,6]、基因组品种鉴定(genomic breed composition)[7]以及基因组选配(genomic mating)[8~10]等。SNP芯片在使用过程中,一个重要的数据处理环节是基因型填充(genotype imputation),即利用参考群体提供的各基因座位之间的连锁不平衡和重组率信息,构建彼此连锁的单倍型,然后依据所构建的单倍型信息,对目标个体(测试群体或有缺失基因型的个体)缺失位点上的基因型进行填充(预测)[11,12]。

基因型填充主要应用于如下几种情形:第一,由于各种原因导致在SNP芯片基因分型时会产生一部分缺失值,进而影响到下游数据的分析及统计推断。这种情况则可以通过基因型填充来解决[13];第二,SNP芯片密度越高,对基因组的覆盖程度越大,从基因型数据中获取的信息量也可能更多。特别是对于基因组选择,高密度SNP芯片对经济性状的预测准确性往往比低密度芯片的预测准确性高[14]。但目前高密度芯片的成本依然较高,制约了其广泛应用。通过基因型填充技术,可以根据已有的参考群体的高密度基因型信息,将低密度基因

型填充至中密度或高密度基因型,从而极大提升低密度芯片的使用性价比,降低基因分型的实验检测费用和后续的育种成本[15,16];第三,很多遗传学研究都需要合并不同密度或(和)不同时期芯片数据的基因型,从而整合不同群体或试验研究的统计资料,对研究目标(或基因)进行综合性的评估[17,18],就需要在不同密度SNP芯片之间相互填充所缺失的基因型。除此以外,基因型填充在SNP精细定位、未分型变异填充、非SNP变异填充以及纠正少量基因分型错误等方面均有应用[11]。

目前,基因型填充已成为基因分型数据处理过程中的一项常规手段[19]。而填充的准确度对后续数据分析起着至关重要的作用[20,21]。影响基因型填充准确度(genotype imputation concordance, GIC)的因素很多,如参考群体大小[22]及其组成成分[23]、参考群体与目标群体的遗传关系(距离)[24]以及所使用的软件和算法[11]等。但这些影响因素大多属于数据分析的中下游,而在数据分析的上游,SNP芯片基因分型的数据质量也对后续数据分析的可靠性有着非常大的影响。影响基因分型数据质量的主要因素包括SNP 基因型分型的检出率(SNP genotyping call rate, GCR)和SNP基因型分型的错误率(SNP genoty-ping error rate, GER),或简称SNP分型检出率和SNP分型错误率。SNP分型检出率是指SNP基因型分型过程中,SNP的探针强度值未通过检测过滤分数或所检测等位基因的强度信号分数处于统计模型所推测的基因组聚类的边界之外的比率。就一个样本而言,其SNP基因型的总检出率等于该样本所检出的SNP基因型(或基因型检出成功的SNP座位)占其在该芯片上检测的所有SNP基因型(或SNP座位)的比率。Purfield等[25]研究表明,SNP分型检出率会影响SNP分型的完整性,检出率低的样品中缺失基因型的填充准确性也

牛SNP芯片分型检出率和分型错误率对基因型填充准确率的影响

牛SNP芯片分型检出率和分型错误率对基因型填充准确率的影响李智1,2,3,何俊1,3,蒋隽1,4,RichardG.TaitJr.3,StewartBauck3,过伟2,吴晓林1,3,4【摘要】摘要:SNP芯片已被广泛应用于动植物的遗传研究和生产实践,其基因分型的准确性至关重要。但在实际应用中,常有一定数量的基因型因缺失而
推荐度:
点击下载文档文档为doc格式
4meph4amwp0weks4q8jb3z01x0bvw200n7w
领取福利

微信扫码领取福利

微信扫码分享