内容字号:默认大号超大号

段落设置:段首缩进取消段首缩进

字体设置:切换到微软雅黑切换到宋体

文件存储_分布式数据库的特点_试用

2021-06-09 14:26 出处:欧普曼云计算 人气: 评论(0

文件存储_分布式数据库的特点_试用

水稻是基因组学研究的理想候选者,不仅因为它是世界上最重要的粮食作物之一,而且因为几个世纪以来的农业杂交育种创造了独特的地理差异。随着全球人口增长和气候变化对作物产量的潜在影响,对这个基因组的研究有着重要的社会考虑。

这篇文章探讨了如何用一个叫做DeepVariant的工具来识别和分析不同的水稻基因组突变。为此,我们对水稻3K数据集进行了重新分析,并将这些数据作为谷歌云公共数据集项目预发布的一部分和多伦多声明的条款进行了公开。

我们旨在展示人工智能如何通过加速基因增强来提高水稻作物产量,从而改善粮食安全。根据联合国粮食及农业组织的说法,淘客app开发,作物改良将减少气候变化和耕地流失对水稻产量的负面影响,并支持到2030年水稻需求增长25%。

为什么要在谷歌云上对水稻的遗传变异进行编目?

2018年3月,谷歌人工智能显示,深度卷积神经网络可以识别对齐DNA序列数据中的遗传变异。这种称为DeepVariant的方法在人类数据上优于现有的方法,我们还表明,在人类身上调用变体的方法可以用来调用其他动物物种的变体。这篇博文证明了DeepVariant在调用植物上的变体方面也很有效,从而证明了深度神经网络转移学习在基因组学中的有效性

2018年4月,中国农业科学院、北京基因组研究所、深圳,国际水稻研究所(IRRI)公布了一项合作的结果,对水稻3K数据集的基因组变异进行排序和表征,该数据集由来自89个国家的3024个水稻品种的基因组组成。本出版物中使用的变体调用是使用最佳实践针对日本裸参考基因组进行鉴定的,可从SNP Seek数据库获得(Mansueto等人,2017)。

我们用DeepVariant重新描述了水稻3K数据集的基因组变异。初步结果表明,以与传统最佳实践(即GATK)相似或更低的错误率发现的变体数量更多。

总的来说,Rice3K DeepVariant数据集在约7400万个基因组位置(SNP和INDEL)包含约120亿个变体。这些在1.5TB的表中可用,该表使用BigQuery变体模式。

即使在这种大小下,由于BigQuery的可扩展设计,您仍然可以运行交互式分析。下面的查询运行的时间从几秒钟到几分钟不等。速度很重要,因为基因组数据经常与其他精确农业技术产生的数据相关联。

说明性查询和分析

下面,我们将介绍一些查询和可视化示例,大数据数据,说明如何查询和分析水稻3K数据集。我们的分析集中在两个主题上:

关于如何使用Rice 3K数据或您选择的其他变量数据集在BigQuery中使用变量数据的分步教程,淘客网站,考虑试用BigQuery codelab分析变异体。

分析1:遗传变异体分布不均匀。

变异水平非常高或非常低的基因组位置可以指示基因组中处于异常高或低选择压力下的区域。

对于这些水稻品种,高选择压力(与低遗传变异相对应)表示基因组中处于高人工选择压力(即驯化)下的区域。此外,这些区域包含调控植物重要栽培或营养特性的性状的基因。

我们可以通过计算每个位置每个品种与所有品种的Z统计量来测量区域压力的大小。这是我们用来生成下面的热图的查询,它显示了遗传变异在所有12条染色体上的所有1个碱基大小的区域的分布(用最上面的颜色行标记),云 服务器,而所有3024个水稻品种是行。红色表示相对于特定基因组区域内的其他样本,变异密度非常低,大数据分析培训,而淡黄色表示特定基因组区域内的变异密度非常高。下面的树状图显示了样本之间的相似性(分枝长度),并将相似的水稻品种分组在一起:

分享给小伙伴们:
本文标签: 文件存储分布式数据库特点试用

相关文章

评论

发表评论愿您的每句评论,都能给大家的生活添色彩,带来共鸣,带来思索,带来快乐。

签名: 验证码: 点击我更换图片

评论列表