内容字号:默认大号超大号

段落设置:段首缩进取消段首缩进

字体设置:切换到微软雅黑切换到宋体

华为云_我的小蜜桃百度云_高性能

2021-06-09 15:21 出处:欧普曼云计算 人气: 评论(0

在不同的存储系统(如多个Apache Hadoop分布式文件系统(HDFS)集群)之间或在HDFS和云存储之间复制或移动数据时,最好执行某种类型的验证以保证数据的完整性。此验证对于确保数据在传输过程中不被更改至关重要。

对于云存储,此验证通过gsutil cp和rsync等命令在客户端自动进行。这些命令计算本地文件校验和,啥是大数据,然后在每个操作结束时根据云存储计算的校验和对其进行验证。如果校验和不匹配,gsutil将删除无效副本并打印警告消息。这种不匹配很少发生,如果发生了,您可以重试该操作。

现在,还有一种方法可以在Apache Hadoop中跨异构Hadoop兼容文件系统(如HDFS和云存储)自动执行端到端、客户端验证。我们的Google工程师最近与Twitter和Apache Hadoop开源社区的成员合作,云服务器如何,在Apache Hadoop中添加了这一功能。

虽然各种机制已经确保了传输过程中的点对点数据完整性(例如所有与云存储通信的TLS),显式的端到端数据完整性验证为典型的传输中机制可能无法检测到的情况提供了保护。这可以帮助你发现潜在的数据损坏,例如,ecs云服务器,嘈杂的网络链接,服务器和路由器上的内存错误,或软件错误(如在客户使用的库中)。

在这篇文章中,我们将介绍此新功能如何让您高效、准确地比较文件校验和。

HDFS如何执行文件校验和

HDFS使用CRC32C(一种基于Castagnoli多项式的32位循环冗余校验(CRC))在几种不同的上下文中保持数据完整性:

对于大多数日常使用,crc相对于应用层是透明使用的,云教云,并且使用的唯一crc是每个块crc32c,它们已经被预计算并与块数据一起存储在元数据文件中。块大小由dfs.bytes文件-每个校验和的默认值为512字节。

Hadoop默认文件校验和类型的缺点

默认情况下,使用Hadoop时,所有API公开的校验和都采用块CRC32C串联的MD5(生成哈希值的消息摘要算法)的形式,通过低级DataTransferProtocol在块级,或者通过顶级文件系统接口在文件级。后者被定义为所有块校验和串联的MD5,每个块校验和都是块crc串联的MD5,因此被称为MD5MD5CRC32FileChecksum。这实际上是一个按需的三层Merkle树。

文件级校验和的定义对HDFS的实现和数据布局细节非常敏感,即块大小(默认512字节)和块大小(默认128MB)。因此,此默认文件校验和不适用于以下任何情况:

您可以在此处看到,根据文件系统的配置,同一文件如何以三个校验和结束:

,大数据趋势
分享给小伙伴们:
本文标签: 华为我的小蜜百度高性能

相关文章

评论

发表评论愿您的每句评论,都能给大家的生活添色彩,带来共鸣,带来思索,带来快乐。

签名: 验证码: 点击我更换图片

评论列表