内容字号:默认大号超大号

段落设置:段首缩进取消段首缩进

字体设置:切换到微软雅黑切换到宋体

云服务器_阿里云服务器供应商_限时特惠

2021-06-09 23:07 出处:欧普曼云计算 人气: 评论(0

云服务器_阿里云服务器供应商_限时特惠

Presto是一个开源的分布式SQL查询引擎,用于对各种大小的数据源运行交互式分析查询。我们很高兴地宣布,Presto分布式SQL大数据查询引擎现在可以作为CloudDataProc的可选组件在公测版中使用,CloudDataProc是我们运行ApacheSpark和Hadoop集群的完全托管云服务。像Presto这样的可选组件可以让您扩展集群上运行的开源软件应用程序的数量。这些可选组件带来了快速的集群启动时间、与Cloud Dataproc其余部分的集成测试以及Google云平台(GCP)的支持CloudDataProc已经为SQL作业类型提供了SparkSQL和Hive on Tez。另外,Cloud Dataproc已经有了一个连接到BigQuery的连接器,BigQuery是GCP的无服务器企业数据仓库,微信返利机器人哪个好,使用标准SQL。

Presto的独特之处在于,大数据专业,单个Presto查询可以有效地处理来自多个来源的数据,如HDFS、云存储、MySQL、Cassandra,人工智能包含哪些方面,甚至Kafka。它是一种受良好支持的方法,可以跨大型CloudDataProc实例和其他源运行联合查询。因此,连接器成为一个伟大的工具,特别是分析,让您快速回答一次性的问题,需要连接不同的系统。(我们将在本文后面使用公开的芝加哥出租车数据来演示其中一个问题的示例。)

Presto还可以帮助您规划下一个BigQuery提取、转换和加载(ETL)作业。使用Presto,云服务器平台,您可以跨本地系统和其他云查询各种数据源。这可以让您更好地了解如何链接数据集,确定需要什么数据,大数据app,并设计一个广泛的、非规范化的BigQuery表来封装来自多个底层源系统的信息。

Cloud Dataproc可选组件意味着Cloud Dataproc负责Presto的集群集成和测试,因此,您不需要编写将协调器和工作器联系在一起的脚本,配置Presto以利用您的配置单元元存储,并使用最新版本的Presto更新这些脚本。

由于可选组件是Cloud Dataproc映像的一部分,您可以期望任何新配置的Presto集群在不到10分钟的时间内启动并运行平均90秒。这种快速启动时间可以转化为快速的数据查询,而无需让集群处于启动和运行状态,也无需花费时间等待集群进行自我配置。您可以考虑一个问题,并在Cloud Dataproc上创建一个Presto集群来回答这个问题,而不会失去您的思路。

除了标准的Cloud Dataproc定价之外,Presto没有额外的费用,因此Cloud Dataproc是一种经济高效的运行Presto的方式。由于Presto经常用于探索不熟悉的数据集,并且可以扩展到PB大小的查询,因此按每个查询扫描的数据付费的定价模型可能会变得非常昂贵。CloudDataProc只对您指定的基础资源收费。您可以将自动缩放集群与Presto结合使用,这样您就可以在需要时灵活地增加计算资源,但不超出预定义的预算。

与Cloud Dataproc和Presto相关的一种常见架构模式是将大数据连接到存储在单独关系数据库中的引用数据。这可能是在cloudsql中,如本例所示,但也可能是在prem上或在另一个云中。我们将通过这个架构来帮助解释配置,并提供一些跨多个Presto集群创建持久表和视图的最佳实践。

分享给小伙伴们:
本文标签: 服务器阿里供应商限时特惠

相关文章

评论

发表评论愿您的每句评论,都能给大家的生活添色彩,带来共鸣,带来思索,带来快乐。

签名: 验证码: 点击我更换图片

评论列表