内容字号:默认大号超大号

段落设置:段首缩进取消段首缩进

字体设置:切换到微软雅黑切换到宋体

网站空间_数据库编写_多少钱

2021-06-09 00:11 出处:欧普曼云计算 人气: 评论(0

网站空间_数据库编写_多少钱

clouddataproc是googlecloud完全管理的apachehadoop和Spark服务。CloudDataProc的任务一直是使开发人员和数据科学家能够简单直观地将其现有的工具、算法和编程语言应用于云级数据集。它的灵活性意味着您可以继续使用已经在使用的技能和技术来探索任何大小的数据。我们从世界各地的企业和SaaS公司获悉,云服务器好,他们正在使用Cloud Dataproc进行数据处理和分析。

Cloud Dataproc现在提供了在Google Kubernetes Engine(GKE)上访问Spark jobs的alpha访问。这意味着您可以利用机器学习和大数据分析的最新方法(apachespark和googlecloud),以及开发人员和数据科学家在Kubernetes和GKE中依赖的最先进的云管理功能。同时使用这些工具可以为您带来灵活性、自动修复作业和统一的基础架构,因此您可以专注于工作负载,而不是维护基础架构。向我们发送电子邮件以获取更多信息并加入alpha计划。

让我们看看Cloud Dataproc的当前形式以及新的GKE alpha提供了什么。

Cloud Dataproc已经为成千上万的客户实现了大数据和分析处理的民主化,能够在数分钟内启动一个完全加载和配置的Apache Spark群集。使用clouddataproc,组件网关等功能可以实现对笔记本电脑的零设置或零安装安全访问,一元云购下载,让您可以立即开始探索任何大小的数据。这些笔记本电脑与CloudDataProc自动缩放相结合,使运行ML培训或处理各种大小的数据成为可能,而无需离开笔记本或担心如何完成工作。底层的Cloud Dataproc集群只需在预定义的限制内根据需要调整计算资源。

一旦您的ML模型或数据工程作业准备好生产,或以自动化或循环方式使用,您可以使用Cloud Dataproc Jobs API将作业提交到具有作业.提交通过HTTP调用,大数据市场,使用gcloud命令行工具,或者在Google云平台控制台中调用。通过jobsapi提交Spark代码可以确保记录和监视作业,此外还可以跨集群管理作业。它还可以很容易地将谁有权提交集群上的作业和谁有权访问集群本身的权限分开,而不需要网关节点或Livy之类的应用程序。

云Dataproc jobs API非常适合那些喜欢包装作业自动化和提取、转换、,以及在定制工具(如Spotify的Spydra或Cloud Dataproc的工作流模板)中加载处理(ETL)作业。

然而,支持容器化和Kubernetes的云管理功能的开发人员和数据科学家已经开始对其大数据处理服务提出更高的要求。为了实现Spark作业的自动化,您需要继续运行创建作业的集群(成本高昂,并且不利用云计算的按需付费功能),或者需要仔细跟踪如何在云计算中重新创建相同的集群环境,它可以成为配置、初始化脚本、conda环境和库/包管理脚本的复杂混合体。在多租户环境中,此过程可能会更加麻烦,因为在多租户环境中,各种软件包、配置和操作系统更新可能会发生冲突。

使用Kubernetes上的Cloud Dataproc,您可以消除对具有各种软件集的多种类型群集的需要以及所涉及的复杂性。通过将clouddataprocjobsapi扩展到GKE,您可以将作业的所有不同依赖项打包到一个Docker容器中。此Docker容器允许您将Spark作业直接集成到软件开发管道的其余部分。

此外,通过扩展适用于GKE的Cloud Dataproc作业API,管理员有一个统一的管理系统,可以利用他们的Kubernetes知识。您可以避免在独立的虚拟机或apachehadoop中管理Spark应用程序?

ApacheHadoopYarn(2012年推出)是一个资源协商者,在prem和cloud上的Spark平台上很常见。YARN提供了在基于计算引擎的clouddataproc集群中调度计算资源的核心功能。通过用GKE扩展clouddataproc中的jobsapi,您可以选择用Kubernetes替代纱线管理。使用Kubernetes而不是YARN有一些关键的优势:

通过使用Spark代码嵌入一致的软件库配置,云服务器ecs,可以实现更大的生产作业灵活性。容器化Spark作业在作业级别而不是集群级别隔离依赖关系和资源。这种灵活性将为您提供更可预测的工作负载周期,并使您在出现问题时更容易确定故障排除目标。

Kubernetes为您的Spark作业提供声明性配置。这意味着您可以在作业开始时声明处理作业所需的资源。如果由于某种原因Kubernetes资源(即执行者)变得不健康,Kubernetes将自动恢复它们,并且您的作业将继续使用您在开始时声明的资源运行。

在Google,我们使用了一个名为Borg的系统来统一我们的所有处理,无论是数据分析工作负载、网站还是其他任何东西。Borg的架构是Kubernetes的基础,大数据啥意思,您可以使用它来消除对大数据(纱线)筒仓的需求。

通过将Spark作业迁移到单个集群管理器,您可以专注于Kubernetes的现代云管理。在Google,拥有一个单一的集群管理器系统可以更有效地使用资源,并提供一个统一的日志记录和管理框架。你的组织现在也有同样的能力了。

Kubernetes不仅仅是大数据处理的"又一个资源谈判者"。这是一种全新的处理大数据的方式,可以极大地提高数据和分析工作负载的可靠性和管理能力。

让我们来了解在alpha阶段向GKE上的Cloud Dataproc提交Apache Spark作业所涉及的内容。

第0步:向Cloud Dataproc注册GKE集群

分享给小伙伴们:
本文标签: 网站空间数据库编写少钱

相关文章

评论

发表评论愿您的每句评论,都能给大家的生活添色彩,带来共鸣,带来思索,带来快乐。

签名: 验证码: 点击我更换图片

评论列表