内容字号:默认大号超大号

段落设置:段首缩进取消段首缩进

字体设置:切换到微软雅黑切换到宋体

微软云_哈尔滨企业网站_测评

2021-06-10 06:23 出处:欧普曼云计算 人气: 评论(0

微软云_哈尔滨企业网站_测评

在本文中,大数据的4,您将了解apachebeam中支持输入流连接器的当前状态。有关更多内容,您还将了解另一种流行的开源数据处理框架Apache Spark的相应支持状态。

Google Cloud Platform(GCP)提供了几种完全托管的解决方案,以简单且经济的方式运行Beam和Spark工作负载。特别是,云数据流通过提供一个无服务器的解决方案简化了Beam管道的部署,该解决方案可以以几乎无限的容量水平扩展。此外,Cloud Dataproc还提供了具有可定制机器类型的易于调整大小的集群,以及Spark、Hadoop、Pig和Hive的频繁更新的开源版本。

通过批处理,您可以从任何源加载数据,大数据应用,包括数据库系统。即使这些数据库系统没有特定的sdk可用,也可以经常使用JDBC驱动程序。对于流媒体,大数据网,实现适当的数据管道可能更具挑战性,因为通常可用的源类型较少。因此,本文特别关注流式处理用例。

Beam有一个官方的JavaSDK,有几个执行引擎,叫做Runner。在大多数情况下,使用Spark Runner将现有的用Java或Scala编写的Beam管道传输到Spark环境是相当容易的。

Spark是用Scala编写的,有一个Java API。Spark的源代码编译成Java字节码,二进制文件由Java虚拟机运行。Scala代码可与Java互操作,因此与Java库具有本机兼容性(反之亦然)。

Spark提供了两种流式处理方法:离散化流式处理(或数据流)和结构化流式处理。数据流是一种基本的抽象,它表示一系列连续的弹性分布式数据集(RDD)。结构化流媒体是最近才引入的(alpha版本是随Spark 2.1.0发布的),它基于一个模型,在这个模型中实时数据不断地附加到表结构中。

Spark结构化流媒体只支持文件源(本地文件系统和HDFS兼容系统,云是什么,如云存储)和Kafka作为流媒体输入。Spark为针对第三方服务的数据流维护内置连接器,如Kafka或Flume,其他连接器可通过链接外部依赖项获得,在线建站平台,如下表所示。

以下是Java中Beam和Spark数据流可用的主要流输入连接器:

分享给小伙伴们:
本文标签: 微软哈尔滨企业网站测评

相关文章

评论

发表评论愿您的每句评论,都能给大家的生活添色彩,带来共鸣,带来思索,带来快乐。

签名: 验证码: 点击我更换图片

评论列表