内容字号:默认大号超大号

段落设置:段首缩进取消段首缩进

字体设置:切换到微软雅黑切换到宋体

主页 > CDN >

分布式数据库_cdn概念股_免费申请

2021-07-14 12:10 出处:欧普曼云计算 人气: 评论(0

好吧,标题是个陷阱。实际上,这个博客是关于在机器学习模型中使用位置数据的。但是,我不想宣扬位置维度与时间同等重要,而是想向您展示一个端到端的示例,该示例分析具有和不具有位置信息的同一数据集。最后,我们将比较两个经过训练的ML模型,并将量化位置信息对预测质量的影响!这次不仅仅是说教!

同样,您将在我的GitHub存储库中找到完整的Jupyter笔记本来复制这个示例。通过详细介绍,您将了解如何

将包含空间数据(房屋销售)的csv上传到HANA云建立无空间特征的房价回归模型检索并上传各个区域的OpenStreetMap数据利用数据库函数计算空间特征训练相同的回归模型,包括这些空间特征比较两种模型预测整个城市不同位置的参考房价

另外,我将使用SAP HANA Spatial的一些全新功能,这些功能已通过HANA Cloud和HANA2 SPS05引入。该示例包括以下功能:

创建预定义的空间参考系。HANA Cloud和HANA2 SPS05在引擎盖下承载了9000多个SRS的定义。只需发出以下语句即可创建预定义的SRS:创建由Voronoi细分。利用hanacloud和hana2sps05,我们引入了数据库中的Voronoi细分。SAP HANA是第一个通过保留输入点和输出单元之间的关系来交付Voronoi单元的数据库,它支持复杂的高级分析用例。查看此视频了解更多信息。Voronoi单元可以通过调用k-Means簇上的ST\u ClusterCell或使用点集上的ST\u VoronoiCell窗口函数来计算。ST VoronoiCell(,)OVER()K-均值聚类。这种聚类方法可以通过最小化每个点到其细胞质心的平方距离将点分割成固定数量的聚类。从表中选择COUNT(*)、ST\u ClusterID()、ST\u ClusterCell()使用KMEANS CLUSTERS按点分组30六角形聚类。数据库内六边形聚类的有用特性已经在许多其他博客中讨论过了。这一次,聚类将不会用作ML模型的位置代理,而是用于地图可视化和生成点网格。从表中选择COUNT(*)、ST\u ClusterID()、ST\u ClusterCell()用六边形X细胞5逐点分组最后但并非最不重要的"空间面包和黄油":创建ST\ U几何列[doc],SRS[doc]之间的转换,空间聚合,使用空间谓词连接[doc],将几何图形导出为文本[doc],使用线串和多边形计算距离[doc],质心计算[doc]等

本例数据集可在Kaggle上下载。它包含了澳大利亚墨尔本市2016年、2017年和2018年的近35000套住房销售。不幸的是,只有27000个地理参考与适当的经纬度信息。我们的分析将基于这27000条记录。

我们将使用2016年和2017年的数据来训练我们的模型(86%的记录)。然后,该模型将应用于2018年的数据(14%的记录),以测试预测质量。

在初始数据集中,已经包含了一些列,作为地理位置信息的代理。这些是郊区、地址、距离(到市中心)、邮政编码、市议会区域、地区名称和房产计数(在街区内)。我们忽略所有这些列来训练一个完全依赖于房子本身属性的模型。之后,我们将只使用纬度和经度信息在数据库级别上生成类似(甚至更好)的空间特征。

不带地理空间字段的输入数据(lat/lon除外)

这些特征,我们将在下面考虑:

id–记录的标识符类型–物业类型h–住宅、别墅、别墅、半别墅、露台u-单元,双工t–联排别墅rooms–房间数卧室2–卧室数量浴室-浴室数量车辆–车位数量土地面积-土地面积(平方米)建筑面积——建筑面积(平方米)建造年份-建造年份形状-纬度/经度信息价格–以澳元表示的销售价格

我们的数据库表示的经纬度将是STGEOMETRY(28355)类型的列。SRS 28355是一个平面空间参考系统,适用于澳大利亚。SAP HANA上默认不安装此SRS。然而,在最新版本中,云服务器好吗,数据库已经知道SRS的定义,我们只需发出以下声明,使其可用:

有了这个新功能,怎么做淘客推广,以前的方法,如元数据安装工具或根据其定义创建空间参考系统,对于EPSG空间参考系统来说已经过时。预定义的SRS使用的度量单位也是现成的。无需单独安装。

(注意,根据其定义,仍然可以创建空间参照系。只是不需要,当使用预定义的SRS)

作为参考时,我们将首先训练一个XGBoost回归模型,该模型将包含上面列出的特性(当然除了字段形状)。为了解释模型并了解特性/属性对价格的影响,我们利用了SHAP库。

我们模型的绝对误差中位数在训练数据(2016年和2017年)上为22万美元,在测试数据(2018年)上为30万美元。为了将这一点联系起来,我们应该注意到数据集中的住房价格中值是91万美元。由此我们可以得出结论:

尽管如此,我们还是来看看SHAP对模型的解释和特征的重要性:

非空间特征的影响

我们如何解读这幅图?颜色对应于各个特征的值。红点是值高的记录,蓝点是值低的记录。x轴描述对价格的影响水平(回归目标)。零处的垂直线表现为"中性"。特征的排序与模型的重要性相对应。本例中最重要的变量是yearbuild。让我们看两个例子来更清楚地说明这一点:

现在,让我们看看是否可以通过使用地理空间特征增强数据集来改进模型。本案例中的地理空间特征可分为3个子类:

OpenStreetMap兴趣点数据

为了了解不同街区的环境和性质,我们首先使用OSMnx库从OpenStreetMap检索和上传poi数据。为了确定查询范围,淘客返利,我们首先使用STu ConvexHullAggr检查数据集覆盖的区域。

数据集中所有记录的凸包

在上面的多边形内,我们搜索带有标记"便利店"、"商店"或"机场"的POI。根据OSM属性,我们将poi分为以下类型:娱乐、健康、教育、儿童保育、社区、紧急情况、杂货店、购物、机场。

poi样本数据

总体上,我们下载了50000个poi,并选择了15000个左右,根据上述分类,我们发现相关的poi。我们可以使用地图插件,比如Folium,为不同的poi类型创建热图。

娱乐poi的Folium热图

基于poi数据,我们生成了一系列特征,这些特征描述了每个房子到给定类型的下一个poi的距离以及列表周围poi的密度。

我们可以使用下面的SQL视图高效地查询给定类型的下一个poi。

注意,人工智能本科,我们首先(内部select语句)使用Voronoi聚类为特定类型的每个poi生成Voronoi单元。Voronoi单元覆盖的区域中,每个点都比任何其他质心(即poi)更靠近该单元的质心(即poi)。如果我们现在将房子的坐标与Voronoi细胞相交,我们通过检索细胞质心的记录立即得到最近的POI。这是一个将Voronoi单元用于非视觉目的的好例子。

为了计算列表周围给定距离(例如1000米)内某一类型的POI,我们使用以下SQL视图。

人工区域代理

分享给小伙伴们:
本文标签: 分布式数据库概念股免费申请

相关文章

评论

发表评论愿您的每句评论,都能给大家的生活添色彩,带来共鸣,带来思索,带来快乐。

签名: 验证码: 点击我更换图片

评论列表