首页   >   新闻   >   文章

基于DBSCAN算法的民宿集群识别、分布格局及影响因素
- 2023 -
05/16
13:46
零号员工
发表时间:2023.05.16     作者:Jingyi     来源:ShoelessCai     阅读:75

基于DBSCAN算法的民宿集群识别、分布格局及影响因素,作者马小宾、侯国林、李莉、杨燕,南京师范大学。2021年于《人文地理》发表。

本文的数据获取时间为2018年5月;人口数据来自第六 次人口普查数据。

01 DBSCAN算法

DBSCAN,Density-Based Spatial Clustering of Applications with Noise,是一种比较有代表性的基于密度的聚类算法,该算法最初由 Ester等提出。算法主要需要进行两个参数的调节: E_和 Min。其中,E 是指研究对象在给定半径内区域的邻域,Min是确定研究对象是否为核心对象,即在研究对象E邻域内的样本点数大于等于Min,则称该对象为核心对象。DBSCAN算法将集群定义为: 密度相连点的最大集合,能够把具有足够高密度的区域划分为集群最终形成任意形状的聚类。

过程如下:首先任意选择空间一个点,找到该点 E 半径范围内所有点,如果距离在 E 之内的数据点个数大于 Min 。,则这个点被标记为核心样本并被分配一个新的集群标签,然后算法会返回一个密度相连的集合,将这个集合内的所有对象都表示为同一集群。否则则是标记成噪声点,即离群值。DBSCAN 参数的选择对干结果有较大影响,为了较少人工干预的影响,学者提出一种自适应的优化算法,该方法的主要思想是考察数据集本身的统计特性来选择E 值和Min值,根据K-dist图来判断参数的质量,进一步选择E.值和Min值。

注意: 音频当中,笔者说错了,是包含在邻域内的点的个数小于 Min,而非 response value。

通过网络爬虫软件获取Airbnb 民宿商家数据,共获取南京市范围内1427条商家数据。通 过对数据进行清洗,剔除定位不在南京市范围的数据以及 名称重复的数据,共获得1416条数据。获取的数据属性主 要包括民宿名称、每晚价格、经纬度、房间类型、所能容 纳人数、住宿设施条件等。借助 Anaconda 算法环境平台,通过 Spyder 编写 DBSCAN 算法。





02 空间变异函数

这是地统计算法的一种,笔者理解为统计空间采样的一种方式。

1.半方差函数:也称空间变异函数是地统计学的重要组成部分,是抽样间隔为h时样本值方差数学期望的一半。以变异函数K(h)为Y轴,抽样间隔h为x轴,可绘成变异函数曲线图。

2.块金值(Nugget)用Co表示:也叫块金方差,反映的是最小抽样尺度以下变量的变异性及测量误差。理论上当采样点的距离为0时,半变异函数值应为0,但由于存在测量误差和空间变异,使得两采样点非常接近时,它们的半变异函数值不为0,即存在块金值。测量误差是仪器内在误差引起的,空间变异是自然现象在一定空间范围内的变化。它们任意一方或两者共同作用产生了块金值。是由实验误差和小于实际取样尺度引起的变异.表示随机部分的空间异质性。

3.基台值(Sill)Sill)用Co+c表示:当采样点间的距离h增大时,半变异函数r(h)从初始的块金值达到一个相对稳定的常数时,该常数值称为基台值。当半变异函数值超过基台值时,即函数值不随采样点间隔距离而改变时,空间相关性不存在。C为结构方差,表示非随机原因形成的变异;Co+c为基台值,表示变量的最大变异程度。

4.块金值与基台值的比值用C/(C。+C)表示:为空间相关度,表示可度量空间自相关的变异所占的比例,表明系统变量的空间相关性的程度。如果比值<25%,说明系统具有强烈的空间相关性:如果比例在25%~75%之间,表明系统具有中等的空间相关性;若>75%说明系统空间相关性很弱。块金值与基台值的比值表示随机部分引起的空间异质性占系统总变异的比例.如果该比值高.说明样本间的变异更多的是由随机因素引起的。

5.变程(Range)用Ao表示:当半变异函数的取值由初始的块金值达到基台值时,采样点的间隔距离称为为变程。变程表示了在某种观测尺度下,空间相关性的作用范围,其大小受观测尺度表示研究变量空间自相关变异的尺度范围。其大小受观测尺度的限定。在变程范围内,样点间的距离越小,其相似性,即空间相关性越大。当h>R时,区域化变量Z(x)的空间相关性不存在,即当某点与已知点的距离大于变程时,该点数据不能用于内插或外推。

点击阅读《 地统计学半方差分析几个名词含义说明 》,获取更多信息。



03 音频阅读







04 视频讲解

遗留问题:Spherical Regression, Exponential, Gaussian。

其中, Exponential Y = exp(beta * X), Gaussian 服从多元的正态分布,回归的时候 Kernal Function 是多元正态分布函数。暂且这么认为。











原文链接

长按/扫码,有您的支持,我们会更加努力!







TOP 5 精选
回到顶部   回上一级
写文章

最新资讯




直播笔记


热点话题


精品论文


有你的鼓励
ShoelessCai 将更努力





文档免费。保护知识产权,保护创新。