Mapping fine-scale urban housing prices by fusing remote-sensing images and social media data
基于多源空间数据深度融合的深圳市房价空间分布精细制图
成果信息
Yao, Y., Zhang, J., Hong, Y., Liang, H., He, J., 2018. Mapping fine-scale urban housing prices by fusing remote-sensing images and social media data. Transactions in GIS.
https://onlinelibrary.wiley.com/doi/abs/10.1111/tgis.12330
DOI:10.1111/tgis.12330
研究成果数据下载:深圳市高空间分辨率(5米)房价栅格数据下载地址:http://t.cn/Rn1EzQm
团队成员
姚尧,博士,中国地质大学(武汉)我院,副教授,硕士生导师,主要从事时空大数据挖掘、多源时空数据融合、城市计算和机器学习等方面的研究。(联系邮箱:yaoy@cug.edu.cn)
张金宝,博士生(17级),中山大学地理科学与规划学院,师从黎夏教授。主要从事机器学习、大数据挖掘和城市计算等方面的研究。
洪晔,本科生(14级),中山大学地理科学与规划学院,专业为地图学与地理信息系统。将就读于苏黎世联邦理工学院(ETH)。
梁浩林,本科生(14级),中山大学地理科学与规划学院,专业为测绘工程。将就读于加州大学加州大学美熹德分校(UCM)。
何家律,博士生(17级),中山大学地理科学与规划学院,师从黎夏教授。主要从事深度学习和土地利用变化模拟等方面的研究。
成果介绍
房地产价格是指建筑物连同其占用土地在特定时间段内房产的市场价值。即房价是该地段的土地价格和建筑物价格综合构成的,是房地产经济运行和资源配置最重要的调节机制。一个城市的房价水平与经济、人口、收入、产业构成等城市综合实力相关。在中国,随着经济发展和城市化进程的加快,房价的增长和其经济水平发展有着明显的相关关系。
从政策制定视角来看,高质量的房价指标和数据在城市可持续发展的政策视角也是非常重要的。包括中国在内的大多数主要经济体的经济政策制定者对住房市场状况的变化越来越敏感,房价的分布一直被认为是经济研究的主要尺度。作为世界上最大的发展中国家和世界第二的经济体,这意味着中国城市的房价在宏观经济和微观经济尺度,如GDP、城市发展和家庭住房、非住房消费,都起着非常重要的作用。此外,城市房价的精细规模空间分布数据可以为房地产市场提供有价值的信息,用于城市政策制定、精确调控城市房价,并将住房补贴确定在合理的水平。因此,研究中国经济的精细分布和中国城市的发展情况,可以通过该城市的房价入手开展研究。
已有的房价空间研究和模型存在两个问题:首先是数据挖掘模型较为简单,主要采用普通的统计或机器学习模型,无法充分挖掘数据中隐含的高层语义信息;另外,以上提到的研究都只是关注于单源数据(社交媒体数据或遥感影像数据),而没有充分的融合多源空间数据之间的信息,没有充分挖掘影响房价的自然物理和社会经济因素,无法在精细尺度下模拟出城市房价分布存在的复杂的空间异质性。
通过采集搜房网(Fang.com)提供的房价数据和多源空间数据,本研究在前人研究的基础上,考虑到中国城市房价存在的复杂空间异质性,建立了一种基于深度学习有效融合多源空间数据(高分辨率遥感影像、百度POIs数据和基础地理信息数据等)的房价制图模型,以实现精确、合理的高分辨率城市房价空间分布精细制图。本研究提出了一个联合挖掘-卷积神经网络(Convolutional neural network for united mining, UMCNN)模型,用于挖掘和融合研究区(深圳市)内的多源空间数据及与房价相关的自然物理和社会经济信息,获取深圳市的房价精细分布数据。通过和多种基于多源空间数据融合的房价制图方法进行对比,来论证本章节提出的方法的优势和准确性。
图1基于深度学习的房价制图流程图
图2联合挖掘卷积神经网络(UMCNN)的计算模型
图3深圳市房价空间分布精细制图结果:(A) 福田区的深圳市民中心;(B) 南山区南头街道(深圳市关内和关外交界处);(C) 龙岗区中海地产
图4深圳市和各行政区的真实房价数据和模拟数据的对比
房价问题,特别是在中国超大城市的高房价问题,是目前中国城市经济发展面临的最紧迫的问题之一,最近越来越受到经济界和学术界的关注。之前关于房价的研究主要集中于房价定价的驱动因素,或房价变化和经济波动之间的相关性的大尺度研究。因为缺乏有效的数据和模型,在精细尺度开展城市房价空间分布的研究尚还空缺。本研究综合考虑到高分遥感影像和社交媒体数据之间存在的多源空间信息和房价之间的关系,构建了一个有效的深度学习卷积神经网络模型刻画了在精细尺度下的城市住房价格的空间分布。同时,为了解决多源地理空间数据存在的多尺度效应问题,本研究耦合了多尺度随机样本选择、UMCNN和RFA拟合模型,最终得到了深圳市房价精细分布制图结果和揭示了深圳市房价空间分布特征。
UMCNN不仅合理的估计了精细尺度上的房价分布,而且基于多源空间数据的联合挖掘也很好的识别出空间异质性的存在模式。在图像理解领域,CNN通过构建卷积网络,形成多种识别规则,因此具备识别照片中多种物理特征的能力。也就是说,UMCNN在训练多源空间数据和房价数据时,有能力在不同尺度和不同空间位置挖掘影响房价因素的自然物理和社会经济属性,形成多种规则,所以制图结果充分的体现出房价空间分异的存在。在UMCNN房价制图结果中,具有相似空间结构的房屋在不同区域会有不同的价值体现,相同区域的不同结构房屋也会有不同的价值,这就说明了该方法制图结果很好的体现了房价存在的空间异质性特征。基于本研究的UMCNN框架下,还可以开展更多种空间数据的融合和分析,因此如何有效评价每一个因素对结果权重的影响,这是今后研究值得深入解决的问题。
地价数据和物业管理消费数据对房价的真实的影响也非常重要。本研究中没有使用地价数据,主要原因来自于收集研究区实时的官方的地价和物业管理数据极为困难。本研究所使用的实时住房价格是通过互联网采集的,而房价是地价和物业管理费用的集中体现,在一定程度上弥补了模型输入中地价数据的欠缺。在具有足够的在线实时的房屋价格数据和空间社交媒体数据的基础上,为UMCNN模型在精细尺度研究住房价格变化提供了可能性。另外,该UMCNN模型可以用于预测在不同的城市规划场景下,城市的功能结构变化对城市的住房价格变化。例如,可以模拟新地铁站或新道路的建设,对附近房屋价格的影响,为房屋的合理定价提供参考。
深度学习模型如何有效自动调参的问题,一直都是机器学习学界正在讨论的热门问题,同时这也是本文在今后需要关注的一个问题。本文的目的是研究CNN对多源数据融合和城市房价研究的有效性,UMCNN的模型参数调控主要是通过手动和经验调节的方式,这也是目前热门的CNN一直都采取的方式。另外,今后还需要深入研究如何使UMCNN模型具备迁移学习的能力,可以通过少量的数据输入进行重训练而高精度的对其他城市和地区的房价进行模拟和制图。最后,房价的分布还和城市居民活动具有很强的相关性,今后的研究还需要考虑如何将人类活动耦合进UMCNN模型,这也是值得研究和探讨的一个问题。