• 软件:1160
  • 资讯:41601|
  • 收录网站:97880|

IT精英团

《实战》南京房价秘诀——准备

《实战》南京房价秘诀——准备

浏览次数:
评论次数:
编辑: 景同
信息来源: 51CTO博客
更新日期: 2021-06-11 01:07:49
摘要

「实战」南京房价的秘密——准备篇,基于爬虫采集来自互联网的公开信息,数据可以分为4块:小区信息二手房在售信息二手房成交信息租房信息为了降低数据的清洗难度,提高实战的可重现性,爬虫在设计阶段注重考虑了数据采集的规整度,因此采集到的数据相对比较干净,但是距离直接用来可视化还是有相当距离的,本文,就来帮大家把这个坑填好~房地产数据准备房价,一个离我们很近又很远的词汇。

  • 资讯详情

本文为大家准备房地产大数据,基于爬虫从互联网收集公共信息。数据可以分为4个块:

单元格信息

二手房出售信息

二手房交易信息

租赁信息

为了降低数据清理的难度,提高实战的重现性,爬虫在设计阶段就注重数据采集的规律性,所以采集的数据相对干净,但距离直接用于可视化还有相当的距离。这篇文章会帮你填这个坑~

房地产数据准备

房价,一个离我们很近很远的词。很近是因为各行各业的专家目光短浅,各种政策相互割裂,很热闹;远是因为不知道哪些专家是对的,也不知道政策上怎么说,所以只是看热闹。所以我们选择房价这个关键词,和大家聊聊怎么画分析图。

本次提供的数据可从以下链接访问:https://aiyc.lanzous.com/b00nvldhg访问密码,请关注微信官方账号:艾跃创。背景回复:fdc_data

也可以加入本微信官方账号交流群一起交流学习。我会在这里等你!

1、二手房历史成交数据

成蛟_NJ.csv近5年南京楼市二手房交易信息,主要信息字段如下:

领域

抽样资料

标题

健康新村1栋2室,49.07平方米

方向

南方和北方

革新

简单包装的

基本信息

中层(共7层)建于1995年

标签

地铁附近

标价

上市173万

关闭周期

交易周期为72天

截止日期

2019.12.08

廉价

163万

交易单价

33,218元/套

2、二手房在售数据

12月南京楼市二手房二手房_NJ.csv挂牌信息,主要信息字段如下:

领域

抽样资料

数据收集日期

20191226

来源

南京房地产网

城市定位

南京二手房

区县位置

浦口二手房

街道定位

江浦小区二手房

单元格位置

东方Xi龙山苑二手房

当前列表

当前列表

列表标题

崂山别墅的双阳台可塑性强,依山傍水

标价

795万

列出单价

18575元/平方米

住宅区

东方Xi龙山苑

房屋类型

/td> 7室1厅1厨3卫 所在楼层 低楼层(共7层) 建筑面积 428㎡ 户型结构 平层 套内面积 390.61㎡ 建筑类型 板楼 房屋朝向 南 建筑结构 钢混结构 装修情况 毛坯 梯户比例 一梯两户 配备电梯 有 产权年限 70年 挂牌时间 2019/6/21 交易权属 商品房 上次交易 2018/1/11 房屋用途 普通住宅 房屋年限 满两年 产权所属 非共有 抵押信息 有抵押300万元 房本备件 未上传房本照片 房源标签 地铁、VR房源 经度 118.6338 纬度 32.08735

3、小区基本信息

Xiaoqu_NJ.csv 南京市截止12月份的主要小区,主要信息字段如下:

字段 样例数据
数据采集日期 20191226
来源 南京房产网
城市定位 南京小区
区县定位 鼓楼小区
街道定位 福建路小区
小区定位 萨家湾
地址 (鼓楼福建路)铁路北街69号
标题 萨家湾
热度 2位用户已关注
参考均价 28628元/㎡11月参考均价
建筑年代 1990年建成
建筑类型 板楼
物业费 0.3元/平米/月
物业 街道办事处(委员会)代管物业
开发商 南京鼓楼城镇建设综合开发(集团)公司
楼栋总数 23栋
房屋总数 801户
附近房产中介 三牌楼二店B店/鼓楼区三牌楼大街交通一村2号
经度 118.7681
纬度 32.0886

4、12月份南京可租房源,主要信息字段如下:

字段 样例数据
标题 整租奥克斯钟山府 3室1厅 南/北
区县 玄武
街道 仙鹤门
小区 奥克斯钟山府
出租面积 89㎡
朝向 南北
户型 3室1厅1卫
楼层 低楼层(11层)
房源上架日期 5天前维护
房源标签 近地铁
租金 1500 元/月

小区数据清洗

从上面的罗列看,房地产大数据的数据结构相似度是很高的,因此这里以小区的数据为例,进行一次数据清洗的详细说明。

小区的各项指标可以分为两类。

一类是文字标签项,比如城市、区县、街道、小区名、开发商、物业、建筑类型等,这些指标很难量化,我们的目标是进行清洗提纯,去除文字中的杂质,方便后续统计。

第二类是数值型字段,比如价格、楼栋数、房屋数、经度、维度等,我们对数据进行分析,剔除异常值,并统一计量单位,以及根据分析项做一些数据维度的转换。比如建筑年代,可以转化成建成年份。

image-20200901213612870

1. 删除关键信息为空的行

2. 丢弃无关信息列

3. 提取关键标签

观察"城市定位", “区县定位”, “街道定位”, "小区定位"四个字段,数据结构基本规整,为了整体效果,我们只需要删除"小区"关键词即可:

空值是处理字符串数据过程中常常会碰到的问题,这里为了能够顺利实现对空值的字符串替换,需要先把数据做一次字符串转化

删除目标列里的"小区"关键词

4. 提取信息中的关键数字

观察热度、参考均价、建筑年代等字段,是数字和文字的混合体。为了便于统计分析,需要把数字提取出来。一般来说,这类数据处理有2种方法,一种是利用数据的重复性,删除重复字符即可。另一种具有普适性的方法则是构建正则表达式,提取其中的整数或者浮点数。

Step 5: 剔除异常值

异常值是非常常见的一种数据情况,尤其是在爬虫采集的数据中,这种情况非常常见。比如我们这里的物业费:

显然这是超出常理的。但是在做数据可视化的过程中,也会伴随着对异常值的处理。因此这里我们暂时跳过这一步,在后续的可视化的过程中,我们再慢慢聊这个话题。

小区数据预览

经过简单的几个步骤,小区数据基本完成了标签化和数字化。

image-20200901220235855

我们查阅一下南京各区的小区数量:

输出:

可以发现鼓楼区、江宁区、秦淮区是最大的人口聚集地(小区数量最多)。熟悉南京城市的朋友应该知道,鼓楼区是南京传统的老城区;而秦淮区也属于老城区之一,著名景点有夫子庙;江宁区面积广阔,是南京的各类工业聚集地,这几年随着江宁区的城市开发逐渐完善,人气也越来越旺。

清洗后的数据要及时保存起来,供后续使用,因此这里我们推荐将之保存为 csv 格式:

# 保留列名,取消行索引
xiaoqu_raw.to_csv("Xiaoqu_NJ_format.csv", index=False)

数据清洗总的来说要服务于具体业务,因此在开始这项工作之前,要先完成顶层设计工作,比如哪些字段是要丢弃的,哪些是要保存的,哪些字段是要拆分提取的,那些是通知指标需要保存的,此类场景不一而足,还需要大家在工作中注意观察和积累。

本篇代码,公众号后台回复:fdc_code01 敬请期待下一篇文章的更新!

标签: 实战
独立于R语言的数据挖掘平台
« 上一篇
返回列表
下一篇 »
发表评论 共有条评论
用户名: 密码:
验证码: 匿名发表
你会是第一个来这里评论的人吗?
最近发布资讯
更多