探索的问题
1).看一下整个数据集的情况
2).删掉一些无用的列
df_sz_ziroom = df_sz_ziroom.drop('Unnamed: 0', axis=1) # 删掉无用的列df_sz_ziroom.head(5) # 预览前五条数据
除了 house_room 字段外,剩下的字段都需要清洗,为了便于分析还需要新增字段,工作量有点大,挺好,又可以练手。
1).house_area 字段
有 '15.2' 和 '约9.5' 两种格式,需要转换成纯数字格式
0 15.51 24.02 15.03 6.34 7.8Name: house_area, dtype: float64
2). house_price 字段
目前格式为 “¥1490 (每月)”,要把其修改为纯数字格式
0 16601 22302 18303 18604 1930Name: house_price, dtype: int64
3).house_name 字段
目前的格式类似为 “桦润馨居4居室-南卧”,需要把小区名字提取出来,如 “桦润馨居”
0 龙园山庄1 塘朗城广场东区2 龙园山庄3 塘朗城广场东区4 桃源村一期Name: house_name, dtype: object
4). house_located 字段
目前格式为 “[龙华区龙华中心] 4号线(龙华线)龙华” 包含所在的区和地铁两项信息,现需要把这两项信息提取并设置为两个字段
4.1).提取地铁信息
0 3号线1 5号线2 3号线3 5号线4 7号线Name: subway_info, dtype: object
4.2).提取所在的区的信息
0 罗湖区1 南山区2 罗湖区3 南山区4 南山区Name: house_located, dtype: object
经过上面的步骤,看一下清洗完的数据集
1). 房租分布情况
df_sz_ziroom['house_price'].describe()
count 899.000000mean 2068.787542std 465.815828min 1130.00000025% 1760.00000050% 1930.00000075% 2290.000000max 4360.000000Name: house_price, dtype: float64
最高房租和最低房租的是什么房子
df_sz_ziroom[df_sz_ziroom['house_price'] == 1130]
df_sz_ziroom[df_sz_ziroom['house_price'] == 4360]
大部分的房价集中在 1625 到 2250 元每月,其中 1750 到 2000 元每月的房源最多。超过 3500 元每月的房源很少。因为本次分析的都是合租房源,看来深圳自如的房租还是比较贵。
2).面积分布情况
|
count 899.000000mean 11.462803std 3.322627min 5.36000025% 9.20000050% 11.10000075% 13.300000max 30.900000Name: house_area, dtype: float64
绝大多数房间的面积集中在 6.3 到 12.7 平米之间,其中 10 到 12.7之间的房源最多。超过 20平米的房源很少,租房形式真严峻。
3).区域房源分布情况
罗湖区的房源最多,其次是南山区,最少的是福田区。在福田上班的话不妨去罗湖租房,房源比较多.
4).地铁房源分布
3号线附近的房源最多,由于3号线终点和起点分别在罗湖和龙岗,在罗湖上班的话,沿着3号线租房最好,不仅房源多,而且龙岗的房租普遍比较便宜,上班地铁直达。
5号线附近房源数量排在第二位,由于5号线横跨罗湖区、南山区、宝安区,中途换成站非常多,不论在罗湖还是南山还是宝安区,沿着5号线附近租房也是不错的选择。
1).考虑面积和房租
2).区域和房租
南山区的房租贵,75%的房租高于2000元每月,其箱体也最长。南山区积聚了大量互联网企业,薪资水平在深圳相对来说也非常高。
福田区的房租紧随南山区之后,龙岗区和罗湖区的房租最低。
如果在南山区工作,去宝安租房是个不错的选择,地铁方便,房租也比南山便宜。
在福田区工作,去罗湖和龙华租房是个不错的选择,地铁方便,房租也比福田便宜很多。
1).我们考虑面积,房租,区域,地铁沿线三者的关系
结论:
联系客服