项目背景
随着年底的结束,是时候每年换一次房间了。作为一个不久前来北京的北方漂泊者,我想看看在北京过得好要花多少钱。鉴于目前朝阳区的居住情况,本次分析数据主要集中在朝阳区。
项目介绍
既然要了解当前的租赁市场,最直接、最真实的方式就是从相关中介公司获取数据。本项目使用python对链家朝阳区整套出租物业信息进行爬取,并通过相关工具进行一些探索和分析。
技术和工具
语言:Python
开发工具:PyCharm 和 JupyterNotebook
本项目分为数据爬取和数据分析两部分。本文不会介绍数据爬取过程,而是重点介绍数据分析过程。数据爬取使用开发工具PyCharm,使用urllib库和BeautifulSoup库进行数据爬取。数据分析使用 JupyterNotebook、pandas 和 numpy 进行数据分析二手吊车,使用 matplotlib 进行图形可视化。
数据源和数据集
本项目使用的数据集均来自链家网,是自己编写爬虫代码爬取的。选择链家作为这个项目的数据源有两个原因。一方面,链家是国内一流的中介公司,拥有丰富的房产资源。另一方面:链家的房源信息显示的信息更加全面和规范。
本次爬取信息主要获取以下信息:小区名称、面积、面积、方位、房型、楼层、价格。
目的
本次分析的主要目的是了解朝阳区的租房市场,寻找合适的住房。主要针对以下问题:
探寻最高租金和最低租金 朝阳区哪些区域租金最低,哪些区域租金最高朝阳区50吨吊车出租一天多少钱|“黑”链家告诉你在朝阳区住公寓要花多少钱,哪些区域挂牌最多,楼面面积对租金的影响?在朝阳区租好房子要多少钱?数据分析
数据加载和清理
1)数据加载
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import matplotlib as mpl
mpl.rcParams['font.sans-serif'] = ['SimHei']
mpl.rcParams['font.serif'] = ['SimHei']
mpl.rcParams['axes.unicode_minus'] = False # 解决保存图像是负号'-'显示为方块的问题,或者转换负号为字符串
%matplotlib inline
data = pd.read_excel('E:/lianjia.xls',)
2)数据清洗
data = data.drop_duplicates(['小区名称','地区','面积','朝向','房型','楼层','价格'])#清理不需要的重复行
data.info()
'pandas.core.frame.Dataframe'>
Int64Index: 2990 entries, 0 to 2999
Data columns (total 8 columns):
ID 2990 non-null object
小区名称 2990 non-null object
地区 2990 non-null object
面积 2990 non-null int64
朝向 2990 non-null object
房型 2990 non-null object
楼层 2990 non-null object
价格 2990 non-null int64
dtypes: int64(2), object(6)
memory usage: 210.2+ KB
经过初步清理,有8个有效数据特征和2990条数据记录。数据完整性比较好,没有缺失值。
总体概览
data.describe().T #描述性统计查看
朝阳区的平均租金是11286,租金会受地理位置和房子大小的影响,所以不同区域的租金会呈现出不同的极端。最低租金3500,房子远离市中心,面积不到55平方米。最高租金16.5万,社区位于CBD中心,面积达460平方米。国家统计局给出的2017年北京市职工平均月工资为8467元。根据专家推荐的实惠房租,一个人每月需要花的房租是2522元。朝阳区50%的租金在8150元以下,75%的租金在13000元以下,远高于个人能承受的租金。
75%的待出租房屋为116平方米,200平方米以上的房屋为高档住宅。对于大多数来北京租房的Beidrias来说,单间或合租都能解决他们的生活需求。要求太高。作为面向大众的平台朝阳区50吨吊车出租一天多少钱,链家并不专注于高端用户。可以理解为什么连家的房子大部分都在116平方米以下。
探索最高租金
data.价格.max()#找出价格最大值
data.loc[data["价格"]==165000,:]价格最大值信息
最高租金:16.5万元,面积460平方米。它位于朝阳公园的泛海家庭社区。此房源的租金最高,原因如下:
探索最低租金
data.价格.min()#找出价格最小值

data.loc[data["价格"]==3500,:]
最低租金3500,面积不到55平方米,有不同的小区。按照租金最高的思路,观察三个小区的位置,离市中心较远,五环和六环之间。因此,可以是最低租金是可以理解的。
租金最低的地区
less_price = data.groupby(by = "地区").mean().sort_values("价格",ascending = True).head(10)
plt.style.use('ggplot')
fig = plt.subplots(figsize = (15,8))
less_price.价格.plot(kind = 'bar',title = "房租最便宜的10个地方")
朝阳区租金最便宜的前五位分别是通州北苑、首都机场、官庄、十八里店、定福庄。租金最低的是通州北苑,平均3900元。决定租金的核心因素是地段。以上区域均位于北京五环外,距离市中心较远,租金相对较低。
租金最高的地区
most_price = data.groupby(by = "地区").mean().sort_values("价格",ascending = False).head(10)
plt.style.use('ggplot')
fig = plt.subplots(figsize = (15,8))
most_price.价格.plot(kind = 'bar',title = "租金最高的10个区域")
租金最高的前五名分别是:朝阳-朝阳公园、朝阳-燕莎、朝阳-东桥、朝阳-四里河、朝阳-太阳宫。通过最低思维的观察,租金最高的区域都位于市中心,租金也更高。不过,令我惊讶的是望京没有进前十。在我的印象中,望京应该也属于比较核心的地段区。从链家官网11月份望京售出的二手房来看朝阳区50吨吊车出租一天多少钱,望京的价格不低。因此,初步判断可能是由于望京楼盘出租较多,价格相对较低吊车出租,拉低了均值。
区域分布
local = data.groupby(by = "地区").count().sort_values("价格",ascending = False).head(10)
plt.style.use('ggplot')
fig = plt.subplots(figsize = (15,8))
local.价格.plot(kind = 'bar',title = "各地区房屋数量")
链家将朝阳区划分为62个区。出租量排名前五的房屋分别是:望京、双井、北苑、超清、长影。其中,望京出租房屋最多,有239套。
我对望京的排名感到惊讶。初步猜测有两个原因:
一方面:链家在望京地区的业务发展要好于其他地区。
另一方面:据资料显示,望京的平均出租房屋面积在100多平方米,而北表的单身公寓一般在50平方米左右。但望京提供的房型高于需求方的要求,同时租金也随之抬高,造成库存积压。
面积对租金的影响
square_price = data.groupby(by = "面积").mean().sort_values("价格",ascending = True)
fig,ax = plt.subplots(1,1,figsize = (12,4))
ax.scatter(data.面积,data.价格)
ax.set_xlabel("面积")
ax.set_ylabel('价格')
从上图可以看出,租金随着面积的增加而上涨。价格在200平方米以下呈线性增长趋势,200平方米以上呈非线性增长趋势。一般来说,200平米以上的房子基本都是高档小区。社区越高档,周边配套对租房者的影响越大。价格通常是最不被重视的因素。因此,200平方米以上的房屋价格通常受其他辅助因素影响较大,面积影响相对较小。
楼层对价格的影响
floor_price = data.groupby(by = "楼层").mean().sort_values("价格",ascending = True)
floor_price
不同楼层有不同的租金价格。其中,中层租金>上层租金>下层租金。买房的时候经常会出现这种情况,房价会随着中间层的上下两个方向下降。造成这种差异的原因是:1、楼层越高,通风采光越好;高层住宅将遮挡10层以下的光线;对于防雨漏水、防盗性差等问题,价格会低于次顶层。 3、因为较低的楼层容易潮湿,容易受到地面噪音的影响,尤其是临街的房屋;另外,较低楼层的楼梯使用频率最高,如果墙壁隔音不好,一有走路就会很吵。这同样适用于租金。
租金
这个费用主要针对单间公寓,面积不超过50平方米。
house = data.loc[data['面积']<=50,:] #找出50平以及不足50平米的房子
house.describe().T #描述性统计数据
从以上统计可以看出,符合要求的公寓有409套,平均面积43平方米,最小面积28平方米。最低价3500元,均价5848元,最低3500元,最高9500元。 5000元以上的公寓大量,6500元以下的有75%。
根据经验,房租占工资不到25%,可以住的舒服。由此可以算出,如果你想在朝阳区租一套一居室,工资需要14000多元。
分析结论
1、在朝阳区,如果我自己想租一套公寓,6500元以下的租金大量,5000元以下的只有少数。而且大部分都在远离市中心的五六环外。
2、如果成本不足,通州北苑、首都机场、官庄都是租金相对较低的区域。你可以用同样的价格租到更好的房子。这种以空间换时间的做法,但也意味着要花更多的时间在通勤上。
3、朝阳区房源最多的区域往往位于CBD核心区。这些类型的房子往往空间更大,租金更高,不适合需要单身公寓的人。
4、同层的房子,面积越大,租金越高。不同楼层的房子,往往中层租金最高,低层租金最低。
5、如果你想在朝阳区租房,对于上班族来说,工资至少需要14000元才有足够的信心租房,对你的生活不会有太大影响.
特别说明
本次数据来源来自链家网,所有数据均可查。本分析结论仅针对整个租赁市场,不针对共享租赁市场。