您的位置:网站首页 > 房产信息 > 正文

抓取链家官网北京房产信息并用python进行数据挖掘

类别:房产信息 日期:2016-12-19 11:09:57 人气: 来源:

  限时干货下载:

  回复【】免费获取【超全数据分析资料免费下载(包含SQL,R语言,SPSS,SAS,python,数据挖掘)!】

  来源:

  西城区和东城区的平均价格在五万五左右,之所以没有达到网上其他数据所提到的丧心病狂的9万,是因为我们分析的是二手房。目前二环内新楼盘的数量极少,几乎没有讨论的价值。

  我们将房价以热力图方式绘制在地图上,就会非常直观:

  如果我们改变缩放等级,进一步缩小地图范围,可以看到最贵的房子,集中在西单,南锣鼓巷,国贸,以及北新桥地区。

  这些最贵小区的房价有多贵呢?下面列出排名前十的十个小区的价格:

  价格价格最高的十个小区的平均房价

  更夸张的是,两套房子都是平房,面积分别是12平和15平,其中一套还是1949年建的。中介给出的宣传标语是,最牛实验二小学区房,抢抢抢!这么小的面积,估计是四合院的厢房改造的吧。现在官网上已经下架。

  什么样的房子最多?

  我们先看,什么类型的楼房最多,下面给出了楼房总体高度的比例。可以看到,二手房中,六层是最多的。国家规定,七层就要装电梯了。因此在2000年以前,大部分的居民楼都是6层。

  lc=lc=table2014.groupby(by=u楼层

  lc.order(ascending=False)[:20].plot(kind=barh,title=u楼高比例)

  再看看不同面积的房子所占总数的比例。我们取面积为40-140平米的房子,进行了统计分析,结论如下图:

  面积

  房型面积和对应比例

  首先选出面积值不为空且为数字的所有行,之后将其转换为int类型,后对其进行排序并绘图。

  很有意思的是,绿色的区域相当空旷,比如笔者目前所在的三元桥地区,和酒仙桥之间隔了好大一片荒地,晚上夜跑时荒无人烟。

  2014年到2015年的房价变化

  下面是刚需读者最关心的内容,2014年到2015年的北京房价,经历了怎样的变化?众所周知,2014年房价走低,整体唱衰,甚至有商家打出了降价6000元/平的广告来推销房子。2015年,降准降息政策出炉,公积金贷款比例提高,北京房价回暖,我们知道肯定涨价了。但到底涨了多少呢?

  这部分的代码多一些,选取价格少于10万,面积大于四十平米的房子,以减少错误的数据。求出2014年和2015年小区的交集,构造change结构,里面保存了每个小区的房子数量,2014年和2015年的平均价格。

  价格面积

  单价面积

  位置

  面积]=np.round(table2015[u总价]*10000/table2015[u单价

  =table2015.groupby(by=u小区

  单价

  价格

  dex

  ]=change[]-change[

  我们按照2014和2015年价格增减的百分比,绘制出下面的房价变化数量比例图。可以看到,房价变化基本呈现正态分布趋势。但均值不在0点,靠近5%左右,整体右移:

  change[(change.percent-30)(change.percent50)].groupby(by=percent).size().plot(title=u不同涨跌幅度房子所占的数量)

  经过统计,2014年的平均房价为40125/平,2015年为42535/平。涨价比例5.64%。也就是说,一套三百万的房子,平均涨了16万左右。

  我们列出10万元以下单价,2015年小区内二手房数量超过20套的涨价排名前十的小区:

  原因还是学区房,海淀区教改使得这边的房子变化极大。上地东里小区内建有上地实验小学,该小学可直升一零一中学上地分校,一零一中学上地分校位于上地西里北侧,就是这9年直升的诱惑导致该区域房价直线攀升。可怜天下父母心!

  当然,有涨价就有降价:基本上,降价的小区都在非中心城区,例如樱花园就在顺义。

  结论

  5%的涨幅,已经说明2015年比2014年价格回暖不少。也有少部分郊区小区降价。当然,这种涨幅和之前火箭般的涨价不可同日而语。可以肯定的是,像北京这样的城市,房子几乎是不可能大跌的。但未来的事情,谁知道呢?

  安得广厦千万间,大庇天下寒士俱欢颜!

  文章已经很长,因此没有将更多的内容囊括其中。我们还做了以下的事情:

  链家在去年有约7W条数据,今年的出售二手房已经达到10W套,但是这些房源里有多少水分呢?根据2014年的数据按照编号检查一下重复:一万两千多套房子出现了两次,将近五千套房子出现过三次,甚至有一套房子出现过八次。其中水分可想而知。

  同时,2014年的网页数据还会提供地理坐标信息,2015年就不存在了,所以文中涉及到地理信息的图表都是2014年的。另外,虽然对房子的位置描述非常详细,但中介不会告诉你这是几号楼几层。仅仅提供了楼房的总层高。原因不言自明。

  同样,数据的准确性也有问题。很多房子价格都是1万,2万,明显是随意标的。也有一部分价格高的离谱,如88万/平。这些数据在处理前都已经筛掉。以免干扰分析结果。

  设置首页-搜狗输入法-支付中心-搜狐招聘-广告服务-客服中心-联系方式-保护隐私权-AboutSOHU-公司介绍-网站地图-全部新闻-全部博文

  搜狐不良信息举报邮箱:

推荐:

0
0
0
0
0
0
0
0
下一篇:没有资料

相关阅读

网友评论 ()条 查看

姓名: 验证码: 看不清楚,换一个

推荐文章更多

热门图文更多

最新文章更多

关于联系我们 - 广告服务 - 友情链接 - 网站地图 - 版权声明 - 人才招聘 - 帮助

声明:网站数据来源于网络转载,不代表站长立场,如果侵犯了你的权益,请联系站长删除。

CopyRight 2010-2016 萍乡生活网- All Rights Reserved