2020年6月链家租房上海地区分析以及查询推荐

20年6月22日 · 占娟 76 人阅读
摘要:正处于毕业季这个特殊的时间节点,毕业且初入职场的大多数人首选租房来解决在异地工作居住问题,而上海又以其国际化大都市的机遇以及社会文化环境历来吸引着来自的各地的应届生以及求职者。本课题通过对链家上上海地区发布的租房房源信息,一方面对现有的房源的情况进行分析,着重分析地域上以及不同租房方式的差异,另一方面,房源信息,从地理的角度上来看,一定程度上反映了所属区内的经济发展以及就业机会情况。考虑到房源信息时效性,本课题采用了6月15日的数据,进行分析并提供查询。仅供参考。
1 设计意图
探究在当下的上海租房市场从供应角度的情况,从分析所得的结论中提出对租房需求者的合理化建议,同时从地理角度上侧面分析地理位置对价格,平方数的影响。
2 总体设计
2.1程序模块图
![]() |
2.2 GUI界面
![]() |
3. 程序模块详细设计
(1)爬取链家上海租房网页的信息:
1) 用requests抓取网页,用beautifulsoup以及正则表达式解析网页获得相应的数据
2) 将获得的初始数据储存到链家租房88页——6.15.csv文件中
(2)对获得数据进行清洗
1)导入所需要得到模块以及设置中文字体
2)数据读取,如使用pandas的read_csv函数将文件读入为data
3)使用dataframe的函数以及正则表达式删除爬取错误的数据,重复的数据,以及修改一部分数据名称。
![]() |
(3)数据的可视化处理
1.用matplotlib以及seaborn数据可视化
2. 用GUI窗口对数据进行展示
4.数据可视化和结论
4.3 数据可视化处理
(1)租住方式分析
![]() |
从给租房者提供的房源来看,出租者更倾向于整租,同时对于渴望合租的人群来说,选择范围比较小。
(2)整租的区属分布图
![]() |
对于整租人群来说,大部分的房源分布在长宁,徐汇以及浦东区。一定程度上说明了以上三个区是外来人口租房(工作)的聚集地。
(3)用箱型图处理所在区属和价格的关系
![]() |
结论:长宁区,黄浦区的价格跨度是比较大,浦东区的价格有逐级递增的趋势,金山区的房源数据较少,参考度较低,如图,大部分地区的均价都集中在4000元左右。其中对于有不同层次需求的租房者来说,在浦东区基本能找到符合需求的房源,对于一般性需求的租房者来说,黄埔,长宁区的房价比较集中,跨度小,更容易进行参考和对比。
(4)各区的价格与平米数曲线
![]() |
![]() |
![]() |
![]() |
结论:本此分析选取了房源数量较多的8个区进行分析
1,长宁,静安,徐汇区的价格以及线性关系比较突出,从侧面反映,房源所处的地理位置与价格关系一般,类似房源较多。线性关系与一般预期比较相符合。
2,浦东区的线性关系比较弱,甚至拟合出来的直线呈下降趋势,所以浦东区的房价与其所处的地理位置关系比较大,适合的不同的收入人群范围很广。
3,杨浦区,普陀区所拟合出的图象中,斜率相较于长宁更大,一定程度上说明了房源所处的地理位置与价格关系较弱,但考虑到获取的信息较少且分散,该条仅供参考。
(5)词云展示
整租关键词分析:
![]() |
合租推荐词分析:
![]() |
结合整租和合租的推荐语词云图,我们可以看出,优势都有包含的是近地铁这一点,但从其他关键词出现频率来看,合租较整租的优势是领包入住,独栋公寓,可短租等,一部分合租房较于他者的优势是开放厨房,以及具有精英白领间,舒适典雅间(选择范围较多,也可见装修配套较好),而对于整租房来说,近地铁是其最大的卖点,而对于选择整租的需求者来说,精装以及随时看房等特质也会吸引他们。
5.亮点
(1)爬取到的信息时效性非常强,非常能展现当下上海的租房房源情况
(2)用re模块对数据进行解析获取以及清洗
(3)用matplotlib,seaborn以及wordcloud进行箱型图,饼图,拟合直线等方式的数据可视化
(4)运用scroll滚轮方便浏览
6.反思
(1)在数据的爬取以及整理上消耗了太多时间,数据可视化比较一般
(2)爬取到的信息很多,并没有每一项都进行有效的分析
(3)数据用户定向化查询和推荐的意向还没有实现智能化
Python3Turtle











