這是一篇來自小密圈同學的投稿,發(fā)現(xiàn)小密圈的高手真多,臥虎藏龍呀.租房是一個剛需,相信很多人特別是剛畢業(yè)不久的小伙伴都會碰到這個問題,那么在一線大城市比如深圳的租房情況如何呢,閃亮同學對深圳自如網(wǎng)站上的房源情況進行探索分析,非常有意思.探索的
這是一篇來自小密圈同學的投稿,發(fā)現(xiàn)小密圈的高手真多,臥虎藏龍呀.租房是一個剛需,相信很多人特別是剛畢業(yè)不久的小伙伴都會碰到這個問題,那么在一線大城市比如深圳的租房情況如何呢,閃亮同學對深圳自如網(wǎng)站上的房源情況進行探索分析,非常有意思.
探索的問題
- 房租的分布情況
- 哪種戶型的房源最多
- 哪條地鐵線附近的房租比較貴
- 哪個區(qū)的房租更貴
- 房源的面積分布情況
數(shù)據(jù)說明
- 數(shù)據(jù)來源深圳自如網(wǎng)站(僅包含可出租狀態(tài)的合租房源)
- 采用集搜客工具爬取
- house_area: 表示房間的面積
- house_toom: 表示出租房屋的戶型
- house_price: 表示每月的房租
- house_name: 表示房源所處的小區(qū)
- house_located: 表示房源所處的小區(qū)
- subway_info: 表示房源附近是否有地鐵站
1.數(shù)據(jù)預覽
1).看一下整個數(shù)據(jù)集的情況

2).刪掉一些無用的列
df_sz_ziroom = df_sz_ziroom.drop('Unnamed: 0', axis=1) # 刪掉無用的列df_sz_ziroom.head(5) # 預覽前五條數(shù)據(jù)
2.數(shù)據(jù)清洗
除了 house_room 字段外,剩下的字段都需要清洗,為了便于分析還需要新增字段,工作量有點大,挺好,又可以練手。
1).house_area 字段
有 "15.2" 和 "約9.5" 兩種格式,需要轉(zhuǎn)換成純數(shù)字格式
0 15.5 1 24.0 2 15.0 3 6.3 4 7.8 Name: house_area, dtype: float64
2). house_price 字段
目前格式為 “¥1490 (每月)”,要把其修改為純數(shù)字格式
0 1660 1 2230 2 1830 3 1860 4 1930 Name: house_price, dtype: int64
3).house_name 字段
目前的格式類似為 “樺潤馨居4居室-南臥”,需要把小區(qū)名字提取出來,如 “樺潤馨居”
0 龍園山莊 1 塘朗城廣場東區(qū) 2 龍園山莊 3 塘朗城廣場東區(qū) 4 桃源村一期 Name: house_name, dtype: object
4). house_located 字段
目前格式為 “[龍華區(qū)龍華中心] 4號線(龍華線)龍華” 包含所在的區(qū)和地鐵兩項信息,現(xiàn)需要把這兩項信息提取并設置為兩個字段
4.1).提取地鐵信息
0 3號線 1 5號線 2 3號線 3 5號線 4 7號線 Name: subway_info, dtype: object
4.2).提取所在的區(qū)的信息
0 羅湖區(qū) 1 南山區(qū) 2 羅湖區(qū) 3 南山區(qū) 4 南山區(qū) Name: house_located, dtype: object
經(jīng)過上面的步驟,看一下清洗完的數(shù)據(jù)集
3.數(shù)據(jù)可視乎分析:單維度
1). 房租分布情況
- 最低的房租為 1130 元每月,最貴的房租為 4360 元每月,土豪專屬。
- 平均房租為 2068 元每月,75% 的房租超過 1760 元每月。
df_sz_ziroom['house_price'].describe()
count 899.000000 mean 2068.787542 std 465.815828 min 1130.000000 25% 1760.000000 50% 1930.000000 75% 2290.000000 max 4360.000000 Name: house_price, dtype: float64
最高房租和最低房租的是什么房子
df_sz_ziroom[df_sz_ziroom['house_price'] == 1130]
df_sz_ziroom[df_sz_ziroom['house_price'] == 4360]
- 房租最低的房子位于龍崗區(qū),龍崗區(qū)比較偏僻,且該套房源為6室1廳,房租最低也正常。
- 房租最貴的房子位于南山區(qū)在二號線旁邊,2號線經(jīng)過的基本都是深圳最繁華的地帶,房租這么高也正常。
大部分的房價集中在 1625 到 2250 元每月,其中 1750 到 2000 元每月的房源最多。超過 3500 元每月的房源很少。因為本次分析的都是合租房源,看來深圳自如的房租還是比較貴。
2).面積分布情況
df_sz_ziroom['house_area'].describe()
|
count 899.000000 mean 11.462803 std 3.322627 min 5.360000 25% 9.200000 50% 11.100000 75% 13.300000 max 30.900000 Name: house_area, dtype: float64
絕大多數(shù)房間的面積集中在 6.3 到 12.7 平米之間,其中 10 到 12.7之間的房源最多。超過 20平米的房源很少,租房形式真嚴峻。
3).區(qū)域房源分布情況
羅湖區(qū)的房源最多,其次是南山區(qū),最少的是福田區(qū)。在福田上班的話不妨去羅湖租房,房源比較多.
4).地鐵房源分布
3號線附近的房源最多,由于3號線終點和起點分別在羅湖和龍崗,在羅湖上班的話,沿著3號線租房最好,不僅房源多,而且龍崗的房租普遍比較便宜,上班地鐵直達。5號線附近房源數(shù)量排在第二位,由于5號線橫跨羅湖區(qū)、南山區(qū)、寶安區(qū),中途換成站非常多,不論在羅湖還是南山還是寶安區(qū),沿著5號線附近租房也是不錯的選擇。
4.數(shù)據(jù)可視化分析:雙維度分析
1).考慮面積和房租
- 圖1為房子的面積和總價的關系圖
- 圖2為對面積和總計分別取平方根和對數(shù)的關系圖從圖2中發(fā)現(xiàn)面積和房租并沒有呈現(xiàn)出明顯的線性關系,并不是房間面積越大,房租越貴。
2).區(qū)域和房租
南山區(qū)的房租貴,75%的房租高于2000元每月,其箱體也最長。南山區(qū)積聚了大量互聯(lián)網(wǎng)企業(yè),薪資水平在深圳相對來說也非常高。福田區(qū)的房租緊隨南山區(qū)之后,龍崗區(qū)和羅湖區(qū)的房租最低。如果在南山區(qū)工作,去寶安租房是個不錯的選擇,地鐵方便,房租也比南山便宜。在福田區(qū)工作,去羅湖和龍華租房是個不錯的選擇,地鐵方便,房租也比福田便宜很多。
5.數(shù)據(jù)可視乎分析:多維度分析
1).我們考慮面積,房租,區(qū)域,地鐵沿線三者的關系
- 2號線沿線的房子最貴,主要分布在南山區(qū)和福田區(qū),絕大多數(shù)房租均超過2000元每月
- 5號線和3號線沿線的房子主要分布在羅湖區(qū)和龍崗區(qū),且絕大多數(shù)房價低于2000元每月。5號線沿線少量的大面積房源分布子在龍華區(qū)
- 7號線和9號線沿線的房子主要分布在南山區(qū)和羅湖區(qū),房源數(shù)量比較少,且價格大多數(shù)超過2000元每月
- 4號線沿線的房子絕大部分分布在龍華區(qū),絕大部分價格比較高分布在福田區(qū)
- 1號線和11號線沿線的房子主要分布南山區(qū)和寶安區(qū),分布在寶安區(qū)的房租相對來說比較低
結(jié)論:
- 深圳自如絕大多數(shù)房租超過1700元,且面積都不大,不過結(jié)合深圳的實際租房情況和自如的服務,這個價位還是可以考慮。
- 南山區(qū)的房租最貴,房源數(shù)量也是第二多的,南山區(qū)也聚集了大量互聯(lián)網(wǎng)企業(yè),對于經(jīng)常加班的互聯(lián)網(wǎng)從業(yè)者來說在公司附近租房是個不錯的選擇。
- 龍崗區(qū)和羅湖區(qū)的房租最低,且羅湖區(qū)房源數(shù)量最多,在羅湖上班想租的近一點可以選擇羅湖,考慮便宜一點的可以去龍崗區(qū)租房。