這是一篇來(lái)自小密圈同學(xué)的投稿,發(fā)現(xiàn)小密圈的高手真多,臥虎藏龍呀.租房是一個(gè)剛需,相信很多人特別是剛畢業(yè)不久的小伙伴都會(huì)碰到這個(gè)問(wèn)題,那么在一線大城市比如深圳的租房情況如何呢,閃亮同學(xué)對(duì)深圳自如網(wǎng)站上的房源情況進(jìn)行探索分析,非常有意思.探索的
這是一篇來(lái)自小密圈同學(xué)的投稿,發(fā)現(xiàn)小密圈的高手真多,臥虎藏龍呀.租房是一個(gè)剛需,相信很多人特別是剛畢業(yè)不久的小伙伴都會(huì)碰到這個(gè)問(wèn)題,那么在一線大城市比如深圳的租房情況如何呢,閃亮同學(xué)對(duì)深圳自如網(wǎng)站上的房源情況進(jìn)行探索分析,非常有意思.
探索的問(wèn)題
- 房租的分布情況
- 哪種戶型的房源最多
- 哪條地鐵線附近的房租比較貴
- 哪個(gè)區(qū)的房租更貴
- 房源的面積分布情況
數(shù)據(jù)說(shuō)明
- 數(shù)據(jù)來(lái)源深圳自如網(wǎng)站(僅包含可出租狀態(tài)的合租房源)
- 采用集搜客工具爬取
- house_area: 表示房間的面積
- house_toom: 表示出租房屋的戶型
- house_price: 表示每月的房租
- house_name: 表示房源所處的小區(qū)
- house_located: 表示房源所處的小區(qū)
- subway_info: 表示房源附近是否有地鐵站
1.數(shù)據(jù)預(yù)覽
1).看一下整個(gè)數(shù)據(jù)集的情況

2).刪掉一些無(wú)用的列
df_sz_ziroom = df_sz_ziroom.drop('Unnamed: 0', axis=1) # 刪掉無(wú)用的列df_sz_ziroom.head(5) # 預(yù)覽前五條數(shù)據(jù)
2.數(shù)據(jù)清洗
除了 house_room 字段外,剩下的字段都需要清洗,為了便于分析還需要新增字段,工作量有點(diǎn)大,挺好,又可以練手。
1).house_area 字段
有 "15.2" 和 "約9.5" 兩種格式,需要轉(zhuǎn)換成純數(shù)字格式
0 15.5 1 24.0 2 15.0 3 6.3 4 7.8 Name: house_area, dtype: float64
2). house_price 字段
目前格式為 “¥1490 (每月)”,要把其修改為純數(shù)字格式
0 1660 1 2230 2 1830 3 1860 4 1930 Name: house_price, dtype: int64
3).house_name 字段
目前的格式類似為 “樺潤(rùn)馨居4居室-南臥”,需要把小區(qū)名字提取出來(lái),如 “樺潤(rùn)馨居”
0 龍園山莊 1 塘朗城廣場(chǎng)東區(qū) 2 龍園山莊 3 塘朗城廣場(chǎng)東區(qū) 4 桃源村一期 Name: house_name, dtype: object
4). house_located 字段
目前格式為 “[龍華區(qū)龍華中心] 4號(hào)線(龍華線)龍華” 包含所在的區(qū)和地鐵兩項(xiàng)信息,現(xiàn)需要把這兩項(xiàng)信息提取并設(shè)置為兩個(gè)字段
4.1).提取地鐵信息
0 3號(hào)線 1 5號(hào)線 2 3號(hào)線 3 5號(hào)線 4 7號(hào)線 Name: subway_info, dtype: object
4.2).提取所在的區(qū)的信息
0 羅湖區(qū) 1 南山區(qū) 2 羅湖區(qū) 3 南山區(qū) 4 南山區(qū) Name: house_located, dtype: object
經(jīng)過(guò)上面的步驟,看一下清洗完的數(shù)據(jù)集
3.數(shù)據(jù)可視乎分析:?jiǎn)尉S度
1). 房租分布情況
- 最低的房租為 1130 元每月,最貴的房租為 4360 元每月,土豪專屬。
- 平均房租為 2068 元每月,75% 的房租超過(guò) 1760 元每月。
df_sz_ziroom['house_price'].describe()
count 899.000000 mean 2068.787542 std 465.815828 min 1130.000000 25% 1760.000000 50% 1930.000000 75% 2290.000000 max 4360.000000 Name: house_price, dtype: float64
最高房租和最低房租的是什么房子
df_sz_ziroom[df_sz_ziroom['house_price'] == 1130]
df_sz_ziroom[df_sz_ziroom['house_price'] == 4360]
- 房租最低的房子位于龍崗區(qū),龍崗區(qū)比較偏僻,且該套房源為6室1廳,房租最低也正常。
- 房租最貴的房子位于南山區(qū)在二號(hào)線旁邊,2號(hào)線經(jīng)過(guò)的基本都是深圳最繁華的地帶,房租這么高也正常。
大部分的房?jī)r(jià)集中在 1625 到 2250 元每月,其中 1750 到 2000 元每月的房源最多。超過(guò) 3500 元每月的房源很少。因?yàn)楸敬畏治龅亩际呛献夥吭?,看?lái)深圳自如的房租還是比較貴。
2).面積分布情況
df_sz_ziroom['house_area'].describe()
|
count 899.000000 mean 11.462803 std 3.322627 min 5.360000 25% 9.200000 50% 11.100000 75% 13.300000 max 30.900000 Name: house_area, dtype: float64
絕大多數(shù)房間的面積集中在 6.3 到 12.7 平米之間,其中 10 到 12.7之間的房源最多。超過(guò) 20平米的房源很少,租房形式真嚴(yán)峻。
3).區(qū)域房源分布情況
羅湖區(qū)的房源最多,其次是南山區(qū),最少的是福田區(qū)。在福田上班的話不妨去羅湖租房,房源比較多.
4).地鐵房源分布
3號(hào)線附近的房源最多,由于3號(hào)線終點(diǎn)和起點(diǎn)分別在羅湖和龍崗,在羅湖上班的話,沿著3號(hào)線租房最好,不僅房源多,而且龍崗的房租普遍比較便宜,上班地鐵直達(dá)。5號(hào)線附近房源數(shù)量排在第二位,由于5號(hào)線橫跨羅湖區(qū)、南山區(qū)、寶安區(qū),中途換成站非常多,不論在羅湖還是南山還是寶安區(qū),沿著5號(hào)線附近租房也是不錯(cuò)的選擇。
4.數(shù)據(jù)可視化分析:雙維度分析
1).考慮面積和房租
- 圖1為房子的面積和總價(jià)的關(guān)系圖
- 圖2為對(duì)面積和總計(jì)分別取平方根和對(duì)數(shù)的關(guān)系圖從圖2中發(fā)現(xiàn)面積和房租并沒(méi)有呈現(xiàn)出明顯的線性關(guān)系,并不是房間面積越大,房租越貴。
2).區(qū)域和房租
南山區(qū)的房租貴,75%的房租高于2000元每月,其箱體也最長(zhǎng)。南山區(qū)積聚了大量互聯(lián)網(wǎng)企業(yè),薪資水平在深圳相對(duì)來(lái)說(shuō)也非常高。福田區(qū)的房租緊隨南山區(qū)之后,龍崗區(qū)和羅湖區(qū)的房租最低。如果在南山區(qū)工作,去寶安租房是個(gè)不錯(cuò)的選擇,地鐵方便,房租也比南山便宜。在福田區(qū)工作,去羅湖和龍華租房是個(gè)不錯(cuò)的選擇,地鐵方便,房租也比福田便宜很多。
5.數(shù)據(jù)可視乎分析:多維度分析
1).我們考慮面積,房租,區(qū)域,地鐵沿線三者的關(guān)系
- 2號(hào)線沿線的房子最貴,主要分布在南山區(qū)和福田區(qū),絕大多數(shù)房租均超過(guò)2000元每月
- 5號(hào)線和3號(hào)線沿線的房子主要分布在羅湖區(qū)和龍崗區(qū),且絕大多數(shù)房?jī)r(jià)低于2000元每月。5號(hào)線沿線少量的大面積房源分布子在龍華區(qū)
- 7號(hào)線和9號(hào)線沿線的房子主要分布在南山區(qū)和羅湖區(qū),房源數(shù)量比較少,且價(jià)格大多數(shù)超過(guò)2000元每月
- 4號(hào)線沿線的房子絕大部分分布在龍華區(qū),絕大部分價(jià)格比較高分布在福田區(qū)
- 1號(hào)線和11號(hào)線沿線的房子主要分布南山區(qū)和寶安區(qū),分布在寶安區(qū)的房租相對(duì)來(lái)說(shuō)比較低
結(jié)論:
- 深圳自如絕大多數(shù)房租超過(guò)1700元,且面積都不大,不過(guò)結(jié)合深圳的實(shí)際租房情況和自如的服務(wù),這個(gè)價(jià)位還是可以考慮。
- 南山區(qū)的房租最貴,房源數(shù)量也是第二多的,南山區(qū)也聚集了大量互聯(lián)網(wǎng)企業(yè),對(duì)于經(jīng)常加班的互聯(lián)網(wǎng)從業(yè)者來(lái)說(shuō)在公司附近租房是個(gè)不錯(cuò)的選擇。
- 龍崗區(qū)和羅湖區(qū)的房租最低,且羅湖區(qū)房源數(shù)量最多,在羅湖上班想租的近一點(diǎn)可以選擇羅湖,考慮便宜一點(diǎn)的可以去龍崗區(qū)租房。