>商品類目:沙發;數量:共100頁4400個商品;篩選條件:天貓、銷量從高到低、價格500元以上。項目目的1.對商品標題進行文本分析詞云可視化2.不同關鍵詞word對應的sales的統計分析3.商品的價格分布情況分析4.商品的銷量分布情況分析5.不同價格區間的商品的平均銷量分布6.商品價格對銷量的影響分析7.商品價格對銷售額的影響分析8.不同" />

亚洲免费在线-亚洲免费在线播放-亚洲免费在线观看-亚洲免费在线观看视频-亚洲免费在线看-亚洲免费在线视频

使用Python爬了4400條淘寶商品數據,竟發現了這些“潛規則”

系統 1529 0

本文記錄了筆者用 Python 爬取淘寶某商品的全過程,并對商品數據進行了挖掘與分析,最終得出結論。

項目內容

使用Python爬了4400條淘寶商品數據,竟發現了這些“潛規則”_第1張圖片

本案例選擇>> 商品類目:沙發;
數量:共100頁? 4400個商品;
篩選條件:天貓、銷量從高到低、價格500元以上。

項目目的

1. 對商品標題進行文本分析 詞云可視化
2. 不同關鍵詞word對應的sales的統計分析
3. 商品的價格分布情況分析
4. 商品的銷量分布情況分析
5. 不同價格區間的商品的平均銷量分布
6. 商品價格對銷量的影響分析
7. 商品價格對銷售額的影響分析
8. 不同省份或城市的商品數量分布
9.不同省份的商品平均銷量分布

注:本項目僅以以上幾項分析為例。

項目步驟

1. 數據采集:Python爬取淘寶網商品數據
2. 對數據進行清洗和處理
3. 文本分析:jieba分詞、wordcloud可視化
4. 數據柱形圖可視化 barh
5. 數據直方圖可視化 hist
6. 數據散點圖可視化 scatter
7. 數據回歸分析可視化 regplot

工具&模塊:

工具:本案例代碼編輯工具 Anaconda的Spyder
模塊:requests、retrying、missingno、jieba、matplotlib、wordcloud、imread、seaborn 等。

一、爬取數據

因淘寶網是反爬蟲的,雖然使用多線程、修改headers參數,但仍然不能保證每次100%爬取,所以 我增加了循環爬取,每次循環爬取未爬取成功的頁 直至所有頁爬取成功停止。
說明:淘寶商品頁為JSON格式 這里使用正則表達式進行解析;

代碼如下:

使用Python爬了4400條淘寶商品數據,竟發現了這些“潛規則”_第2張圖片

二、數據清洗、處理:

(此步驟也可以在Excel中完成 再讀入數據)

代碼如下:

使用Python爬了4400條淘寶商品數據,竟發現了這些“潛規則”_第3張圖片

使用Python爬了4400條淘寶商品數據,竟發現了這些“潛規則”_第4張圖片

說明:根據需求,本案例中只取了 item_loc, raw_title, view_price, view_sales 這4列數據,主要對 標題、區域、價格、銷量 進行分析。

代碼如下:

使用Python爬了4400條淘寶商品數據,竟發現了這些“潛規則”_第5張圖片

三、數據挖掘與分析:

【1】. 對 raw_title 列標題進行文本分析:

使用結巴分詞器,安裝模塊pip install jieba

使用Python爬了4400條淘寶商品數據,竟發現了這些“潛規則”_第6張圖片

對 title_s(list of list 格式)中的每個list的元素(str)進行過濾 剔除不需要的詞語,即 把停用詞表stopwords中有的詞語都剔除掉:

使用Python爬了4400條淘寶商品數據,竟發現了這些“潛規則”_第7張圖片

因為下面要統計每個詞語的個數,所以 為了準確性 這里對過濾后的數據 title_clean 中的每個list的元素進行去重,即 每個標題被分割后的詞語唯一。

使用Python爬了4400條淘寶商品數據,竟發現了這些“潛規則”_第8張圖片

觀察 word_count 表中的詞語,發現jieba默認的詞典 無法滿足需求:
有的詞語(如 可拆洗、不可拆洗等)卻被cut,這里根據需求對詞典加入新詞(也可以直接在詞典dict.txt里面增刪,然后載入修改過的dict.txt)

使用Python爬了4400條淘寶商品數據,竟發現了這些“潛規則”_第9張圖片

詞云可視化:

安裝模塊 wordcloud:
方法1: pip install wordcloud
方法2: 下載Packages安裝:pip install 軟件包名稱
軟件包下載地址:https://www.lfd.uci.edu/~gohlke/pythonlibs/#wordcloud

注意:要把下載的軟件包放在Python安裝路徑下。

代碼如下:

使用Python爬了4400條淘寶商品數據,竟發現了這些“潛規則”_第10張圖片

使用Python爬了4400條淘寶商品數據,竟發現了這些“潛規則”_第11張圖片

分析結論:

1. 組合、整裝商品占比很高;

2. 從沙發材質看:布藝沙發占比很高,比皮藝沙發多;
3. 從沙發風格看:簡約風格最多,北歐風次之,其他風格排名依次是美式、中式、日式、法式 等;
4. 從戶型看:小戶型占比最高、大小戶型次之,大戶型最少。

【2】. 不同關鍵詞word對應的sales之和的統計分析:

(說明:例如 詞語 ‘簡約',則統計商品標題中含有‘簡約'一詞的商品的銷量之和,即求出具有‘簡約'風格的商品銷量之和)

代碼如下:

使用Python爬了4400條淘寶商品數據,竟發現了這些“潛規則”_第12張圖片

對表df_word_sum 中的 word 和 w_s_sum 兩列數據進行可視化
(本例中取銷量排名前30的詞語進行繪圖)

使用Python爬了4400條淘寶商品數據,竟發現了這些“潛規則”_第13張圖片

使用Python爬了4400條淘寶商品數據,竟發現了這些“潛規則”_第14張圖片

由圖表可知:

1. 組合商品銷量最高 ;

2. 從品類看:布藝沙發銷量很高,遠超過皮藝沙發;
3. 從戶型看:小戶型沙發銷量最高,大小戶型次之,大戶型銷量最少;
4. 從風格看:簡約風銷量最高,北歐風次之,其他依次是中式、美式、日式等;
5. 可拆洗、轉角類沙發銷量可觀,也是頗受消費者青睞的。

【3】. 商品的價格分布情況分析:

分析發現,有一些值太大,為了使可視化效果更加直觀,這里我們結合自身產品情況,選擇價格小于20000的商品。

代碼如下:

使用Python爬了4400條淘寶商品數據,竟發現了這些“潛規則”_第15張圖片

使用Python爬了4400條淘寶商品數據,竟發現了這些“潛規則”_第16張圖片

由圖表可知:

1. 商品數量隨著價格總體呈現下降階梯形勢,價格越高,在售的商品越少;
2. 低價位商品居多,價格在500-1500之間的商品最多,1500-3000之間的次之,價格1萬以上的商品較少;
3. 價格1萬元以上的商品,在售商品數量差異不大。

【4】. 商品的銷量分布情況分析:?

使用Python爬了4400條淘寶商品數據,竟發現了這些“潛規則”_第17張圖片

使用Python爬了4400條淘寶商品數據,竟發現了這些“潛規則”_第18張圖片

同樣,為了使可視化效果更加直觀,這里我們選擇銷量大于100的商品。

代碼如下:

由圖表及數據可知:

1. 銷量100以上的商品僅占3.4% ,其中銷量100-200之間的商品最多,200-300之間的次之;
2. 銷量100-500之間,商品的數量隨著銷量呈現下降趨勢,且趨勢陡峭,低銷量商品居多;
3. 銷量500以上的商品很少。

【5】. 不同價格區間的商品的平均銷量分布:

代碼如下:

使用Python爬了4400條淘寶商品數據,竟發現了這些“潛規則”_第19張圖片

使用Python爬了4400條淘寶商品數據,竟發現了這些“潛規則”_第20張圖片

由圖表可知:

1. 價格在1331-1680之間的商品平均銷量最高,951-1331之間的次之,9684元以上的最低;
2. 總體呈現先增后減的趨勢,但最高峰處于相對低價位階段;
3. 說明廣大消費者對購買沙發的需求更多處于低價位階段,在1680元以上 價位越高 平均銷量基本是越少。

【6】. 商品價格對銷量的影響分析:

同上,為了使可視化效果更加直觀,這里我們結合自身產品情況,選擇價格小于20000的商品。

代碼如下:

使用Python爬了4400條淘寶商品數據,竟發現了這些“潛規則”_第21張圖片

使用Python爬了4400條淘寶商品數據,竟發現了這些“潛規則”_第22張圖片

由圖表可知:

1. 總體趨勢:隨著商品價格增多 其銷量減少,商品價格對其銷量影響很大;
2. 價格500-2500之間的少數商品銷量沖的很高,價格2500-5000之間的商品多數銷量偏低,少數相對較高,但價格5000以上的商品銷量均很低 沒有銷量突出的商品。

【7】. 商品價格對銷售額的影響分析:

代碼如下:

使用Python爬了4400條淘寶商品數據,竟發現了這些“潛規則”_第23張圖片

由圖表可知:

1. 總體趨勢:由線性回歸擬合線可以看出,商品銷售額隨著價格增長呈現上升趨勢;
2. 多數商品的價格偏低,銷售額也偏低;
3. 價格在0-20000的商品只有少數銷售額較高,價格2萬-6萬的商品只有3個銷售額較高,價格6-10萬的商品有1個銷售額很高,而且是最大值。

【8】. 不同省份的商品數量分布:

代碼如下:

使用Python爬了4400條淘寶商品數據,竟發現了這些“潛規則”_第24張圖片

使用Python爬了4400條淘寶商品數據,竟發現了這些“潛規則”_第25張圖片

由圖表可知:

1. 廣東的最多,上海次之,江蘇第三,尤其是廣東的數量遠超過江蘇、浙江、上海等地,說明在沙發這個子類目,廣東的店鋪占主導地位;

2. 江浙滬等地的數量差異不大,基本相當。

【9】. 不同省份的商品平均銷量分布:

代碼如下:

使用Python爬了4400條淘寶商品數據,竟發現了這些“潛規則”_第26張圖片

使用Python爬了4400條淘寶商品數據,竟發現了這些“潛規則”_第27張圖片

熱力型地圖

使用Python爬了4400條淘寶商品數據,竟發現了這些“潛規則”_第28張圖片

總結

以上所述是小編給大家介紹的使用Python爬了4400條淘寶商品數據,竟發現了這些“潛規則”,希望對大家有所幫助,如果大家有任何疑問請給我留言,小編會及時回復大家的。在此也非常感謝大家對腳本之家網站的支持!


更多文章、技術交流、商務合作、聯系博主

微信掃碼或搜索:z360901061

微信掃一掃加我為好友

QQ號聯系: 360901061

您的支持是博主寫作最大的動力,如果您喜歡我的文章,感覺我的文章對您有幫助,請用微信掃描下面二維碼支持博主2元、5元、10元、20元等您想捐的金額吧,狠狠點擊下面給點支持吧,站長非常感激您!手機微信長按不能支付解決辦法:請將微信支付二維碼保存到相冊,切換到微信,然后點擊微信右上角掃一掃功能,選擇支付二維碼完成支付。

【本文對您有幫助就好】

您的支持是博主寫作最大的動力,如果您喜歡我的文章,感覺我的文章對您有幫助,請用微信掃描上面二維碼支持博主2元、5元、10元、自定義金額等您想捐的金額吧,站長會非常 感謝您的哦!!!

發表我的評論
最新評論 總共0條評論
主站蜘蛛池模板: 天天干天天舔天天射 | 亚洲高清在线mv | 寡妇野外啪啪一区二区 | 国产乱人伦偷精品视频不卡 | 亚洲最大成人在线 | 免费一级毛片在线播放放视频 | 日本精品中文字幕在线不卡 | 狠狠色狠狠色综合日日32 | 黄色影院在线观看视频 | 奇米影视777在线播放 | 91国内在线国内在线播放 | 乱子伦有声小说mp3 仑乱高清在线一级播放 | 成人啪啪97丁香 | 啪啪婷婷| 一级毛毛片 | 一级特黄aaa大片在 一级特黄aaa大片在线观看 | 亚洲精品国产精品乱码不97 | 欧美性大战久久久久久久蜜桃 | 日韩欧美三区 | 亚洲成色 | 全黄h全肉边做边吃奶在线观看 | 成人午夜性视频欧美成人 | 亚洲国产人久久久成人精品网站 | 国产99在线播放免费 | 中文字幕久久综合 | 亚洲国产高清在线精品一区 | 天天色狠狠干 | 日韩国产成人精品视频人 | 日本高清视频不卡 | 奇米影音四色 | 婷婷综合激情 | 毛片网站免费在线观看 | 97在线视频免费观看 | 91国自产精品中文字幕亚洲 | 欧美日韩一区二区不卡三区 | 国产五月色婷婷六月丁香视频 | 1000部羞羞禁止免费观看视频 | 精品久久在线观看 | 视频三区精品中文字幕 | 天天狠天天天天透在线 | 精品久久久中文字幕一区 |