發(fā)布時(shí)間:2021-12-31
欄目:電商資訊
淘寶用戶行為分析案例(數(shù)據(jù)分析Day6實(shí)戰(zhàn))
一、項(xiàng)目背景
本數(shù)據(jù)報(bào)告以淘寶app平臺(tái)為數(shù)據(jù)集,通過(guò)行業(yè)的指標(biāo)對(duì)淘寶用戶行為進(jìn)行分析,從而探索淘寶用戶的行為模式,具體指標(biāo)包括:日PV和日UV分析,付費(fèi)率分析,復(fù)購(gòu)行為分析,漏斗流失分析和用戶價(jià)值RFM分析。
二、數(shù)據(jù)來(lái)源
三、提出問(wèn)題
1.日PV有多少
2.日UV有多少
3.付費(fèi)率情況如何
4.復(fù)購(gòu)率是多少
5.漏斗流失情況如何
6.用戶價(jià)值情況
四、理解數(shù)據(jù)
本數(shù)據(jù)集共有104萬(wàn)條左右數(shù)據(jù),數(shù)據(jù)為淘寶APP2021年11月18日至2021年12月18日的用戶行為數(shù)據(jù),共計(jì)6列字段,列字段分別是:
user_id:用戶身份,脫敏
item_id:商品ID,脫敏
behavior_type:用戶行為類型(包含點(diǎn)擊、收藏、加購(gòu)物車、支付四種行為,分別用數(shù)字1、2、3、4表示)
user_geohash:地理位置

item_category:品類ID(商品所屬的品類)
time:用戶行為發(fā)生的時(shí)間
五、數(shù)據(jù)清洗
#coding:utf-8importpandasaspdimportnumpyaspyimportmatplotlib.pyplotaspltimportseabornassnsimportre#設(shè)置列數(shù)據(jù)全顯示pd.set_option('display.max_columns',None)data_user=pd.read_csv(r'.ianchi_mobile_recommend_train_user.csv')missingTotal=data_user.isnull().sum()missingExist=missingTotal[missingTotal>0]missingExist=missingExist.sort_values(ascending=False)print(missingExist)
print(missingTotal)
存在缺失值的是User_geohash,有717785條,不能刪除缺失值,因?yàn)榈乩硇畔⒃跀?shù)據(jù)集收集過(guò)程中做過(guò)加密轉(zhuǎn)換,因此對(duì)數(shù)據(jù)集不做處理。
data_user.head()
#拆分?jǐn)?shù)據(jù)集data_user['date']=data_user['time'].map(lambdas:re.compile('').split(s)[0])data_user['hour']=data_user['time'].map(lambdas:re.compile('').split(s)[1])data_user.head()
#查看data_user數(shù)據(jù)集數(shù)據(jù)類型:data_user.dtypes
#發(fā)現(xiàn)time列和date列應(yīng)該轉(zhuǎn)化為日期類數(shù)據(jù)類型,hour列應(yīng)該是字符串?dāng)?shù)據(jù)類型。#數(shù)據(jù)類型轉(zhuǎn)化data_user['date']=pd.to_datetime(data_user['date'])data_user['time']=pd.to_datetime(data_user['time'])data_user['hour']=data_user['hour'].astype('int64')data_user.dtypes
#異常值處理data_user=data_user.sort_values(by='time',ascending=True)data_user=data_user.reset_index(drop=True)data_user.describe()
image.png
通過(guò)觀察數(shù)據(jù)集的四分位數(shù),總數(shù),平均值,方差等,發(fā)現(xiàn)數(shù)據(jù)集并無(wú)異常值存在。
六、用戶行為分析
(1)pv和uv分析
PV(訪問(wèn)量):即PageView,具體是指網(wǎng)站的是頁(yè)面瀏覽量或者點(diǎn)擊量,頁(yè)面被刷新一次就計(jì)算一次。
UV(獨(dú)立訪客):即UniqueVisitor,訪問(wèn)您網(wǎng)站的一臺(tái)電腦客戶端為一個(gè)訪客。
1)日訪問(wèn)量分析
#pv_daily記錄天天用戶操作次數(shù),uv_daily記錄天天不同的上線用戶數(shù)量pv_daily=data_user.groupby('date')['user_id'].count().reset_index().rename(columns={'user_id':'pv'})uv_daily=data_user.groupby('date')['user_id'].apply(lambdax:x.drop_duplicates().count()).reset_index().rename(columns={'user_id':'uv'})fig,axes=plt.subplots(2,1,sharex=True)pv_daily.plot(x='date',y='pv',ax=axes[0])uv_daily.plot(x='date',y='uv',ax=axes[1])axes[0].set_title('pv_daily')
結(jié)果顯示如上圖所示,在雙十二期間,pv和uv訪問(wèn)量達(dá)到峰值,并且可以發(fā)現(xiàn),uv和pv兩個(gè)訪問(wèn)量數(shù)值差距比較大,同時(shí),因?yàn)閿?shù)據(jù)集總?cè)藬?shù)大約是10000人左右,因此,通過(guò)nv值可以分析出雙十二期間淘寶用戶的日活躍大概是45%浮動(dòng)。
#小時(shí)訪問(wèn)量分析#pv_hour記錄每小時(shí)用戶操作次數(shù),uv_hour記錄每小時(shí)不同的上線用戶數(shù)量pv_hour=data_user.groupby('hour')['user_id'].count().reset_index().rename(columns={'user_id':'pv'})uv_hour=data_user.groupby('hour')['user_id'].apply(lambdax:x.drop_duplicates().count()).reset_index().rename(columns={'user_id':'uv'})fig,axes=plt.subplots(2,1,sharex=True)pv_hour.plot(x='hour',y='pv',ax=axes[0])uv_hour.plot(x='hour',y='uv',ax=axes[1])axes[0].set_title('pv_hour')axes[1].set_title('uv_hour')
上一篇:淘寶PC流量平臺(tái)的作用
下一篇:新手提升淘寶流量的九大秘籍
文章地址:http://www.meyanliao.com/article/online/8384.html

- 1互聯(lián)網(wǎng)對(duì)傳統(tǒng)企業(yè)的沖擊有多大
- 2美團(tuán)再因不正當(dāng)競(jìng)爭(zhēng)敗訴新反法互聯(lián)網(wǎng)專條首次適用外賣領(lǐng)域!
- 32021互聯(lián)網(wǎng)十件大事對(duì)不起賈躍亭你只能排第四
- 4互聯(lián)網(wǎng)宣傳做的就是用戶體驗(yàn)
- 5互聯(lián)網(wǎng)創(chuàng)業(yè)到底需要怎樣的能力
- 6適合上班族的25個(gè)副業(yè)(適合上班族的互聯(lián)網(wǎng)副業(yè))
- 7互聯(lián)網(wǎng)的世界沒(méi)有永遠(yuǎn)的敵人只有永遠(yuǎn)的利益
- 8押?jiǎn)h進(jìn)駐天線貓助力互聯(lián)網(wǎng)數(shù)碼產(chǎn)品寄存行業(yè)經(jīng)濟(jì)持續(xù)發(fā)展
- 9互聯(lián)網(wǎng)公司如何做好品牌定位
- 102021年互聯(lián)網(wǎng)金融發(fā)展回顧冬去春欲來(lái)改弦當(dāng)更張