业界动态
电商零售交易数据分析
2023-06-29 19:41

以英国的在线电子零售公司的跨国交易数据集作为分析样本,通过对该公司的运营指标统计分析以及构建RMF模型、K-Means机器学习算法从大量的电子零售交易数据中分析并找出价值用户,针对价值用户提供以消费者为中心的智能商业模式。

数据集来自一个在英国注册的在线电子零售公司,其中包含2010年12月1日到2011年12月9日期间发生的网络交易数据。

数据集总共有541909条数据,8个字段

字段名含义InvoiceNo发票编号。为每笔订单唯一分配的6位整数。若以字母’C’开头,则表示该订单 被取消。StockCode产品代码。为每个产品唯一分配的编码。Description产品描述。Quantity数量。每笔订单中各产品分别的数量。InvoiceDate发票日期和时间。每笔订单发生的日期和时间。UnitPrice单价。单位产品价格,单位为英镑。CustomerID客户编号。为每个客户唯一分配的5位整数。Country国家。客户所在国家/地区的名称
 
 
 

查看数据信息

 
 
 
 
 
 
 

共删除了5268条重复数据

查看数据缺失情况

 

从上表可以看出,有近25%的条目未分配给特定客户。在现有的数据下,不可能为用户估算出数值,因此这些条目对目前的工作没有用处。所以应当从数据框中删除它们。

 
 

共删除InvoiceNo 和 CustomerID字段缺失的数据135037条

将字符串类型数据转化为数值类型

 
 

将字符串类型数据转化为日期类型

 
 

数据转换过程中不符合日期格式的会转换为空值,需要再进行一次删除缺失值处理。

 
 
 

描述指标中购买产品的数量最小值为-8095,单品单价为0,这两个不符合实际情况确认为异常值。

 
 

经过两次条件判断之后数据集大小为(392692,10,为了检查处理后的结果,再次检查描述指标

 

原数据集的时期是2010-12-1到2011-12-09,2011年12月数据不满一个月,为了方便分析和讨论本次分析选择数据时间为:2010-12-01到2011-11-30,12个月。

 
 
 
 
 
 
 
 

请添加图片描述

计算结果显示2011年9月、10月、11月的销售单数稳步增长,2011年11月达到最高值2657单,怀疑平台年末促销或者换季用户大量购买冬季产品导致,可以通过查询销售额占比最高的产品确认。

 
 
 

请添加图片描述

在销售额方面,2011年9月、10月、11月的销售额明显高于其他月份,虽然11月的总销售单数比10月要高出近(2657-1929)/1929100%≈38%但是11月的总销售额却只比10月高出(1156205.610-1035642.450)/1035642.450100%≈11.6%,初步评价2011年10月的销售情况最佳,可以重点看看10月份的销售活动。

 
 

计算得出月均销售额为697501.54英镑,2011年9、10、11月远超平均值。

 
 

发现没有数字5,查找源数据集里是否不包含5的星期数。 真的没有5,查看原始数据以及对应的星期数,5代表星期六。

 

请添加图片描述

此处计算的是在一年观察时间段内,每个星期天数的累计订单数。星期四的订单数是最多的,怀疑有公司(周末不上班)在该电商平台购买用品和礼品。这里要特别提醒上面的结果是一年里面每一个星期的累计单数,数据集没有星期六的销售订单,需要跟电商公司确认。

 
 
 

请添加图片描述

跟销售量相吻合,累计周销售量在星期四达到峰值,临近周末回落,高度怀疑该电商平台出售的产品不是针对普通家庭消费者,因为周末是消费的低谷跟实际情况不符。

 
 

计算结果为160961.89欧元,这是每周平均销售额,给运营者提供一个参考,可以初步评价每一星期的销售情况,是高于还是低于平均值。

 
 

客单价=总的销售额/总的客户数,计算结果客单价为1947.87欧元,也即一年里面每个消费者平均贡献了1947.87欧元。

 
 

件单价=销售总额/售出产品总数量,计算结果为每件产品的平均价格为1.72欧元。

 
 

连带率=售出的产品总数/总的交易单数,计算结果连带率=274.04,在分析的一年时间段里,每一笔交易售出的平均产品总数为274件,这里怀疑有大量采购的用户。

 
 
 

可以算出2757/(2757+1540)≈64%的顾客都在此购买了不止一次

 

请添加图片描述

 
 

复购率:即当月内,购买多次的用户占比

 
 
 
 

请添加图片描述

复购率在20%-30%之间波动。

在原数据集说明中,订单号如果以字母c开头表示该订单为取消订单,所以在这里想看看退货的情况。

 
 

结果显示:array([False]),该数据集中并没有包含取消的订单,所以本次分析没能够涉及这一块。

Recency在这里定义为用户最后一次购物距离现在有多少个月。

 
 

先计算出最后一次购买时间距离最后一天的天数,然后再计算月分数。

 
 

为了了解数据集的情况,查看一下描述统计指标。

 
 

再切片看看分布情况。

 
 

大概有37.7%的客户在一个月之内有购物行为,再绘制条形图更加直观的观察数据。

 
 

请添加图片描述

分布总体来说比较理想,可以利用以客户为中心的商业理念来提高[1, 2]以及[2, 3],即1~2个月,2~3个月之内有购物行为的用户。

Frequency在这里定义为购物频率,也即在分析的一年里面,用户总购买次数。

 
 

描述统计指标

 
 

购买的频率差异很大,最小为1次,最大为200次,切片看数据分布情况。

 
 

大部分用户在一年的时间里购买次数在1~20次以内,比较符合实际情况。这里要注意有些离散的数值,比如一年里面消费100~120次的用户有1位用户,180~200次的用户有2位,后续的分析会针对这些离散值做特殊处理。

 
 

请添加图片描述

Monetary定义为用户在一年之内所花总金额

 
 

描述统计指标

 
 

每个用户的消费总金额差异很大,最小值位2.9欧元,最大值位268478欧元。

再通过切片看数据分布

 
 
 
 

请添加图片描述

跟购物频率F一样,购买金额也存在一些离散值,后续分析中会特别处理。

综合上面的计算,RFM的三个指标的数据区间范围分别是

R [0.0, 12.1]

F [1.0, 200.0]

M [2.9, 268478.0]

 

RFM数据概览

 
 

请添加图片描述

单独抽出RFM直方图观看

 

请添加图片描述

可以看出购买商品的客户绝大多数是进行少量多次购买的客户

计算用于划分客户的阙值,R、F、M的均值(通过分布直方图可以发现该份数据不适合用中位数来分层,因此这里用均值做分层

 

4297 rows × 3 columns

创建label分析

 

查看不同类型顾客的总数

 

请添加图片描述

各个类型顾客收入

 
 

请添加图片描述

 
 
 
 
 

为方便查看,把三个标签的直方图画在一起。

 

请添加图片描述

对数变换之后是标准化,使用公式:Z=(X-μ)/σ 可以使用scikit-learn里面preprocessing下面的StandardScaler实现标准化转换。

 
 

选择聚类数目的方法有好几种,这里采用的是Elbow Criterion method。

 

把计算的1-8个聚类数目情况画在一起,寻找Elbow弯点。

 

请添加图片描述

选择cluster_k=3进行分组聚类计算。

 

通过对比RFM模型得出这里的三个聚类0,1,2最具有价值的用户群是k_cluster = 2这个类别的用户。利用K-Means算法把用户进行分类,从而挖掘出价值用户,得出分析的最终结果。

 

找到k_cluster=2的价值用户,对价值用户的购物行为进行针对性分析,比如消费习惯(购物时段)、喜欢购买的商品种类、购物种类的关联性(喜欢一起购买的产品)等等,这样就可以给价值用户提供个性化的消费方案,针对价值用户提供以消费者为中心的智能商业模式。

用户已经进行分组,接下来看看不同类型用户的消费行为特征。

 

通过建立RFM模型及评分方法分组得出的结果显示,重要保持客户用户最近一次消费的平均值是21.2天,平均频率是302.4次,平均花费是7684.4英镑。

 

上面结果是使用K-Means方法得出的结果,价值用户最近一次消费的平均值是16.5 天,平均频率是244.6次,平均花费是5934.8英镑,结果比使用评分方法要更好一些。

 

请添加图片描述

上图是用户分组的情况,按照价值贡献情况排名分别是cluster2, cluster0, cluster1,价值用户cluster2占比23.74%。下面看看不同用户分组对销售额的贡献情况。

 

请添加图片描述

价值用户cluster2占比只有23.74%却贡献了72.10%的销售额,是业务的重点发展对象。

本项目利用Python语言对电子零售数据进行了数据分析和挖掘,计算分析主要有两个方面(1)运营指标统计分析(2)使用了两种方法RFM模型以及K-Means机器学习算法挖掘价值用户。

(1)通过运营指标统计分析,了解了该电子商务公司的整体运营情况,计算了月销售数量、月销售总额、月均销售额、周销售量、周销售总额、周均销售额、客单价、件单价、连带率,月新客占比,复购率通过这些指标了解到该电子商务公司月销售单数、月销售额在2011年的9月、10月以及11月有明显的增长,周销售额在星期四达到最高值,有64%的顾客购买了两次及以上的商品,相对来说该公司的销售额是较依赖回头客的模式。占总体客户15.99%的重要保持客户,贡献了63.07%的总销售额。。

(2)为了挖掘价值用户,使用了两种方法,第一个方法是利用RFM模型对用户进行评分分组,第二个方法是利用K-Means算法对用户进行“机器学习”分组,两种方法都挖掘出价值用户,比较两种方法得出的用户画像结果,RMF模型中重要保持客户占总体客户15.99%,贡献了63.07%的总销售额,K-Means方法得出的结果更好一些,最终挖掘出的价值用户占比23.74%却贡献了72.10%的销售额。

确定价值用户之后可以进一步学习价值用户的消费习惯,从而提供以消费者为中心的智能商业模式,根据实际应用情况进行多次迭代来优化价值用户挖掘的模型。

    以上就是本篇文章【电商零售交易数据分析】的全部内容了,欢迎阅览 ! 文章地址:http://www.uqian.cn/news/4348.html 
     资讯      企业新闻      行情      企业黄页      同类资讯      首页      网站地图      返回首页 极顶速云移动站 http://m.uqian.cn/ , 查看更多   

点击拨打: