实训日记十二:Python文本挖掘-part3

灭鼠杀虫剂市场机会点分析

  1. 子类目市场确定后(灭鼠杀虫剂市场):确定市场中最受欢迎的产品类别–>细分价格段
    –>属性进一步分析:什么样的价格作为主市场,什么样的商品符合大众口味
  2. 不同用途的商品定位:
  3. 商品布局时要考虑的问题:价格,产品特征,用户喜好度,商品需求等
  4. 引流商品:价格低,利润空间几乎没有,目的是为了引流
  5. 利润商品:价格合理,只要的盈利来源
  6. 品牌商品:价格偏高,门面商品或奢侈品
    获取流量的方式有免费和付费两种,免费流量看缘分(lian),控制付费流量成本
    即是对流量精准度的要求,即精准营销

产品类别

使用灭鼠杀虫剂细分市场数据(截止到2018年11月22日30天的交易数据):
查看各产品’类别’总的’预估销售额’的分布,以此表示市场分布情况

  • 读取五个文件并且合并
  • 清洗:去掉大量缺失值的列,去掉单一值的列,去掉逻辑上不可用的列,如:‘时间’,‘链接’,‘主图链接’,‘主图视频链接’,‘页码’,‘排名’,‘宝贝标题’,‘运费’,‘下架时间’,‘旺旺’
    1、读入数据
os.chdir('../灭鼠杀虫剂细分市场')
filenames1 = glob.glob('*.xlsx')
dfs1 = [pd.read_excel(i) for i in filenames1]
df2 = pd.concat(dfs1,sort=False)
df2.info() 

2、处理缺失值

  • NA > 98%
  • 单一值
  • 逻辑上可删: - 如果我有新数据,新数据里会不会有这个x,会有则留下,没有则删去 - 链接等没用的列
  • 类ID列 - 名字 - 分类多,每类频次太少,预测能力差
#缺失值
df2.isnull().mean()
# 计算空值占比
null_percent = df2.isnull().sum() / len(df2)

# 找出空值占比大于98%的列
ind1 = null_percent > 0.98

# 删除空值占比大于98%的列
df20 = df2.loc[:, ~ind1]
# 药品登记号之后的文号列作用不大且空值占比依旧较大,删除
ind11 = df20.columns.get_loc('药品登记号')
df20 = df20.iloc[:,:ind11]
# 特征值单一,删除
ind2 = np.array([len(df20[i].unique())==1 for i in df20.columns])
df21 = df20.loc[:,~ind2]
# 删除逻辑上不可能用到的列
useless = ['时间','页码','链接','主图链接','主图视频链接',
           '排名','运费','下架时间','旺旺']   #目标:寻找增长点,新数据中没有排名信息,故删除
df22 = df21.drop(columns=useless)
df22.isnull().mean()

处理结果为:
在这里插入图片描述
3、按照 ‘类别’ 列进行分组,并计算每个类别的总预估销售额

sales_by_category = df22.groupby('类别')['预估销售额'].sum()
print(sales_by_category)
# 画出饼图
plt.figure(figsize=(8, 8))
sales_by_category.plot(kind='pie', autopct='%1.1f%%', star
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值