前言
数据说明:
项目背景与目标
该项目旨在分析三个品牌(拜耳、安速、科凌虫控)在电商领域的销售数据、产品结构、流量结构和舆情状况。
目的是评估市场竞争地位,识别市场机会和潜在风险,为市场策略提供数据支持。
品类分布分析
数据准备与处理
import glob
import os
import pandas as pd
import re
import numpy as np
import datetime as dt
from sklearn. linear_model import LinearRegression
import seaborn as sns
from matplotlib import pyplot as plt
import jieba
import jieba. analyse
import imageio
from wordcloud import WordCloud
import warnings
warnings. filterwarnings( "ignore" )
将当前工作目录切换到指定的路径 ‘C:/Users/Desktop/竞争数据’:
os. chdir( '..' )
os. chdir( 'C:/Users/Desktop/竞争数据' )
os. chdir( 'C:/Users/Desktop/竞争数据/商品销售数据' )
使用 glob 模块获取当前目录下所有扩展名为.xlsx 的文件,并将文件名列表存储在 filenames2 变量中:
filenames2 = glob. glob( '*.xlsx' )
filenames2
查看数据
从 filenames2 列表中的第二个文件读取 Excel 数据,并将其存储为 DataFrame 对象 df3
显示 df3 的前 1 行数据
df3 = pd. read_excel( filenames2[ 1 ] )
df3. head( 1 )
定义了一个名为 load_xlsx1 的函数,作用是读取指定的 Excel 文件,并删除数据框 df 中的指定列(‘序号’、‘店铺名称’、‘主图链接’、‘商品链接’、‘商品名称’),最后返回处理后的结果数据框 df 。
def load_xlsx1 ( filename) :
df = pd. read_excel( filename)
useless = [ '序号' , '店铺名称' , '主图链接' ,
'商品链接' , '商品名称' ]
df. drop( columns= useless, inplace= True )
return df
df3bai = load_xlsx1( filenames2[ 1 ] )
df3bai. head( )
df3an = load_xlsx1( filenames2[ 0 ] )
df3an. head( )
df3kl = load_xlsx1( filenames2[ 2 ] )
df3kl. head( )
类目
bai31 = df3bai. groupby( '类目' ) . sum ( )
bai31
an31 = df3an. groupby( '类目' ) . sum ( )
an31
kl31 = df3kl. groupby( '类目' ) . sum ( )
kl31
作图查看占比的不同
fig, axes = plt. subplots( 1 , 3 , figsize= ( 10 , 6 ) )
ax = axes[ 0 ]
bai31[ '销售额' ] . plot. pie( autopct= '%.f' , title= '拜耳' , startangle= 30 , ax= ax)
ax. set_ylabel( '' )
ax = axes[ 1