
商业数据分析师
Luara_lyy
一个走在路上的数据挖掘工程师
展开
-
w4_聚类分析_airbnb_参考代码
#调包import pandas as pdimport seaborn as snsimport matplotlib.pyplot as plt%matplotlib inline#数据导入airbnb=pd.read_csv('w3_airbnb.csv')#查看数据类型#变量类别:用户个人信息、用户与airbnb的关系、app使用语言、用户去的国家、用户下单渠道#这里...原创 2019-09-12 11:16:44 · 347 阅读 · 0 评论 -
优衣库销售数据分析
#1.加载工具包import pandas as pdimport matplotlib.pyplot as pltimport seaborn as sns%matplotlib inline#加载优衣库文件UNIQLO=pd.read_csv('L2W1.csv')#清理数据,描述性语句查看缺失值,去掉销售额为负数的结果UNIQLO.head() ...原创 2019-09-07 20:12:15 · 8395 阅读 · 8 评论 -
matplotlib数据可视化案例
import pandas as pdimport matplotlib.pyplot as pltdf = pd.read_excel('house_data.xlsx')df.head() Unnamed: 0 均价 小区 地段 具体位置 0...原创 2019-09-07 17:26:40 · 1064 阅读 · 0 评论 -
sklearn案例
# 从sklearn.datasets 导入 iris数据加载器。from sklearn.datasets import load_iris# 使用加载器读取数据并且存入变量iris。iris = load_iris()# 查验数据规模。iris.data.shape(150, 4)# 查看数据说明。对于一名机器学习的实践者来讲,这是一个好习惯。print(iris.DESC...原创 2019-09-07 17:25:10 · 746 阅读 · 0 评论 -
APP Store评分案例
#调用基本包import pandas as pd#数据读取app=pd.read_csv('w1_applestore.csv')#数据的基本信息app.info()<class 'pandas.core.frame.DataFrame'>RangeIndex: 7197 entries, 0 to 7196Data columns (total 11 colu...原创 2019-09-07 17:24:02 · 1008 阅读 · 0 评论 -
保洁业务数据概况分析
#调包import pandas as pd#数据读取##index_col=0 ,去除Unnamed=0数据store=pd.read_csv('w2_store_rev.csv',index_col=0)#数据的基本信息#发现local_tv有50多个空值#发现event是object,即类别型变量store.info()<class 'pandas.core.f...原创 2019-09-07 17:19:45 · 785 阅读 · 1 评论 -
matplotlib数据可视化--直方图
直方图主要反映一维数据分布情况import pandas as pdimport matplotlib.pyplot as pltdf = pd.read_excel(r'house_data.xlsx')df.head() Unnamed: 0 均价 小区 地段 具体位置 ...原创 2019-09-07 17:17:25 · 301 阅读 · 0 评论 -
matplotlib数据可视化--折线图
折线图主要是看内容随时间变化的趋势情况# 导入模块import pandas as pdimport matplotlib.pyplot as plt# 设置中文编码和负号的正常显示plt.rcParams['font.sans-serif'] = 'SimHei'plt.rcParams['axes.unicode_minus'] = False# 读取需要绘图的数据df =...原创 2019-09-07 17:13:58 · 1546 阅读 · 0 评论 -
matplotlib数据可视化--散点图
散点图主要用于2维数据可视化,探求不同变量之间的关系。scatter函数的参数解读matplotlib模块中scatter函数语法及参数含义:plt.scatter(x, y, s=20,c=None, marker=‘o’,cmap=None, norm=None,vmin=None, vmax=None,alpha=None, linewidths=None,edgecolor...原创 2019-09-07 16:35:10 · 547 阅读 · 0 评论 -
matplotlib数据可视化--箱线图
箱线图一般用来展现数据的分布(如上下四分位值、中位数等),同时,也可以用箱线图来反映数据的异常情况。boxplot函数的参数解读绘图之前,我们先来讲解一下matplotlib包中boxplot函数的参数含义及使用方法:plt.boxplot(x, notch=None, sym=None, vert=None,whis=None, positions=None, widths=None,...原创 2019-09-07 16:34:01 · 374 阅读 · 0 评论 -
2.列表,字典,元组
列表list1 = [1,2,3,4,5] #创建列表list1[1, 2, 3, 4, 5]list2 = ['a','b','c','d'] #列表中的数据类型可以是相同的list2['a', 'b', 'c', 'd']list3 = [1,2.33,'Python','a'] #列表中的数据类型也可以是不同的list3[1, 2.33, 'Python',...原创 2019-09-07 16:30:25 · 196 阅读 · 0 评论 -
1.Python基本数据结构&运算符&输入输出
Python基本数据类型–数值型233 # int2332.33 # float2.33'233' #str'233'type(233)#查看变量类型inttype(233.0)floattype('2.33')strisinstance(233,int)#查看变量是否是猜测类型insinstance(变量,猜测类型)Trueisinsta...原创 2019-09-07 16:29:10 · 306 阅读 · 0 评论 -
美团分析
import pandas as pdimport matplotlib.pyplot as pltimport seaborn as sns%matplotlib inlinemeituan=pd.read_csv('meituan.csv')meituan.info()<class 'pandas.core.frame.DataFrame'>RangeIndex...原创 2019-09-12 11:43:02 · 719 阅读 · 0 评论