- 博客(80)
- 资源 (1)
- 收藏
- 关注
原创 数据分析-Excel
2.offset(reference,rows,cols,[height],[width])以指定的引用为参照系,通过给定偏移量得到新的引用。2.match(lookup_value,lookup_array,[match_tpye])返回符合特定值待定顺序的项在数组中的相对位置。1.index(array,row_num,[column_num])在给定单元格区域中返回特定行列交叉处单元格的值。1.choose(index_num,value1,[value2],…公式名称:注意单元格的选择。
2025-01-01 23:28:59
1192
原创 数据分析基础级方法论
GMV、ARPU(每用户平均收入)、ARPPU(平均每付费用户收入)、LTV(生命周期价值)、PBP(回收期)、ROI(投资回报率)、收入地图、客单价、消费次数、消费频率、订单量、利润、购买偏好、直接引导成交、间接引导成交、购买间隔。对一个指标两个维度的关系进行分析,即同时将两个有一定联系的变量及其值交叉排列在一张表格内,使各个变量值成为不同变量的交叉结点,形成交叉表,从而分析交叉表中变量之间的关系。散点图的优势是揭示数据间的关系,发觉变量与变量之间的关联,用于统计回归分析,比如数据挖掘中的聚类。
2024-12-31 18:39:32
831
原创 认识Python基础语法
对比上下两组代码,你发现了什么不同Python注释有单行注释和多行注释:1.1 单行注释以“#”开头1.2 Python中多行注释使用三个单引号(‘’')或三个双引号(" " ")
2024-12-26 09:40:20
290
原创 获取某文件夹及子文件夹下特定文件的名字
本次直接上代码,作为日后查询使用所以,文章并未梳理思路和脉络import osdata=[]def findFile(folder,name): for file in os.listdir(folder): if os.path.isdir(folder+file): findFile(folder+file+'/',name) else: if name in file: .
2021-03-28 12:43:45
398
1
原创 递归思想--获取文件夹及其子文件夹下所有文件的名字
获取文件夹及子文件夹下所有文件名字梳理思路需要用到的算法代码实现结果展示梳理思路文件路径下的构成可能只有文件,也可能是文件夹,或者二者以不同比例的混合,不管有多少个文件夹,文件夹的构成最终都是文件,所以,只要判断获取到的文件是否是文件夹,如果是则以同样的方式继续判断,直到没有文件夹,也就是获取到都是文件需要用到的算法递归思想,即函数自己调用自己os模块中的方法:os.listdir()for file in files:os.path.isdir()with ope
2021-03-28 12:10:17
1391
原创 #代码生活#批量修改文件名-系列化代码
批量修改文件名-系列化代码引入扩展库定义添加前缀的函数定义添加后缀的函数定义替换文件名的函数引入扩展库import os定义添加前缀的函数def AddPreFileName(folder,name): for file in os.listdir(folder): os.rename(folder+file,folder+name+file)定义添加后缀的函数def AddSufFileName(folder,name): for file in os.listdir(folder
2021-03-27 11:34:59
414
原创 #代码生活# 批量给文件添加前缀
批量给文件添加前缀思路分析步骤拆解代码实现结果展示前言:练习代码的过程中,掌握代码思维,用代码去理解工作理解世界绝大部分非计算机专业的人,很少去刻意掌握一项代码能力,也很难体会到真正入门后带来的快感我们生活中突然的改变其实很大程度上跟计算机技术的迅速发展强相关,因此,即便你是非计算机专业,掌握一项代码也是很有必要的,愿我们终身学习,拥抱变化思路分析给文件添加前缀,很容易想到与系统相关的扩展库,os"批量"二字,很容易想到构造循环体步骤拆解获取到所有待批量修改文件:os.listd
2021-03-27 10:36:14
408
原创 #代码人生# 把PDF中的表格提取到Excel中
Python办公自动化:提取PDF表格数据需求解读算法设计扩展库使用代码实现代码调优# 程序目标:把pdf中的表格提取到Excel中#引入扩展库import xlwings as xwimport pdfplumber as ppbwith ppb.open('2020销年1月电暖器销年报告总结.pdf') as pdf: # 创建一个工作簿对象 wb=xw.Book() #sheets表格的序号 i=0 #对PDF的每一页进行循环遍历
2021-03-24 06:45:45
287
原创 #代码生活# 读取PDF文字并存储到word文件中
Python办公自动化:PDF文字提取到word文件中需求解读需要用到的扩展库代码实现# 把pdf中的文字提取到word文件中import pdfplumberimport docx# 利用扩展库打开pdf 文件,并存储pdf内存对象with pdfplumber.open ('D://XX业务/XXX/XXX市场/2020销年1月XXX销年报告总结.pdf') as pdf: #新建一个文档对象 dc=docx.Document() #循环遍历每一页的pdf
2021-03-24 05:51:50
406
原创 #神器#合并多个工作簿中多个工作表
Python办公自动化:合并多个工作簿中多个工作表1.算法设计:2.Python扩展库:3.代码实现:4.心得体会核心思想:外循环使用工作表控制,内循环使用工作簿控制核心工具:pandas合并多张Excel表格中多个sheet1.算法设计:外循环:根据工作表的数量设定外循环- 内循环:循环获取文件夹中的Excel文件- - 读取每个文件的工作簿的某一特定工作表数据到pandas库的DataFrame中- - - 读取每个工作簿的所有工作表数据- - - 合并(拼接)到临时变量中-
2021-03-22 05:13:36
403
原创 #炫酷# 批量合并多个Excel表格
Python自动化(合并多个工作簿中第一个工作表1.1 需求解读1.2 思路梳理(算法设计)1.2.1 实现步骤1.2.2 扩展库使用需要用到的扩展库1.3 代码实现1.4 结果检查1.5 心得体会(合并多个工作簿中第一个工作表))前言:日常办公中遇到大量要处理的Excel表格合并的问题,一个文件夹下由很多张Excel表格,而每张表格的表头是一样的,格式也是相同的,如果单靠人工去合并,3到4张合并还相对OK,但是超过10张,估计手一抖,合并错了,还得重来,真是太反人性了,有这个时间,干点别的不好么
2021-03-21 09:50:33
461
1
原创 数据分析、拆分Excel案例及代码实现
数据分析、拆分Excel案例及代码实现DataFrame数据结构读取CSVDataFrame去除重复DataFrame筛选数据Matplotlib针对Pandas进行数据可视化并生成图片DataFrame数据和图片保存到Excel中DataFrame数据结构读取CSVDataFrame去除重复DataFrame筛选数据Matplotlib针对Pandas进行数据可视化并生成图片DataFrame数据和图片保存到Excel中导入相关库 pandas、xlwingsimport pandas
2021-03-14 21:53:49
498
原创 爬虫系列文章(一)明确业务需求
明确业务需求1.项目背景2.流程步骤3.工具及技术1.项目背景接到业务部门提出需要在国家电网下载文件,详细沟通后将需求逐步明确和澄清,详见:数据来源http://ecp.sgcc.com.cn/ecp1.0/project_list.jsp?site=global&column_code=014001001&project_type=1抓取国家电⽹电⼦商务平台所有招标公告,下载“项⽬公告⽂件”将下载的项⽬公告⽂件解压后,寻找有’货物清单’字样的Excel表格,将所有的货物
2021-03-07 18:44:17
780
2
原创 数据分析-方法&流程&工具
数据分析-方法&流程&工具1.数据分析方法1.1 对比分析法1.2 细分分析法1.3 A/B测试1.4 漏斗分析法2.数据分析过程2.1 业务视角2.3 工程视角3.数据分析工具3.1 分析工具-Excel3.2 分析工具-SQL3.3 Tableau & Power BI3.4 SPSS3.5 Python数据分析是指有针对性的收集、加工、整理数据,并采用统计和挖掘技术分析和解释数据的科学与艺术从行业的角度看,数据分析是基于某种行业目的,有目的进行收集、整理、加工和分析数据
2021-03-01 19:23:58
724
1
原创 洞见趋势系列三-模型训练(Baseline模型)
Baseline模型1.数据归一化二级目录三级目录开始Baseline模型训练之前,还需要做数据归一化。数据标准化就是:数据按最小值中心化后,再按极差(最大值-最小值)缩放,数据会被收敛到[0,1]之间,目的是让特征大小变换到统一风格。使用sklearn.preprocessing的MinMaxScaler来实现这个功能1.数据归一化form sklearn.preprocessing import MinMaxScalerlabels_train=df_train['TARGET']fe
2021-02-20 11:55:48
2364
原创 洞见趋势系列(二)特征工程
在业界广泛流传这么一句话,数据和特征决定了机器学习的上限,而模型和算法只是逼近这个上限而异。实际中,构造一个有效的特征带来的回报要比构造复杂模型和调参来的大,由此可见特征工程的重要性。
2021-02-19 22:45:11
567
2
原创 (洞见趋势)数据探索--找出规律揭示奥秘
文章目录1.数据集1.1 数据集介绍1.2 导入必要的工具包1.3 数据读取2.数据探索2.1 查看标签的分布情况2.2 查看缺失值2.3 查看特征数据类型2.4 异常点检测2.5 相关性检验2.6 年龄对还款的影响(探索)2.7 外部数据源文章正文1.1 数据集介绍本次使用的数据集来源于Kaggle平台,由home credict提供,该公司的服务致力于向无银行账户的人群提供信贷。我们只用到以下数据集:application_train/application_t.
2021-02-17 14:20:44
1213
1
原创 模型训练之决策树、随机森林、提升树
本节内容包括:树模型的sklearn使用:Decision TreeRandom ForestGBDT分类评价指标说明:AccuracyTPR和FPRROC曲线PR曲线APF1 score交叉验证:k折交叉验证留一交叉验证超参搜索:网格搜索随机搜索hyperopt自动化搜索...
2021-02-15 12:45:06
1170
原创 (深度好文)欠拟合与过拟合解释实例--多项式拟合
欠拟合与过拟合解释实例–多项式拟合1.导入必要的模块import numpy as npimport pandas as pdimport matplotlib.pyplot as plt2.生成数据2.1构建数据生成函数def data_generator(samples,random_seed=0): np.random.seed(random_seed)# 设置随机种子 X=np.random.uniform(-5,5,size=samples)# 从-5到5中随机抽取100个实数
2021-02-14 20:32:19
996
6
原创 Logistic回归的sklearn实现
@[TOC]Logistic回归的sklearn实现导入必要的模块生成数据模型搭建模型训练模型预测查看logistic回归模型画出预测曲线计算评价指标accuracy1.导入必要的模块import numpy as npimport pandas as pdimport matplotlib.pyplot as plt2.生成数据2.1定义数据生成函数def create_data(data_num=100): np.random.seed(21) x1=
2021-02-14 12:17:59
3599
1
原创 线性回归的sklearn实现
线性回归sklearn实现1.导入必要的模块2.构建数据集3.数据划分4.模型搭建5.模型训练6.模型预测7.查看线性回归模型8.计算评价指标MSE线性回归sklearn的实现# 安装sklearn!pip3 install sklearn# 1.导入必要的模块import numpy as npimport pandas as pdimport matplotlib.pyplot as plt2.构建数据集x=np.array([50,30,15,40,55,20,45,
2021-02-13 14:14:42
274
原创 项目实战-创建学员信息管理系统
项目目标:完成一个在线学员信息管理系统数据临时存放在变量列表中实现学生信息的添加,删除和查询操作通过案例实战,锻炼和巩固Python基础知识如下图所示:学员信息管理系统界面1.初始界面2.添加学员信息3.添加后需要查看学员信息4.删除指定的学员信息5.退出学员信息管理系统拿到一个项目后,先建立分析思路:先分析项目有哪些功能需要实现项目的核心功能有哪些界面展示是什么界面如何和用户交互'''1.学员信息数据源2.实现的功能: 1查看学员信息 2添
2020-12-28 22:28:12
591
原创 Python-函数
函数的本质就是对功能的封装和对代码的抽象函数的作用:1.避免开发重复性相同的代码2.便于程序的理解和维护3.对底层代码的抽象基本的函数格式def 函数名():函数功能代码…函数功能代码…return(没有return,默认返回None)调用函数:函数名()特征:函数定义之后不会自动执行,必须在调用后才会执行函数名的命名规则:驼峰+动词开头带有参数的函数格式def 函数名(参数,参数…)形参:形式上的参数,声明函数时()中的参数就是形参实参:实际上..
2020-12-24 12:31:50
132
1
原创 Python-遍历
遍历就是将每一个元素单独取出。可以遍历比如:字符串、列表、元组、字典、以及嵌套数据结构,代码实现如下:# 遍历listnames=['xh','xj','xm']for name in names: print(name,end=' ')# 在for...in 循环用于遍历容器类的数据(字符串,列表,元组,字典,集合)# 遍历字符串for i in 'abcd': print(i,end=' ')# 遍历列表for n in [10,20,30]: print(n)
2020-12-23 06:37:24
4511
原创 Python循环控制-for
for循环的一般格式:for<variable>in<sequence>: <statements>else: <statements>代码操作如下:# for...in循环#1到10求和sum=0for x in [1,2,3,4,5,6,7,8,9,10]: sum=sum+xprint(sum)# 遍历listnames=['xh','xj','xm']for name in names: print(na.
2020-12-23 05:08:38
426
原创 Python循环控制-While
while循环执行的流程图:实际操作代码:# while 循环和breakn=1while n<=100: if n>10: # 当n=11时,条件满足,执行break语句,跳出while循环体 break print(n,end=',') n=n+1print('END')# while循环,只有条件满足,就不断循环,条件不满足时退出循环# 在循环中,break语句可以提前退出循环# 死循环就是循环不会终止的循环类型i=1sum
2020-12-22 16:44:20
247
2
原创 Python 条件语句
代码执行操作:# 单项分支age=22if age>=18: # 对输入的信息进行条件判断,返回true执行该条件下的代码块,返回false不执行代码块 print('your age is',age) print('adult')print('ok')# 双项分支age=15 #初始化一个年龄if age>=18: print('your age is',age) print('adult')else: print('your ...
2020-12-22 12:17:25
128
原创 Python数据类型-Set(集合)
Set是一个无序不重复的序列可以使用大括号{},或set()函数来创建注意:创建一个空集合必须使用set()而不是{},因为{}是用来创建空字典的创建格式:{value1,value2,value3,value4…}或者set(value)集合之间可以进行-(差集)&(交集)|(并集)^(反交集)Set(集合)运行代码如下:s=set([1,2,3]) print(s)s=set([1,1,2,2,2,3,3]) #自动去重print(s)s1=set([1,2,3]).
2020-12-22 08:06:48
1483
原创 Python数据类型-dictionary(字典)
Dictionary(字典)Dictionary 是无序集合对象,元素是通过key-value健值对来存取的Dictionary是一种映射类型,用{}来标识,它是一个无序的key:value对集合key必须使用不可变类型,在同一个字典中,key必须是唯一的dictionary也有一些内置的函数,clear(),keys(),values()等dictionary方便我们使用查找和搜索功能创建空的dictionary使用{}具体看代码操作:d={'yh':90,'xh':79,'xm'
2020-12-22 07:11:34
333
原创 Python数据类型-Tuple(元组)
Tuple(元组)Tuple(元组)与列表相似,不同之处在于元组的元素不能修改Tuple(元组)中的元素用小括号括起来,并用逗号隔开Tuple(元组)中的元素类型也可以不同同样支持切片操作索引值从0开始,以-1结束如果Tuple(元素)只有一个,写成(1,)具体的代码运行过程:# 元组t=('a','b','c')t[1]=1 # 元组中的元素不能被修改TypeError Traceback (most recent.
2020-12-22 06:37:10
297
原创 Python数据类型-list(列表)
List(列表)是一种有序集合,可以随时添加和删除其中的元素;列表的元素可以不同;列表同样支持切片,截取语法如下:.变量[起始下标:结束下标:步进].列表格式[‘yh’,‘micheal’,‘jack’] []之间,元素用逗号隔开.索引值从0开始,-1代表末尾.使用(+)可以连接两个列表,(*)是重复操作classmates=['yh','xiaobai','xiaoming']type(classmates)listlen(classmates)3classmates[1]x.
2020-12-21 20:06:23
333
原创 Python数据类型-Number(数字)
Python3中只有一种整型类型int内置的type()函数可以查询变量所指的对象类型也可以使用内置的instance()函数来判断Python中的True值是1,False值是0浮点只有单精度float,没有double双精度In [1]: a=100In [2]: type(a)Out[2]: intIn [3]: b=aIn [4]: bOut[4]: 100In [5]: a='abc'In [6]: b=aIn [7]: type(b)Out[7]: .
2020-12-10 05:58:57
282
原创 Python 基础语法(print,input)
print('hello python')# 用空格来分割输出数字print(1,end=' ')print(2,end=' ')print(3,end=' ')print(4,end=' ')print(5)'''''''print(500)print(500+800) # 先进行运算,输出运算的结果print('500+800=',500+800)# input('请输入一个数字') #一直等待用户输入# print('我输入的是',input('请输入一个数字'))
2020-12-09 21:55:38
300
原创 MySQL组成结构和基础操作
本篇文章从初识数据库对常用的MySQL做个简单的介绍,MySQL的组成结构MySQL基础操作和指令上述基础的操作指令,我们在pycharm中演示下:show databases;create database recommend2 charset utf8;drop database recommend2;create database test2 charset utf8;show variables like 'character_set_database';drop data
2020-12-03 07:55:20
666
原创 Need to set ‘serverTimezone‘ property
pycharm 中创建好数据库,操作数据库指令时比如:show databases;报错:Server returns invalid timezone.Need to set’server Timezone’ property截图如下:根据错误提示,点击set time zone设置serverTimezone为: Asia/Shanghai重新运行后,显示OK:...
2020-12-03 06:50:32
1971
原创 组合框-offset-名称-创建动态图表
先声明本次涉及到的内容:根据组合框设置条件格式. row()函数动态的图表使用动态的一行,这行数据可以使用名称来定义offset函数可以得到一行的四个数据,选中显示额区域offse()函数,需要得到数值,需要ctrl+shift+enter得到数组定义一个名称(名称里面取的就是这些数据)最终的显示效果:组合框中选择不同的外卖,表格中的颜色和图表也会同步显示。需要注意的:组合框的条件设置动态图表中的数据来源通过offset截取到一个数组对截取到的数值定义名称动态图表的数据源选择刚
2020-12-02 07:20:12
607
1
原创 数据可视化技能之组合框完成动态图表
本文章涉及内容:1.反选2.使用控件,完成动态图表开发者模式显示控件使用组合框+offset+名称构造动态图表使用列表框+辅助表格构造动态图表使用复选框构建动态图表如图所示:最终实现的效果是选择不同的渠道:美团、饿了么、糯米、smartchef,右侧的表格数据和柱形图同步发生变化,展现的是动态图表,具体的实现步骤如下:添加控件,路径为:开发工具>>插入>>组合框(窗体控件)设置控件格式,右击组合框>>设置控件格式>>分别设置数据源区域
2020-12-01 22:27:27
2034
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人