- 博客(21)
- 收藏
- 关注
原创 python批量合并多个Excel表并将表名添加为新列
引用原文:https://mp.weixin.qq.com/s/pJCFqU-DvK7NnxvVlzw1PQ详细方法与结果请阅读原文:https://mp.weixin.qq.com/s/pJCFqU-DvK7NnxvVlzw1PQ将所有相同类型的表需要列名和列数相同,并存放在同一个文件夹下,如图# 加载所需的包import pandas as pdimport glob ,osfrom warnings import filterwarningsfilterwarnings('ign
2022-08-04 09:36:46
1107
原创 python合并指定工作目录下的多个csv文件代码
全文点此查看:https://mp.weixin.qq.com/s?__biz=MzI1NzczMDIwNw==&mid=2247484196&idx=1&sn=343e474668ec12dd4ab909b15dae5bfb&chksm=ea13b0d4dd6439c2129ac83e54d8cedb375a7cb4c2457c53686897162087573053171333be14&token=1691880859&lang=zh_CN#rd代码:
2021-02-03 10:40:08
338
原创 【sklearn】数据处理之降维
"""机器学习领域中的降维指在某些限定条件下,降低随机变量个数,得到一组相关性不强的主变量的过程。降维采用某种映射方法,将原高维空间中的数据点映射到低维度的空间中,在原始的高维空间中,包含有冗余信息以及噪音信息,将会降低模型的识别精度,机器学习算法的复杂度和数据的维数有着密切关系,甚至与维数呈指数级关联,通过降维能在一定程度上减少冗余信息,从而提高模型的识别精度,提高模型的运行效率,且高维数据无法通过作图可视化,降维后可通过图形可视化寻找数据内部的结构特征降维可分为特征选择和特征提取两种方法
2020-11-09 11:18:51
1710
原创 【sklearn】聚类
"""聚类是在没有给定划分类别的情况下,根据数据相似度进行样本分组的一种方法,聚类模型可以将无标记的数据聚类为多个簇,分别视为一类,是一种非监督的学习算法。在商业上,聚类可以帮助市场分析人员从消费者库中区分出不同的消费群体,并概括出每一类消费者的消费模式或消费习惯。同时,聚类也可以作为其它机器学习算法的一个预处理步骤,如异常值识别、连续型特征离散化等聚类的输入是一组未被标记的样本,聚类根据数据自身的距离或相似度将他们划分为若干组,划分的原则是组内样本最小化而组间(外部)距离最大化"""#.
2020-11-09 11:00:55
650
原创 【sklearn】模型的选择及模型的评估
"""选出一个最合适的模型的方式是通过模型验证对模型进行评价,对于监督学习算法而言,一个模型泛化能力越好,则这个模型的评价越高。这需要通过模型验证来测试不同模型对于未知数据的表现。仅仅使用训练数据对模型进行评价往往会带来过度拟合的问题,这就需要将数据划分分为训练集和测试集,再通过交叉验证测试模型对于不同组合的训练集和测试集的表现效果"""#数据集划分"""在分配训练集和测试集的时候,测试集的数据越小,对模型的泛化误差的估计将会越不准确,所以需要对数据集的划分比例进行权衡,在实际应用中,
2020-11-09 10:48:45
840
原创 【sklearn】建立模型前的数据准备方法
"""sklearn 把大量的特征处理相关的功能封装为转换器(transformer)sklearn将模型训练与预测功能封装为估计器(estimator)数据准备:指数据预处理,它将原始数据转换为适合机器学习的形式,它决定了机器学习效果的上限,常见方法:标准化、归一化、二值化、独热编码等,sklearn库的preprocessing模块提供了多种数据预处理类标准化:指将数据按比例缩放,使之落入某个特定区间,目的是消除特征间量纲和取值范围差异的影响。常见的标准化方法有标准差标准化和极差标准化
2020-11-09 10:45:06
883
原创 【sklearn】分类函数
Logistic回归Logistic回归模型属于对数线性模型,优点是计算代价不高,易于理解和实现,缺点是在面对多元或非线性决策边界时性能较差。from sklearn.datasets import load_breast_cancerfrom sklearn.model_selection import train_test_split#导入load_breast_cancer数据cancer = load_breast_cancer()x = cancer['data']y = ca
2020-11-04 11:32:17
1203
原创 通过anaconda安装graphviz
官网下载安装graphviz可视化图像软件太麻烦,通过anaconda安装graphviz相对较为方便方法如下:首先打开Anaconda Navigator 选择环境,并选择打开,Open Terminal输入:conda install graphviz安装完成后配置环境变量然后再安装 python-graphvizconda installpython-graphviz...
2020-11-01 18:59:51
1368
转载 NLTK Downloader出现 [Error 11004]getaddrinfo failed的错误时怎么解决
原文链接:https://mp.weixin.qq.com/s?__biz=MzI1NzczMDIwNw==&mid=2247483777&idx=1&sn=cd985f3f7fe0472df9560de94753d86d&chksm=ea13b271dd643b67a591485d249ca9f64aaa380db3ff16c462c0d2def5ccce114e3c938b955e&token=445308227&lang=zh_CN#rd当打开NLT
2020-07-05 20:33:40
24490
40
转载 Python数据分析可视化工具有哪些?
你会python数据可视化吗?你知道python数据可视化的工具有哪些吗?下面来总结一下常用的python可视化库以及教程链接,请复制链接到浏览器打开。(注意官网的教程多为英文,建议英语不佳的同学安装自带翻译的浏览器查看)NO.1// matplotlibMatplotlib是一个用于在Python中创建静态、动画和交互式可视化的综合库,如果你是数据分析初学者,这是一个基础必学的库。Matplotlib 安装教程https://matplotlib.org/users/ins...
2020-06-30 23:36:00
1012
原创 DAX函数——日期和时间函数
日期和时间函数CALENDAR(<start_date>, <end_date>) 返回具有单列“Date”的表,该列包含一组连续日期。日期范围从指定的开始日期到指定的结束日期(这两个日期包含在内) CALENDARAUTO([fiscal_year_end_month])返回具有单列“Date”的表,该列包含一组连续日期。日期范围基于模型中的数据自动计算...
2020-04-25 19:55:57
6392
原创 PowerBI中常用的DAX函数
DAX函数参考:https://docs.microsoft.com/zh-cn/previous-versions/sql/sql-server-2016/ee634396(v=sql.130)?redirectedfrom=MSDNDAX语法参考:https://docs.microsoft.com/zh-cn/dax/dax-syntax-referenceDAX预算符参考:http...
2020-04-24 22:49:28
10170
原创 MySQL练习题及解题思路
1、取得每个部门最高薪水的人员名称第一步:求出每个部门的最高薪水SELECT e.deptno,MAX(e.sal) FROM emp e GROUP BY e.deptno;第二部:将以上查询结果当成一个临时表t(deptno,maxsal)SELECT e.deptno,e.ename,e.sal FROM(SELECT e.deptno,MAX(e.sal) AS maxsal F...
2020-04-09 20:29:23
856
原创 用python把多个PDF文件合并成一个
例如要把下面这几个PDF文件合并成同一个:先加载包,如没有安装,则先进行安装,pip install PyPDF2 ;完整代码如下:import PyPDF2filenames=['Python数据科学速查表 - Jupyter Notebook.pdf','Python数据科学速查表 - Matplotlib 绘图.pdf','Python数据科学速查表 - Numpy 基础.pdf'...
2020-04-07 22:51:40
10077
4
原创 把数据导出至MySQL,to_sql导出DataFrame中的数据
to_sql函数语法:to_sql(tableName,con=数据连接)tableName数据库中的表名con数据库的连接对象,需要在程序中先创建import pandas as pdfrom sqlalchemy import create_engine创建连接engine=create_engine( "mysql+pymysql://root:123@localho...
2020-04-03 17:37:00
485
原创 python连接到MySQL数据库
mysql-connector 是 MySQL 官方提供的驱动器,如果没有安装先用pip命令来下载安装:连接数据库(如果出现了“authentication plugin ‘calling_sha2_password’ is not supported.”的错误提示,查看解决这个问题的文章,链接:http://www.manongjc.com/detail/8-bwieltjwtkibnaf...
2020-04-03 11:55:41
216
原创 pandas入门语法汇总速查表
# 加载pandas包import pandas as pd# 选择某列,如选择df中的age列df['age']# 查看某列中最大值,如age列中的最大值df['age'].max()# 或者ages.max()# 获取基本统计信息df.describe()# 读取文件名为df的文件df=pd.read_csv('data/df.csv')df=pd.read_e...
2020-03-27 21:19:51
381
原创 pandas基础--用python画简单的条形图
首先打开jupyter notebook,并读入数据# import pandas as pdimport matplotlib.pyplot as pltstudents=pd.read_excel('E:\\下载练习数据专用\\009\\Students.xlsx')print(students)先排序,figsize = (8,6)设置8*6大小的图students.sor...
2020-03-25 14:36:56
4740
1
原创 pandas基础--用jupyter notebook排序及多重排序
# 读入数据import pandas as pdproducts=pd.read_excel('E:\\下载练习数据专用\\007\\List.xlsx',index_col='ID')print(products)原始数据如下:'''排序,按价格升序排序,inplace在当前工作表排序不会生成新表,ascending=False从大到小排序'''products.sort...
2020-03-25 13:29:32
10368
原创 pandas基础--如何用jupyter notebook从现有列产生新列
如有产品表数据如图,需要求取价格这一列:首先导入pandas,Products.head()默认查看前5行,看数据是否出错;代码如下:import pandas as pdProducts=pd.read_excel('E:\\pandas基础\\1\\产品表.xlsx',index_col='ID')Products.head()查看结果,最终代码;import pan...
2020-03-25 13:12:52
4798
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人