
Python
qq_期许
不设限
展开
-
OneHotEncoder一个不太合理的地方
假如某个特征有3种取值,正常经过OneHotEncoder编码后还是3种取值,即0,1,2;但一旦遇到上述问题设置。OneHotEncoder,在Xtrain上fit,在Xtest上transform。解决这个问题的其中一个办法是,在OneHotEncoder实例化的时候设置参数。在转换过程中,如遇到未知类别值时,编码器会将对应的编码位置全部设置为 0。时的默认值,还得通过继承OneHotEncoder类并覆盖相关方法来实现。后,编码就变成了0,1,这就会丢失部分信息。,即表示忽略未知类别值。原创 2024-09-08 00:35:05 · 364 阅读 · 1 评论 -
【疑惑-已解决】list = list.append(‘xxx‘)没有输出内容(None)
【代码】【疑惑-未解决】list = list.append('xxx')没有输出内容(None)原创 2023-01-24 18:35:17 · 720 阅读 · 0 评论 -
【疑惑】seaborn绘制不规则多子图
plt.subplot(grid[0, :])则不会报错。如图,seaborn是否不支持这类的写法?原创 2022-11-05 18:08:07 · 459 阅读 · 0 评论 -
【无标题】
方法2:调用交叉验证的类cross_val_score并使用里面的scoring参数来设置使用均方误差。方法1:使用sklearn专用的模型评估模块metrics里的类mean_squared_error。方法1:直接从metrics中导入r2_score,输入预测值和真实值后打分。方法2:从线性回归LinearRegression的接口score来进行调用。方法3:在交叉验证中,输入"r2"来调用。原创 2022-10-15 20:56:48 · 434 阅读 · 0 评论 -
【笔记】关于Python星期转换 weekday() dt.strftime(“%w“)
关于Python星期转换 weekday() dt.strftime("%w")原创 2022-08-20 11:33:47 · 893 阅读 · 0 评论 -
DataWhale组队学习-电信客户流失预测挑战赛
赛题目的:预测电信用户的流失情况评估指标:AUC指标task1 baseline 提交结果:lgb线下0.8437 线上:0.8391下一步:针对每个特征做分析,处理异常值等原创 2022-06-15 23:47:59 · 229 阅读 · 0 评论 -
pandas resample()
参数:几个常用的参数rule:采样频率参考博客https://matches999.blog.youkuaiyun.com/article/details/118887701axis:{0 or ‘index’, 1 or ‘columns’},default 0,即沿行必须是 DatetimeIndex、TimedeltaIndex 或 PeriodIndexclosed:{‘right’, ‘left’},默认区间的哪一侧是闭合的,默认为left除了“M”、“A”、“Q”、“BM”、“BA”、“BQ”原创 2022-06-12 13:59:49 · 224 阅读 · 0 评论 -
关于给dataframe单列中部分行赋值的坑
报错信息:只是将value赋值给了原数据集df的一个副本,并没有改变df的值SettingWithCopyWarning:A value is trying to be set on a copy of a slice from a DataFrame.原创 2022-06-11 23:54:26 · 429 阅读 · 0 评论 -
使用jupyter notebook遇到的报错(不定期更新)
cannot import name ‘_to_object_array’ from ‘sklearn.utils’解决办法:重启anaconda解决参考的文章链接:click原创 2021-07-04 22:05:24 · 415 阅读 · 0 评论 -
python 实现字符串翻转
方法1:切片cstr = 'spam'cstr[::-1] # 'maps'方法2:reversed() + join()字符串本身是没有reversed()方法的直接reversed(cstr):''.join(reversed(cstr)) # 'maps'方法3:遍历字符串def func_reversed_str(a_string): new_str = '' i = len(a_string)-1 while i > -1:原创 2021-03-27 17:23:31 · 189 阅读 · 0 评论 -
python数据分析常用操作01-更改列名
不喜欢原始数据中的列名,就改呗。目录1. 全部列2. 部分列1. 全部列df.columns = new_columnsnew_coumns 可以是列表或元组但新旧列名的长度必须一致,否者会不匹配报错这种改变方式是直接改变了原始数据。name = ['职位ID', '城市', '公司ID', '职位类型', '职位类型2', '学历', '薪资', '最低薪资', '最高薪资']df.columns=name前后效果对比:2. 部分列df...原创 2020-09-06 23:54:03 · 2785 阅读 · 0 评论 -
Pandas学习笔记14_pandas 连接数据库02
1、导包import pandas as pdimport pymysqlfrom sqlalchemy import create_engine将连接数据库并读取数据的代码封装成一个方法# 将连接数据库并读取数据的代码封装成一个方法def reader(query, db, charset): sql = query engine = create_engine('mysql+pymysql://root:root@localhost:3306/{0}?charset={1}原创 2020-07-05 03:16:14 · 151 阅读 · 0 评论 -
Pandas学习笔记13_pandas 连接数据库01
1、导包import pandas as pdimport pymysqlfrom sqlalchemy import create_engine2、连接数据库方法1:用pymysql库连接数据库的写法conn = pymysql.connect( host = '127.0.0.1', user = 'root', password = 'root', db = 'qinlu', port = 3306, charset = 'utf8')原创 2020-07-05 03:12:06 · 217 阅读 · 0 评论 -
Pandas学习笔记12_pandas 数据透视表
1、加载数据import pandas as pdimport numpy as npposition = pd.read_csv('position.csv', encoding='gbk')company = pd.read_csv('company.csv', encoding='gbk')2、数据透视表position.pivot_table(index='city', columns='workYear', values='avg')数据透视表,多重索引# 数据透视表,多原创 2020-07-05 03:07:31 · 133 阅读 · 0 评论 -
Pandas学习笔记11_pandas 聚合
1、加载数据import pandas as pdposition = pd.read_csv('position.csv', encoding='gbk')company = pd.read_csv('company.csv', encoding='gbk')2、apply复习返回各个城市top5的薪资# 返回各个城市top5的薪资def function(x): r = x.sort_values('avg', ascending=False)[: 5] return原创 2020-07-05 03:03:08 · 107 阅读 · 0 评论 -
Pandas学习笔记10_pandas apply
1、加载数据import pandas as pdposition = pd.read_csv('position.csv', encoding='gbk')company = pd.read_csv('company.csv', encoding='gbk')2、apply2.1、在avg列后+‘k’方法1:直接加position['avg_new'] = position.avg.astype(str)+'k'方法2:匿名函数lambda# 使用apply完成在 avg 列 +原创 2020-07-05 02:59:04 · 119 阅读 · 0 评论 -
Pandas学习笔记09_pandas 去重
1、加载数据import pandas as pdimport numpy as npposition = pd.read_csv('position.csv', encoding='gbk')company = pd.read_csv('company.csv', encoding='gbk')2、处理空值&去重2.1、处理空值查看city列position.loc[:, 'city']由于数据比较干净,没有空值,所以在这里人为地制空值# 人为制造空值position原创 2020-07-05 02:54:14 · 117 阅读 · 0 评论 -
Pandas学习笔记08_对字符串的操作
1、加载数据import pandas as pdposition = pd.read_csv('position.csv', encoding='gbk')company = pd.read_csv('company.csv', encoding='gbk')2、删除多余的符号(注意转换为str)# 删除多余的符号position.positionLables.str[1:-1].str.replace("'", "")...原创 2020-07-05 02:48:46 · 94 阅读 · 0 评论 -
Pandas学习笔记07_多重索引
1、加载数据import pandas as pdposition = pd.read_csv('position.csv', encoding='gbk')company = pd.read_csv('company.csv', encoding='gbk')2、多重索引position.groupby(['city', 'education']).mean()# .avg 转换成series,才可以针对性的查询position.groupby(['city', 'education原创 2020-07-02 23:40:53 · 319 阅读 · 0 评论 -
Pandas学习笔记06_多表关联
1、加载数据import pandas as pdposition = pd.read_csv('position.csv', encoding='gbk')company = pd.read_csv('company.csv', encoding='gbk')concat 堆叠join 根据索引merge 根据键值(最常用)# merge方法position.merge(right=company, how='inner', on='companyId')原创 2020-07-02 23:32:28 · 368 阅读 · 0 评论 -
Pandas学习笔记05_groupby操作
1、加载数据import pandas as pddata = pd.read_csv('dataanalysis.csv')data.head()2、groupbydata.groupby(by='city')# <pandas.core.groupby.generic.DataFrameGroupBy object at 0x000001E48722CA08>data.groupby(by='city').max()data.groupby(by='city').a原创 2020-07-02 23:30:44 · 377 阅读 · 0 评论 -
Pandas学习笔记04_简单的计算
1、加载数据import pandas as pddata = pd.read_csv('dataanalysis.csv')data.head()2、数据的转置data.T3、数据的排序3.1 对一列数据进行排序data.sort_values(by='avg', ascending=False)3.2 对多列数据进行排序data.sort_values(by=['city', 'avg'], ascending=False)3.3 对avg薪资降序排序,并生成新的列ran原创 2020-07-02 23:08:56 · 127 阅读 · 0 评论 -
Pandas学习笔记03_基本的查询
1、加载数据import pandas as pddata = pd.read_csv('dataanalysis.csv')data.head()# data.tail()# data.info()2、查询# 查询薪资>60,两种写法等同data.loc[data['avg']>60]data.query('avg>60')# 查询薪资>60的城市有哪些data.query('avg>60').city# 判断薪资>60的城市是否为成原创 2020-07-02 22:10:53 · 103 阅读 · 0 评论 -
Pandas学习笔记02_拿到数据后的基本操作
导包加载数据import pandas as pdpath = r"C:\Anaconda\Jupyter\Pandas数据分析从入门到实战\ant-learn-pandas-master\datas\beijing_tianqi\beijing_tianqi_2018.csv"data_tq = pd.read_csv(path, encoding="gbk").head(i) 查看数据集的前i行(i默认为5)data_tq.head()3. .tail() 查看数据的后几行.原创 2020-06-15 21:32:49 · 192 阅读 · 0 评论 -
Pandas学习笔记01_读取不同类型数据
读取不同文件时的写法1.1 读取txt文件# 1.1 读取txt文件import pandas as pdpath1 = '../Pandas数据分析从入门到实战/ant-learn-pandas-master/datas/crazyant/access_pvuv.txt'data_txt = pd.read_csv(path1, sep='\t', header=None, names=['pdate', 'pv', 'uv'])data_txt.head()1.2 读取csv文件.原创 2020-06-15 16:45:02 · 296 阅读 · 2 评论 -
数据分析_Python学习10之Pandas学习(Dataframe)
在这里插入代码片原创 2020-04-07 06:26:15 · 215 阅读 · 0 评论 -
数据分析_Python学习09之Pandas学习(Series)
Pandas基于两种数据类型:series和dataframeseries是pandas中最基本的对象,类似于一维数组。series和numpy不同,series可以为数据自定义标签(index)。1.创建series对象的几种方式:方式1.创建series对象并省略索引如果不带index参数,pandas会自动默认index进行索引,类似数组,索引值是[0,…, len(data)...原创 2020-04-06 16:12:57 · 220 阅读 · 0 评论 -
数据分析_Python学习08之Numpy学习
1. Numpy的Ndarray对象Ndarray:①N维数组对象 ②同一系列数据的集合 ③存放同类元素的多维数组1.1.创建一维数组法1.直接传入列表import numpy as nplist1 = [1, 2, 3]oneArray = np.array(list1)print(type(oneArray)) # <class 'numpy.ndarray'>...原创 2020-04-05 14:12:31 · 202 阅读 · 0 评论 -
数据分析_Python学习07之Matplotlib学习
一、折线图1.一个简单的例子(一图单线)# 导包import matplotlib.pyplot as pltimport randomfrom matplotlib import font_manager# x、y轴赋值x = range(1, 32)y = [random.randint(25,42) for i in x] # 设置画布的大小plt.figure(fi...原创 2020-03-24 21:07:24 · 191 阅读 · 0 评论 -
Matplotlib制作图例时报错No handles with labels found to put in legend.解决办法
问题现象报错:No handles with labels found to put in legend.解决办法1)“画图”时未指定label(如下图,没有红框中的内容)对应的解决办法:添加上即可2)制作图例在画图之前,则也会报错对应的解决办法:先plt.plot(),再plt.legend()如下图:...原创 2020-03-24 15:11:23 · 7384 阅读 · 0 评论 -
数据分析_Python学习06
# 爬取猫眼top100# 1. 分析界面,数据来源,确定请求链接# 第1页:https://maoyan.com/board/4# 第2页:https://maoyan.com/board/4?offset=10# 第3页:https://maoyan.com/board/4?offset=20# 2. 判断这个链接返回的数据里有没有想要的数据# 确定链接:https://maoy...原创 2020-01-05 22:29:07 · 103 阅读 · 0 评论 -
数据分析_Python学习05
异常"""异常: 一套错误处理机制 try exception finally"""栗子1:try: # 将认为会出现异常的代码放在这里: print(number)except NameError as e: # 有异常的时候会执行这里的代码: print(e) # name 'number' is not defi...原创 2019-12-29 16:16:06 · 145 阅读 · 0 评论 -
数据分析_Python学习04(面向对象)
面向对象的类和对象类;一类事物,知识一个概念 Dog对象:具体到某一个东西 zf家的狗对象可以有属性和方法一个简单的例子:# 类的定义class Teacher(object): country = 'China' def teach(self): print('老师可以教书')# 创建对象teacher = Teacher()pri...原创 2019-12-28 18:42:32 · 302 阅读 · 0 评论 -
数据分析_Python学习03
函数定义语法: def 函数名(参数): 功能代码# 1. 函数的定义和调用# 定义(并不会执行里面的功能代码)def show(): print('hello python')# 调用show() # hello python# 2. 函数的文档说明def showinfo(): """函数的功能""" prin...原创 2019-12-22 19:33:37 · 119 阅读 · 0 评论 -
数据分析_Python学习02(集合不能重复,元祖不能改变)
字符串单引号,双引号,三引号保卫起来的字符组就是字符串my_str = 'hello'# h e l l o# 0 1 2 3 4 正向索引# -5 -4 -3 -2 -1 反向索引# 1. 根据索引获取对应的值my_str = 'hello'print(my_str[0]) # hprint(my_str[2]) # lpri...原创 2019-12-22 15:27:05 · 877 阅读 · 0 评论 -
数据分析_Python学习01
注释#单行注释'''多行注释'''变量的定义在python里面不需要指定数据的类型,会根据数据自动推导出数据类型变量名 = 数据score = 100score = 100print(type(score)) # <class 'int'>is_ok = Trueprint(type(is_ok)) # <class 'bool'>...原创 2019-12-21 19:47:14 · 270 阅读 · 0 评论