
Coding随手记
文章平均质量分 62
写代码过程中一些需求实现 / 报错解决记录
Cheer-ego
没有白走的路 | 做有意义的事
展开
-
df.explode() 及等价写法
df.explode() 可以按某列的值将一行拆分为多行,需要pandas版本 ≥ 0.25.0。可以使用 print(pd.__version__) 查看pandas版本。原创 2025-02-15 15:46:58 · 414 阅读 · 0 评论 -
对比category_encoders库和sklearn库中的OrdinalEncoder
OrdinalEncoder 是用来对数据中的分类特征进行编码、转换为整数标签的函数。本文旨在对比 from category_encoders import OrdinalEncoder 和 from sklearn.preprocessing import OrdinalEncoder 的用法。原创 2025-01-31 17:36:09 · 362 阅读 · 0 评论 -
pd.read_csv() 遇到的3个报错及解决方法
三个报错的解决方法:(1)ParserError: Error tokenizing data. C error: Buffer overflow caught - possible malformed input file.(2)ParserError: field larger than field limit (131072)(3)ParserError: ' ' expected after '"'原创 2025-01-22 12:41:43 · 522 阅读 · 0 评论 -
dict.setdefault() 用法
setdefault 是Python中字典的一个方法,用于在字典中查找指定键,如果键存在,则返回对应值(而不是指定的默认值);如果键不存在,则在字典中添加该键,并将其值设置为指定的默认值原创 2024-09-22 23:46:11 · 2118 阅读 · 0 评论 -
numpy常用乘法函数总结:np.dot()、np.multiply()、*、np.matmul()、@、np.prod()、np.outer()
np.dot() 向量点积+矩阵乘法;np.multiply() 或者 * 在array下均为元素对位乘,但在mat/matrix下后者变为矩阵乘法;np.matmul() 或者 @ 完全等价,为矩阵乘法;np.prod() 返回数组中元素的乘积,可指定axis;np.outer() 外积,拿第一个向量的元素分别与第二个向量所有元素相乘得到的结果的一行,以此类推原创 2024-04-25 03:03:49 · 13294 阅读 · 1 评论 -
numpy里的随机数、axis、广播机制
感觉【随机数】、【axis】、【广播机制】这三种操作在numpy里比较常用,且容易导致shape报错,故本文放在一起总结下原创 2024-04-20 00:06:37 · 728 阅读 · 0 评论 -
DataFrame/字典/列表之间的相互转换
pandas提供了函数,将DataFrame类型转化为字典类型对于写入的orient不同,字典的构造方式也不同。原创 2023-06-01 10:18:55 · 997 阅读 · 0 评论 -
sklearn计算余弦相似度:sklearn.metrics.pairwise.cosine_similarity()
输入是 n个长度相同的 list或array,计算这 n个list 两两之间的余弦相似性。最后生成的是一个 n*n 的相似性矩阵s,s[i][j] 表示输入中第i个和第j个元素的余弦相似性。显然,该相似性矩阵对角线上的元素全为1,且是对称矩阵,即 s[i][j] = s[j][i]原创 2023-05-30 20:59:48 · 171 阅读 · 0 评论 -
pandas过滤保留含两个以上商品的品牌
有一个DataFrame有两列:第一列是商品的id,第二列是商品的品牌。完成以下3个请求:(1)统计一共有多少个品牌,输出为列表pinpai_list;(2)每个品牌可能包含的商品数量是不同的,只保留含两个以上商品的品牌;(3)筛选出 pinpai_list 里品牌的行,并将 id 列设置为索引。原创 2023-05-30 18:56:33 · 28 阅读 · 0 评论 -
df[‘某列‘] & df[[‘某列‘]] 的区别
df['某列'] 取某列的值,传入的是列标签名称,返回的结果是Series。df[['某列']] 取某整列,传入的是列标签列表,返回的结果是DataFrame。.apply() 方法是对DataFrame用的,而不是Series(会返回NaN)。原创 2023-05-30 17:42:03 · 73 阅读 · 0 评论 -
pd.read_csv() 中的两个参数 error_bad_lines & low_memory
提示输入数据列有混合类型,而pandas默认要找到可以使所占用空间最小的类型来储存你的数据。low_memory设置为false之后,pandas就不进行寻找,直接采用较大的数据类型来储存。header只有两个字段名,但数据的第407行却出现了3个字段(可能是该行数据包含了逗号,或者确实有三个部分),导致pandas不知道该如何处理。把第407行多出的字段删除;将low_memory设置为false。原创 2023-05-30 16:43:01 · 5821 阅读 · 1 评论 -
Python中的arg,*args,**kwargs用法
*args和**kwargs是Python中可变参数的两种形式,且*args必须放在**kwargs的前面,因为位置参数在关键字参数的前面。*args可以将用户指定的任意多个参数打包为一个元组传到函数中进行进一步运算;**kwargs将用户传入的参数打包为字典传入函数中用于进一步的计算原创 2023-03-16 01:25:00 · 4732 阅读 · 0 评论 -
两种主要的模型保存和调用方法:pickle和joblib
pickle 和 joblib 保存和调用模型原创 2023-03-14 17:50:17 · 2860 阅读 · 0 评论 -
从完整表格中提取出所需id的内容,并保存为新表格
从一个几千张的图片库里抽出前200张图片,现在有图片库6696张图片降维到二维空间后的坐标点,想从中提取出前200张图片的坐标点,并保存为csv文件原创 2023-02-16 11:21:15 · 284 阅读 · 0 评论