
Python
文章平均质量分 53
wmsofts
计算机在读
展开
-
dummies、factorize进行one-hot编码的区别
在机器学习的分类任务中,经常存在一个特征有多个分类变量值,需要对离散型数据进行one-hot编码处理。one-hot 常见的处理方法有两种:pandas:使用pandas库中的函数pd.dummies()或pd.factorize()进行one-hot编码;sklearn:使用sklearn库中的OneHotEncoder()方法进行one-hot编码。get_dummies()与factorize()的区别:1. dummy()映射后生成多个特征。使用pd.get_dummies原创 2021-11-26 23:48:07 · 830 阅读 · 2 评论 -
解决 ERROR: Could not find a version that satisfies the requirement 的一种思路
出现这个问题的原因竟是国内网络不稳定,直接导致报错,而不是环境冲突。原创 2021-11-23 21:43:57 · 10834 阅读 · 1 评论 -
Python基础:增加和去除数字的千位分隔符
千位分隔符,其实就是数字中的逗号。依西方的习惯,人们在数字中加进一个符号,以免因数字位数太多而难以看出它的值。所以人们在数字中,每隔三位数加进一个逗号,也就是千位分隔符,以便更加容易认出数值。处理财务数据时,经常会和千分位符号打交道。经常看数字时,如果位数很多,往往要一位位的数,才知道具体的金额。如果有千分位符,那么一眼就知道金额的具体大小。目前千分位符在手机银行和计算器中较常见。现编写2个函数,1个函数输入带千分位符的字符串(带千分位符就不再是数字了)输出数字,另1个函数输入数字(如果数字是小数则原创 2021-10-10 15:23:25 · 15227 阅读 · 2 评论 -
Python 认识if-else写在一行等简洁写法
Python 有着并不十分苛刻严谨的语法要求,如常用的if-else语句块,就有多种简洁的写法。对于简单的if-else判断,可以在一行上完成表达。我们需要认识这些写法,在阅读别人的代码时,才会有清楚的认识。如下看到的是最普通的if-else 的写法,看似简单的代码,却也占据了4行。if a>b: c = aelse: c = b观察这段if-else语句,为“真”时把a赋值给c,为“假”时把b赋值给c,可见都是对c赋值。一种简洁的表达是,判断为“真”的语句(即原创 2021-09-15 22:01:58 · 8582 阅读 · 1 评论 -
Python matplotlib.pyplot库简要学习
Pyplot 是 Matplotlib 的子库,提供了和 MATLAB 类似的绘图 API。Pyplot 是常用的绘图模块,能很方便让用户绘制 2D 图表。Pyplot 包含一系列绘图函数的相关函数,每个函数会对当前的图像进行一些修改,例如:给图像加上标记,生新的图像,在图像中产生新的绘图区域等等。使用的时候,我们可以使用 import 导入 pyplot 库,并设置一个别名plt。往往需要把numpy也导入进来。importmatplotlib.pyplotaspltimport nu...原创 2021-09-13 15:46:36 · 4391 阅读 · 2 评论 -
Python Pandas库简要学习
一、Pandas 简述Pandas 是 Python 语言的一个扩展程序库,用于数据分析。它并不是熊猫胖达的复数,它的名字衍生自术语 "panel data"和 "Python data analysis"。Pandas 是一个强大的分析结构化数据的工具集,基础是Numpy(提供高性能的矩阵运算)。Pandas 可以从各种文件格式比如 CSV、JSON、SQL、Microsoft Excel 导入数据。可以对各种数据进行运算操作,比如归并、再成形、选择,还有数据清洗和数据加工特征。Panda..原创 2021-09-12 20:26:53 · 5874 阅读 · 0 评论 -
Python利用demoji库删除文档中的表情符号
在进行数据清洗时,往往需要删除文档中的出现的表情符号,因为他们无法被读取。借助demoji库,可以非常简单地完成这项工作。关于demoji 库的文档,可以访问demoji · PyPI首先,需要在环境中利用pip install安装demoji库。pip install demoji实现删除文档中的表情符号的代码如下:# -*- coding: UTF-8 -*-import osimport demoji file_path = "SeptemberB.txt" /*原创 2021-09-12 16:57:39 · 1621 阅读 · 2 评论 -
Python实现在txt文件中随机抽取指定数量的行
在数据处理中,有时需要从一个大的txt文件中随机抽取指定数量的行来做样本。如在处理不平衡数据集时,可以从较大的数据集中随机抽取一些数据来做样本。下面用Python实现这一需求,可指定抽取范围和抽取数量,只需要更改参数。编码为utf-8。# -*- coding:utf-8 -*-#在txt文件中随机抽取行import randomfrom random import randint oldf = open('dataset.txt', 'r',encoding='utf-8')原创 2021-09-05 21:47:26 · 7288 阅读 · 0 评论 -
Python实现大文本文件分割成多个小文件
参考百度搜索出来的各种文本切割实用软件,往往不支持多文件或切割速度较慢,无法满足自定义的需求。Python编程语言可以实现实现大文本文件分割成多个小文件。一、按照大小分割,例如大文件分割成每80KB一个小文件。Python 代码实现:# -*- coding: utf-8 -*-#按照大小分割文件import osfilename = "n (2).txt"#需要进行分割的文件,请修改文件名size = 80000 #分割大小约80Kdef mk_SubFile(srcN原创 2021-09-03 21:51:18 · 11729 阅读 · 2 评论 -
PyTorch简要学习(李宏毅机器学习2021春)
1.什么是PyTorch?2.与TensorFlow对比3.Overview of the DNN Training ProcedureDNN训练程序概述4.什么是Tensor?Tensor,张量。一个高维度的矩阵。就像NumPy的Array.5.Tensor里面存什么东西呢?最常见,存浮点数、整数。6.Tensor的形状7.如何产生一个Tensor?8.常见的运算(1)Squeeze(2)Unsqueeze(3) Tr原创 2021-08-01 23:21:56 · 472 阅读 · 0 评论 -
Python append方法浅拷贝机制代码示例解析
Python中的append方法是一个常用的方法,可以将一个对象添加到列表末尾。例如:list = [1,2,3]list.append(4)# 得到的新的列表就变成了[1,2,3,4]考虑这样一段代码,a = [1,2]b = []b.append(a)print(b)a.append(0)print(b)他的执行效果如下,明明两次打印之间并没有对b操作,那么为什么b会发生改变呢?[[1, 2]][[1, 2, 0]]原来,append方法是浅拷贝。在原创 2021-07-30 23:10:05 · 684 阅读 · 2 评论 -
NumPy库的简要入门学习
NumPy(Numerical Python) 是使用Python进行科学计算的基础软件包。支持大量的维度数组与矩阵运算,此外也针对数组运算提供大量的数学函数库。numpy.array()numpy为我们提供了一个特殊的数组对象, 用它表示一维数组、二维矩阵等。numpy提升了Python中数据计算的速度,比python快,因为底层是C。对于任何想要运算的数据,需要预先将他们表示成numpy数组的形式。——即向量化(Vectorization)一、创建数组nump原创 2021-07-30 22:29:02 · 449 阅读 · 1 评论 -
JSON文件操作:合并多个JSON文件,提取JSON中某一字段
1.合并多个JSON文件将./source文件夹下的多个json文件合并为一个json文件存放于./merge/merge.json#将./source文件夹下多个json文件合并为一个json文件./merge/merge.jsonimport osimport jsonimport tqdmdef merge_json(path_results, path_merges): merges_file = os.path.join(path_merges, "merge.json原创 2021-03-15 15:57:32 · 3533 阅读 · 2 评论 -
Python语言程序设计 嵩天MOOC全课时学习笔记(讲义截图)
建议在手机上阅读,本文仅为个人学习记录用。1.代码的注释#注释'''注释第一句注释最后一句'''2.数据类型注意:[1:3]表示第1个字符、第2个字符,但不包括第3个字符。字符串中有可能既有双引号又有单引号,例如:字符串:demo'1'。这时候就可以:str = "demo'1'";这样看更直观,当然也可以使用转义字符\'代替单引号:str = 'demo\'1\''。字符串:demo"1"。这时候就可以:str = 'demo...原创 2020-08-20 23:06:00 · 885 阅读 · 0 评论 -
Python中列表、元组、字典和集合的区别以及他们的转换
前排提示:元祖是错误的写法(带错别字),部分博客写为元祖系误,正确的说法为元组。首先了解序列。序列是具有先后关系的一组元素,它是一维元素向量,元素类型可以不同。元素间由序号引导,通过下标访问序列的特定元素。序列是一个基类类型,元组、列表是序列类型的一种扩展,继承序列类型的全部通用操作。(1)集合set集合就是我们数学学的集合,集合最好的应用是去重——集合类型所有元素无重复。可以利用{}或set()建立集合。注:print默认以换行符\n作为结尾,end=" "则使prin原创 2020-08-14 22:04:34 · 5490 阅读 · 1 评论