
python数据分析
额
Crystal_Coding
这个作者很懒,什么都没留下…
展开
-
Python数据处理笔记
1.将数据标签化也就是将一列数据映射成range范围内的值(标签个数-1)参考:sklearn.preprocessing.LabelEncoder2.将数据分成训练集和测试集参考:sklearn.model_selection.train_test_split...原创 2020-01-13 16:57:23 · 222 阅读 · 0 评论 -
python 中re.split()的用法
正则表达式的简单说明:正则表达式,由普通字符和元字符组成摘自:正则表达式re.split方法注:使用前需要引入包(import re)功能:split能够按照所能匹配的字串将字符串进行切分,返回切分后的字符串列表形式:re.split(pattern, string[, maxsplit=0, flags=0])pattern:匹配的字符串string:需要切分的字符串...原创 2019-09-10 21:04:37 · 110954 阅读 · 1 评论 -
python随机取某个范围的几个值,方法:random.uniform()
python随机取某个范围的几个值,方法:random.uniform()说明:使用该方法前,需要引入random模块,import random函数形式:import randomrandom.uniform(x,y)参数说明:x:随机数的最小值,包含该值y:随机数的最大值,不包含该值返回值:浮点数N,x<=N<=y实例:import randomfor i ...原创 2019-09-11 08:25:58 · 6867 阅读 · 1 评论 -
python中del的用法
python中del的用法del()用来删除list中的元素。l=[123,43,67,'qqq']print('删除前:',l)del(l[0])print('删除后:',l)执行结果:删除前: [123, 43, 67, 'qqq']删除后: [43, 67, 'qqq']...原创 2019-09-11 08:32:08 · 4973 阅读 · 0 评论 -
python使用listdir()函数获取目录中的内容
import osfloder_list=os.listdir(floder_path)说明:1.使用listdir()函数,需要先import os 这个模块2.括号中的参数是:文件夹目录名3.返回结果:由文件夹内的文件名,组成的一个list完整代码:import osfloder_list=os.listdir('./SogouC/Sample/')floder_list...原创 2019-09-11 09:50:50 · 4729 阅读 · 0 评论 -
python中语句的切分问题,中文语句的切分,英文语句的切分,jieba.cut()
英文语句的切分英文语句可以直接采用正则表达式中的split函数进行切分参考:python中re.split()的用法中文语句的切分中文语句采用python的第三方组件jieba进行切分参考:python中文分词组件–jiebaimport jiebas=u'今年国庆节打算去海南岛度假'cut_s=jieba.cut(s)print('cut_s:',cut_s)l_cut_s=...原创 2019-09-11 19:46:59 · 8730 阅读 · 2 评论 -
python中os.path.join(),访问文件夹中的文本
os.path.join函数用法:将多个路径组合后返回语法:os.path.join(path1[,path2[,path3[,…[,pathN]]]])返回值:将多个路径组合后返回注意:第一个绝对路径之前的参数将会被忽略参考:os.path.join()和join的区别实例1:import osfloder='./email'os.path.join(floder,'spam'...原创 2019-09-11 20:12:41 · 6104 阅读 · 0 评论 -
python中如何将两个对象对应组成一组或者分解,[a,b,c]和[1,2,3]==>[(a,1),(b,2),(c,3)], zip的应用
zip()的用法描述:zip() 函数用于将可迭代的对象作为参数,将对象中对应的元素打包成一个个元组,然后返回由这些元组组成的列表。如果各个迭代器的元素个数不一致,则返回列表长度与最短的对象相同,利用 * 号操作符,可以将元组解压为列表。zip 语法:zip([iterable, …])参数说明:iterabl – 一个或多个迭代器;返回值:返回元组列表。实例:la=[1,2...原创 2019-09-11 20:37:06 · 1787 阅读 · 0 评论 -
python中random.shuffle()函数:将序列中所有元素随机排序
描述shuffle() 方法将序列的所有元素随机排序。语法以下是 shuffle() 方法的语法:import randomrandom.shuffle (lst )注意:shuffle()是不能直接访问的,需要导入 random 模块,然后通过 random 静态对象调用该方法。参数lst – 可以是一个列表。返回值该函数没有返回值。参考:shuffle函数实例:imp...原创 2019-09-11 20:47:20 · 4253 阅读 · 0 评论 -
python numpy中mat和matrix的不同
参考:numpy中mat和matrix的不同个人理解:np.mat()import numpy as npb=np.mat(a)是将a转化为矩阵,如果a本身是矩阵,就是创建a的一个引用,无论,a和b哪一个发生改变都会影响矩阵本身。np.matrix(a,copy=False)如果a不是矩阵,此时b就是a转化成矩阵的结果,是在原有的基础上进行copy().np.matrix()单纯的...原创 2019-09-14 10:47:47 · 2548 阅读 · 0 评论 -
python删除字符串中某个字符,用replace()方法来处理
Python replace()方法Python 字符串 Python 字符串描述Python replace() 方法把字符串中的 old(旧字符串) 替换成 new(新字符串),如果指定第三个参数max,则替换不超过 max 次。语法replace()方法语法:str.replace(old, new[, max])参数old – 将被替换的子字符串。new – 新字符串,...原创 2019-09-17 15:17:30 · 23159 阅读 · 0 评论 -
python判断某个字符串中是否包含某个子字符串,方法:if ’str1‘ in str
使用in方法实例:str1='hello china!'if 'china' in str1: print('yes')else: print('no')运行结果:yes参考:链接原创 2019-09-17 15:23:22 · 20248 阅读 · 2 评论 -
Python如何创建一个元素都为0的列表
创建一个元素都为0的列表:l=10lis=[0]*llis输出结果:[0, 0, 0, 0, 0, 0, 0, 0, 0, 0]原创 2019-09-10 19:42:49 · 56802 阅读 · 0 评论 -
python中的ruduce函数,lambda函数
rudece()函数函数模型:reduce(function,iterable[,initializer])iterable:可迭代的对象function:可接收两个参数的函数initializer:可有可无,存放的是初始值reduce函数的返回值是:function对iterable进行计算的最终结果实例:计算list中所有元素的和from functools import r...原创 2019-09-10 13:44:31 · 629 阅读 · 0 评论 -
Pandas数据集成
导入包:import numpy as npimport pandas as pdfrom pandas import Series,DataFrame创建数据并将数据级联:在行方向上进行级联:#创建数据nd1=np.random.randint(0,150,size=(5,10))nd2=np.random.randint(0,150,size=(6,10))...原创 2019-08-24 11:04:43 · 455 阅读 · 0 评论 -
Python----Pandas(创建数据、访问数据、查看数据相关的属性)
import numpy as npimport pandas as pdfrom pandas import Series,DataFrame创建一维数据:(Series类型)s=Series(data=[123,124,145,156],index=['Math','Chinese','En','Python'])#创建Series类型数据时,还可以增加其他属性 dtype ...原创 2019-08-22 20:55:04 · 687 阅读 · 0 评论 -
Pandas数据清洗--空数据的处理
创建DataFrame结构数据:df=DataFrame(data=np.random.randint(0,150,size=(100,50)),index=np.arange(100,200),columns=['Python','En','Math','Physics','Chen'])对df中的空数据进行分析:#判断df中是否有空数据df.isnull().any()#...原创 2019-08-22 21:18:31 · 1139 阅读 · 0 评论 -
Pyhton中extend()方法去掉二维List中的一列或者一行的妙用
extend()方法说明:在列表末尾一次性追加另一个序列中的多个值。定义一个10x5的List:data = [[0, 0, 0, 0, 'no'], [0, 0, 0, 1, 'no'], [0, 1, 0, 1, 'yes'], [0, 1, 1, 0, 'ye...原创 2019-09-06 10:31:25 · 7485 阅读 · 0 评论 -
Python提取List的某一列中都有哪些值,妙用集合set来处理
Python提取List的某一列中都有哪些值,妙用集合set来处理创建List:data = [[0,0,0,0,'no'], [0,0,0,1,'no'], [0,1,0,1,'yes'], [0,1,1,0,'yes'], [0,0,0,0,'no'], [1,0...原创 2019-09-06 14:23:21 · 12545 阅读 · 0 评论 -
Python中迭代器,next()函数和iter()函数
iter()函数用来生成迭代器,返回可迭代的对象,一个list本身不是可迭代的对象;next()函数返回迭代器的下一个项目,括号里面的元素必须是的可迭代的对象。参考如下代码:lst=[1,2,30]for i in lst: print(i)next(lst)运行结果:1230----------------------------------------------...原创 2019-09-07 10:40:38 · 2264 阅读 · 0 评论 -
Python 中__name__的使用
代码如下:myTree={'有自己的房子': {0: {'有工作': {0: 'no', 1: 'yes'}}, 1: 'yes'}}firstStr = next(iter(myTree))secondDict=myTree[firstStr]type(myTree[firstStr]).__name__程序说明:myTree是字典套字典,可以通过该方法来判断,当前键对应的是否是字...原创 2019-09-07 11:17:08 · 517 阅读 · 0 评论 -
Python查找list中某个值的位置,应用:查找列表中属性值所在的位置,方法:index()
描述Python index() 方法检测字符串中是否包含子字符串 str ,如果指定 beg(开始) 和 end(结束) 范围,则检查是否包含在指定范围内,该方法与 python find()方法一样,只不过如果str不在 string中会报一个异常。语法index()方法语法:str.index(str, beg=0, end=len(string))参数str – 指定检索的字...原创 2019-09-09 11:11:00 · 21076 阅读 · 1 评论 -
Pyhton中dataFrame型数据 values方法返回结果是数组,并将数组转化为列表的tolist方法
Pyhton中dataFrame型数据 values方法:获取该数据的值:lis=[['fanfan','B','18'], ['huanhuan','G','23'], ['lingling','B','21']]col_lis=['name','sex','age']list_df=pd.DataFrame(lis,columns=col_lis)print(li...原创 2019-09-09 16:04:45 · 16296 阅读 · 0 评论 -
Pyhton中dataframe型数据的keys()方法
Pyhton中dataframe型数据的keys()方法:返回每一列的列名代码如下:lis=[['fanfan','B','18'], ['huanhuan','G','23'], ['lingling','B','21']]col_lis=['name','sex','age']list_df=pd.DataFrame(lis,columns=col_lis)l...原创 2019-09-09 16:17:37 · 7327 阅读 · 1 评论 -
numpy数组的运算
可以用一个数组除以一个值:l=7p=np.ones(l)p/float(5)运行结果:array([0.2, 0.2, 0.2, 0.2, 0.2, 0.2, 0.2])但如果是list就不可以,如下所示:c=[0,1,0,1,0,1]c/float(5)运行结果:------------------------------------------------------...原创 2019-09-10 10:26:14 · 488 阅读 · 0 评论 -
Pandas单层索引&多层索引
导入包:import numpy as npimport pandas as pdfrom pandas import Series,DataFrame单层索引:s=Series(np.random.randint(0,150,size=6),index=list('abcdef'))多层索引:Series类型数据:#pd.MultiIndex.from_pro...原创 2019-08-24 09:19:39 · 1758 阅读 · 0 评论