
python
北.海
这个作者很懒,什么都没留下…
展开
-
(极详细版)python计算分位点方法
废话不多说,上函数的常用参数及解释:np.percentile(a, q,interpolation='linear')a:需要进行计算的列名q:取分位点的百分比,0-100之间的数字。如当序列有n个数字,25则表示数字由低到高排序的n*0.25位置的数值interpolation:当n*q的结果不是整数时,分位数的取值逻辑 如当得到的分位位置介于值i和j之间时 linear:分位数=i+(...原创 2020-09-02 09:08:01 · 11198 阅读 · 0 评论 -
(极详细版)python绘制箱形图方法
废话不多说,上函数的常用参数及解释:df.boxplot(column=None,fontsize=None, grid=True, figsize=None, by=None)df:绘图使用的数据集column:需要绘制箱形图的列名,默认为展示全部数字型列的箱型图fontsize:横坐标字体大小rot:横坐标字体的旋转角度grid:背景网格,默认为展示figsize :输出箱型图的大小,格式为(长,宽)by:分组绘图的列名,设置后按照by的条件分别绘制箱形图注意:boxplot函数只原创 2020-09-01 17:08:05 · 5067 阅读 · 0 评论 -
一分钟搞定jupyter notebook文件转换成pdf(史上最简单的方法)
1)设置电脑的默认浏览器为谷歌浏览器(chorme)设置方法链接,https://support.microsoft.com/zh-cn/help/4028606/windows-10-change-your-default-browser2)Chrome浏览器打开notebook文件,ctrl+p假装打印,点击保存即可。暴力高效!...原创 2020-06-30 14:30:18 · 11570 阅读 · 11 评论 -
一文看懂用python绘制折线图(吐血整理版)极详细!
折线图的绘制主要分为四步:1)导入相关的库2)做图片输出的通用设置3)设置数据及折现的属性4)设置图的标题案例:import matplotlibimport numpy as npfrom matplotlib import pyplot as plt%matplotlib inline#通用设置matplotlib.rc('axes', facecolor = 'white')matplotlib.rc('figure', figsize = (6, 4))ma原创 2020-06-20 09:19:41 · 37689 阅读 · 3 评论 -
Jupyter Notebooks:一份全面的初学者实用指南
引言应该使用哪个 IDE/环境/工具?这是人们在做数据科学项目时最常问的问题之一。可以想到,我们不乏可用的选择——从 R Studio 或 PyCharm 等语言特定的 IDE 到 Sublime Text 或 Atom 等编辑器——选择太多可能会让初学者难以下手。如果说有什么每个数据科学家都应该使用或必须了解的工具,那非 Jupyter Notebooks 莫属了(之前也被称为 iPython 笔记本)。Jupyter Notebooks 很强大,功能多,可共享,并且提供了在同一环境中执行数据可视原创 2020-06-19 11:54:07 · 361 阅读 · 0 评论 -
python制作数据透视表pivot_table方法详解
数据透视表(Pivot Table)是一种交互式的表,可以进行某些计算,如求和与计数等。所进行的计算与数据跟数据透视表中的排列有关。之所以称为数据透视表,是因为可以动态地改变它们的版面布置,以便按照不同方式分析数据,也可以重新安排行号、列标和页字段。每一次改变版面布置时,数据透视表会立即按照新的布置重新计算数据。另外,如果原始数据发生更改,则可以更新数据透视表。函数详解df.pivot_table(values=None, index=[列名],columns=[列名], aggfunc='me原创 2020-06-18 11:35:41 · 7285 阅读 · 0 评论 -
一文看懂pandas.read_csv使用方法
pandas.read_csv参数整理读取CSV(逗号分割)文件到DataFrame也支持文件的部分导入和选择迭代更多帮助参见:http://pandas.pydata.org/pandas-docs/stable/io.html参数:filepath_or_buffer: str,pathlib。str, pathlib.Path, py._path.local.LocalPath or any object with a read() method (such as a fi..原创 2020-06-05 17:58:02 · 944 阅读 · 0 评论 -
一分钟学会python的__setitem__方法
在python中__setitem__(self,value,key)方法时python魔法方法的一种,这个方法会让类按照一定的方法存储和key映射的value。该值可以使用另一种魔法方法__getitem__(self,key)来获取。使用场景:当期望定义的类具备按照键存储值时,即类能够执行data['key']=value目的:如果给类定义了__setitem__方法,则可以方便的给类...原创 2020-04-16 19:56:48 · 11649 阅读 · 0 评论 -
一分钟学会python的__getitem__方法
在python中__getitem__方法被称为魔法方法,这个方法返回所给键对应的值。当对象是序列时,键是整数。当对象是映射时(字典),键是任意值。使用场景:在定义类时,如果希望能按照键取类的值,则需要定义__getitem__方法目的:如果给类定义了__getitem__方法,则当按照键取值时,可以直接返回__getitem__方法执行的结果。class Fib(): ...原创 2020-04-16 19:34:17 · 45545 阅读 · 2 评论 -
Python一行代码统计字符串里某个字符出现的次数
1)方法输入:字符串.count('要统计的字符')输出:统计数量2)案例:统计'use_data'中字母‘a'的个数输入:'use_data'.count('a')输出:2原创 2020-02-08 14:48:54 · 6126 阅读 · 0 评论 -
python一行代码生成服从正态分布的随机数
1)生成随机数import numpy as np #导入库random3 = numpy.random.randn(10000) #随机生成10000个服从正态分布的随机数2)结果验证import seaborn as sn...原创 2020-02-05 15:19:51 · 20534 阅读 · 4 评论 -
anaconda升级sklearn版本
1:打开anaconda下的anaconda的Promote2:输入 pip list 可以查看当前已经安装的包和版本3:a:输入”conda update scikit-learn”b:pip install scikit-learn (--proxy http://)(括号内为代理网址,公司限制外网的需要录入)...原创 2019-10-23 14:57:47 · 2751 阅读 · 0 评论 -
遍历DataFrame行(附各种方法性能对比)
在利用python进行数据分析和处理时,经常会需要遍历DataFrame行,不同的遍历方法会对数据处理的效率有很大的影响。现在有以下的数据import pandas as pdfrom pandas import DataFrame as DFfrom datetime import datetimedata=DF({'data1':np.random.randn(30000),'...原创 2019-04-02 21:17:22 · 11437 阅读 · 0 评论 -
wxPython安装终极方法
wxPython:Python扩展模块,由wxwidgets(C++)的跨平台GUI工具包第一步:下载下载地址:https://pypi.python.org/pypi/wxPython/4.0.0b2找到合适本机的whl安装包(e.g. xPython-4.0.0b2-cp27-cp27m-win_amd64.whl)第二步:安装下载cmd完进入命令提示符进入python...转载 2019-01-04 16:41:59 · 4548 阅读 · 0 评论 -
python中pip安装终极方法(极详细版)
1、先到 pypi 官网下载 setuptools,解压到python的安装路径下 。网址https://pypi.org/project/setuptools/#files setuptools解压地址如下 2、用cmder或cmd切到解压后的目录,执行命令(cmd进入的相关路径非常重要,路径不正确会导致找不到文件夹。cmd中,cd+文...原创 2019-01-04 16:39:46 · 10397 阅读 · 2 评论 -
python 打开和存储数据文件
打开数据文件read_csv从文件,URL、文件型对象中加载带分隔符数据,默认分隔符为逗号,输出为字典集1:需要确定文件的路径,格式,数据分隔符,有无列标题,编码格式,该方式只能适用于打开数据文件ratings=pd.read_csv('/user/u.data', #路径及文件名sep='\t', #使用的分隔符na原创 2017-08-27 10:20:17 · 1066 阅读 · 0 评论 -
python 数据表格的合并和重塑--pd.concat
在进行数据的处理时,经常会进行表格的合并和重塑,pandas中有几种实用的方法,在此介绍一种pd.concat1 concatconcat函数是在pandas底下的方法,可以将数据根据不同的轴作简单的融合pd.concat(objs, axis=0, join='outer', join_axes=None, ignore_index=False, keys=Non转载 2017-08-30 08:25:40 · 24422 阅读 · 2 评论 -
python 列输出转为行输出
在使用python时,print 列表时的默认输出为列输出如:打印9*9乘法表的前三列 for i in range(1,3): print for j in range(1,i+1): print '%d*%d=%d' %(i,j,i*j)输出为:1*1=12*1=22*2=4如果想让其按照行输出,只需在print语句结原创 2017-08-31 08:24:11 · 10417 阅读 · 0 评论 -
python 报ValueError: Bin labels must be one fewer than the number of bin edges
在对python数据进行离散化分析时,我想把年龄列进行分组,分成'20-35', '35-50', '50-65', '65-80','80-95','95-110'六组,但是运行时报出了错误ValueError: Bin labels must be one fewer than the number of bin edges,翻译过来的意思是; 分组标签必须比分组的边界少一个原码是:原创 2017-09-01 16:31:08 · 13986 阅读 · 0 评论 -
pip的安装方法
step1:(1)安装python2.7.5,这里我选择安装在C盘根目录下。(2)安装完毕后C盘会生成一个叫“python27”的文件夹。(3)打开python27,会发现该目录下存在一个叫Scripts的文件夹,点开Scripts,会发现里面有一系列和easy_install有关的文件。(4)打开python27,会发现该文件下有一个叫python.exe的文件,转载 2017-09-11 09:54:55 · 785 阅读 · 0 评论 -
python查看列的唯一值
查看某一列中有多少中取值:数据集名.drop_duplicates(['列名'])#实际为删除重复项,删除后对原数据集不修改输入: data.drop_duplicates(['name'])输出: 1 zhangsan 2 lisi 3 wangwu原创 2017-11-20 19:26:41 · 10482 阅读 · 0 评论 -
随机森林算法
转载自:http://www.zilhua.com/629.html1. 随机森林使用背景1.1 随机森林定义随机森林是一种比较新的机器学习模型。经典的机器学习模型是神经网络,有半个多世纪的历史了。神经网络预测精确,但是计算量很大。上世纪八十年代Breiman等人发明分类树的算法(Breiman et al. 1984),通过反复二分数据进行分类或回归,计算转载 2017-12-09 16:38:28 · 736 阅读 · 0 评论 -
随机森林算法
转自:https://www.cnblogs.com/maybe2030/p/4585705.html 1 什么是随机森林? 作为新兴起的、高度灵活的一种机器学习算法,随机森林(Random Forest,简称RF)拥有广泛的应用前景,从市场营销到医疗保健保险,既可以用来做市场营销模拟的建模,统计客户来源,保留和流失,也可用来预测疾病的风险和病患者的易感性。最初,我是在参加校外转载 2017-12-09 17:34:04 · 1180 阅读 · 0 评论 -
python 批量修改/替换数据
在进行数据操作时,经常会根据条件批量的修改数据,如以下数据,按照日期的条件,将部门日期下的promotion改为1 tot_qtypricedateprice_delta1price_delta2price_delta3promotioncreated_date 20160419原创 2017-12-11 13:18:37 · 23625 阅读 · 0 评论 -
python 正则表达式
标题 说明 举例 什么是正则表达式 描述查找规则的工具 调用的库文件 re import re 使用流程 定义正则表达式-编译-查找 确定要查找的内容范围 如果是文件的话需要文件名 key = r"<html><body><h1&...原创 2017-08-26 15:31:18 · 750 阅读 · 0 评论 -
PYthon 正则表达式设定大小写匹配
在python中经常会需要区分大小写,在此介绍一种最常用的设置方法:一:确定要匹配的文本text="DFSFSDFDSF@qq.com,dfdsa@dfdf.com,zgabgj@asdfdsa.com" #这是要进行匹配的文本内容,可以是一个文件步骤二:书写正则表达式p='([a-z0-9]+)\@([a-z0-9]+)\.([a-z]{2,4})' ...原创 2017-08-28 10:09:28 · 13228 阅读 · 0 评论 -
python查找/删除重复记录
1:查找重复项df.duplicated()返回的是一个布尔型Series(返回值是True或者False),表示各行是否是重复行,可以在()内添加列名来查找某一列是否有重复值,第一个出现的值为False,后边再出现相同的行为True完全重复的项目 df.duplicated() / 某一列重复df.duplicated('列名')aa = [[1,2,3],[4,5,6],[1,2...原创 2017-12-09 10:37:05 · 11171 阅读 · 0 评论 -
python 文件头的编码声明问题
在写python时,有时会在文件头声明编码类型,有时又没有,似乎写不写都没关系。#coding: utf-8 #如此处的声明#!/usr/bin/env pythonimport sysfor line in sys.stdin: line = line.strip() words = line.split() for word in words:原创 2017-08-22 15:25:16 · 2009 阅读 · 0 评论