
Python
walking_visitor
想起什么写什么
展开
-
python 方差分析
方差分析代码# -*- coding: utf-8 -*-"""Created on Tue Apr 27 11:24:17 2021 @author: MXX"""#方差分析import pandas as pdimport numpy as npfrom scipy.stats import f def Variance_analysis(data,degree,dfn=1,dfd=4): args = pd.DataFrame(data) jun_zhi原创 2021-05-07 09:33:03 · 372 阅读 · 0 评论 -
用numpy高效计算欧氏距离
在各类算法中,距离的计算极其常见,用numpy来计算效率非常的高,其计算方式也有很多。个人认为最直观也非常高效的一种方式如下:首先看二维欧式距离的公式定义d=,三维、四维等等继续扩展即可。那么就依据公式的定义,我们直观的来设置计算公式,废话不多说直接见代码:import numpy as npa=np.arange(16).reshape(4,4)x1=a[0]x2=a[1]...原创 2019-07-07 10:31:54 · 10462 阅读 · 2 评论 -
pandas相关系数-DataFrame.corr()参数详解
DataFrame.corr(method='pearson',min_periods=1)参数说明:method:可选值为{‘pearson’, ‘kendall’, ‘spearman’} pearson:Pearson相关系数来衡量两个数据集合是否在一条线上面,即针对线性数据的相关系数计算,针对非线性 ...原创 2018-12-20 17:51:36 · 98060 阅读 · 4 评论 -
pandas +sqlalchemy读写oracle数据库
pandas的DataFrame是常用的数据分析数据格式,Oracle数据库是常用的结构化数据存储方式,通常做数据分析牵涉到大量的数据时,我们必须通过借助一定的工具进行,而不能单单依靠excel,因此通过pandas进行数据分析,以Oracle作为存储数据的媒介便成为了我们最方便或者灵活的选择,同时DataFrame的数据格式样式和oracle的结构化表非常的相似,将DataFrame格式的数据直...原创 2018-11-13 10:35:13 · 16725 阅读 · 4 评论 -
pandas 箱型图(boxplot)详解
首先看一段例子:import pandas as pdfrom pandas import DataFrame,Seriesdf = DataFrame(np.random.randn(10, 2), columns=['Col1', 'Col2'])boxplot=df.boxplot() 通过boxplot方法,我们直接得到了箱型图。boxplot方法官方介绍如下...原创 2018-10-17 15:35:24 · 57332 阅读 · 3 评论 -
Python数据分析常用手册》一、NumPy和Pandas篇
二、常用库1.NumPy NumPy是高性能科学计算和数据分析的基础包。部分功能如下: ndarray, 具有矢量算术运算和复杂广播能力的快速且节省空间的多维数组。 用于对整组数据进行快速运算的标准数学函数(无需编写循环)。 用于读写磁盘数据的工具以及用于操作内存映射文件的工具。 线性代数、随机数生成以及傅里叶变换功能。 用于集成C、C++、Fortran等语言编写...转载 2018-10-18 14:47:49 · 296 阅读 · 0 评论 -
matplotlib.pyplot.plot详解
plot方法:绘图,简单说就是依据x绘制y的线或点那么以绘制一条线为例进行简单说明首先需要有x值,其次需要有y值 其次需要坐标轴 然后还有线条宽度、颜色、线条样式等等设置plot方法并不直接对函数表达式进行绘制,而是根据所输入的x值和y值进行绘制,且为了快速简介,plot方法可以不指定x和坐标轴,以及线条的各种样式,只需输入y值即可,那么诸如坐标轴、线条样式并不是不用设置,而是采用了...原创 2018-10-18 11:38:54 · 4176 阅读 · 0 评论 -
python数据处理--鸡尾酒排序
鸡尾酒排序思路:比较相邻的元素,如果前一个比后一个大,就把它们两个调换位置。 对每一对相邻元素作同样的工作,从开始第一对到结尾的最后一对。这步做完后,最后的元素会是最大的数。 从倒数第二个元素开始与前一个元素相比较,若小于前一个元素则进行位置交换,即倒叙进行比较排序 针对所有的元素重复以上的步骤,除了最后一个。 持续每次对越来越少的元素重复上面的步骤,直到没有任何一对数字需要比较。实...原创 2018-10-14 17:59:04 · 455 阅读 · 0 评论 -
python数据处理--冒泡排序
冒泡排序思路:比较相邻的元素,如果前一个比后一个大,就把它们两个调换位置。 对每一对相邻元素作同样的工作,从开始第一对到结尾的最后一对。这步做完后,最后的元素会是最大的数。 针对所有的元素重复以上的步骤,除了最后一个。 持续每次对越来越少的元素重复上面的步骤,直到没有任何一对数字需要比较。实现代码如下:def bubble_sort(args): args_len=len...原创 2018-10-12 16:42:39 · 283 阅读 · 0 评论 -
python数据处理--归并排序
归并排序思路见百度百科:https://baike.baidu.com/item/%E5%BD%92%E5%B9%B6%E6%8E%92%E5%BA%8F/1639015?fr=aladdin归并排序的代码实现有递归和循环两种,其中循环的代码思路如下:对于循环思路来讲,只有归并思路的并,没有分。这是因为,在分的过程中,任意元素的位置都没有发生变化,故一个序列可直接看做是已被分解的 创建合...原创 2018-10-12 15:33:50 · 237 阅读 · 0 评论 -
pandas学习笔记6--基本功能之处理缺失数据
数据中不可避免会出现数据的缺失,pandas提供了几种简单的方式进行缺失值的处理。处理方法:dropna方法:默认原始对象不会被修改,dropna后会生成新的对象对Series会丢弃掉NA值。而对于DataFrame则会默认丢弃掉含有NaN的行,如果要丢弃含NaN的列,则指定axis=1若传入how='all',则会丢弃全是NaN的行,指定axis=1时,则丢弃列fr...原创 2018-09-27 09:20:27 · 354 阅读 · 0 评论 -
pandas学习笔记5---基本功能之计算与统计
OK,继续学习pandas的基本功能之计算与统计,pandas库的数据结构几乎与excel或数据库的结构完全一样,非常接近我们日常所用的数据形式。同时也是数据分析/挖掘计算的常用基础库,其计算功能的重要性自然不言而喻。本次我们针对pandas的主要数据结构Series/DataFrame的计算统计功能和方式进行学习,主要包括算术的数据对齐、错误值填充、DataFrame和Series运算、统计...原创 2018-09-21 17:10:28 · 660 阅读 · 0 评论 -
pandas学习笔记4---基本功能之索引、选取、丢弃
前边学习了pandas的基本数据结构Series和DataFrame,以及重要的index。本次在前期学习的基础上继续学习其基本的功能,比如重新索引(reindex)或者说索引取值、向前/后填充、。。。。重新索引重新索引的方法是reindex,有点像np.reshape。不同点在于np.reshape可改变数据结构本身,而reindex则是新产生一个数据结构,原始数据结构并未改变。Se...原创 2018-09-21 09:07:29 · 1015 阅读 · 0 评论 -
python数据处理--类堆排序(堆末尾排序)
类堆排序(堆末尾排序)---不知道起什么名字,原以为是堆排序,后来才发现对堆排序理解有误,但本身也可以实现序列的排序,且思路比堆排序要简单,缺点就是当序列长度较大时,运算量过大,不过整理思路可借鉴。类堆排序思路:构建类似大顶堆(小顶堆)【即整体为二叉树结构,只考虑单独的每次父节点与子节点大小关系,不考虑后续节点的交换产生的影响】--构建完成后最顶端为本次构建序列中的最大值 交换堆的首尾元...原创 2018-09-18 21:22:04 · 361 阅读 · 0 评论 -
python数据处理--堆排序算法
堆排序思路:构建大顶堆(小顶堆) 交换堆的首尾元素,堆长度减一 交换首尾元素后,验证堆的合规性,若不合规则调整数据位置,直至合规 重复2和3步骤,直至长度为0,结束python实现_问题分析:问题1:如何构建初始堆 问题2:序列长度与节点数量的关系(node=round(length)) 问题3:每个父节点与子左节点、右节点的大小关系(father>left and fa...原创 2018-09-18 20:58:54 · 194 阅读 · 0 评论 -
python数据处理--快速排序算法
常见的快速排序算法,用python实现起来如何呢,话不多说见代码:def list_sort(args_list): lista=[] listb=[] if len(args_list)<=1: return args_list else: args=args_list[0] for i in range...原创 2018-09-13 14:25:51 · 260 阅读 · 0 评论 -
python数据处理--按照数据差值大小进行聚类(归类)
近来在做数据处理的工作中,遇到了数据分类的问题,利用python的各种方便库,写了这么个以数据差值大小进行归类的方法。应用场景:有一批数据集,如list=[1,2,3,4,9,10,11,20,20,1,1.1,2.1,100],将其按照数值大小进行归类,即数值比较接近的归为一类,故需要先设置一个阈值,以进行划分。具体实现如下:其中输入参数Data_set为输入的数据集,可以为列表、数...原创 2018-09-13 09:55:48 · 7768 阅读 · 3 评论 -
python3.X与python2.X list(range)详解
range函数为列表生成的常用函数,在python2.X中,我们经常用range(num)返回一个[0,num)的列表,然而在python3中返回的不再是一个list而是一个range对象,我们看以下例子:list2=range(5)list2Out[95]: range(0, 5)type(list2)Out[96]: range不仅range(num)返回的不是list,...原创 2018-09-05 09:40:58 · 16305 阅读 · 0 评论