自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(18)
  • 收藏
  • 关注

原创 在导入spark项目pom依赖时由于断网,后面重新加载失败,提示No buffer space available (maximum connections reached?): connect

问题:添加spark-core依赖的时候,加载过程中断网,后面重新加载失败,提示No buffer space available (maximum connections reached?): connect;解决方法:由于失败的包太多了,不知道怎么查找失败的,所以把这个目录里面的全部包删除,再重新加载,刷新;如果害怕失败,可以先备份一份,再删除。参考链接:https://blog.youkuaiyun.com/weixin_44124391/article/details/90724541...

2022-02-11 12:21:22 923

原创 VBA:Excel工作簿所有子表数据一键汇总

今天同事问我,他要汇总一个工作簿里面十几张子表里面的数据到同工作簿的汇总表里面,怎么操作比较快。然后我就想到了VBA,接着给他写(录)了一个宏,一键完成所有数据汇总。 所以今天就分析这个小技巧,不需要VBA脚本很熟悉的盆友也可以上手哦,非常简单易行。1、首先,看看需求,有下面一张表,需要把除了‘数据汇总’以外的其他子表里面的内容,汇总到‘数据汇总’,其中他们的数据格式是一样的,就是说表头是一样的。2、接着,点击开发工具,录制宏,填写宏名,当然也可以默认,再点击确定3、接着,选择’Sheet1’

2021-12-03 15:40:36 12390 1

原创 报错ModuleNotFoundError: No module named ‘scipy.spatial.qhull‘

在导入依赖scipy模块的模块时,比如toad,sklearn模块等,出现如下报错:查了很久的原因,最后卸载scipy和重新安装scipy包解决这个问题,以前使用的是1.5.0版本的scipy,重新安装后的是1.7.0版本的。但是我估计应该不是版本的问题,因为我另一台电脑里面也是同样的版本,但是可以运行没有报错,具体什么原因也不太清楚,如果有哪位大神如果知道,烦请可以告知一下,谢谢。...

2021-08-03 17:20:44 1576 1

原创 VBA:自动化跨工作簿复制粘贴及排序

从一个工作簿各个子表中复制数据粘贴到另一个工作簿指定位置中,并对指定列进行排序,这个是我们在日常工作中经常做的,如何减少繁琐的工作步骤,提高效率,一键完成上面的工作。下面介绍通过VBA,如何自动化跨工作簿复制粘贴及排序。 图一图二将图一工作簿中三个子表含有公式的数据,复制粘贴数值到图二的表1,并进行排序,可以直接点击图二中执行的控件即可完成;以下是VBA脚本的实现。Sub scopy2()'' 复制粘贴及排序'#复制粘贴Application.ScreenUp...

2021-02-07 11:23:01 15703 5

原创 pandas之表格条件格式设置

1、变量大小用横向条形图展示2、负值,字体变红色3、每列最大值的背景色变黄色4、指定列的最大值的背景色变黄色5、指定列的数值为负值,字体变红色6、链接:https://pandas.pydata.org/pandas-docs/version/0.18/style.html...

2021-02-05 19:17:49 3144 1

原创 特征离散化方法

一、为什么要离散化?1、 算法需要如决策树是基于离散数据展开的。离散化能减少算法的时间和空降开销,减少数据的噪音,提高分类聚类能力;2、离散化特征更容易理解,比如,用户在哪个区间表示高收入和低收入。3、避免异常值的影响二、离散化的优势在机器学习中很少直接将连续值作为逻辑回归的特征输入,而是将连续特征离散化为0,1值,再作为特征输入,这样做的优点是:增加和减少容易,可以快速迭代;稀疏向量内积运算快,易储存,易扩展;离散化后对异常数据有很强的鲁棒性,减少异常值的干扰;连续变量分箱有主要分为两大

2021-01-29 09:27:12 2411

原创 Numpy运算中axis=0和axis=1的区分

在使用python做数据处理和分析的时候,我们经常需要针对行或者列做运算,比如求和、均值、最大、最小值等。怎么确定axis取0还是1?官方解释:axis只的就是轴,轴用来为超过一维数组定义的属性,二维数据拥有两个轴:第0轴沿着行的方向垂直向下,第1轴沿着列的方向水平延申。根据官方的说法,1表示横轴,方向从左到右;0表示纵轴,方向从上到下。当axis=1时,数组的变化是横向的,体现出列的增加或者减少。反之,当axis=0时,数组的变化是纵向的,体现出行的增加或减少。上面的官方解释是针对二维数据,如果是三

2021-01-27 15:32:43 1567

原创 模型评价指标ROC\AUC\KS值

一、ROC曲线ROC曲线(Receiver Operating Characteristic),是一个二维的曲线图,横坐标是FPR(即实际为负例样本,被错误判断为正例的比率),纵坐标TPR(即实际为正例样本,被正确判断为正例的比率)。ROC是怎么画出来的?遍历所有的概率值,例如取概率大于0.7的判断为正例,小于0.7的判断为负例,对应可以算出一组(FPR,TPR),阈值最大时,对应坐标点为(0,0),阈值最小时,对应坐标点(1,1)。曲线距离左上角越近,证明模型效果越好。如下图红线。主要作用:RO

2021-01-27 15:31:55 3137

原创 Prophet时间序列预测——python和R语言实现

Prophet是一种基于可加性模型预测时间序列数据的程序,其中非线性趋势可以按年度、每周和每日的季节性,以及假日效应进行拟合。它最适合于具有强烈季节效应的时间序列和有几个季节的历史数据。Prophet对于缺失的数据和趋势的变化是稳健的,并且通常能够很好地处理异常值。Prophet模型如下:g(t) 表示趋势函数,拟合非周期性变化;s(s)表示周期性变化,比如说每周,每年,季节等;h(t)表示假期变化,节假日可能是一天或者多天;ϵt为噪声项,用他来表示随机无法预测的波动,我们假设ϵt是高斯的。P

2021-01-07 19:16:42 4119 2

原创 *args和**kwargs是什么意思

去面试的时候,做了一道笔试题——什么是*args和**kwargs,区别在哪里?有点蒙,好像见过,但是不知道具体的意思。所以回来查了一下资料,大概明白,做一下笔记。总的来说,*args代表任何多个无名参数,返回的是元组;**kwargs表示关键字参数,所有传入的key=value,返回字典;*args和**kwargs的用途:*args 和 **kwargs 主要用于函数定义, 可以将不定数量的参数传递给一个函数。*args 是用来发一个非键值对的可变数量的参数列表给一个函数; kwargs允许将

2021-01-06 18:29:58 21789 2

原创 python连接数据库

python连接数据库的方法:导入sqlalchemy包导入psycopg2包一、导入sqlalchemy包import osimport sysimport pandas as pdimport datetimefrom sqlalchemy import create_engine #python操作数据库法1from string import Template#初始化引擎engine=create_engine('postgresql+psycopg2://pg_usern

2020-12-08 18:31:20 336

原创 指数平滑法之收入预测

时间序列平滑法包括:简单平均法、移动平均法(简单移动平均法和加权移动平均法)、一次指数平滑法(Single Exponential Smoothing)、布朗(Brown)单一参数线性指数平滑法、霍特(Holt)双参数指数平滑法、布朗三次指数平滑法、温特(Winter)线性和季节性指数平滑法等。下面介绍一次指数平滑法、布朗(Brown)单一参数线性指数平滑法(二次指数)和布朗三次指数平滑法。1、指数平滑的定义及公式(1)产生背景:指数平滑由布朗提出:时间序列的态势具有稳定性或规则性,所以时间序列可被合

2020-10-28 14:57:23 9030

原创 推荐系统之矩阵分解模型原理及Python实现

原本在使用各种APP的时候觉得推荐算法是一个神奇的东西,能推荐你喜欢的东西,刚好要做手厅用户的前人千面,所以,用协同过滤做了手厅的基于产品的推荐模型,发现出来的产品很相似,所以对推荐算法更加好奇。在各种资料中,发现了基于矩阵分解的推荐系统,学习了它的原理之后,发现矩阵算法对于推荐的效果更好且更好运用。接下来介绍矩阵分解的原理。矩阵分解(Matrix Factorization, MF),下面简称MF,矩阵算法就是,将用户和产品矩阵中的数据,分解成两个矩阵(用User矩阵和Item矩阵),两个矩阵相乘得到的

2020-08-04 17:21:36 2460 6

原创 jupyter notebook出现长时间in[*]

jupyter notebook中出现ValueError: signal only works in main thread或者cannot import name ‘constants’ 报错 即 长时间in[*] 解决办法1、通过cmd命令启动ipython notebook 的时候,在jupyter打开脚本时会长时间的等待,看到cmd窗口出现cannot import name 'constants的提示,最后通过重新安装anaconda。2、出现signal only works in mai

2020-07-24 15:56:14 1442

原创 pip install失败解决方法

pip install失败解决方法pip国内的一些镜像阿里云 http://mirrors.aliyun.com/pypi/simple/中国科技大学https://pypi.mirrors.ustc.edu.cn/simple/豆瓣(douban)http://pypi.douban.com/simple/清华大学https://pypi.tuna.tsinghua.edu.cn/simple/中国科学技术大学http://pypi.mirrors.ustc.edu.cn/simple/可以

2020-07-15 11:17:04 3968

原创 协同过滤推荐及Python实现

协同过滤推荐算法分为两类,分别是基于用户的协同过滤算法(user-based collaboratIve filtering),和基于物品的协同过滤算法(item-based collaborative filtering)。1、相似度计算欧式距离from numpy import *#欧氏距离def EuclideanDistance(a,b): return sqrt((a[0]-b[0])**2+(a[1]-b[1])**2)print('a,b 二维欧式距离为:',Euclid

2020-07-15 11:16:20 2261 1

原创 训练集测试集的划分-Python

#训练集和测试集的划分第一种方法random.seed(seed) 前闭后闭 [a, b]np.random.seed(seed) 前闭后开 [low, high) 或 [0, low),可指定抽样的大小import randomdef splitData(data,k,seed,M=8): print("训练数据集与测试数据集划分...") train,test = {},{} random.seed(seed) #指定seed的话,每次后面的随机数产生的都是一样的顺序,

2020-07-13 18:42:03 1995

原创 聚类分析-Python

聚类分析-PythonK-均值聚类#读取数据import psycopg2import osimport pandas as pdimport numpy as np#import mathfrom sklearn.cluster import KMeans#from sklearn import metricsimport matplotlib.pyplot as plt#from sklearn.cluster import DBSCAN#from sklearn import

2020-07-13 17:25:21 992

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除