- 博客(83)
- 资源 (1)
- 收藏
- 关注
原创 HIVE SQL 代码优化总结(容易踩坑的地方)
hive的出现降低了Hadoop的使用门槛,但是同时由于代码的编写不规范导致出现数据倾斜、高IO、笛卡尔积、运行耗时长等问题,所以要对HQL进行优化。
2022-07-14 13:50:00
2119
原创 hive中的lateral view 与explode(列转行)
hive中的lateral view 与explode(列转行)我们某个字段A,全部由分号组成的字符串,如adfrgter@piuj.com;dfrgter1@piuj.com;dfrgter22@piuj.com我的需要是将这个字段拆分放到某一行里面。idemail_add1adfrgter@piuj.com;dfrgter1@piuj.com;dfrgter22@piuj.com转行为:|idnew_email_add1adfrgter@piu
2022-05-26 17:15:16
389
原创 python绘制堆叠条形图
目前在网络上多是单个条形图堆叠,没看到一组的条形图堆叠。代码如下:import numpy as npimport pandas as pdimport matplotlib.pyplot as pltimport matplotlib.ticker as ticker导入一组自己造的数据data = pd.read_excel('data.xlsx')In [4]: dataOut[4]:多使用几个plt.bar()函数,就可以画出来啦。。。tick_label = list
2021-12-18 20:08:54
4157
原创 postgresql库实现跨服务器的数据迁移
1. 第一步:安装pg库先在新服务器上安装pg库。此处可以自己看看教程。2.第二步:数据导出使用pg库的用户,去执行 pg_dump的命令,否则root或者普通用户没有权限执行pg_dump一定要先cd到pg的bin目录下面[postgres@SHC-B0001 \]$ cd /data/pg/bin[postgres@SHC-B0001 bin]$ pg_dump test_data > '/data/pg/dump/test_data.dump'这里的第一个test_db指的是你
2021-06-21 15:54:41
3564
原创 dataframe反向过滤掉某列中的特定字符串
dataframe反向过滤掉某列中的特定字符串我们使用df = data[~data.var.str.contains('支付宝|微信|还款')]如此即可。
2021-06-09 16:14:50
724
原创 python操作postgresql批量删表
最近需要在pg库需要删除大量的表,之前采取的方式是进入postgresql,在Linux命令行使用pgsql,然后在交互命令中使用“drop table test_table”语句批量删表;这样感觉效率好低,为此采用了python连接pg库,然后批量删表。先导入必要的包import pandas as pdimport psycopg2import logginglogger = ...
2020-04-14 23:08:26
1915
1
原创 mac os 上安装lightgbm 采坑
直接```bashpip install lightgbm```bashmbpdeMacBook-Pro:~ mbp$ pip install lightgbmCollecting lightgbm Downloading https://files.pythonhosted.org/packages/a4/83/6e4a9cc870c117bf8316e8aa2513c507...
2020-03-10 21:45:37
687
原创 Linux部署neo4j
本教程在Linux上部署neo4j安装neo4j之前要先配置java环境。[root@SCF-XJ00600]# java 一version #查看是否配置了java环境openjdk version”1.8.0_161”OpenJDK Runtime Environment (build 1.8.0 161一b14)openJDK 64一Bit Server VM(build 25.1...
2019-11-27 16:08:17
748
原创 import tensorflow 报错解决
解决>>> import tensorflowModuleNotFoundError: No module named ‘numpy.core._multiarray_umath’ 错误安装TensorFlow以后,在python编辑器上输入 import tensorflow,报错。然后:升级一下你的pip,重新安装一下numpypip install --upgr...
2019-05-13 16:31:04
7963
1
原创 mac os 10.14 安装pyltp
该方法我试了好多次,才在mac上面安装好。语言技术平台(Language Technology Platform,LTP)是哈工大社会计算与信息检索研究中心历时十年开发的一整套中文语言处理系统。LTP制定了基于XML的语言处理结果表示,并在此基础上提供了一整套自底向上的丰富而且高效的中文语言处理模块(包括词法、句法、语义等6项中文处理核心技术),以及基于动态链接库(Dynamic Link L...
2019-02-28 14:41:44
4921
2
翻译 module 'pandas' has no attribute 'expression' 解决办法
导入import tensorflow as tfimport skflow遇到了错误 module 'pandas' has no attribute 'expression'在stackoverflow找了答案: https://stackoverflow.com/questions/43833081/attributeerror-module-object-has...
2018-04-03 10:23:47
6904
原创 kaggle —— IMDB影评得分估计竞赛代码
IMDB影评得分估计竞赛代码# -*- coding: utf-8 -*-"""Created on Mon Apr 2 11:11:39 2017@author: yichengfan"""import pandas as pdtrain = pd.read_csv(r'F:\TS\03_other_parts\kaggle\02_IMDB\02_data\labeled...
2018-04-03 09:38:23
2382
原创 kaggle——泰坦尼克号生死预测
把很久以前做的泰坦尼克号的代码贴出来。# -*- coding: utf-8 -*-"""Created on Fri Mar 30 14:23:12 2017@author: Yichengfan"""import pandas as pdtrain = pd.read_csv(r"F:\TS\03_other_parts\Titanic\02_data\train.csv...
2018-04-02 09:50:34
1097
原创 简单线性回归
简单线性回归import numpy as npimport matplotlib.pyplot as pltx = [1,2,3,4,5,6,7,8,9]y = [0.199,0.389,0.580,0.783,0.980,1.177,1.380,1.575,1.771]A = np.vstack([x, np.ones(len(x))]).Ta,b = np.linalg....
2018-03-30 08:57:52
409
原创 评分卡生成
模型建立以后得到的log(odds)值是建模样本的好/坏比的对数,分值可以为负值,使得分值的可解读性很差,为了使得评分的结果更容易理解,更加具有实用性,我们希望看到评分卡的样子,通常对变量的特征值进行线性比例变换,并加上一个偏移量,公式如下: Score = factor * log(odds) + offset = factor (a * woe + b) of...
2018-03-05 14:16:03
2282
原创 将原始数据进行WOE编码
在开发评分卡的时候,我们需要将原始数据替换成WOE编码,我给出的代码如下:def applyBinMap(X_data, bin_map, var): """ 将最优分箱的结果WOE值对原始数据进行编码 ------------------------------------------------ Params x: pandas Series ...
2018-03-05 14:06:38
4952
原创 python3在中文路径下文件无法导入
很多时候我的中文路径去导入文件,python3导入文件,读取csv,一直报错。我们用下面的办法。path = r'F:\haha\电话号码\_测试结果.csv'f= open(path1, encoding="utf-8")df= pd.read_csv(f)再导入之前,请打开notepad++确保文件是,“以UTF-8无BOM格式”的编码形式,否则也会失败。
2018-01-31 16:57:06
7026
2
原创 python调用R第三方包
前面写到 《python3调用R》这篇文章。我们成功的搭建了python下调用R的环境。 下来来探讨一下,如何调用R包来处理python里面的数据。我们把脚本装再r_script 里面并,用引号标注起来,然后就可以使用啦。In [14]: r_script = ''' ...: library(randomForest) # 导入随机森林包 ...: ## use data set
2017-12-27 13:38:48
5963
原创 python3调用R
由于工作需要,在做最优分箱的时候,始终写不出来高效的代码,所以就找到了R语言中的最优分箱的包,这个时候考虑到了在python中调用R语言,完美结合。在国内的中文网站搜了半天,搭建环境的时候一直出现” R_user not defined”这个错误,简直恼人,最后在Stack Overflow网站上找打了解决办法。我的环境是:win7 ; 使用anaconda3 ;(一)首先你要有个ana
2017-12-26 15:17:00
7324
3
原创 特征工程同值化检测
在建模之前处理的数据里面,如果特征都是单一值,我们应该删除。这样的值没有意义,没有区分能力。本次我们采取删除特征下面值全部唯一的;'''删除维度占比过大值过高的比例的函数'''def primaryvalue_ratio(data, ratiolimit = 1): #按照命中率进行筛选 #首先计算每个变量的命中率,这个命中率是指 维度中占比最大的值的占比
2017-12-05 11:25:47
1044
原创 缺失值的前期处理
建立模型的时候,我们对于缺失值太大的特征需要删除,否则还可以对我们造成噪音数据。 对于缺失值的处理,一般来说先判定缺失的数据是否有意义。 从确实信息可以发现,本次数据集缺失值较多的属性对我们模型预测意义不大。 统计每列属性缺失值的数量,删除缺失值过高的比例的函数。 为此本人写了函数如下:def null_ratio(data, ratiolimit = 0.4): #删除缺失值过高的
2017-12-05 11:20:07
730
原创 第10章 利用K-均值聚类算法对未标注数据分组
写在前面关于无监督学习: 在无监督学习中,类似分类和回归的目标变量事先是不存在的。与前面的“对于输入数据X能预测变量Y”的不同是,这个要回答的问题是:“从数据X能发现什么?构成X的最佳6个数据簇都是哪些?”或者“X中哪三个特征是最频繁共现的?”本章内容: ● K-均值聚类算法 ● 对聚类得到的簇进行后处理 ● 二分K-均值聚类算法 ● 对地理位置进行聚类聚类是一种无监督的学
2017-12-05 10:21:28
783
原创 第9章 机器学习实战之树回归
主要内容: CART算法 回归与模型树 树剪枝算法主要内容 ● CART算法 ● 回归与模型树 ● 树剪枝算法 ● python中GUI的使用当数据有众多特征的时候且特征之间的关系十分复杂的时候,构建全局变量的想法就太难了。生活中许多实际问题都是非线性的,不可能全部使用全局线性模型来拟合数据。 我们可以利用树回归和回归法来切分数据,如果首次切分难以拟合模型就继续切分。
2017-11-10 00:32:49
625
原创 第8章 机器学习实战之线性回归
第二部分 回归写在前面:回归是监督学习的方法的延续。 监督学习指的是有目标变量或预测目标的机器学习方法 。 回归与分类的不同,就在于其目标变量是连续数值型 。分类输出的是标称型类别值。主要内容: ● 线性回归 ● 局部加权线性回归 ● 岭回归和逐步线性回归 ● 预测鲍鱼年龄和玩具售价分类的目标变量是标称型数据,下面我们会对连续型的数据做出预测。8.1 用线性回归找到最佳
2017-11-09 09:35:41
1414
原创 如何安装pyplotplus
决策树sklearn一般需要安装graphviz。再安装pyplotplus。环境:win7旗舰版 先去下载这个软件并安装下载地址在:http://www.graphviz.org/在命令行输入:conda install graphvizconda install pydot就可以正常载入这些包,pydotplus可以生成pdf文件
2017-10-19 10:54:13
1622
原创 sklearn.model_selection.train_test_split随机划分训练集和测试集
train_x:所要划分的样本特征集 train_y:所要划分的样本结果 test_size:样本占比,如果是整数的话就是样本的数量 random_state:是随机数的种子。 随机数种子:其实就是该组随机数的编号,在需要重复试验的时候,保证得到一组一样的随机数。比如你每次都填1,其他参数一样的情况下你得到的随机数组是一样的。但填0或不填,每次都会不一样。 随机数的产生取决于种子,随机数和
2017-10-18 15:20:03
1896
原创 机器学习之AdaBoost元算法(七)
主要内容: ● 组合相似的分类器来提高分类器性能 ● 应用AdaBoost算法 ● 处理非均衡问题分类问题打个比方, 做重要决定的时候, 大家可能会汲取多个专家而不是一个人的意见。机器学习处理处理问题的时候,也是如此,这就是元算法的思路。 元算法是对其他算法进行组合的一种方式。7.1 基于数据集多重抽样的分类器 前面介绍了五种不同的算法,各有优缺点。我们可以将不同的分类器组合起
2017-09-25 09:42:24
3554
1
原创 机器学习之支持向量机(六)
主要内容: ● 简单介绍支持向量机 ● 利用SMO进行优化 ● 利用核函数进行空间转换 ● 将SVM和其他分类器进行比对支持向量机(support vector machines,SVM),SVM有很多实现,我们现在来讲讲最流行的一种实现,即序列最小化(sequential minimal optimization,SMO)算法。6.1 基于最大间隔分隔数据 ● 优点:
2017-09-20 15:55:50
1228
原创 IV值
评分模型开发主要分为变量处理、模型建立、评分转换、模型评估4个步骤。 其中在变量处理的时候涉及IV值和WOE值的计算。基于抽样后得到训练样本集数据,由于变量数量通常较多,不推荐直接采用逐步回归的方法进行筛选。 由于各个变量的量纲和取值区间存在很大的差别,通常会对变量的取值进行分箱并计算 证据权重 WOE值(weight of evidence) ,从而降低变量属性的个数,并且平滑的变量的...
2017-08-30 16:26:00
23961
原创 冒泡排序法(python)
学了这么久的数据分析,没有去看看数据结构与算法,现在要补一下。 比如经典的冒泡排序法 。基本思想: 将待排序的元素看做是竖着排列的“气泡” , 较小的元素比较松, 从而要上浮。● 比较相邻的元素。如果第一个比第二个大,就交换他们两个。 ● 对每一个相邻元素做同样的工作,从开始的第一对到结尾的最后一对。最后的元素应该是会是最大的数。 ● 针对所有的元素重复以上的步骤,除了最后一个。
2017-08-30 15:49:48
1492
原创 机器学习之Logistic回归(五)
主要内容 ● Sigmoid函数和Logistoc回归分类器 ● 最优化理论初步 ● 梯度下降最优化算法 ● 数据中的缺失项处理我们将介绍最优化算法,并利用他们训练出一个非线性函数用于分类。利用Logistic回归的主要思想是:根据现有的数据对分类边界线建立回归公式,以此进行分类。 “回归”一词源于最佳拟合,表示要找到最佳拟合参数,使用的是最优化算法。Logistic回归一
2017-08-24 11:24:45
952
原创 机器学习之朴素贝叶斯(四)
主要内容:·使用概率分布进行分类 ·学习朴素贝叶斯分类器 ·解析RSS源数据 ·使用朴素贝叶斯来分析不同地区的态度概率论是机器学习算法的基础,所以深刻理解概率论这个主题就十分重要。4.1 基于贝叶斯决策理论的分类方法朴素贝叶斯优点:在数据较少的情况下仍然有效,可以处理多类问题。缺点:对于输入的数据的准备方式较为敏感。适用数据类型:标称型数据。我们先来了解一下贝叶斯决策理论。假设我们现在
2017-08-19 14:46:33
1499
原创 SAS不能读取复杂的csv文件怎么办?
有时候,我们需要读取一些复杂的csv文件,这个时候如果读取出错怎么办?我们从可以python来处理一下这个复杂的csv文件。import csvimport pandas as pdfrom pandas.io.excel import ExcelWritertmp_dir = r"D:\pyscript"tq = pd.read_csv(r"F:\tmp\tq_dec_6.19-7.20.cs
2017-08-08 13:56:15
1952
原创 SAS如何计算经纬度之间的距离
给出一个思路十分清晰的代码: 先转为弧度,然后利用三角函数运算即可data job_haha;set distance;lon1 = job_company_longitude*constant('pi')/180;lat1 = job_company_latitude*constant('pi')/180;lon2 = residence_longitude*constant('pi')
2017-07-25 16:52:47
2587
原创 机器学习之决策树(三)
正方形代表判断模块(decision block) ,椭圆代表终止模块(terminating block),表示已经得到结论,可以终止运动。决策树的优势在于数据形式容易理解。决策树的很多任务都是为了数据中所蕴含的知识信息。决策树可以使用不熟悉的数据集合,并从中提取出一系列规则,机器学习算法最终将使用这些机器从数据集中创造的规则。3.1决策树的构造优点:计算复杂度不高,输出结果易于理解,对中间值的缺
2017-07-20 17:53:38
1112
原创 python计算两个地址之间的距离
我们调用高德地图的API来计算经纬度#计算地址经纬度import requestsdef geocode(address): parameters = {'address': address, 'key': 'cb649a25c1f81c1451adbeca73623251'} base = 'http://restapi.amap.com/v3/geocode/geo'
2017-07-13 15:58:57
7059
python数据分析与挖掘实战_源码和数据集
2017-12-20
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人