
Python
文章平均质量分 79
mx丶姜小辉
2017开始从事数据挖掘分析,工商管理硕士(MBA),应用统计学学士,数据分析挖掘专业,擅长利用Python,R,SPSS等数据挖掘建模工具,熟悉Oracle、MySql等关系型数据库系统;擅长分类与回归、决策树、神经网络、协同过滤、深度学习等算法原理及应用。
表达能力强,曾负责全国高校数据挖掘分析与机器学习技术应用实战师资研修班培训,有高校及师资、企业培训经验。
参与过多本大数据相关图书的编写工作,编写《Python编程基础》,《R语言编程基础》等图书专著。
丰富的大数据域的信息系统管理经验,包括大数据采集管控平台、交互分析平台、用户画像与营销推荐平台、大数据BI自助分析平台、大屏展示系统。
展开
-
Python连接hive数据库小结
前言 做大数据分析及应用过程中,时常需要面对海量的数据存储及计算,传统的服务器已经很难再满足一些运算需求,基于hadoop/spark的大数据处理平台得到广泛的应用。本文介绍用python读取hive数据库的方式,其中还是存在一些坑,这里我也把自己遇到的进行分享交流。基本情况 集团有20台服务器(其中1台采集主节点,1台大数据监控平台,1台资源监控)...原创 2020-08-27 17:01:20 · 15619 阅读 · 4 评论 -
Linux系统下安装Python爬虫环境+模拟浏览器插件
一、服务器版本 Centos7以上版本二、配置python环境1、安装依赖包yum -y install gcc gcc-c++yum -y install zlib zlib-develyum -y install bzip2 bzip2-develyum -y install ncurses ncurses-develyum -y install read...原创 2019-12-13 17:15:05 · 2335 阅读 · 0 评论 -
2019年用户流失分析(五)——Python实现
5、 模型应用 选择4月份为正常状态的电视用户,计算他们的收视时长、收视在线天数、距最近一次收视时间、入网时长、用户主动办理次数和投诉与报障次数6个特征指标,利用构建好的用户流失模型预测5月份的用户流失情况。5.1 离网倾向阈值 在4月份为正常状态的电视用户数为98201。5月份真实流失的电视用户数为1391,流失率为1.40%。此时通过构建好的预测模型预测之后...原创 2019-11-19 09:33:12 · 1008 阅读 · 1 评论 -
2019年用户流失分析(四)——Python实现
(3)、随机森林模型 随机森林属于一种集成算法,指的是利用多棵树对样本进行训练并预测的一种分类器。随机森林的混淆矩阵如表格 6所示。表格 6 混淆矩阵表 predictedclass 类=0 类=1 actualclass 类=0 545(T...原创 2019-10-16 17:27:02 · 1360 阅读 · 1 评论 -
Python连接多种数据库的方式
本次主要介绍3种数据库(MySQL、PostgreSQL、oracle)如何用Python连接。一、MySQL MySQL这里介绍三种Python的库来连接,分别是sqlalchemy、MySQLdb、PyMySQL。1、sqlalchemy sqlalchemy是python中著名的orm框架,通过这个框架可以不用关心sql语句,就能操作数据...原创 2019-05-20 10:16:06 · 14278 阅读 · 1 评论 -
数据标准化常见问题:对整个数据集数据标准化后再划分训练集、测试集和先对训练级标准化再将规则用于测试集有什么区别(Python实现)
在数据分析与挖掘、算法建模的都会用到数据标准化。数据的标准化(normalization)是将数据按比例缩放,使之落入一个小的特定区间。在某些比较和评价的指标处理中经常会用到,去除数据的单位限制,将其转化为无量纲的纯数值,便于不同单位或量级的指标能够进行比较和加权。 但是经常会遇到一个问题: 方式一:先对整个数据集数据标准化后再划分训练集、测试集...原创 2019-05-27 10:15:56 · 22820 阅读 · 18 评论 -
2019年用户流失分析(一)——Python实现
在用户流失调研中,以往的用户流失标准定义为用户没有再进行续费的时候(即使催缴信息通知后),而现实中用户未必是消费殆尽时才流失,而是已经不再活跃的时候就已经流失了,这样的初始标准延迟了我们对流失用户进行干预的时间。所以,流失用户的标准应该定义为在一段时间内未进行收视、业务办理等行为的用户。1、数据选取 本次分析的对象是2019年3月份用户状态变为欠费停机、主动停机、...原创 2019-07-19 11:21:52 · 2499 阅读 · 2 评论 -
Python机器学习库scikit-learn使用小结(一)
scikit-learn库(前两小结) 在做数据分析和挖掘的过程中,数据的处理(标准化)、划分、快速建模都是必不可少的方式。这里本人总结了一些scikit-learn(以下简称sklearn)库的使用方法小结,当然也本人在工作中时常需要用到的一些。(方法在精不在多,这里不是sklearn所以的总结) sklearn库整合了多种机器学习算法,能够在数据分析过程中快速建...原创 2019-07-30 17:17:55 · 1432 阅读 · 0 评论 -
Python机器学习库scikit-learn使用小结(二)
scikit-learn库(后三小结) 在做数据分析和挖掘的过程中,数据的处理(标准化)、划分、快速建模都是必不可少的方式。这里本人总结了一些scikit-learn(以下简称sklearn)库的使用方法小结,当然也本人在工作中时常需要用到的一些。(方法在精不在多,这里不是sklearn所以的总结) sklearn库整合了多种机器学习算法,能够在数据分析过程中快速建...原创 2019-07-30 17:50:18 · 1872 阅读 · 0 评论 -
debug调试神器pysnooper
异常bug定位,print()函数也可以,但效率上还是慢,后来发现了一个叫PySnooper的装饰器。一般debug调试,都是在我们可能觉得会有问题的地方,去打印输出,看下实际输出了什么,然后思考问题所在。下载库:pip installpysnooper 但是pysnooper很方便,运行代码就会输出对应函数的执行数据,并且函数每一步的输出都保存为deb...原创 2019-07-31 09:59:56 · 272 阅读 · 0 评论 -
循环进度可视化tqdm
Python的tqdm库是循环进度条可视化,可以在 Python 循环中添加一个进度提示信息,用户只需要封装任意的迭代器 tqdm(iterator)。 这里我们分3个部分展示:介绍,使用,实例。安装用pip即可。1、介绍 首先先来看一下如何创建循环进度条可视化。import time,tqdmfor i in tqdm.tqdm(ran...原创 2019-07-31 11:52:41 · 2323 阅读 · 0 评论 -
2019年用户流失分析(二)——Python实现
3.3 工单情况分析(舆情分析) 13241个用户一年内的工单数为8480条,里面有用户投诉与报障的具体内容信息。我们可以对投诉与报障内容进行情感分析,利用LDA主题模型提取内容关键信息,了解用户的需求、意见,提出改善的建议。 有价值的内容信息数据需要通过中文分词、停用词处理、语义歧义处理、情感打分、情感修正等等一系列的文本处理。(本次使用的情感词表是2007年10...原创 2019-08-09 11:15:37 · 1601 阅读 · 0 评论 -
2019年用户流失分析(三)——Python实现
(2)、决策树分类算法模型数据划分 在分类算法建模过程中与聚类算法稍有不同。聚类指事先并不知道任何样本的类别标号,实现的目标是通过某种算法来把一组未知类别的样本划分成若干类别,把相似的东西聚到一起,在机器学习中被称作无监督学习,这时不需要数据划分。而在分类算法中,根据已知的一些样本(包括属性与类标号)来得到分类模型(即得到样本属性与类标号之间的函数),然后通过此目标函数来对只包...原创 2019-09-12 09:26:15 · 2654 阅读 · 1 评论 -
使用cmd命令添加path环境变量
使用cmd命令添加path环境变量 在cmd下输入:path=%path%;D:/Anaconda 接着按"Enter"回车键。 其中:D:/Anaconda是Python的安装目录。...原创 2019-04-28 11:33:20 · 13589 阅读 · 0 评论 -
R语言和Python实现分数次幂微积分计算(主要是Python)
分数次幂微积分计算引例 首先,网上目前有很多微积分的实现。例如下面2个以Python示例的微积分计算。示例1:from sympy import *x = Symbol('x')y = integrate(x*2,(x,-1,1))示例2:from sympy import *t = Symbol('t')x = Symbol('x')m = integ...原创 2019-04-04 17:39:35 · 3166 阅读 · 2 评论 -
Python决策树可视化:GraphViz‘s executables not found的解决方法
本人在运用Python中决策树算法解决电力窃漏电用户识别分析时,遇到Python决策树可视化的问题。 如下是建立决策树模型时的脚本:from sklearn.tree import DecisionTreeClassifier,export_graphvizfrom sklearn.model_selection import train_test_split...原创 2019-03-16 12:08:12 · 42365 阅读 · 30 评论 -
Python文件读取
一、写入.txt文件1.数据写入文件 在Python的open函数中,标识符可指定文件打开模式,如果需要将数据写入文件,只需要将标识符设置为写入模式(w)即可。 如果要写入的文件不存在,那么open函数将自动创建文件。要注意的是,如果文件已经存在,那么以写入模式写入文件时会先清空该文件。>>>file_name = 'words.txt'...原创 2018-03-09 16:33:09 · 472 阅读 · 0 评论 -
Python代码出现UnicodeEncodeError问题
错误: 'utf-8' codec can't encode character '\udcd5' in position 1270: surrogates not allowed解决: 程序的路径不含中文。看到错误很可能是路径问题,将整个完整的路径改为英文形式,即:E:\Python\tensorflow\图像处理\test\output.tfrecord,...原创 2018-04-10 16:11:44 · 2738 阅读 · 4 评论 -
Python中pip下载的相关问题
一、pip下载安装包方法一:百度搜索:Python whl选择网址:https://www.lfd.uci.edu/~gohlke/pythonlibs/选择:wordcloud下载所需版本在Windows powerShell中输入:(修改路径:cd E:\)pip install wordcloud-1.3.2-cp36-cp36m-win_amd64.whl注:whl是压...原创 2018-04-11 15:44:50 · 413 阅读 · 0 评论 -
几种不同的方式用Python连接数据库
1、连接MySQL的方式# 在cmd中 (提前设置环境变量) pip install pymysqlimport pymysql as pmcon = pm.connect('localhost','root','123456','tip',charset='gbk')data = pd.read_sql('select * from all_gzdata',con=con)con.c...原创 2018-05-28 17:41:10 · 1499 阅读 · 0 评论 -
雷达图的实现(R语言及Python)
雷达图的目的 雷达图在数据挖掘项目中多用于企业分析或者价值分析的环节可视化。雷达图分析法是一种系统分析的有效方法,它是从项目中自身建立的多方面分析企业的经营成果。并将这些方面的有关数据用比率表示出来,填写到一张能表示各自比率关系的等比例图形上,再用彩笔连接各自比率的结点后,恰似一张雷达图表。从图上可以看出企业经营状况的全貌,一目了然地找出了企业经营上的优势和弱势。注意事项 ...原创 2018-07-11 17:59:43 · 18020 阅读 · 3 评论 -
Python常用的几种去重方式
由于Python的去重方式比较多,本人在项目中总结了几种常用方法,欢迎补充。一、对列表去重1.用循环查找的方式li = [1,2,3,3,4,2,3,4,5,6,1]news_li = []for i in li: if i not in news_li: news_li.append(i)print (news_li)2.用集合的特...原创 2018-08-24 16:53:33 · 33408 阅读 · 4 评论 -
Python3爬虫知识(问题)汇总(一)
Python:python3以下是本人在爬虫项目中遇到并积累的问题与知识点:一、获取国内髙匿代理IP网站的免费IP代理,并验证哪些IP为可用代理,最后将可用代理输出。 首先需要爬取到代理IP的协议、ip地址、端口,本人采用了两种形式的获取:一个是常见的bs4库的BeautifulSoup与requests库,另一个是模拟浏览器selenium库。1、PhantomJS...原创 2018-12-19 12:31:42 · 479 阅读 · 0 评论 -
Python编辑器之jupyter使用介绍(拓展插件使用手册)
一、jupyter拓展工具 Jupyter Notebook 是一个很棒的教学、探索和编程环境,但其功能不足也是出了名的。幸好,有许多方法可以改进这个不错的工具,如 Jupyter Notebook 扩展工具。 Jupyter Notebook 扩展插件是扩展 notebook 环境基本功能的简单插件。它们用 JavaScript 语言编写,会自动套用代码格式或者在...原创 2019-02-21 13:48:37 · 4721 阅读 · 0 评论 -
Python编辑器之jupyter使用介绍(基本功能)
一、熟悉Python数据分析的工具1、了解数据分析常用工具 目前主流的数据分析语言有Python、R、Matlab三种程序语言。其中Python具有丰富和强大的库。它常被昵称为胶水语言,能够把用其他语言制作的各种模块(尤其是C/C++)很轻松地联结在一起,是一门更易学,更严谨的程序设计语言。R语言则是用于统计分析,绘图的语言和操作环境,它是属于GNU系统的一个自由、免费、源代码...原创 2019-02-21 11:44:04 · 36305 阅读 · 0 评论 -
Python编辑器之jupyter使用介绍(快捷功能、设置工作路径)
一、Jupyter Notebook 快捷键 Jupyter Notebook 有两种键盘输入模式。编辑模式,允许你往单元中键入代码或文本;这时的单元框线是绿色的。命令模式,键盘输入运行程序命令;这时的单元框线是灰色。(1)命令模式 (按键 Esc 开启)Shift-Enter : 运行本单元,选中下个单元 Ctrl-Enter : 运行本单元 Alt-Enter : ...原创 2019-02-21 11:52:36 · 971 阅读 · 0 评论 -
Python配置TensorFlow-GPU环境(笔记II)-2019.03.04
由于之前电脑问题导致系统重装,需要重新安装了GPU版的TensorFlow来跑人脸识别的代码,发现安装过程中与上一次笔记的不同了(有了新的版本匹配),这次是新的配置说明。系统:Windows10GPU:NVIDIA GeForce GTX 1050 TiPython:Anaconda3-5.0.0-Windows-x86_64,在win上安装py3.6版本。Tenso...原创 2019-03-04 11:40:15 · 1437 阅读 · 0 评论 -
Python读取文件
一、读取整个文件 读写文件是最常用的I/O(Input/Output)操作,Python内置了读写文件的函数,用法是与C语言兼容的。在读写文件之前,必须说明的是,在磁盘上面读取文件的功能是由操作系统提供的,现在的操作系统不容许普通的操作程序直接操作磁盘,所以读写文件就是请求操作系统打开一个文件对象(通常称为文件描述符),然后通过操作系统提供的接口从这个文件对象中读取数据(读文件),...原创 2018-03-09 16:07:48 · 893 阅读 · 0 评论