大数据技术派
待我代码写成,便娶你为妻。
展开
-
paddleocr安装与图片识别快速开始
很不幸,这个命令失败了,pip命令找不到这个版本,那么需要自己手动下载whl文件,安装了。点击旧版本安装,到这个页面,因为我们的cuda是10.0版本的,我们浏览器全局搜索,这里使用gpu版本,需要安装cuda,先查看cuda版本。下载后,解压,编译,安装,即可。到这里为止,已经成了90%。原创 2022-09-20 14:49:35 · 1135 阅读 · 0 评论 -
Python3 Linux 安装教程
去Python官网下载windows安装包,按照安装向导一直点击下一步即可,安装向导最好勾选,这样就不用手动添加环境变量了。安装比较复杂,需要安装一些系统依赖,再编译安装。1).下载源码tar包注:国内华为镜像下载会稳定快些,https://mirrors.huaweicloud.com/python/ , Python官方所有版本列表:https://www.python.org/downloads/ 。2). 解压解压完成后cd进入解压的目录。3). 编译、安装准备编译环境完成后,依次执行以原创 2022-07-13 10:11:08 · 491 阅读 · 0 评论 -
Python进程管理神器——Supervisor
Supervisor 是一款 Python 开发的进程管理系统,允许用户监视和控制 Linux 上的进程,能将一个普通命令行进程变为后台守护进程,异常退出时能自动重启详细介绍查阅:Supervisor IntroductionSupervisor 支持 Linux 和 Mac,不支持 Windows本文系统为: 安装完成后,在Python 下面会有这样几个文件。注:由于python bin目录是加入了环境变量,所以可以直接执行这几个文件。若报错 -bash: /etc/supervisord.co原创 2022-07-12 16:39:31 · 519 阅读 · 0 评论 -
Python各种包下载地址
地址https://www.lfd.uci.edu/~gohlke/pythonlibs/#lxml比如要安装pandas这个包,Ctr + F组合键 ,快速找到,然后下载。cp27表示Python2.7版本的,cp35表示python3.5版本的,同理cp36表示Python3.6版本的,win32表示32位Python的,win_amd64表示64位Python的。...原创 2017-11-23 21:27:00 · 2005 阅读 · 0 评论 -
Python语法速查
原文链接:https://wklchris.github.io/Py3-basic.html本文简要记录了 Python 3 的语法。介绍Python 是一门独特的语言,快速浏览一下他的要点:面向对象:每一个变量都是一个类,有其自己的属性(attribute)与方法(method)。 语法块:用缩进(四个空格)而不是分号、花括号等符号来标记。因此,行首的空格不能随意书写。 注释...转载 2019-03-13 20:42:45 · 1532 阅读 · 0 评论 -
Python科学计算:matplotlib
原文链接:https://wklchris.github.io/Py3-matplotlib.html本文介绍 matplotlib 相关的内容,以例子为主。全文的初始化加载如下:import osimport numpy as npimport pandas as pdimport matplotlib as mplfrom matplotlib import pyplot...转载 2019-03-13 20:46:03 · 1684 阅读 · 0 评论 -
Python查询hive结果保存到mysql的代码优化历程
目录1、需要的包2、我们选择pyhive3、下面举一个例子4、代码简化5、结果很甜6、Python操作Hive事务表我的博客原文地址:http://www.ikeguang.com/2018/12/21/pyhive-mysql/由于hive查询结果是不能直接保存到mysql的,有人会用sqoop,相对还是不方便。当然了,肯定还有一些其它的hive~mysql互导工...原创 2017-08-13 10:32:00 · 789 阅读 · 0 评论 -
蒙特卡洛方法
我的个人博客蒙特卡罗方法是一种计算方法。原理是通过大量随机样本,去了解一个系统,进而得到所要计算的值。最经典的莫过于圆周率π的计算了。圆周率π的计算单位圆面积为π,并且内切与边长为2的正方形,用随机数,10000个点往下面投,落到圆里面的概率乘以4就是π的值说明:等式左边,是圆与正方形面积之比;等式右边,是落在单位圆内的点与落在正方形内的点的比值。二者相等。分析1、以圆心为原点,建立...原创 2019-07-14 22:28:04 · 587 阅读 · 0 评论 -
项目实战:使用Python的Flask模块快速开发一个web入门小项目
平时做数据分析挖掘的结果,难免会需要在Web上展示出来,这样更有逼格。那么,开发web页面难吗?使用Java开发门槛太高,一堆注解绝对让你投降;使用PHP开发,好像太骚了。其实,我们需要有这么一个工具,既能做数据分析挖掘,又能做web展示,非你莫属了——Python。这里,选择Python的轻量级框架Flask,开发速度更快,开发一个简单的话题发布,支持基本的登陆、注销功能。项目截图...原创 2019-08-31 12:55:01 · 2814 阅读 · 0 评论 -
Python批量删除mysql中千万级大量数据
## 场景描述线上mysql数据库里面有张表保存有每天的统计结果,每天有1千多万条,这是我们意想不到的,统计结果咋有这么多。运维找过来,磁盘占了200G,最后问了运营,可以只保留最近3天的,前面的数据,只能删了。删,怎么删?因为这是线上数据库,里面存放有很多其它数据表,如果直接删除这张表的数据,肯定不行,可能会对其它表有影响。尝试每次只删除一天的数据,还是卡顿的厉害,没办法,写个Python脚...原创 2019-09-03 20:18:35 · 2818 阅读 · 0 评论 -
Python系列之——好用的Python开发工具
工欲善其事必先利其器,一个好的工具能让起到事半功倍的效果,Python社区提供了足够多的优秀工具来帮助开发者更方便的实现某些想法,下面这几个工具给我的工作也带来了很多便利,推荐给追求美好事物的你。Python TutorPython Tutor 是由 Philip Guo 开发的一个免费教育工具,可帮助学生攻克编程学习中的基础障碍,理解每一行源代码在程序执行时在计算机中的过程。通过这个工具...转载 2019-03-10 23:17:03 · 1506 阅读 · 0 评论 -
redis 删除大key集合的方法
redis大key,这里指的是大的集合数据类型,如(set/hash/list/sorted set),一个key包含很多元素。由于redis是单线程,在删除大key(千万级别的set集合)的时候,或者清理过期大key数据时,主线程忙于删除这个大key,会导致redis阻塞、崩溃,应用程序异常的情况。一个例子线上redis作为实时去重的一个工具,里面有6千万的用户guid,这么一个set集...原创 2019-03-14 20:29:12 · 9973 阅读 · 0 评论 -
为什么会有这么多IT培训机构,分析慕课网培训课程情况就都明白了!
http://www.ikeguang.com/获取了慕课网的所有IT培训课程数据,通过pandas和matplotlib从不同领域、课程难易度、数量进行数据分析,发现现在网络教育很火,难怪连百度的吴恩达都退下来开始自己的教育事业了。一、数据获取数据获取主要是用python的简单爬虫,慕课网的数据获取非常容易,这里不再赘述。二、数据预处理读取数据,并且将其变为DataFrame...原创 2019-01-16 23:25:43 · 3118 阅读 · 0 评论 -
python时间操作
python时间操作,最近用的比较多,网上各种搜罗,下面这些函数都是我在实际中经常用到的:# python datetime获取几分钟、小时、天之前的时间## 前一天(datetime.datetime.now()-datetime.timedelta(days=1)).strftime("%Y-%m-%d %H:%M")## 前一个小时(datetime.datetime.now...原创 2018-08-03 17:40:58 · 911 阅读 · 0 评论 -
Python操作hive与mysql
由于hive查询结果是不能直接保存到mysql的,通常用python驱动hiveserver2,也利用python将结果保存到mysql。需要的包网上百度,搜到的包不外乎下面3个,这里用第二个。1、pyhs2,已没有更新维护https://github.com/BradRuderman/pyhs22、pyhivehttps://github.com/dropbox/PyHive3、i...原创 2018-12-21 23:34:33 · 1383 阅读 · 0 评论 -
MySQL server has gone away , 解决办法
我的博客今天在用python查询hive,统计结果保存到mysql的时候,尝试了好多遍,总是报这个错误,python环境下的错误信息: _mysql_exceptions.OperationalError: (2006, 'MySQL server has gone away')造成这样的原因一般是sql操作的时间过长,或者是传送的数据太大(例如使用insert ... value...原创 2019-01-18 21:07:25 · 2439 阅读 · 0 评论 -
python快速生成二维码,你值得拥有
我相信很多人,跟我一样,经常需要生成各种二维码,好在微信中发送,传播,我通常都会用一个几行python代码的脚本快速生成二维码。想用的时候,随时输入一个命令,就能生成二维码。废话不多说,直接上脚本(python 2.7 版本)。import qrcodeimport sysdef run(url, path): qr_image = qrcode.make(url) qr_...原创 2019-01-18 21:12:24 · 1002 阅读 · 2 评论 -
jieba分词的Python与R语言基础用法介绍
人们说话不是一个词一个词崩出来的,文章也就由句子组成。要想让机器识别美文,体会中华名族汉语的博大精深,不是不可能。但是,首先需要将其转化成其可以识别的模式——词语。分词是自然语言处理(NLP)中最底层、最基本的模块,分词精度的好坏将直接影响文本分析的结果。这里介绍著名的分词方法:结巴分词以及基本分词方法在Python和R语言中的用法。Python中的结巴分词 Python中文分词的三种...原创 2019-01-19 10:32:08 · 2313 阅读 · 0 评论 -
K-means算法通俗原理及Python与R语言的分别实现
K均值聚类方法是一种划分聚类方法,它是将数据分成互不相交的K类。K均值法先指定聚类数,目标是使每个数据到数据点所属聚类中心的总距离变异平方和最小,规定聚类中心时则是以该类数据点的平均值作为聚类中心。K均值法原理与步骤对于有N个数据的数据集,我们想把它们聚成K类,开始需要指定K个聚类中心,假设第i类有ni个样本数据,计算每个数据点分别到聚类中心的距离平方和,距离这里直接用的欧式距离,还有什么...原创 2019-01-19 10:47:51 · 713 阅读 · 0 评论 -
Python简单文本分析朱自清写《匆匆》的情感状态
目录1、jieba中文分词的三种常用模式2、简单文本分析朱自清写《匆匆》的情感状态分词结果下面统计词频分词是自然语言处理(NLP)中最底层、最基本的模块,分词精度的好坏将直接影响文本分析的结果。有好多大型的分词系统(比如北京理工大学张华平博士开发的中文分词系统:ICTCLAS,是一个很优秀的分词系统),这里介绍Python中使用的小巧、强大的jieba中文分词。首先获得ji...原创 2019-01-19 10:57:29 · 849 阅读 · 0 评论 -
Winwows下Python命令行执行脚本乱码
解决方法1.直接使用 u’中文’ 形式,指明以unicode编码,解码方式会以顶部 #coding定义的编码方式,如果不写,以操作系统当前编码方法,建议写上#coding,因为要让操作系统编码和源文件编码经常会不一样。推荐使用这种方式2.输出时指定解码方法 print ‘是’.decode(“utf8”) ,必须和保存的编码一致,忽略#coding的定义3.将#coding 和保存编码...原创 2019-02-01 21:20:55 · 654 阅读 · 0 评论 -
python查询hive结果保存到mysql的python代码优化历程
由于hive查询结果是不能直接保存到mysql的,有人会用sqoop,相对还是不方便。当然了,肯定还有一些其它的hive~mysql互导工具,通常我们用python驱动hiveserver2,hivecli官方并不建议,也利用python将结果保存到mysql。那么python操作hive查询结果保存到mysql过程是怎么样的呢?1、需要的包网上百度,搜到的包不外乎下面3个,这里用第二个。...原创 2019-01-16 22:42:25 · 1625 阅读 · 0 评论 -
数据分析应该怎么学?———一个包含数据获取与分析的小项目
http://www.ikeguang.com/数据来源:前程无忧网获取方式:爬虫数据量:所有最新的招聘信息(武汉)时间:最近几天分析对象:a:实习律师;b:律师助理分析视角:1、不同工资区间比例;2、不同经验要求的比例;3、不同学历要求的比例;4、不同律所的平均工资水平;5、结论。律师行业整体属于高收入群体,那么实习律师、律师助理工资又会是怎样一个水平呢。对于这...原创 2019-01-16 23:00:02 · 577 阅读 · 0 评论 -
基于最小二乘法的——线性回归拟合(一)
http://www.ikeguang.com/阅读本文需要的知识储备:高等数学 概率论与数理统计 Python基础最近对线性回归很感兴趣,就研究了一下。其实生活中有很多这样的例子,比如:票价与行车距离、服务质量之间的关系,买房时房价与面积、地域等的关系。给我们一组这样的数据,我们想找出一个数学关系来描述这个问题,从而得到自己想要的结论。那么,怎么样才能使得你确定出的关系是一个好的线...原创 2019-01-16 23:13:26 · 16944 阅读 · 0 评论 -
基于梯度下降法的——线性回归拟合(二)
http://www.ikeguang.com/阅读本文需要的知识储备:高等数学 运筹学 Python基础1、引出梯度下降对于,线性回归问题,上一篇我们用的是最小二乘法,很多人听到这个,或许会说:天杀的最小二乘法,因为很多人对它太敏感了。是的,从小到大,天天最小二乘法,能不能来点新花样。这里就用数学算法——梯度下降,来解决,寻优问题。当然了,我们的目标函数还是:在开始...原创 2019-01-16 23:15:27 · 1867 阅读 · 0 评论 -
每天新老用户,日活,周活,月活的hive计算
最近有一个需求,统计新老用户,日活,周活,月活;这里日活,当然了周活,月活就是一个count(distinct(guid))语句。#!/usr/bin/python# -*- coding:utf-8 -*-# hive更新历史用户表,日常查询,保存到MySQLimport sysimport datetimeimport commandsimport MySQLdb#...原创 2018-08-03 17:34:03 · 20923 阅读 · 5 评论