
Python
文章平均质量分 63
光于前裕于后
本人有多年大数据与机器学习开发经验,并乐于总结与分享,如有侵权或写的不对的地方可以私信我,有问题也可以问我哟,free~
展开
-
Python获取昨天或今天等字符串
# today 2022-02-22today = datetime.datetime.now().strftime('%Y-%m-%d')today = str(datetime.datetime.strptime('2022-02-21', "%Y-%m-%d") + datetime.timedelta(days=1))[:10]yesterday = (datetime.datetime.now() - datetime.timedelta(days=1)).strftime('%Y-%m-%原创 2022-02-22 15:50:59 · 646 阅读 · 0 评论 -
使用Python切换用户执行Hive SQL
在shell中执行hive sql:hive -e "hive sql"切换用户执行:sudo su - hive -c 'hive -e "hive sql"'但是当用python调用shell时,发现单双引号不够用了咋办呢???使用<<EOF,见下:hive_cmd = 'sudo su - hive -c "hive<<EOF\n' + hive_ddl + '\nEOF"'...原创 2022-01-12 14:55:23 · 1471 阅读 · 3 评论 -
在Windows下开发调试PySpark
Spark版本:2.4.0+cdh6.3.1Spark-Windows版本:spark-2.4.0-bin-hadoop2.7WinUtils版本:hadoop-2.7.1Python版本:3.7.2Java版本:1.8.0_121Scala版本:2.11.8 按需安装目录前言1 使用PyCharm开发PySpark直连Hive metastore1.1 下载相关包1.2 配置环境变量1.3 设置spark日志级别1.4 启动spark-sql1.5 创建测试表并插入数据1.6 安装相关包1.原创 2021-02-09 14:55:52 · 3644 阅读 · 1 评论 -
cx_Oracle.DatabaseError: ORA-12154: TNS
这个问题有点坑,在linux下ora_addr需写成"ip:port/orcl",而windows下需写成实例名,就是tnsnames.ora里配置的。见下面例子:# -*- coding: utf-8 -*-# @Time : 2020/12/12 16:14# @Author : drguo# @FileName: test.py# @Software: PyCharm# @blog :drguo.blog.youkuaiyun.comimport cx_Oracleora_name =原创 2020-12-21 11:18:06 · 816 阅读 · 0 评论 -
DPI-1047: Cannot locate a 64-bit Oracle Client library
cx_Oracle.DatabaseError: DPI-1047: Cannot locate a 64-bit Oracle Client library: "D:\xx\oci.dll is not the correct architecture查了下说是Oracle Client版本不对,要和python一致,python是64位,Oracle Client也需要是64位,小问题,去官网下载:https://www.oracle.com/database/technologies/instant原创 2020-12-21 11:10:44 · 1395 阅读 · 0 评论 -
pip install ImportError: cannot import name ‘SourceDistribution’
查了下说是pip版本的问题,需要升级。然而我的机器不能连外网,怎么升级呢?通过有问题的pip离线安装升级pip肯定是不行的。好在python第三方库几乎都可以在github或者 pypi上找到源码。源码包格式大概有zip 、 tar.zip、 tar.bz2。解压这些包,进入解压好的文件夹,通常会有一个setup.py的文件。打开命令行,进入该文件夹。运行以下命令,就能把这个第三库安装到系统里:python setup.py install或者借助pip,则不需要解压:pip install原创 2020-12-21 11:08:56 · 842 阅读 · 0 评论 -
Win10下使用Python连接Oracle
目录前言正文1 cannot import name ‘SourceDistribution’2 DPI-1047: Cannot locate a 64-bit Oracle Client library3 make sure you have the 32 bits oracle client installed4 ORA-12154: TNS前言本来以为写篇这个就够了 Python离线安装第三方库,后来发现还有好多坑,还是全记一下吧。使用python连接oracle有很多种方式,本文使用的是cx-原创 2020-12-12 17:33:28 · 803 阅读 · 0 评论 -
Python离线安装第三方库
方式一 通过whl安装1.配置pip环境变量2.下载相关包如:https://pypi.org/project/cx-Oracle/7.3.0/#files注意python版本,电脑位数3.安装pip install d:\xx\xx.whl4.如果遇到以下错误,需升级pippip install ImportError: cannot import name ‘SourceDistribution’那么问题来了,通过有问题的pip离线安装升级pip肯定是不行的,怎么办呢?请看方式二原创 2020-12-12 14:17:58 · 7700 阅读 · 3 评论 -
“联创黔线”杯大数据应用创新大赛
文章目录赛题介绍代码1 特征工程1.1 正样本1.2 负样本2 建模3 预测3.1 测试集4 提交结果0 查看数据0.1 训练数据0.1.1 正样本0.1.2 负样本0.1.3 天气数据0.2 测试数据0.2.1 测试集0.2.2 天气数据赛题地址:https://www.kesci.com/home/competition/5be92233954d6e001063649a又打了个酱油,最终成...原创 2019-07-31 18:59:12 · 2583 阅读 · 0 评论 -
2019JDATA用户对品类下店铺的购买预测(机器学习一般步骤总结)
文章目录赛题介绍建模流程1.查看分析数据2.数据清洗3.构造数据集(特征工程)4.特征选择5.模型选择6.参数选择7.模型训练与测试8.模型融合赛题介绍赛题网址:https://jdata.jd.com/html/detail.html?id=8赛题背景京东零售集团坚持“以信赖为基础、以客户为中心的价值创造”这一经营理念,在不同的消费场景和连接终端上,在正确的时间、正确的地点为3亿多活跃...原创 2019-05-26 16:52:20 · 5328 阅读 · 3 评论 -
使用python pandas对多列进行分组统计
使用groupby([ ]).size()统计的结果,值相同的字段值会不显示如上图所示,第一个空着的行是982499 7 3388 1,因为此行前面一行的这两个字段值是一样的,所以不显示。第二个空着的行是390192 22 4278 1,因为此行前面一行的第一个字段值是一样的,所以不显示。这样的展示方式更直观,但对于刚用的人,可能会让其以为是缺失值。如果还不明白可以看下面的全部数据及操作。...原创 2019-04-29 11:12:31 · 39865 阅读 · 4 评论 -
pyecharts初体验
from pyecharts import Bar# 设置行名columns = ["Jan", "Feb", "Mar", "Apr", "May", "Jun", "Jul", "Aug", "Sep", "Oct", "Nov", "Dec"]# 设置数据data1 = [2.0, 4.9, 7.0, 23.2, 25.6, 76.7, 135.6, 162.2, 32.6, 20...原创 2019-04-11 10:44:53 · 472 阅读 · 0 评论 -
windows下ipynb格式文件转md/html
(tensorflow-gpu) F:\>cd @ipynb文件(书籍python代码)(tensorflow-gpu) F:\@ipynb文件(书籍python代码)>dir 驱动器 F 中的卷是 Code 卷的序列号是 1859-5AB4 F:\@ipynb文件(书籍python代码) 的目录2019/04/11 09:55 <DIR> ...原创 2019-04-11 10:37:17 · 781 阅读 · 0 评论 -
Matplotlib 数据可视化-网易云课堂笔记
import matplotlib.pyplot as pltimport numpy as np%matplotlib inlinex = np.linspace(-1, 1, 50)y = 2*x + 1plt.plot(x, y)# plt.show()[<matplotlib.lines.Line2D at 0x2540f94e2e8>]figurex...原创 2019-04-11 10:30:08 · 405 阅读 · 0 评论 -
Jupyter的快捷键
最常用的快捷键:shift + enter : 运行当前行代码b : 在当前行下面插入新行a : 在当前行上面插入新行dd (敲击d键两下): 删除当前行m : 将当前行由代码模式转换成markdown模式其余快捷键执行当前cell,并自动跳到下一个cell:Shift+Enter执行当前cell,执行后不自动调转到下一个cell:Ctrl+Enter是当前的cell进入编...原创 2018-10-24 13:57:02 · 1159 阅读 · 4 评论 -
Python注释
#单行注释'''多行注释多行注释多行注释'''原创 2016-01-31 15:04:03 · 672 阅读 · 0 评论 -
Python2.x和Python3.x的区别
应该忍受 class Foobar(object): 还是轻松地写 class Foobar: ?应该是 input_raw 还是直接 input?--这句转自知乎1.性能 Py3.0运行 pystone benchmark的速度比Py2.5慢30%。Guido认为Py3.0有极大的优化空间,在字符串和整形操作上可 以取得很好的优化结果。 Py3.1性能比Py2.5慢15%转载 2016-01-31 15:27:16 · 730 阅读 · 0 评论 -
Python一些技巧
交换变量[python] view plain copyx =6 y =5 x, y =y, x print x >>> 5 printy >>> 6 if 语句在行内[python] view plain copy转载 2016-02-01 13:00:08 · 826 阅读 · 1 评论 -
Python中的...
百度了下python交互环境中如果表达式一行没有写完换行就会出现三个点原创 2016-02-14 21:07:15 · 633 阅读 · 0 评论 -
Python基础(下)
Python基础(下)作者:Vamei 出处:http://www.cnblogs.com/vamei 欢迎转载,也请保留这段声明。谢谢!一、循环1、for循环for循环需要预先设定好循环的次数(n),然后执行隶属于for的语句n次。基本构造是:for 元素 in 序列: statement举例来说,我们编辑一个叫forDemo.py转载 2016-02-14 21:39:18 · 589 阅读 · 0 评论 -
Python爬虫基础
python爬虫基础python是一门用途非常广泛的语言,被经常用来写取网络爬虫程序。网络爬虫,即Web Spider,是一个很形象的名字。 把互联网比喻成一个蜘蛛网,那么Spider就是在网上爬来爬去的蜘蛛。 网络蜘蛛是通过网页的链接地址来寻找网页的。 从网站某一个页面(通常是首页)开始,读取网页的内容,找到在网页中的其它链接地址, 然后通过这些链接地址寻找下一个网页,这样一直循转载 2016-02-04 16:55:58 · 952 阅读 · 0 评论 -
Python脚本
我们可以把Python程序hello.py改成一个可执行的脚本,可以直接执行:#!/usr/bin/env pythonprint('Hello World!')需要修改上面程序的权限为可执行:chmod 755 hello.py然后再命令行中,输入:./hello.py就可以直接运行了脚本语言的第一行,目的就是指出,你想要你的这个文件中的代原创 2016-02-04 17:32:15 · 777 阅读 · 0 评论 -
Python3.x爬虫
转自:http://blog.youkuaiyun.com/evankaka/article/details/46849095#comments林炳文摘要:本文将使用Python3.4爬网页、爬图片、自动登录。并对HTTP协议做了一个简单的介绍。在进行爬虫之前,先简单来进行一个HTTP协议的讲解,这样下面再来进行爬虫就是理解更加清楚。一、HTTP协议HTTP是Hyper Text Tran转载 2016-03-19 01:54:04 · 1970 阅读 · 0 评论 -
Python进阶(上)
作者:Vamei 出处:http://www.cnblogs.com/vamei 欢迎转载,也请保留这段声明。谢谢!Python基础介绍了基本概念,特别是对象和类。进阶教程对基础教程的进一步拓展,说明Python的细节。希望在进阶教程之后,你对Python有一个更全面的认识。一、词典之前我们说了,列表是Python里的一个类。一个特定的表,比如说nl = [1,3,转载 2016-02-27 22:14:51 · 608 阅读 · 0 评论 -
Python本地读写数据
注:图为2.x,截取自南京大学张莉老师的“用Python玩转数据” ,代码为3.xPython3.5>>> f = open(r'h:\pytest.txt','w') #默认是读文件,可以不加‘r’,写文件一定要加’w’>>> f.write('hello,world!')12>>> f.close()>>> f=open('pytest.txt','r')>>> p1=f.read(5)>>> p2=f.read()>>> p原创 2016-01-31 12:34:17 · 1621 阅读 · 0 评论 -
使用python获取pdf上的文字(in win10)
环境版本: WIN10 | Python 3.6 | ImageMagick-6.9.9-38-Q8-x64-dll | Ghostscript 9.22 for Windows 整体思路:1.将PDF转为图片后进行文字识别 | 2.使用pdfminer解析pdf文件(准确率更高)目录1.下载安装tesseract2.安装pyocr、Wand、Pillow3...原创 2018-03-17 22:09:25 · 7970 阅读 · 2 评论 -
使用Python实现日历功能
先贴一下运行效果很简单的小例子,详见注释def is_leap_year(year): &amp;amp;quot;&amp;amp;quot;&amp;amp;quot; 判断闰年 :param year: :return: &amp;amp;quot;&amp;amp;quot;&amp;amp;quot; return year % 4 == 0原创 2018-07-12 17:28:38 · 6948 阅读 · 1 评论