
Python
大胖头leo
这个作者很懒,什么都没留下…
展开
-
Python获取昨天,今天,明天,本周,上周,本月,上月,本季,本年,去年时间。
#coding=utf-8importdatetimefromdatetimeimporttimedeltanow=datetime.datetime.now()#今天today=now#昨天yesterday=now-timedelta(days=1)#明天tomorrow=now+timedelta(days=1)<br><br>#当前季度now_quarter=n...原创 2020-09-15 00:28:11 · 922 阅读 · 0 评论 -
python编译出现SyntaxError: Non-ASCII character ‘\xe8‘ in file
出现这个问题主要是编译中出现了中文或特殊字符,所以可以使用以下方式解决:在文件头部加上(一定要加在第一行)# -*- coding: utf-8 -*-或# coding:utf-8原创 2020-07-26 23:32:01 · 1894 阅读 · 0 评论 -
python打包成exe执行时获取控制台传入的参数问题
https://www.cnblogs.com/wyjajt/p/13259184.html转载 2020-07-13 17:42:05 · 2992 阅读 · 0 评论 -
Python 3/将脚本打包成不需要装环境也可以运行的工具(selenium pyinstaller)
https://blog.youkuaiyun.com/qq_38959715/article/details/98746804https://www.cnblogs.com/huchong/p/10078182.html原创 2020-07-13 17:40:55 · 1935 阅读 · 0 评论 -
Python:解压一个.zip文件或一个目录下的所有.zip文件到指定目录。
''' 解压一个.zip文件或一个目录下的所有.zip文件到指定目录。 运行方法: 格式: python unzip.py "source_dir" "dest_dir" password 参数说明: source_dir和dest_dir既可以绝对路径也可以为相对路径。用""将它们括起为了防止路径中出现空格。 source_dir和dest_dir的缺省值表示当前目录。 password缺省表示压缩文件未加密。 .原创 2020-06-28 23:58:54 · 3134 阅读 · 0 评论 -
Spark Streaming的改进word count例子
Spark Streaming 里提供的wordcount有点太简单了,做了一次实在时没啥感觉,所以我稍微弄的复杂了一点,通过这个让我对streaming 有更好的理解wordcount功能:通过socket向Spark APP发送一串数字字符(“,“分割),然后将数字转换 Int格式并 进行计数, 如果输入的不是数字,Spark APP报错并停止APPsocket 文件 ...原创 2019-09-18 02:20:13 · 318 阅读 · 0 评论 -
使用python Socket为SparkStreaming 提供数据 (socket.error: [Errno 48] Address already in use)
这里写一个例子,利用socket为 Spark Stream提供数据socket.error: [Errno 48] Address already in use需要把so_reuseaddr设置为1,这样在关闭socket对象后可以重复使用地址import socketfrom time import sleephost = 'localhost'port = 9999s ...原创 2019-09-17 04:47:38 · 593 阅读 · 1 评论 -
协同过滤推荐ALS PySpark.mllib库
啥是协同过滤?就是用户对所有产品打分,然后根据分数来给用户分组,那同一个组内的用户喜欢的东西应该是相似的。其他的推荐算法例如内容推荐,就是先给产品分类(根据一些乱七八糟的),在将用户分类,然后把新来的产品(网页,东西)分类,在将这个产品推荐给感兴趣这个分类的用户。协同过滤有啥优缺点 优点d 缺点 他不需要对产品(内容)进行分析,因为只要...原创 2019-09-12 18:53:52 · 1165 阅读 · 0 评论 -
pyspark 启动命令汇总 local、yarn、standalone
Table of Contents0. 启动Pyspark1.Hadoop Yarn 启动 pyspark2.Spark Standalone模式运行 pyspark3. 从Jupyter启动Pyspark1. spark-submit启动命令实在是太多了。。记录下0. 启动Pyspark默认情况下,pyspark 会以 spark-shell启动...原创 2019-09-07 21:33:08 · 6376 阅读 · 1 评论 -
Python multiprocessing进程pid
import multiprocessing as npimport timep = np.Process(target = time.sleep,args=(100,))p.start()pid = p.pidprint(pid)笔记, python affinity 库在python3 之后停止支持了,如果想要指定进程的CPU,需要使用shell 命令taskset...原创 2019-04-08 10:23:05 · 4351 阅读 · 1 评论 -
pandas 进行数据筛选后再进行赋值操作 and(列类型转换)
原数据dataset在python里 可以通过dataframe.loc[rowindex=,colindex=] 给整列赋值df.loc[:,'index'] = list(range(6))但是对于筛选过后的数据则不可以整体赋值, 如果我只想为在b列中有值的record 写index 则会报错d = (df["b"].isna()==False).values #选出b列有值的行的list...原创 2018-03-14 09:31:42 · 20323 阅读 · 4 评论 -
pandas 的 object 类型
今天弄dataframe 的时候 发现所有string 类型的 column 都是object类型dataframe中的 object 类型来自于 Numpy, 他描述了每一个元素 在 ndarray 中的类型 (也就是Object类型)。而每一个元素在 ndarray 中 必须用同样大小的字节长度。 比如 int64 float64, 他们的长度都是固定的 8 字节。但是对于string 来说...原创 2018-03-21 10:25:36 · 21159 阅读 · 0 评论 -
python 使用re.search()筛选后 选取部分结果
使用group()方法b = 'hello good fine're.search(r'^hello\s(.*)\sfine',b).group()group() 会返回匹配此正则表达式的字符串group(1) 会返回正则表达式中第一个括号内的内容, 以此类推,group(2) 第二个括号re.search(r'^hello\s(.*)\sfine',b).group(1)* 如果需要筛选,则要在...原创 2018-03-21 10:37:36 · 28279 阅读 · 0 评论 -
Ubuntu 16.04以上 安装pip
前提:要有Sudo权限1. 更新包sudo apt update2 安装pipsudo apt install python3-pip3.检查版本pip3 --versionpip的是为python2 设计的, 在python3 下,使用pip3 来为python3 安装包4.使用pip3 --help...原创 2019-02-28 13:31:02 · 965 阅读 · 0 评论 -
Python Timeit模块 基础使用
tiimeit 可以测试 函数的运行时间对于系统函数,可以直接写在timeit()import timtittimeit.timeit('"-".join(str(n) for n in range(100))', number=10000)这个会返回执行 10000 的总时间对于无参数的程序def foo(): return 0timeit.timeit(f...原创 2019-04-01 19:36:35 · 507 阅读 · 0 评论 -
python timit 使用外部库(numpy,pandas。。)
语句timeit.timeit(stmt='pass',setup='pass',timer=<default timer>,number=1000000,globals=None)方法一, 设定setup参数timeit.Timer("np.arange(1000)", setup='import numpy as np')方法二, lambda 函数...原创 2019-04-02 11:03:41 · 525 阅读 · 0 评论 -
Python内执行Shell命令
方法1:import osmyCmd = 'ls -la'os.system(myCmd)这样就可以执行, 也可以通过pipe输出shell的结果import os myCmd = 'ls -la > out.txt'os.system(myCmd)方法二: 如果需要在python内返回结果import os myCmd = os.popen('ls -l...原创 2019-04-08 10:12:23 · 210 阅读 · 0 评论 -
Python 返回进程pid
import osos.getpid()这个只返回python主进程的pid, 如果对于multiprocessing, 每个processor会有自己的pid原创 2019-04-08 10:16:11 · 1753 阅读 · 0 评论 -
python中的正则表达式(re模块)
一、简介正则表达式本身是一种小型的、高度专业化的编程语言,而在python中,通过内嵌集成re模块,程序媛们可以直接调用来实现正则匹配。正则表达式模式被编译成一系列的字节码,然后由用C编写的匹配引擎执行。二、正则表达式中常用的字符含义1、普通字符和11个元字符:普通字符匹配自身abcabc.匹配任意除换行符"\n"外的字符(在DOTALL模式中也能匹配换行符a.cabc\转义字符,使后一个字符改变...转载 2018-03-15 07:00:46 · 264 阅读 · 0 评论