
Python
Watch_dou
一名算法工程师,欢迎交流,由于比较忙,来不及回复评论,有事可以私戳我
展开
-
python modin加速
modin参考BASE = '../data/output/grid_part_1.pkl'# Read data with Pandasimport pandas as pdstart_time = time.time()df = pd.read_pickle(BASE)print("Pandas Loading Time = {}".format(time.time() - start_time))# Read data with Modinimport modin.panda原创 2020-06-15 12:41:12 · 674 阅读 · 0 评论 -
os.path.splitext文件名与扩展名分离
from __future__ import absolute_import, division, print_function, unicode_literalsimport osimport pandas as pdimport tensorflow as tfzip_path = tf.keras.utils.get_file( origin='https://storag...原创 2019-10-22 07:20:00 · 444 阅读 · 0 评论 -
Python之K-means详细案例
#!/usr/bin/env python2.7# -*- coding: utf-8 -*-# from __future__ import division import requestsimpor...原创 2018-12-27 09:43:49 · 3855 阅读 · 0 评论 -
Python根据字典或列表的行数据或者列数据构建DataFrane
转载 2018-12-27 09:36:40 · 639 阅读 · 0 评论 -
Python对MySQL中读取的数据进行多层字典嵌套json化
对MySQL中读取的数据进行json化数据格式:((cluster1,db1,tb1), (cluster1,db1,tb2), (cluster1,db1,tb3), (cluster1,db2,tb3), (cluster2,db3,tb5), (cluster3,db4,tb6), (cluster3,db5,tb7), (cluster3,db5,tb8), (cluster4,db6...原创 2018-12-14 13:29:54 · 1540 阅读 · 0 评论 -
Python的sqldf( ) 像SQL一样操作DataFrame
当你对Python的DataFrame操作不熟悉,或者对pandas应用不熟悉时,想一想,要是能像sql操作表一样多好!python中的sqldf()跟R语言中的sqldf一样就是为了方便操作表格,用sql的语法来操作表格 。from pandasql import sqldf问题:现在有两个表,想将A表与B表左外连接 。如下即可:merge_data_sql = sqldf(""" ...原创 2018-11-19 16:16:47 · 5410 阅读 · 3 评论 -
Python将DataFrame的每一行组成元组
# merge_result is DataFramemerge_result_tuples = [tuple(xi) for xi in merge_result.values] # output: (datetime.date(2018, 11, 19), Timestamp('2018-11-19 07:37:31'), 1231, 89244241)原创 2018-11-19 16:06:04 · 10128 阅读 · 6 评论 -
Python批量读取csv文件并合并文件
import pandas as pdimport os# 获取当前路径cwd = os.getcwd()# 要拼接的文件夹及其完整路径,注意不要包含中文## 待读取批量csv的文件夹名称 Folder_Path = 'data_Q1_2018' ## 待保存的合并后的csv的文件夹名称 SaveFile_Path = 'data_Q1_2018_mer...原创 2018-11-15 10:09:57 · 26508 阅读 · 2 评论 -
Python的read_csv()读取大文件问题解决
通过普通的read_csv()方式读取几个G的csv文件,耗时长,读不出,卡到电脑崩溃掉,结果。。。死机,强制重启 。千万别写成:import pandas as pdmerge_dt = pd.read_csv( cwd + '\\' + SaveFile_Path + '\\' + SaveFile_Name, encoding="utf_8", engine='python' ) ...原创 2018-11-15 10:04:49 · 20179 阅读 · 0 评论 -
Python的read_csv()出现OSError: Initializing from file failed
import pandas as pdimport os# 获取当前路径cwd = os.getcwd()# 路径中要拼接的文件夹,注意不要包含中文Folder_Path = 'data_Q1_2018' File_Path = 'data_Q1_2018_merge' File_Name = 'filter_data.csv' filter...原创 2018-11-15 09:50:54 · 726 阅读 · 0 评论 -
Python2之unicode转字符串
str.encode('unicode-escape').decode('string_escape')原创 2018-11-13 09:21:15 · 4084 阅读 · 0 评论 -
python正则匹配内网IP
rex_ip = re.compile('^(127\\.0\\.0\\.1)|(localhost)|(10\\.\\d{1,3}\\.\\d{1,3}\\.\\d{1,3})|(172\\.((1[6-9])|(2\\d)|(3[01]))\\.\\d{1,3}\\.\\d{1,3})|(192\\.168\\.\\d{1,3}\\.\\d{1,3})$')原创 2018-11-13 09:19:28 · 1736 阅读 · 0 评论 -
Python读或写MySQL数据
数据一行一行写入,利用forimport MySQLdb# connect dbconn=MySQLdb.connect( host,user,passwd,db,port,charset='utf8' )cursor = conn.cursor()# insert sqlcursor.execute("insert into tableName(tableColumn1,...,...原创 2018-11-08 16:59:40 · 224 阅读 · 0 评论 -
Python元组组成的列表转化为字典
虽然元组、列表不可以直接转化为字典,但下面的确是可行的,因为经常用python从数据库中读出的是元组形式的数据。>>> cc = [('1',1),('2','jiqw'),('3',1372)] >>> dict(cc){'1': 1, '3': 1372, '2': 'jiqw'}虽然列表不可转字典,然而,两个列表,就可以(需要zip...原创 2018-12-17 18:28:29 · 40089 阅读 · 3 评论 -
Python字符串列表拼接
>>> a = ['1','123','ffff','2432','wegwg']>>> '<br>'.join(a)'1<br>123<br>ffff<br>2432<br>wegwg'原创 2018-12-17 18:30:16 · 8177 阅读 · 0 评论 -
Python正则表达式去掉字符串下划线末尾的纯数字
目的:通过遍历,将数据框的name列中最后一个下划线之后是纯数字的去掉下划线及其之后的数字。dataframe_example如下:monitoring_itemhostnamedomainnamecpu1hs2dm1eqw_bn_m3_5cpu2hs2dm1gqw_bn_m1cpu2hs2dm1sdf_bn_m3_2cpu1hs1...原创 2018-12-22 20:36:52 · 4005 阅读 · 0 评论 -
matplotlib——配置参数
matplotlib 是一个开源项目,由 John Hunter 发起。关于 matplotlib 的由来,有一个小故事。John Hunter 和他研究癫痫症的同事借助一个专有软件做脑皮层电图分析,但是他所在的实验室只有一份该电图分析软件的许可。他和许多一起工作的同事不得不轮流使用该软件的硬件加密狗。于是,JohnHunter 便有了开发一个工具来替代当前所使用的软件的想法。当时MATLAB被广原创 2018-01-22 15:59:14 · 3091 阅读 · 0 评论 -
matplotlib——坐标负数显示问题Unicode minus
坐标轴的负号正常显示import numpy as npimport matplotlibimport matplotlib.pyplot as plt# Fixing random state for reproducibilitynp.random.seed(19680801)# Unicode minusmatplotlib.rcParams['axes.unicod原创 2018-01-22 16:21:18 · 9120 阅读 · 0 评论 -
matplotlib——加水印
#加水印import numpy as np#import matplotlib#matplotlib.use('Agg')import matplotlib.pyplot as plt# Fixing random state for reproducibilitynp.random.seed(1462235)fig, ax = plt.subplots()ax.plot原创 2018-01-22 16:43:27 · 4349 阅读 · 0 评论 -
matplotlib——加图水印
#加图水印from __future__ import print_functionimport numpy as npimport matplotlib.cbook as cbookimport matplotlib.image as imageimport matplotlib.pyplot as plt# Fixing random state for reproducibil原创 2018-01-22 22:51:56 · 2704 阅读 · 0 评论 -
matplotlib之hist详解
hist及参数解读# -*- coding: utf-8 -*-"""Created on Sun Feb 25 18:48:52 2018@author: wanping"""import numpy as np import matplotlibimport matplotlib.mlab as mlab import matplotlib.pyplot as p...原创 2018-02-26 13:00:07 · 55679 阅读 · 10 评论 -
《Python基础教程第2版》之列表和元组
《Python数据分析基础教程:NumPy学习指南》之列表和元组Python包含6种内建序列,列表、元组、字符串、Unicode字符串、buffer对象、xrange对象,本次主要讲解前两种。Python中还有一个叫容器的数据结构,容器基本上是包含其他对象的任意对象。序列(如列表和元组)和映射(如字典)是两类主要的容器。集合(set)既不是序列也不是映射的容器类型:列表与元组的区别与联系通用序列原创 2017-07-28 15:03:23 · 541 阅读 · 0 评论 -
Pythonic Code
1、字符串拼接低效:每一步都需要建立新变量。msg = 'line1\n'msg += 'line2\n'msg += 'line3\n'高效:放进一个list,利用join连接msg = ['line1', 'line2', 'line3']'\n'.join(msg)注意:避免使用+连接字符串# slowmsg = 'hello ' + my_var + ' world...原创 2019-08-22 13:26:56 · 337 阅读 · 0 评论 -
Python对DataFrame按照一列求另一列第二大的数
我们都知道DataFrame求最大的值可以利用groupby函数,如下:>>> knn={(0,0): 0.0, (0,1): 0.18, (0,2): 0.12, (1,0): 0.10, (1,1): 0.07, (1,2): 0.16, (2,0): 0.16, (2,1): 0.09, (2,2): 0.10}>>> df = pd.DataFram...原创 2019-01-10 19:10:56 · 4572 阅读 · 0 评论 -
Python将数据写入ClickHouse
from clickhouse_driver import Client# connect ClickHouseclient = Client(host= ,port= ,user= ,database= , password=)# 得到table1中查询的数据导入table2中(database2中应该事先建立对应的table2表)query_ck_sql = """ SELEC...原创 2018-12-18 18:58:49 · 9364 阅读 · 4 评论 -
Python将数据写入MySQL
import MySQLdb# connect MySQLconn = MySQLdb.connect( host= , user= , passwd= , db= , port= , charset='utf8')cursor = conn.cursor()filter_merge_len = len(filter_merge_da...原创 2018-12-18 18:48:24 · 11935 阅读 · 0 评论 -
Python将DataFrame增加一列
from pandas import DataFramemerge_dt_dict = {'date':date_list, 'update':update_list, 'serverip':serverip_list}data_df = DataFrame(merge_dt_dict)# add one column add...原创 2018-11-07 20:01:32 · 61876 阅读 · 1 评论 -
Python构建DataFrame
from pandas import DataFrame# 利用字典merge_dt_dict = {'date':date_list, 'update':update_list, 'serverip':serverip_list}data_df = DataFrame(merge_dt_dict)原创 2018-11-07 19:58:52 · 3225 阅读 · 0 评论 -
python之selenium的坑总结
最近锁王唐唐很厉害啊,甚是迷恋,鄙人观望了小呆的微博已经两天了,路转粉,绝对铁粉,闲来无事,我要开始分析wuli唐唐了。爬取了小呆的新浪微博,赞帖,帖子内容,发帖时间,转发数,评论数,点赞数。其中,不乏入坑无数,然而,都一一克服了,不得不说,这就是小呆的力量。模拟人类自动登录记住cookie捕获当前所有窗口在这里,不得不说,新浪微博的爬取并非易事。 首先,进入”https://w...原创 2018-06-10 20:23:41 · 7276 阅读 · 2 评论 -
推荐算法之矩阵分解实例
矩阵分解的数据利用的上篇文章的数据,协同过滤用到的知识python的surprise SVD SVDpp NMF算法与结果可视化# 可以使用上面提到的各种推荐系统算法from surprise import SVD,SVDpp,NMFfrom surprise import Datasetfrom surprise import print_perfimport...原创 2018-05-14 10:18:13 · 1164 阅读 · 6 评论 -
推荐算法之协同过滤实例
接着上次的数据进行协同过滤算法应用应用的知识python的surprise R数据构建 KNNBasic KNNWithMeans KNNWithZScore数据处理与算法# 协同过滤算法数据构建user_artist_sum_weight &lt;- sqldf::sqldf('select userID,artistID, sum(weight) as play...原创 2018-05-14 10:10:32 · 2183 阅读 · 0 评论 -
pandas时间序列处理
from datetime import datetimeimport pandas as pdimport numpy as npdate_list = [datetime(2018,3,1),datetime(2018,3,2),datetime(2018,3,3),datetime(2018,3,4)]time_s = pd.Series(np.random.randn(4...原创 2018-03-31 16:01:18 · 1208 阅读 · 0 评论 -
python的时间模块
python时间模块有datetime,time,calendar模块datetime模块from datetime import datetimeimport pandas as pdnow = datetime.now()print(now)# 2018-03-31 14:29:28.480741print(type(now))# <class 'datet...原创 2018-03-31 15:08:37 · 332 阅读 · 0 评论 -
在Python中使用HTML模版的教程
在Python中使用HTML模版的教程 转载 2018-02-12 作者:廖雪峰 这篇文章主要介绍了在Python中使用HTML模版的教程,HTML模版也是Python的各大框架下的一个基本功能,需要的朋友可以参考下 Web框...转载 2018-02-12 08:40:52 · 17723 阅读 · 0 评论 -
Python中的字符串
Python String Tutorial原文:Python String Tutorial作者:Sejal Jaiswal 日期:January 18th, 2018 主要内容包括slicing、striding、 字符串不可变类型single_quote = 'Single quote allow you to e...翻译 2018-02-08 21:15:12 · 320 阅读 · 0 评论 -
Anaconda中更新库
更新Anaconda中某一库pip list outdated #查看过期的库pip install 库 --upgrade #更新指定库原创 2018-01-22 17:00:02 · 1908 阅读 · 0 评论 -
十分钟学会pandas《10 Minutes to pandas》
pandas官方网站上的《10 Minutes to pandas》点这里查看,讲解浅显易懂,本文在官网的基础上作了补充。详细的介绍请参考:Cookbook 。pandas是非常强大的数据分析包,pandas 是基于 Numpy 构建的含有更高级数据结构和工具的数据分析包。就好比 Numpy 的核心是 ndarray,pandas 围绕着 Series 和 DataFrame 两个核心数据结构展开原创 2017-09-02 19:13:44 · 4108 阅读 · 1 评论 -
安装MongoDB并安装PyCharm的MongoDB插件
本次所有安装主要是在win7上。安装MongoDB;安装第三方库Pymongo;安装PyCharm的MongoDB插件。1. 安装MongoDB1)下载MongoDB我的电脑是64位,根据情况选择版本。 安装mongodb-win32-x86_64-2008plus-ssl-3.4.7-signed.msi一路ok就可以了。2)设置MongoDB环境 我们先设置一个目录来保存数据,如果使原创 2017-08-20 09:55:58 · 23996 阅读 · 1 评论 -
python模块 - 常用模块推荐
本文转自博主皮皮http://blog.youkuaiyun.com/pipisorry/article/details/47185795python常用模块压缩字符当谈起压缩时我们通常想到文件,比如ZIP结构。在Python中可以压缩长字符,不涉及任何档案文件。 import zlibstring = """ Lorem ipsum dolor sit amet,转载 2017-05-31 16:18:58 · 2124 阅读 · 0 评论 -
Python中使用matplotlib画饼图详解
本文来自本人做的一个案例,经过比较,个人感觉Python中的matplotlib要比excel、R语言中ggplot2中画的饼图好看。解决画图中的中文乱码问题参数详解保存结果解决画图中的中文乱码问题 为防止中文乱码问题,在导入pyplot之后,可以加一句,使用如下方法:#-*- coding: utf-8 -*-from matplotlib import pyplot as plt原创 2017-05-29 00:10:27 · 52584 阅读 · 6 评论