python
CoolScript
这个作者很懒,什么都没留下…
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
Beautiful Soup
beautiful soup 4 basic from bs4 import BeautifulSoup from pprint import pprint import re ...... soup = BeautifulSoup(html_doc, features='lxml') print(soup.prettify()) find pprint(soup.find('a').con...原创 2018-09-23 22:29:06 · 238 阅读 · 0 评论 -
python 元类编程
元类编程 装饰器 任何时候你定义装饰器的时候,都应该使用 functools 库中的 @wraps 装饰器来注解底层包装函数. 因为一个装饰器作用在某个函数上,这个函数的重要的元信息比如名字、文档字符串、注解和参数签名都会丢失。 import time from functools import wraps def timethis(func): ''' Decorator ...原创 2019-08-05 16:32:45 · 219 阅读 · 0 评论 -
python多线程
python多线程深入理解基本使用EventSemaphore 基本使用 join()方法用来阻塞主线程。可以注释掉、看看打印顺序。 import threading import time def test(n): time.sleep(1) print(n) t = threading.Thread(target=test, args=(7,)) t.start() t.j...原创 2019-06-29 00:25:53 · 246 阅读 · 0 评论 -
python 数据存储
文章目录python常用数据存储方法txtjsoncsvmsyql安装pymysql连接建库建表插入删除修改查询mongodb安装连接建库建文档增删改查redis安装连接操作公用方法字符串列表集合有序集合散列 python常用数据存储方法 txt with open('test.txt','w',encoding='utf8') as f: f.write('sdfasdf'+'\n') ...原创 2019-05-17 09:19:45 · 497 阅读 · 0 评论 -
python正则表达式
python 正则表达式 转发自“Echo_fy 发表于 https://cloud.tencent.com/developer/article/1149679” 文章目录python 正则表达式1、正则解说2、中文字符集3、re模块常用方法 1、正则解说 数量词的贪婪模式与非贪婪模式 正则表达式通常用于在文本中查找匹配的字符串。Python里数量词默认是贪婪的(在少数语言里也可能是默认非...转载 2019-05-21 10:54:38 · 645 阅读 · 0 评论 -
scrapy常用settings.py
settings.py scrapy的配置有点多,这里列出常用的选项 # 控制日志级别 (ERROR WARNING INFO DEBUG) LOG_LEVEL = 'DEBUG' # LOG_FILE = 'scrapy.log' # 自定义 超时 时间 DOWNLOAD_TIMEOUT = 15 # 不遵守 robots 协议 ROBOTSTXT_OBEY = False # 不...原创 2019-05-09 19:07:54 · 349 阅读 · 0 评论 -
selenium爬取 阿里巴巴 商品目录页面
仅仅是获取商品目录,不需要登陆 逻辑很简单,打开首页,点击更多,逐层把目录的内容爬下来,同时编好关联的ID 注意: 使用mongodb存储(因为不需要先建库,省事儿) tqdm添加进度条,好看点 不加载图片 无头浏览器 忽略一些警告 模拟手机 from selenium import webdriver from scrapy import Selector import time impor...原创 2019-04-17 09:15:25 · 1181 阅读 · 0 评论 -
selenium爬取新浪微博
逻辑很简单,先登录之后,搜索一个关键字,爬取内容 注意 使用mongodb数据库,注意update_one自带去重。 tqdm添加进度条 无头浏览器 不加载图片 使用scrapy的selector解析页面 from selenium import webdriver from scrapy import Selector import time import pymongo from tqd...原创 2019-04-17 09:08:12 · 1701 阅读 · 1 评论 -
003 pandas 数据清洗常用
操作数据库实例 import pandas as pd from sqlalchemy import create_engine conn = create_engine( 'mysql+pymysql://root:xxxxxx@localhost:3306/testdb?charset=utf8') # 从数据库读取 # data = pd.read_sql('select * f...原创 2019-04-01 18:18:03 · 212 阅读 · 0 评论 -
002 pandas初步数据清洗
文章目录删除 dropna()填充 fillna()Python字符串处理pandas字符串处理 删除 dropna() 填充 fillna() Python字符串处理 pandas字符串处理原创 2019-03-06 19:40:41 · 894 阅读 · 1 评论 -
Python3.5升级3.6
Python3.5升级3.6 apt-get remove --purge python3.5* -y apt install python3.6 -y 确认一下软连接 cd /usr/bin rm python3 ln -s python3.6 python3 然后执行以下 wget https://bootstrap.pypa.io/get-pip.py sudo python3.6 ge...原创 2019-03-08 18:46:08 · 5985 阅读 · 0 评论 -
001 pandas 输入输出文件
文章目录pandas 读写文件pandas读取文件read_csv/read_table参数 pandas 读写文件 pandas读取文件 read_csv/read_table参数原创 2019-03-05 16:04:28 · 5347 阅读 · 0 评论 -
同时操作多个表
某次数据处理时候,需要把一张大表切分到 多个小表中。 import pymysql db = pymysql.connect("xx.xx.xx.xx", "root", "root", "backup3") cursor = db.cursor() # 对原来存在的很多小表批量操作 db_name = 'backup3' sql_get_all_tables = f"select tabl...原创 2019-03-05 11:38:52 · 581 阅读 · 0 评论 -
切割地址,手机号归属地,IP归属地
手机号码 获取 归属地 pip install phone from phone import Phone P = Phone() def get_pc(ss): # s : '13565656565' # get provice and city try: res = P.find(ss) if res: pr...原创 2019-03-05 11:29:44 · 419 阅读 · 0 评论 -
matplotlib 常见用法
简单的用法,常用于数据分析。 如果你想要炫酷,请移步隔壁 javascript matplotlib先绘制一个底板一次性绘制多个图方法一方法二四种常见的图形三维图 先绘制一个底板 # 绘制一个底板 import matplotlib.pyplot as plt plt.figure(figsize=(5,3),dpi=144) plt.title('hello world') plt.show...原创 2019-08-05 20:54:32 · 422 阅读 · 0 评论
分享