
Python那些事
文章平均质量分 78
happyJared
保持勤學習的心,做好寫代碼這事
展开
-
Python 中的 is 和 == 以及字符串驻留机制
is 和 == 先了解下官方文档中关于 is 和 == 的概念。is 表示的是对象标示符(object identity),而 == 表示的是相等(equality);is 的作用是用来检查对象的标示符是否一致,也就是比较两个对象在内存中的地址是否一样(相当于检查 id(a) == id(b)),而 == 是用来检查两个对象引用的值是否相等(相当于检查 a.eq(b));这点和Java有点类...原创 2018-07-03 08:58:44 · 915 阅读 · 0 评论 -
爬虫进阶:Scrapy 抓取科技平台 Zealer
开篇 这次的目标网站也是本人一直以来有在关注的科技平台:Zealer,爬取的信息包括全部的科技资讯以及相应的评论。默认配置下运行,大概跑了半个多小时,最终抓取了5000+的资讯以及10几万的评论。说明及准备 开发环境:Scrapy、Redis、PostgreSQL 数据库表:tb_zealer_series、tb_zealer_media、tb_zealer_comm...原创 2018-09-03 22:20:43 · 460 阅读 · 2 评论 -
Python 中的 ORM 工具:SQLAlchemy
ORM全称Object Relational Mapping, 翻译过来叫对象关系映射。在Python生态中,目前较为流行的ORM模块有SQLAlchemy和peewee,类比Java中有Hibernate和MyBatis。本文关注SQLAlchemy的快速上手,展示一个简单的 CRUD 示例,并结合使用 Faker 生成测试数据。环境说明python v3.6.5sqlalchemy v...原创 2018-09-21 15:03:24 · 347 阅读 · 0 评论 -
Python 中的 ORM 工具:Peewee
无论是安装包形式还是基于Docker,搭建Elasticsearch集群环境还是较为简单的,实操的时候还遇到过一丢小问题,本文用于记录下操作过程。运行先用docker分别启动两个es服务,由于后面需要进行配置,这里假设es1所在的机器公网ip为:123.11.23.1,es2所在机器ip:123.11.23.2 # 运行ES1 docker run --name es1 -e "ES_JA...原创 2018-09-21 18:38:58 · 586 阅读 · 0 评论 -
爬虫进阶:Scrapy 抓取 boss 直聘、拉勾心得经验
关于使用Scrapy的体会,最明显的感受就是这种模板化、工程化的脚手架体系,可以说是拿来即可开箱便用,大多仅需按一定的规则套路配置,剩下的就是专注于编写跟爬虫业务有关的代码。绝大多数的反反爬虫策略,大多有以下几种:忽略robots.txt协议添加随机请求头,如cookie、user-agent等sleep休眠控制并发请求数、设置页面下载延迟验证码识别(靠谱)使用ip代理池(最靠谱)...原创 2018-09-28 13:25:31 · 5311 阅读 · 3 评论 -
12张思维导图告诉你 - Python 数据科学知识体系【 Numpy、Pandas、Matplotlib 】
以简单、直观、清晰的思维导图方式,帮助大家学习和回顾Python数据科学知识体系,原创作者是个萌妹纸。Numpy (一)Numpy (二)Numpy (三)Pandas (数据结构)Pandas (索引对象)Pandas (基本运算)Pandas (IO编程)Pandas (数据规整化)Pandas (数据聚合分组)...转载 2018-10-12 19:55:00 · 2121 阅读 · 0 评论 -
7张思维导图告诉你 - Python 标准库知识体系【 正则、日期、数据库、进程线程... 】...
以简单、直观、清晰的思维导图方式,帮助大家学习和回顾Python标准库知识体系,原创作者是个萌妹子。1. 标准库概述2. 正则表达式3. 期 & 时间4. 系统 & 文件5. 进程 & 线程6. 数据库操作7. 数学运算 & 数据结构原文链接压缩包下载欢迎关注我的个人公众号:超级码里奥如果这对您有...转载 2018-10-12 19:55:00 · 558 阅读 · 0 评论 -
4张思维导图告诉你 - Python 爬虫知识体系
以简单、直观、清晰的思维导图方式,帮助大家学习和回顾Python爬虫知识体系,原创作者是一枚软萌妹子。1. 爬虫基础知识2. Requests库3. BeautifulSoup & urllib4. Scrapy爬虫框架原文链接压缩包下载欢迎关注我的个人公众号:超级码里奥如果这对您有帮助,欢迎点赞和分享,转载请注明出处...转载 2018-10-12 11:53:00 · 1858 阅读 · 0 评论 -
17幅思维导图告诉你 - Python 核心知识体系
以简单、直观、清晰的思维导图方式,帮助大家学习和回顾Python核心知识体系,原创作者还是一枚软萌妹纸。1. 计算机基础2. Python语言基础3. 标准数据类型 (一) 数值 & 字典 & 集合4. 标准类型补充5. 标准数据类型 (二) 序列对象6. 标准数据类型 (三) 字符串7. 条件 & 循环8...转载 2018-10-12 11:52:00 · 7156 阅读 · 0 评论 -
爬虫进阶:Scrapy 抓取慕课网
前言 Scrapy抓取慕课网免费以及实战课程信息,相关环境列举如下:scrapy v1.5.1redispsycopg2 (操作并保存数据到PostgreSQL)数据表 完整的爬虫流程大致是这样的:分析页面结构 -> 确定提取信息 -> 设计相应表结构 -> 编写爬虫脚本 -> 数据保存入库;入库可以选择mongo这样的文档数据库,也可以选择...原创 2018-09-02 20:49:27 · 738 阅读 · 0 评论 -
爬虫进阶:Scrapy 入门
进阶前言 学Py和写爬虫都有很长一段时间了,虽然工作方面主要还是做Java开发,但事实上用python写东西真的很爽。之前都是用Requests+BeautifulSoup这样的第三方库爬一些简单的网站,好处简单上手快,坏处也明显,单线程速度慢,偶尔想要跑快点还得自己写多线程或者多进程。其实早已久仰Scrpay大名,无奈一直没有主动去接触,前不久买了一本相关的书籍,看完之后便陆陆续续试手了几...原创 2018-09-01 21:42:23 · 247 阅读 · 0 评论 -
Python 爬取微信公众号文章和评论 (基于 Fiddler 抓包分析)
背景说明 感觉微信公众号算得是比较难爬的平台之一,不过一番折腾之后还是小有收获的。没有用Scrapy(估计爬太快也有反爬限制),但后面会开始整理写一些实战出来。简单介绍下本次的开发环境: - python3 - requests - psycopg2 (操作postgres数据库)抓包分析 前一篇文章介绍过抓包前要做的准备,这里不再做相关说明。本次实战对抓取的公众号没有限...原创 2018-08-28 20:02:04 · 23128 阅读 · 31 评论 -
Python 学习资源整理
官方链接Python官网 Pip在线资源菜鸟教程 慕课网 极客学院 伯乐在线 网易云课堂 实验楼Web开发Django Flask Sanic Tornado webpy Bottle网页爬虫网页抓取 urllib Requests 网页解析 BeautifulSoup lxml PyQuery 自动化框架 Selenium...原创 2018-03-23 22:21:00 · 238 阅读 · 0 评论 -
Python + Selenium 自动发布文章(一):开源中国
Python + Selenium 自动发布文章系列:Python + Selenium 自动发布文章(一):开源中国Python + Selenium 自动发布文章(二):简书Python + Selenium 自动发布文章(三):优快云Python + Selenium 自动发布文章(四):加入 bat 脚本写在开始 还是说说出这个系列的起因吧。之前写完或是修改了Markdow...原创 2018-05-18 15:12:00 · 3101 阅读 · 1 评论 -
Python + Selenium 自动发布文章(四):加入 bat 脚本
Python + Selenium 自动发布文章系列:Python + Selenium 自动发布文章(一):开源中国Python + Selenium 自动发布文章(二):简书Python + Selenium 自动发布文章(三):优快云Python + Selenium 自动发布文章(四):加入 bat 脚本写在前面 这是本系列的第四篇文章,同时也是最后一篇。有关于Bat脚本和...原创 2018-05-19 16:10:00 · 711 阅读 · 0 评论 -
Python + Selenium 自动发布文章(三):优快云
Python + Selenium 自动发布文章系列:Python + Selenium 自动发布文章(一):开源中国Python + Selenium 自动发布文章(二):简书Python + Selenium 自动发布文章(三):优快云Python + Selenium 自动发布文章(四):加入 bat 脚本写在开始 这是本系列的第三篇文章,主要介绍如何用Python+Sele...原创 2018-05-19 08:41:00 · 1145 阅读 · 0 评论 -
Python + Selenium 自动发布文章(二):简书
Python + Selenium 自动发布文章系列:Python + Selenium 自动发布文章(一):开源中国Python + Selenium 自动发布文章(二):简书Python + Selenium 自动发布文章(三):优快云Python + Selenium 自动发布文章(四):加入 bat 脚本写在开始 本篇介绍用Python+Selenium 自动发布简书文章,...原创 2018-05-18 15:14:00 · 708 阅读 · 1 评论 -
用 Python 统计你的简书数据
写在前面 说来也巧,之前有一次无意间留意到简书好像没有做文章总阅读量的统计(准确的说法应该叫展示),刚好最近有时间,趁这个机会就用Python写了这么个功能,既是学习也是练手。展示效果 再继续往下之前,先贴两张图看看最终的效果。第一张图片展示的是个人简书爬取后的数据,第二张可是大名鼎鼎简叔的简书数据。 两图一对比,果然这数量和质量都不是一个等级的,不过后生会继续努力的...原创 2018-05-23 07:44:00 · 501 阅读 · 0 评论 -
用 Python 快速分析你的微信好友
写在前面 itchat基于python开发,封装了大量调取微信功能的接口,使得开发人员可以快速基于这个框架来完成一些微信操作,在这之前我们要做的就是扫码登录,实际上这相当于登录网页版的微信(新注册的账号似乎不支持)。更多介绍在官网和Github上都有详细的文档。 下面介绍基于itchat完成微信数据(好友、群聊等)的分析和展示。环境说明python3numpymatp...原创 2018-08-27 17:36:54 · 582 阅读 · 5 评论 -
Python 程序打包工具:py2exe 和 PyInstaller
通常执行 python 程序要有相应的 Python 环境,但某些特定场景下,我们可能并不愿意这么麻烦的去配置这些环境(比如将写好的脚本发给客户进行操作),如果可以提前将程序打包成 Windows平台的 .exe 文件或者是Linux下的 .sh 脚本,那么使用起来就会方便很多,py2exe 和 PyInstaller 这两款工具都是干这么个事的,下面以 hello.py 脚本(代码内容如下)为例...原创 2019-03-01 10:58:22 · 462 阅读 · 0 评论