自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(7)
  • 收藏
  • 关注

原创 数据储存学习小结(1)文件储存

TXT文本储存 # 保存知乎上“发现”页面的“热门话题”的问题与答案 import requests from pyquery import PyQuery as pq url = 'https://www.zhihu.com/explore' headers = { 'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) App...

2019-01-31 15:14:14 247

原创 解析库的学习小结(3)pyquery学习

pyquery 初始化 字符串初始化 html = ''' <div> <ul> <li class="item-O">first item</li> <li class="item-1"><a

2019-01-31 09:32:37 174

原创 解析库的学习小结(2)bs4学习

BeautifulSoup 解析器 使用方法 python标准库 BeautifulSoup(markup, “html.parser”) lxml HTML解析器 BeautifulSoup(markup, “lxml”) lxml XML解析器 BeautifulSoup(markup, “xml”) html5lib BeautifulSoup(markup, “...

2019-01-30 20:16:41 215

原创 解析库的学习小结(1)XPath学习

XPath学习 常用匹配规则 表达式 描述 nodename 选取此节点的所有子节点 / 从当前节点选取直接子节点 // 从当前节点选取子孙节点 . 选取当前节点 .. 选取当前节点的父节点 @ 选取属性 ...

2019-01-30 10:05:01 232

原创 学习抓取猫眼电影排行

抓取目标https://maoyan.com/board/4猫眼电影TOP100的电影信息 使用requests和正则表达式 抓取分析 站点url为https://maoyan.com/board/4,打开看到榜单信息等 跳转第二页url变为https://maoyan.com/board/4?offset=10,第三页https://maoyan.com/board/4?offset=20,对...

2019-01-29 14:43:43 385

原创 正则表达式学习小结

常用语法表 语法 描述 . 匹配任何字符,除了换行符 \w 匹配总目,数字及下划线 \W 匹配不是字母,数字及下划线的字符 \s 匹配任意空白字符,等价于[\t\n\r\f] \S 匹配任意非空字符 \d 匹配任意数字,等价于[0-9] \D 匹配任意非数字的字符 \A 匹配字符串开头 \b 匹配·一个字边界, 即字与空格间的位置 \B 非字边界...

2019-01-29 09:50:51 239

原创 Requests的学习使用小结

基本用法 1. GET请求 基本案例 import requests r = requests.get('http://www.baidu.com') print(r.text) 返回结果应该是一个H5的文档树 另外,网页的返回类型实际上是str类型,但是它很特殊,是JSON 格式的。所以,如果想直接 解析返回结果,得到一个字典格式的话,可以直接调用json()方法。 import re...

2019-01-28 15:19:02 395

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除