- 博客(7)
- 收藏
- 关注
原创 数据储存学习小结(1)文件储存
TXT文本储存 # 保存知乎上“发现”页面的“热门话题”的问题与答案 import requests from pyquery import PyQuery as pq url = 'https://www.zhihu.com/explore' headers = { 'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) App...
2019-01-31 15:14:14
247
原创 解析库的学习小结(3)pyquery学习
pyquery 初始化 字符串初始化 html = ''' <div> <ul> <li class="item-O">first item</li> <li class="item-1"><a
2019-01-31 09:32:37
174
原创 解析库的学习小结(2)bs4学习
BeautifulSoup 解析器 使用方法 python标准库 BeautifulSoup(markup, “html.parser”) lxml HTML解析器 BeautifulSoup(markup, “lxml”) lxml XML解析器 BeautifulSoup(markup, “xml”) html5lib BeautifulSoup(markup, “...
2019-01-30 20:16:41
215
原创 解析库的学习小结(1)XPath学习
XPath学习 常用匹配规则 表达式 描述 nodename 选取此节点的所有子节点 / 从当前节点选取直接子节点 // 从当前节点选取子孙节点 . 选取当前节点 .. 选取当前节点的父节点 @ 选取属性 ...
2019-01-30 10:05:01
232
原创 学习抓取猫眼电影排行
抓取目标https://maoyan.com/board/4猫眼电影TOP100的电影信息 使用requests和正则表达式 抓取分析 站点url为https://maoyan.com/board/4,打开看到榜单信息等 跳转第二页url变为https://maoyan.com/board/4?offset=10,第三页https://maoyan.com/board/4?offset=20,对...
2019-01-29 14:43:43
385
原创 正则表达式学习小结
常用语法表 语法 描述 . 匹配任何字符,除了换行符 \w 匹配总目,数字及下划线 \W 匹配不是字母,数字及下划线的字符 \s 匹配任意空白字符,等价于[\t\n\r\f] \S 匹配任意非空字符 \d 匹配任意数字,等价于[0-9] \D 匹配任意非数字的字符 \A 匹配字符串开头 \b 匹配·一个字边界, 即字与空格间的位置 \B 非字边界...
2019-01-29 09:50:51
239
原创 Requests的学习使用小结
基本用法 1. GET请求 基本案例 import requests r = requests.get('http://www.baidu.com') print(r.text) 返回结果应该是一个H5的文档树 另外,网页的返回类型实际上是str类型,但是它很特殊,是JSON 格式的。所以,如果想直接 解析返回结果,得到一个字典格式的话,可以直接调用json()方法。 import re...
2019-01-28 15:19:02
395
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人
RSS订阅