xytwo-优快云博客

原创数据储存学习小结(1)文件储存

TXT文本储存 # 保存知乎上“发现”页面的“热门话题”的问题与答案 import requests from pyquery import PyQuery as pq url = 'https://www.zhihu.com/explore' headers = { 'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) App...

2019-01-31 15:14:14 247

原创解析库的学习小结(3)pyquery学习

pyquery 初始化字符串初始化 html = ''' &lt;div&gt; &lt;ul&gt; &lt;li class="item-O"&gt;first item&lt;/li&gt; &lt;li class="item-1"&gt;&lt;a

2019-01-31 09:32:37 174

原创解析库的学习小结(2)bs4学习

BeautifulSoup 解析器使用方法 python标准库 BeautifulSoup(markup, “html.parser”) lxml HTML解析器 BeautifulSoup(markup, “lxml”) lxml XML解析器 BeautifulSoup(markup, “xml”) html5lib BeautifulSoup(markup, “...

2019-01-30 20:16:41 215

原创解析库的学习小结(1)XPath学习

XPath学习常用匹配规则表达式描述 nodename 选取此节点的所有子节点 / 从当前节点选取直接子节点 // 从当前节点选取子孙节点 . 选取当前节点 .. 选取当前节点的父节点 @ 选取属性 ...

2019-01-30 10:05:01 232

原创学习抓取猫眼电影排行

抓取目标https://maoyan.com/board/4猫眼电影TOP100的电影信息使用requests和正则表达式抓取分析站点url为https://maoyan.com/board/4，打开看到榜单信息等跳转第二页url变为https://maoyan.com/board/4?offset=10，第三页https://maoyan.com/board/4?offset=20，对...

2019-01-29 14:43:43 385

原创正则表达式学习小结

常用语法表语法描述 . 匹配任何字符，除了换行符 \w 匹配总目，数字及下划线 \W 匹配不是字母，数字及下划线的字符 \s 匹配任意空白字符，等价于[\t\n\r\f] \S 匹配任意非空字符 \d 匹配任意数字，等价于[0-9] \D 匹配任意非数字的字符 \A 匹配字符串开头 \b 匹配·一个字边界，即字与空格间的位置 \B 非字边界...

2019-01-29 09:50:51 239

原创 Requests的学习使用小结

基本用法 1. GET请求基本案例 import requests r = requests.get('http://www.baidu.com') print(r.text) 返回结果应该是一个H5的文档树另外，网页的返回类型实际上是str类型，但是它很特殊，是JSON 格式的。所以，如果想直接解析返回结果，得到一个字典格式的话，可以直接调用json()方法。 import re...

2019-01-28 15:19:02 395

qq_43533532的博客