
爬虫爬取请求、提取信息的方法
木下瞳
这个作者很懒,什么都没留下…
展开
-
from pyquery import PyQuery as pq
了解更多关注微信公众号“木下学Python”吧~1.爬取知乎-发现-热门话题的问答:import requestsfrom pyquery import PyQuery as pqurl = 'https://www.zhihu.com/explore'headers = {'user-agent':'Mozilla/5.0 (Windows NT 10.0; WOW64)...原创 2018-09-16 22:15:14 · 4061 阅读 · 2 评论 -
from lxml import etree 遇到的提取问题
了解更多关注微信公众号“木下学Python”吧~目录爬取结构url_info.xpath('string(.)').strip():url_info.xpath('//*[@id="info"]/text()[2]'):url_info.xpath('//h1[@class="title"]/text()'):当 url_info.xpath('') 路径没问题的时候...原创 2018-07-14 11:12:15 · 8103 阅读 · 0 评论 -
import re 遇到的提取问题
了解更多关注微信公众号“木下学Python”吧~文档:https://docs.python.org/3.6/howto/regex.html目录1.常见的正则字符和转义2.爬取结构3.re.findall('正则表达式',匹配内容,re.S(换行匹配))4.获取标签中的url5.compile() 和 findall() 详解6.匹配问题:7.正则匹配的...原创 2018-07-14 11:09:58 · 2121 阅读 · 0 评论 -
BeautifulSoup 遇到的提取问题
了解更多关注微信公众号“木下学Python”吧~1.安装库并导入安装这个库是pip install bs4,不是BeautifulSoup,导入为‘from bs4 import BeautifulSoup’2.适用情况例如要爬取简书网热评,每一篇文章都对应有消息,当有些有打赏,有些没有,这样匹配出来的数据就会对应不上,就如 1号没有打赏,但2号...原创 2018-07-14 11:04:32 · 2647 阅读 · 0 评论 -
css选择器,内置库 cssselect
目录表达式及示例:常用选择:提取文本内容:提取 url:提取 这种属性值有空格的情况表达式及示例:https://blog.youkuaiyun.com/qq_33472765/article/details/80843252https://blog.youkuaiyun.com/qq_33472765/article/details/80740097https://www...原创 2018-12-28 21:51:52 · 546 阅读 · 0 评论