
爬虫基础
文章平均质量分 51
是个小轮胎
时间酿酒,余味成花
展开
-
pycrul 安装报错问题
pip install pycrul 安装报错问题: ERROR: Command errored out with exit status 10: python setup.py egg_info Check the logs for full command output. 解决方法: 可以在国内网站搜索到并下载: https://pypi.tuna.tsinghua.edu.cn/simple/pycurl/ 下载后使用pip install XXX能够解决该问题。 ...原创 2021-05-24 09:48:52 · 212 阅读 · 0 评论 -
scrapy框架的第一个爬虫实例
访问:https://python123.io/ws/demo.html 产生步骤: 步骤一:简历一个Scrapy爬虫工程 步骤二:在工程中产生一个Scrapy爬虫 步骤三:配置产生的Spider爬虫,使它满足需求 步骤四:运行,获取网页 一; 1.新建文件夹pycodes 文件中会自动生成各种模块: python123demo/-------------外层目录 -----介绍了内部的各种目录的功能 二; 这样在命令行命令下,就生成了一个文件: 打开: 三; 修改DEMO 我们这个例程的目的是:原创 2021-05-22 18:24:45 · 154 阅读 · 0 评论 -
爬虫基础
爬取网页信息: import urllib.request resp=urllib.request.urlopen('http://www.baidu.com') html=resp.read() print(html) 解读:urlopen方法–urlopen(url, data, timeout) 三个参数: 第一个参数 url 即为 URL, 第二个参数 data 是访问 URL 时要传送的数据, 第三个 timeout 是设置超时时间 请求 请求方法:get 和 post get———ht原创 2021-05-18 14:02:42 · 582 阅读 · 0 评论 -
信息组织与提取方法
HTML 超文本标记语言 1.XML —与html 很接近的标记语言。以标签为主构建表达信息 缩写形式: 注释: <! > 2. json 在 javascript 中面向对象的一种表达形式 ------有类型的键值对 多值情况下: 嵌套格式: 3. YAML 用- 号 表示并列关系 总结: 无类型键值对;并列关系;键值对可嵌套 以上三种信息标记方法介绍。 比较三种实例展现: XML JSON YANL 区别: ...原创 2021-05-16 19:33:42 · 125 阅读 · 0 评论 -
BS库的基本元素与遍历方法
解析HTML页面信息标记与提取方法: Beautiful soup 库 —第三方python库 导入并解析: 即源代码的呈现 打印: print(soup.prettify() ) 对美丽汤的理解: 解析、遍历、维护“标签数”的功能库 BS 的解析库:bs4的HTML 解析库 等4个 格式:BeautifulSoup(mk,’ html.parser’) BS 类基本元素: 代码实现: 说明: 先做汤 查看页面的title 获取a标签的链接标签(其实文本存在两个a标签) 通过Na原创 2021-05-16 11:40:44 · 929 阅读 · 0 评论 -
爬取网页的通用代码框架
爬取网页的通用代码框架 爬取网页:小规模,数据量小 用Request库 (占比大) 爬取网站: 中规模,速度要快,用Scrapy库 爬取全网:比如搜索引擎,大规模,定制开发 服务器对其的限制:1.来源审查 —判断User-Agent进行限制 2.发布公告— Robots 协议 查看如京东的Robots.txt协议: 爬取应该遵守ROBOTS协议。 人类行为可以不参考此协议。 [外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-Z62y1C1M-1621072242原创 2021-05-15 17:51:38 · 254 阅读 · 0 评论