spider
文章平均质量分 83
ttts27
这个作者很懒,什么都没留下…
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
requests
目录今日总结一、认识爬虫1. 爬虫基本步骤2. 获取网页数据二、Request1. 如何获取网页内容2. 获取网页内容类型3. 添加客户端信息三、RequestJson 今日总结 一、认识爬虫 1. 爬虫基本步骤 爬虫就是通过代码获取别人网站上的数据 获取网页数据 - requests和自动化测试工具(Selenium) 解析数据 - 正则表达式、css选择器、xpath 存储数据 - 表格文件(csv、openpyxl)和数据库文件 2. 获取网页数据 1) 认识网站 一个网页由三个部分组原创 2021-03-29 17:33:20 · 153 阅读 · 0 评论 -
css选择器和selenium
目录今日总结一、CSS1. css代码写在哪2. css代码怎么写3. css选择器(重点)二、selenium1. selenium基本使用2. selenium基本设置3. 淘宝设置cookie三、selenium的使用1.创建浏览器对象并且加载页面2. 基本配置3. 基本使用4. 创建浏览器对象5. 访问网页6. 查找单个元素7.查找多个元素8. 元素交互动作 - 对获取的元素调用交互方法9. 交互动作 - 将动作添加到动作链中串行执行10. 执行JavaScript11. 获取元素信息12. 等待原创 2021-03-30 17:44:34 · 553 阅读 · 0 评论 -
bs4AndPyquery
目录今日总结一、代理的使用1.requests设置代理2. selenium设置代理二、selenium控制页面滚动1. 滚动相关知识了解2. selenium滚动设置三、bs4数据解析1. 准备数据2.创建BeautifulSoup解析器对象3.获取标签4. 按照指定属性值查找标签5.获取内容和属性6. 获取标签属性 今日总结 一、代理的使用 需先在代理网站购买获得API,商用代理推荐:蘑菇代理、芝麻代理、快代理、讯代理、阿布云代理 1.requests设置代理 import requests imp原创 2021-03-31 20:23:09 · 305 阅读 · 0 评论 -
xpath和pyquery
目录今日总结一、pyquery1. 获取数据(只能是html界面)2. 创建PyQuery对象3. 获取标签4. 获取标签的内容和属性二、xPath 解析0. 准备网页数据1. 创建解析器对象2. 获取节点(获取标签)三、xPath的谓词0. 准备网页数据1. 位置2. 属性3. 通配符4. 同时选取多个路径5.获取内容和属性6. 获取标签属性四、xPath的使用选取节点谓语选取未知节点选取若干路径 今日总结 一、pyquery pyquery是通过css选择器来获取网页中的标签 1. 获取数据(只能是h原创 2021-04-01 19:39:15 · 656 阅读 · 0 评论 -
爬虫知识总结
目录一、 爬虫是否违法?二、 爬虫的分类和作用?三、 爬虫怎么写?四、如何抓取动态内容?五、如何实现并发(并行)编程? 一、 爬虫是否违法? 法不禁止即为许可 隐匿自己的身份(商业IP代理) 不要被目标网站举证有破坏动产行为 尽量遵守爬虫协议(robots.txt) 二、 爬虫的分类和作用? 通用爬虫 —> 搜索引擎 定向爬虫 —> 有具体的爬取目标 对中小企业来说,数据一定是短板,要么花钱买数据,要么写爬虫 国家机器和很多的互联网产品做舆情监控基本也是通过网络爬虫来 三、 爬虫怎么写原创 2021-04-06 19:02:39 · 403 阅读 · 0 评论
分享