python爬虫
文章平均质量分 51
菜鸟中的Big菜鸟
这个作者很懒,什么都没留下…
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
Scrapy框架的安装+在Pycharm中项目的创建
scrapy框架的安装 pip install wheel 下载twisted,下载地址为http://www.lfd.uci.edu/~gohlke/pythonlibs/#twisted pip install pywin32 pip install scrapy 测试:在终端里录入scrapy指令,没有报错即表示安装成功!。 安装过程中遇见的错误 ‘scrapy’ 不是内部或外部命令,也不是可运行的程序 因为没有配置系统变量 解决办法 在编辑中添加scrapy的地址即可 项目的创建原创 2021-02-09 15:53:50 · 259 阅读 · 0 评论 -
异步爬虫-协程实现
单线程+异步协程 事件循环:event_loop 相当与一个无限循环,可以把我们的任务或者协程对象放进去。 loop = asyncio.get_event_loop() //获得事件循环 协程对象:我们可以将协程对象注册到事件循环中,会被事件循环 调用。 task/future任务:对协程对象的进一步封装,包含任务的各个状态。 区别生成的方式不同 task = asyncio.ensure_future('c) task = loop.create_task('c) 协程函数 :通过def原创 2021-02-06 16:47:06 · 402 阅读 · 0 评论 -
request高级-模拟人人网的登录
模拟登录 获取某些用户的信息 需求:点击人人网进行模拟登录。 - 点击登录按钮之后会发起一个post请求 - post请求中会携带登录之前录入的相关的登录信息(用户名,密码,验证码......) - 验证码:每次请求都会变化 需求:爬取当前用户的相关的用户信息(个人主页中显示的用户信息) http/https协议特性:无状态。 没有请求到对应页面数据的原因: 发起的第二次基于个人主页页面请求的时候,服务器端并不知道该此请求是基于登录状态下的请求 cookie:用来让服务器端记录客户端的相关状态。原创 2021-02-05 12:20:08 · 191 阅读 · 0 评论 -
Xpath解析
xpath解析:最常用且比较便捷的一种解析方式。通用性 xpath解析原理: –1.实例化一个etree对象,且将且需要将解析的页面的数据加载到该对象中。 –2.调用etree对象中的xpath方法结合着xpath表达式实现标签的定位和内容的捕获。 环境的安装 1.cmd方法 pip install lxml 直接在pycharm中直接安装(更简单) 如何实例化一个对象 –1.将本地文档中的源代码加载带etree对象中: etree.parse(‘fileName’) –2.可以从互联网上获原创 2021-02-04 19:38:28 · 750 阅读 · 0 评论 -
BS4应用+实例
bs4进行数据解析 -进行数解析的原理: 标签定位 提取标签,标签中属性的值 -bs4数据解析的原理: 实例化一个beautifulSbeoup的对象,并且将相关源码加载到对象中。 通过调用beautifulSbeoup对象中的相关方法进行标签的定位和数据的提取。 -环境的安装 pip install bs4 pip install lxml -如何实例化对象: from bs4 import BeautifulSoup 对象的实例化 将本地的html文档中的数据加载到该对象中 fp= op原创 2021-02-04 10:54:12 · 703 阅读 · 2 评论
分享