
爬虫
爬爬爬,我要捉虫子
sliver_goup
没有理想就不配哭泣
展开
-
爬取华为手机数据(六)
所用软件我发现这个工具对于爬取测试是不错的,相比于Pycharm而言,工具的选择也是很重要的,合作共赢。参考的学习来源参考B站上的https://www.bilibili.com/video/BV1qp4y1X7yX?t=2198,学习效率更好一点。(嘿嘿,在人家辛苦的创作获取了知识,必须推广一波)代码就不详细解释,多练很重要。爬爬爬(我的代码是在)到达指定页面,手动登录吧(我的淘宝必须得扫码登录)from selenium import webdriverurl = 'https:原创 2021-03-02 23:28:08 · 1214 阅读 · 1 评论 -
爬虫(五)
这个小箭头,点击你想要看的位置,就会跳到你想要的标签。根据下图可以写出xpath,//*[@id=“primaryChannelMenu”]/span[3]/div/a/span/text()’,# 导入模块import requestsfrom lxml import etree# 指定urlurl = 'https://www.bilibili.com/'# 伪装头header = { 'User-Agent':'Mozilla/5.0 (Windows NT 10.0; W原创 2021-03-02 23:27:51 · 142 阅读 · 0 评论 -
爬虫(四)
简单解释url = http://www.win4000.com/zt/dongman.html没错,要对这个网址下手了首先导入我们的requests模块,先设好url和响应头信息。import requests# 指定第一个urlurl = 'http://www.win4000.com/zt/dongman.html'# 指定伪装头headers = { 'User-Agent':'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit转载 2021-01-12 17:14:37 · 386 阅读 · 1 评论 -
爬虫(三)
对一些名词的了解红色图框就是专门捕获动态响应数据的地方下面这个url,就是我们需要的功能的url。From Data,这个东西就是发送给服务器的参数爬有道翻译,熟悉流程# !/usr/bin/env python# _*_ coding:utf-8 -*-import requestsimport jsonclass translation(object): def __init__(self, word): self.url = 'http://fan原创 2021-01-12 17:12:32 · 128 阅读 · 0 评论 -
爬虫(二)
找到User-Agent指定url:url = ‘https://www.baidu.com/s?wd’+wd(要搜索的内容)在下图可看到user-agent爬取页面代码,有具体详解:import requests#常用请求头信息#User-Agent:请求载体的身份标识(伪装身份的道具)#Connection:请求完毕后,是断开连接还是保持连接header={ 'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWe转载 2021-01-12 17:06:19 · 117 阅读 · 0 评论 -
爬虫(一)
爬虫分类抓取数据的范围分类全网爬虫:用于抓取整个互联网的数据,主要用于搜索引擎;站内爬虫:抓取站内的网络资源,主要用于企业内部搜索引擎的数据源;定向爬虫:只关心特定的数据,应用相当广泛。抓取的内容与方式分类网页文本爬虫图像爬虫JS爬虫异步数据爬虫处理验证码登陆的爬虫抓取其他的爬虫编写第一个网络爬虫#引入模块import requests#要爬取的链接,指定urlurl = 'https://www.baidu.com/'#发出请求(get方法会返回一个响应对象)respo原创 2021-01-12 17:04:28 · 124 阅读 · 0 评论