
爬虫
ch_zs
这个作者很懒,什么都没留下…
展开
-
爬京东
import csv import requests from lxml import etree from pymongo import MongoClient class Pa_jd(): def __init__(self): self.keyword = str(input('输入搜索内容')) self.num = int(input('爬取几页?')) self.list1 = [] self.host = '127.0原创 2020-11-10 20:04:54 · 700 阅读 · 0 评论 -
数据爬取的概念和分类
爬虫中数据的分类 在爬虫爬取到数据中有很多不同类型的数据, 根据数据的不同类型有规律的提取和解析数据 结构化数据 :json , xml等 处理方式 : 直接转化为python类型 非结构化数据 : HTML 处理方式:正则表达式,xpath,BS4 结构化 : json数据的转换 #请求json数据 json_str = r.content.decode() # 转化为python的对象 python_dict = json.loads(json_str) # 逆操作(将python字典原创 2020-11-10 15:20:34 · 1785 阅读 · 0 评论 -
python 爬虫入门学习
Python 爬虫学习 requests 模块 目录: 1. requests模块的认识 2 requests发送get请求 3. requests获取响应数据 4. requests发送带headers的请求 5. requests发送带参数的请求 6. requests发送POST请求 7. requests使用代理 8. requests处理cookie 内容 一 requets 模块的认识 使用 requests 模块能够解决绝 大部分 的爬取数据的任务 就下载之后 用就完了 pycharm原创 2020-11-09 21:22:30 · 292 阅读 · 0 评论 -
Python 爬虫入门学习 处理cookie
requests 处理 cookie 一 :引入 为了能够通过爬虫获取到登录后的页面,或者是解决通过cookie的反扒,需要使用request来处理cookie相关的请求 二 :爬虫中使用cookie的利弊 带上cookie的 好处 能够访问登录后的页面 能够实现部分反反爬 带上cookie的 坏处 一套cookie往往对应的是一个用户的信息,请求太频繁有更大的可能 被对方识别为爬虫 那么上面的问题如何解决 ?使用多个账号 哈哈 三、发送请求时添加cookie 有 3 种方法: cookie字符原创 2020-11-09 21:20:48 · 531 阅读 · 1 评论