
python爬虫
反余弦函数
这个作者很懒,什么都没留下…
展开
-
execjs执行call出错
https://www.cnblogs.com/yusilu-2653144/p/16626661.html原创 2023-05-26 09:25:10 · 406 阅读 · 0 评论 -
爬取某地天气存入数据库
爬取某地天气存入数据库原创 2023-01-06 10:35:57 · 417 阅读 · 0 评论 -
python爬虫中文出现乱码问题
python爬虫中文出现乱码问题原创 2023-01-06 09:30:00 · 300 阅读 · 0 评论 -
爬取某视频网站的电影
通过抓包爬取某视频网站的电影burpsuite工具1. 先使用抓包工具进行抓包分析,得到对应的接口2. 直接用requests库来请求响应数据3. 存入数据库代码from functools import reduceimport pymysqlimport requestsimport json# 链接数据库def connectdatabase(): conn = pymysql.connect( host='127.0.0.1', us原创 2021-11-24 14:04:14 · 1960 阅读 · 2 评论 -
使用CrawlSpider爬取糗事百科段子
CrawlSpider深度爬取CrawlSpider是什么:crawlspider也是一个spider,是spider的一个子类,所以其功能要比Spider要强大。多的功能是:提取链接的功能,根据一定的规则,提取指定的链接。链接提取器:LinkExtractor( allow = xxx, # 正则表达式,要(*) deny = xxx, # 正则表达式,不要这个 restrict_xpaths = xxx, # xpath路径(*) restrict_css = xxx, # 选择器(*原创 2021-07-30 22:13:29 · 160 阅读 · 0 评论 -
scrapy日志信息等级
基础配置scrapy中的日志信息在settings.py文件中:日志信息等级有:CRITICAL:严重错误ERROR:一般错误WARRING:警告INFO:一般的信息DEBUG:调试信息(默认)设置错误显示级别:LOG_LEVEL='ERROR' # 只有程序有错误才会在屏幕或者文件里面显示# 将日志信息写到文件中,不会在屏幕中显示LOG_FILE = 'LOG.txt'...原创 2021-07-29 12:35:38 · 596 阅读 · 0 评论 -
scrapy发送post请求
scrapy发送post请求百度翻译代码如下:spiders/fanyi.py文件:import jsonimport scrapyclass FanyiSpider(scrapy.Spider): name = 'fanyi' allowed_domains = ['fanyi.baidu.com/'] # start_urls = ['https://fanyi.baidu.com//'] def start_requests(self):原创 2021-07-29 12:23:25 · 587 阅读 · 0 评论 -
使用scrapy下载漂亮小姐姐图
scrapy下载图片使用scrapy下载妹纸图片直接上代码:items.py文件中# Define here the models for your scraped items## See documentation in:# https://docs.scrapy.org/en/latest/topics/items.htmlimport scrapyclass MzituprojectItem(scrapy.Item): # define the fields for your原创 2021-07-20 21:24:54 · 157 阅读 · 0 评论 -
爬虫之Scrapy框架
Scrapy框架基础知识安装pip install scrapy # 我用的pycharm是2021.1.2专业版,不知道其它软件是否需要安装其他东西扩展错误解决安装错误解决buliding 'twisted.test.raiser' extension error:Miscrosoft Visual C++ Bulid Tools:"http://landinghub.visualstudio.com/visual-cpp-bulid-tools解决方案http://www.lfd.u原创 2021-07-19 22:22:00 · 138 阅读 · 0 评论 -
使用requests爬取8684公交线路
爬取湖北部分公交线路代码示例import reimport requests # 如果没有需要安装requestsfrom lxml import etreefrom bs4 import BeautifulSoup# 爬取湖北湖北宜昌公交的基本urlbase_url = 'https://yichang.8684.cn'headers = { 'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKi原创 2021-07-05 17:42:00 · 2645 阅读 · 0 评论 -
UnicodeDecodeError: ‘utf-8‘ codec can‘t decode byte 0xcd in position 149: invalid continuation byte
UnicodeDecodeError: ‘utf-8’ codec can’t decode byte 0xcd in position 149: invalid continuation byte关于这个问题:我以前也找了一些资料,最后均已失败告终,但是当我在做爬虫时,经常会遇见这个问题,所以我不得不解决。import urllib.request # 这是我一开始导入的东西解析响应数据是这么写的:resp = urllib.request.urlopen(headers=headers,ur原创 2021-06-29 22:30:02 · 530 阅读 · 0 评论 -
python爬虫之图片的懒加载
图片的懒加载使用xpath获取图片:代码:import osimport urllib.requestimport urllib.parsefrom lxml import etreedef hanlderequest(url,page): headers = { 'User-Agent':'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/原创 2021-06-29 18:21:28 · 1175 阅读 · 0 评论 -
python爬虫之爬取好段子网之xpath运用
xpath的运用前提条件:(1)需要pip install lxml(2)from lxml import etree(3)本地文件:tree = etree.parse(文件名)(4)网络文件:tree = etree.HTML(网页字符串)(5)ret = tree.xpath(),[注]:ret是一个列表这样就可以使用了。1.xpath的基础知识:(1).常用的路径表达式: //:不考虑位置的查找 ./:从当前结点开始往下查找 @:选取属性(2).实例: /book原创 2021-06-26 10:36:44 · 210 阅读 · 0 评论 -
爬取某招聘网数据之BS4
bs4爬取某招聘数据一.更新pip在安装源:1.打开文件资源管理器2.地址栏上面输入%appdata%3.在这个文件里面新建一个pip文件夹4.在pip文件夹里面新建一个pip.ini文件,内容如下:[global]timeout=6000index-url = https://mirrors.aliyun.com/pypi/simpletrusted-host = mirrors.aliyun.com # 这里安装的是阿里云的源二.bs4的基础知识:(1):生成对象本地对象s原创 2021-06-24 21:27:17 · 305 阅读 · 0 评论 -
python爬虫之正则表达式练习
爬取糗图图片代码如下:import reimport urllib.requestimport urllib.parseimport uuidfrom tqdm import tqdm # 只是显示进度条用的url_list = [] # 所有的地址列表dowload_url = [] # 所有的下载地址# 得到每个页面def get_page(start_page,end_page): # 糗图的地址 url = 'https://www.qiushibai原创 2021-06-21 18:41:09 · 173 阅读 · 0 评论 -
批量多线程下载某网站英语四六级和考研英语真题资料
多线程下载英语真题资料pdf1.一开始想手动下载,但是觉得那真叫一个慢,后来就用程序写了2.他那个pdf文件名是31位的数字,我具体不知道怎么生成的,所以我用的selenium上代码,代码可以直接用但要改一个文件路径:劝你们不要用多线程,我下了10个文件就出问题了。并且一下子下载某一类,不是混在一起不好找。import concurrent.futuresfrom pprint import pprintimport timeimport parselimport requestsfro原创 2021-06-06 21:10:30 · 1435 阅读 · 0 评论 -
打印英语四六级准考证pdf
英语四六级准考证注意点:1.你必须具备一些身份账号2.你还需要有第三方的验证码接口,其实不贵,1元可以500次,直接搜快识别注册就可以了3.使用ip代理,当你爬到某次数时,会限制你爬取。(这还在学)下面上代码:import base64import jsonimport time # 计算耗费时间import pymysql # 连接数据库,由于我把数据存在数据库里面的import requestsfrom selenium import webdriver# 就是点提交的时候原创 2021-06-06 20:33:49 · 1732 阅读 · 0 评论 -
爬取表情包
爬取网站表情包注意:爬取的时候看一下我的图片地址是否还可用,因为当我上午和下午一直在爬取,结果晚上图片下载地址就有问题了。我也不知道为啥。结果改一下就好了。直接上代码:import reimport uuid # 这里使用uuid我是为了给图片命名import requestsimport parsel # 第三方模块 pip install parselimport timedef change_title(title): # complie编译 mode = r原创 2021-06-06 10:18:47 · 612 阅读 · 0 评论 -
拼接所有图片之AttributeError: ‘NoneType‘ object has no attribute ‘shape‘
AttributeError: ‘NoneType’ object has no attribute ‘shape’经历了接近一天的时间,终于完成了把多张图片拼接成一张图片的效果,但是其中也遇到了一些问题,比如:1.图片文件名字不能含有中文2.图像经过处理后可能为空,必须做判断直接上代码:1.需要导入的第三方包和自带的包:import glob # 可以用正则的形式遍历文件import argparsefrom itertools import productimport cv2 #原创 2021-06-06 09:55:47 · 372 阅读 · 0 评论 -
爬取某东网站商品数据
爬取某东网站商品数据代码:注意事项:必须安装自己对应浏览器的driver,谷歌应该不需要,没试。如果不需要看看自己路径需不需要写。import csvimport timefrom selenium import webdriverdef get_product(keyword): """商品搜索(输入关键字,点击搜索按钮)""" #找到输入框,并把相应的文字提交给输入框里 driver.find_element_by_css_selector('#ke原创 2021-06-03 18:41:54 · 262 阅读 · 0 评论 -
爬取某牙小姐姐图片
爬取某牙直播小姐姐图片不多说直接上代码:需要用到的软件就一个:pycharmimport osimport requestsimport jsonfrom urllib import request # 下载图片# 模拟浏览器访问,以免反爬,这里要写的是自己的User-Agent,直接打开浏览器按F12点击网络就出来了。headers = { 'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/5原创 2021-06-03 13:12:08 · 180 阅读 · 0 评论