
数据爬虫
步行僧
这个作者很懒,什么都没留下…
展开
-
python字符串转换成字典
python字符串转换成字典原创 2024-03-13 11:36:41 · 2817 阅读 · 1 评论 -
解决python爬取到网页信息中带有\u开头的字段
python爬取到网页信息中带有\u开头的字段原创 2024-03-11 10:51:30 · 692 阅读 · 0 评论 -
数据库提示Incorrect string value: ‘\\xE5\\x8D\\x8F\\xE5\\x92\\x8C...‘ for column ‘finace_name‘ at row 1
服务器安装MySQL数据库,插入中文时,提示(1366, "Incorrect string value: '\\xE5\\x8D\\x8F\\xE5\\x92\\x8C...' for column 'finace_name' at row 1"的解决方法原创 2023-02-23 16:30:24 · 1961 阅读 · 2 评论 -
大众点评文字加密反爬Python
本文将 大众点评字体反爬方法及完整程序进行注释讲解,亲测有效!!!原创 2022-02-10 09:43:48 · 2035 阅读 · 3 评论 -
Python爬取网页判断网页中某个标签是否存在
Python爬取网页判断网页中某个标签是否存在,使用find_element_by_xpath()方法,即可完成 try: school.find_element_by_xpath('./td[7]/text()') school_privates = school.xpath('./td[7]/text()').extract()[0] if school_privates:原创 2021-12-02 14:13:18 · 3263 阅读 · 0 评论 -
Python3用scrapy爬取https页面,提示[(‘SSL routines‘, ‘tls_process_ske_dhe‘, ‘dh key too small‘)]
在Python3中,使用scrapy爬取https网页数据过程中,遇到以下错误提示,经过不断调试,终于完成该问题的解决方式:1、问题错误提示信息Traceback (most recent call last):File “/usr/lib/python3/dist-packages/scrapy/core/downloader/middleware.py”, line 44, in process_requestdefer.returnValue((yield download_func(requ原创 2021-12-02 09:10:03 · 2572 阅读 · 0 评论 -
python实现多线程爬取动态表情
@python实现多线程爬取动态表情这里写目录标题主题一、爬虫部分二、多线程类的构造三、其他辅助内容主函数主题在网上练习项目项目,看到这个表情包爬取,刚好也解决一下自己的表情库存告急情况主要是包含了爬虫部分和多线程类的构造两大部分一、爬虫部分直接上代码def downloads_img(url, path): headers = { 'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/原创 2021-06-22 20:55:31 · 407 阅读 · 0 评论 -
学习scrapy框架
模块与框架的区别:模块:能被借助实现所需功能的一些工具1、确定url地址2、发送网络请求 requests、urllib3、解析数据 parsel 、lxml、 bs4、、、4、数据保存 csv 、 json框架:一整套解决方案(只需要写业务逻辑) 数据管道保存数据学习成本较高(语法/框架源码) scrapy、pyspider.. scrapy框架内容: 1、scrapy.cfg:配置文件 2、setting.py :项目配置文件 3、pipelines.py: 数据管原创 2021-05-23 22:29:28 · 130 阅读 · 0 评论 -
Xpath学习
“”"XPath的学习“”"from lxml import etree案例文件html_doc = “”" baidu myblog myblog2 csdn bbb aaa"""html = etree.HTML(html_doc)1、获取所有li下的所有a标签print(html.xpath("//li/a"))#2、获取指定的li标签item-0print(html.xp原创 2021-04-14 09:52:40 · 419 阅读 · 0 评论 -
python3爬取小说
#-- coding:UTF-8 --from bs4 import BeautifulSoupimport requests,sys“”"类说明:下载《穷爸爸富爸爸》modify:2020-12-23Author:ZhiT涛“”"class download(object):def init(self):self.server_url = ‘http://www.mingzhuxiaoshuo.com’self.target_url = ‘http://www.mingzhuxi转载 2021-01-12 11:49:54 · 232 阅读 · 0 评论