
python_爬虫
双手.合十
不断涌现的快乐才是生活的本质
展开
-
函数调用函数出现:TypeError: ‘str‘ object is not callable (问题解决)
被调用的函数名称与python的内置函数重名了,修改一下被调用的函数名即可解决原创 2021-12-01 10:15:47 · 832 阅读 · 0 评论 -
tesseract-ocr安装教程
下载链接选择w64位的任意版本下载好后一直下一步安装看好自己安装的位置安装好后 win+r 打开cmd终端先切换到你选择的安装目录下输入tesseract -v 有版本号即安装成功在环境变量的系统变量中,增加一个TESSDATA_PREFIX变量名,变量值还是tesseract-ocr的安装路径完成...原创 2021-11-29 15:41:36 · 439 阅读 · 0 评论 -
selenium无浏览器窗口运行
from selenium import webdriverfrom selenium.webdriver.chrome.options import Optionsreq_url = "https://www.baidu.com"chrome_options=Options()#设置chrome浏览器无界面模式chrome_options.add_argument('--headless')browser = webdriver.Chrome(options=chrome_options)#原创 2021-11-29 10:20:58 · 2365 阅读 · 0 评论 -
python爬虫脚本获取网易招聘某个职业的全部数据信息
目标网页:网易招聘抓取目标:1.根据输入职业抓取该职业的全部数据2.存入excel用到的库:import requestsimport pandas全部代码:import requestsimport pandas#请求头链接key = input('输入你要搜索的职业:')def size(key): #返回总共有多少条相关招聘pageSize data = {"currentPage":1, "pageSize":1, "keyword": key} url原创 2021-11-28 20:26:32 · 792 阅读 · 0 评论 -
python爬虫脚本实现简历模板自由(爬取站长素材简历模板)
目标网站:站长素材抓取要求:1.根据输入页页码进行抓取响应内容2.根据页码建立文件夹存储本页内容3.输出控制台正在抓取的内容使用到的库:import requests #请求网页from lxml import html #解析网页源码import threadpool #多线程from multiprocessing.pool import Pool #多进程import os #创建文件夹完整代码:import requests #请求网页from lxml import原创 2021-11-28 19:59:09 · 1324 阅读 · 2 评论 -
python爬虫:爬取百度热搜pandas存储excel表格
百度热搜链接本章要点:pandas存储excel本章目录pandas的使用百度热搜代码pandas的使用pandas的使用方法安装pandas库:pin3 install pandasimport pandas #导入pandas库baidu_data = [] #创建个空列表 baidu_data.append({ #要存储的内容以字典的形式追加到列表里 'title':value, #'title'列名 value 值 'url':value原创 2021-11-22 18:55:55 · 2205 阅读 · 0 评论 -
初始python爬虫-爬取彼岸图单张到全部图片
初始python爬虫-爬取彼岸图单张到全部图片1.单张图片爬取2.一页图片3.多页图片彼岸图链接:https://pic.netbian.com/new/用到的库:import requests #请求网页from lxml import html #解析网页源代码import time #时间模块1.单张图片爬取首先要知道哪个链接才是图片的下载链接(找到下载链接才能使用代码进行存储)操作步骤:①随便点进去一张图片②按f12检查 点击出现的箭头图标 选中图片可以看到圈住的后原创 2021-11-21 18:07:56 · 2884 阅读 · 2 评论