
Python爬虫
ZikM_0221
本人也在博客园中有自己博客:https://www.cnblogs.com/James-221/
展开
-
哔哩哔哩自动播放视频
哔哩哔哩自动播放视频# datetime:2020/10/7 16:33# bilibilifrom selenium import webdriverfrom selenium.webdriver.common.keys import Keysimport time#打开浏览器,实例化对象driver=webdriver.Chrome()shuru=driver.get('https://www.bilibili.com/')driver.maximize_window()#('win原创 2020-10-10 13:10:28 · 2182 阅读 · 0 评论 -
51job多线程爬取指定职业信息数据
51job多线程爬取指定职业信息数据# datetime:2020/10/7 14:02# 51job多线程import requestsimport chardetfrom bs4 import BeautifulSoupimport csvfrom openpyxl import Workbookimport randomimport timeimport threadingdef getOnePageInfo(url): # 访问链接 res = request原创 2020-10-10 13:09:54 · 244 阅读 · 0 评论 -
爬取王者荣耀角色信息
爬取王者荣耀角色信息01 编写配置文件(通用)import requestsimport bs4import chardetimport randomimport csvimport timefrom bs4 import BeautifulSoupimport osdef getHtml(url): #准备网址 user_agent = [ "Mozilla/5.0 (Macintosh; U; Intel Mac OS X 10_6_8; en-us)原创 2020-10-10 13:09:17 · 908 阅读 · 0 评论 -
爬取网易云音乐评论
爬取网易云音乐评论保存CSVselenium的使用01 导入模块from selenium import webdriver02 打开浏览器 实例化对象driver = webdriver.Chrome()03 访问网址driver.get('https://www.baidu.com')04 根据id获取输入框shuru=driver.find_element_by_id('kw')05 向输入框输入内容shuru.send_keys('网易云音乐')06 找到百度一下按原创 2020-10-10 13:08:47 · 783 阅读 · 1 评论 -
抓取简书文章标题及链接
抓取简书文章标题链接文章链接:https://www.jianshu.com/p/85f4624485b901 详细版本# datetime:2020/10/6 13:53# 抓取简书文章标题链接import pandas as pdfrom requests_html import HTMLSession# 建立一个会话与服务器交谈session = HTMLSession()# 输入网址,存储到url变量名中url = 'https://www.jianshu.com/p/85f原创 2020-10-10 13:08:08 · 855 阅读 · 0 评论 -
Python错误集锦
Python错误集锦01 未定义# 1.未定义print(a)02 类型不一致# 2. 类型不一致b = 'haha'c = 123b+cb+str(c)‘haha123’c+bc+int(b)int('8')803 语法错误# 3.语法错误# 符写错了print(123)04 露符号# 漏符号if 3>2 print(666)05 太多符号导致遗漏# 太多符号导致遗漏int(int(eval('123'))06原创 2020-10-10 13:07:22 · 248 阅读 · 1 评论 -
51Job多页信息爬取保存
51Job多页信息爬取01 导入模块import requestsimport chardetfrom bs4 import BeautifulSoupimport csvfrom openpyxl import Workbook02 定义函数getOnePageInfo()def getOnePageInfo(url): # 访问链接 res=requests.get(url, headers={'User-Agent':'Mo原创 2020-10-10 13:06:44 · 495 阅读 · 0 评论 -
壁纸链接爬取并保存csv
案例:01壁纸链接爬取并保存csv#导入模块import requestsimport chardetfrom bs4 import BeautifulSoup#访问链接url = 'http://www.netbian.com/dongman/'#打开链接,得到响应res = requests.get(url)#获取编码chardet.detect(res.content)#设置网页编码res.encoding = 'GB2312'# 转为 soup 对象soup = B原创 2020-10-10 13:05:46 · 181 阅读 · 0 评论 -
Jupyter使用
Jupyter使用一、创键01 创键一个本地文件夹02 输入cmd 回车 03 弹出cmd窗口,输入命令jupyter notebook回车04 执行成功,弹出浏览器原创 2020-10-10 13:04:29 · 178 阅读 · 0 评论 -
Python爬虫01
Python爬虫01百度# 导入模块from urllib import request# 2. 准备网址url = 'http://www.baidu.com/'# 3. 打开链接,得到响应res = request.urlopen(url)# 4. 展现(print)响应结果print(res.read())02下载图片from urllib import requestimport requestsimport bs4# request.urlretrieve(图片链接,原创 2020-10-10 13:03:31 · 886 阅读 · 1 评论