
Python爬虫
文章平均质量分 55
前端技术
前端开发工程师
展开
-
scrapy库安装失败的解决办法
scrapy库安装失败的解决办法安装scrapy的时候,使用pip install scrapy一般会失败。报超时的错误:所以我们需要换另一种形式来安装,我们先将scrapy安装过程中所用到的依赖的库安装完成之后,在安装scrapy,这样子便可以安装成功了。需要安装的依赖库有 lxml、 pyOpenSSL 、 Twisted 、pywin32。需要注意的是我们安装的这些库,都是通过wheel来安装的。因此在安装这些库之前,先得安装wheel。打开控制台窗口,输入pip install wheel,原创 2021-03-05 23:40:51 · 3057 阅读 · 0 评论 -
python爬虫爬取股票信息
python爬虫爬取股票信息话不多说,直接上代码:import requestsimport reimport jsonfrom pyquery import PyQueryimport pymysql# 数据库连接def connect(): conn = pymysql.connect(host='localhost', port=3306, user='root',转载 2021-03-05 09:29:17 · 817 阅读 · 1 评论 -
怎样下载B站的视频
今天教大家一个下载B站视频的方法。非常简单,打开浏览器,输入一个网址:https://ctb.qianhetui.com/index.php就可以在这个网站上进行下载啦。原创 2021-03-05 09:10:49 · 7349 阅读 · 1 评论 -
解决python爬虫中文乱码问题
解决python爬虫中文乱码问题req = requests.get(url)返回的是类对象其包括的属性有:(1)req.encoding:返回编码方式(2)req.text:text返回的是处理过的Unicode型的数据(3)req.content:content返回的是bytes型的原始数据content是把内容bytes返回. 而text是decode成Unicode. 如果headers没有charset字符集的化,text()会调用chardet来计算字符集也就是说text是解码完的原创 2021-02-28 17:13:41 · 1234 阅读 · 0 评论 -
给大家推荐几本最优秀的编程书
现在给大家推荐几本最优秀的编程书一、《编程珠玑》(第2版)本书是计算机科学方面的经典名著。书的内容围绕程序设计人员面对的一系列实际问题展开。作者Jon Bentley 以其独有的洞察力和创造力,引导读者理解这些问题并学会解决方法,而这些正是程序员实际编程生涯中至关重要的。本书的特色是通过一些精心设计的有趣而又颇具指导意义的程序,对实用程序设计技巧及基本设计原则进行了透彻而睿智的描述,为复杂的编程问题提供了清晰而完备的解决思路。本书对各个层次的程序员都具有很高的阅读价值。二、《数学之美》 第三版这原创 2021-02-18 11:40:47 · 9056 阅读 · 0 评论 -
python爬虫爬取优快云文章
python爬虫爬取优快云文章话不多说,直接上代码:import urllib.parseimport requestsfrom bs4 import BeautifulSoupauthor_title = input('请输入作者的标签:')url="https://blog.youkuaiyun.com/"+urllib.parse.quote(author_title)headers = {'User-Agent':'Mozilla/5.0 (Windows NT 10.0; Win64; x6原创 2021-02-16 17:34:17 · 2806 阅读 · 3 评论 -
python爬虫爬取深交所数据
python爬虫爬取深交所数据话不多说,直接上代码:import requestsfrom bs4 import BeautifulSoupimport xlwtheaders = {'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/88.0.4324.150 Safari/537.36 Edg/88.0.705.63'}def Get_原创 2021-02-10 12:34:15 · 2307 阅读 · 3 评论 -
python爬取全国各地天气带图形界面
python爬取全国各地天气带图形界面话不多说,直接上代码:import requestsfrom lxml import etreeimport reimport tkinter as tkfrom PIL import Image, ImageTkfrom xpinyin import Pinyindef get_image(file_nam, width, height): im = Image.open(file_nam).resize((width, height))原创 2021-02-05 11:48:40 · 566 阅读 · 0 评论 -
用python爬虫爬取2020年中国大学排行
用python爬虫爬取2020年中国大学排行话不多说,直接上代码:from bs4 import BeautifulSoup # 网页解析 获取数据import re # 正则表达式 进行文字匹配import urllib.request, urllib.error # 制定url 获取网页数据import xlwtdef main(): baseurl = "http://m.gaosan.com/gaokao/265440.html" datalist = getD原创 2021-02-05 08:46:55 · 1380 阅读 · 0 评论 -
基础爬虫系列课程授课内容3——xpath语法
xpath语法的使用一、xpath介绍XPath 是一门在 XML 文档中查找信息的语言。XPath 用于在 XML 文档中通过元素和属性进行导航。XPath 使用路径表达式在 XML 文档中进行导航XPath 包含一个标准函数库XPath 是 XSLT 中的主要元素XPath 是一个 W3C 标准请务必清楚在 XPath 中,有七种类型的节点:元素、属性、文本、命名空间、处理指令、注释以及文档(根)节点。XML 文档是被作为节点树来对待的。二、xpath语法梳理下面举个小例子:原创 2021-01-23 17:06:42 · 159 阅读 · 0 评论 -
基础爬虫系列课程授课内容2——BeautifulSoup库的使用
BeautifulSoup库的使用1、安装及导入 BeautifulSoupBeautifulSoup 是一个可以从 HTML 或 XML 文件中提取数据的 Python 扩展库,是一个分析 HTML 或 XML 文件的解析器。它通过核实的转换器实现文档导航、查找、修改文档等功能;可以很好地处理不规范标记并生成剖析树(Parse Tree);提供的导航功能(Navigation)可以简单、快速地搜索剖析树以及修改剖析树。BeautifulSoup 技术通常用于分析网页结构,爬取相应的 Web 文档,对原创 2021-01-23 11:32:05 · 733 阅读 · 0 评论 -
基础爬虫系列课程授课内容0——爬虫的基本原理
爬虫的基本原理什么是爬虫?简单地说,爬虫就是请求网站并提取数据的一种自动化程序。爬虫的基本流程:1、向服务器发起请求通过HTTP库向目标站点发起请求,即发送一个Request,请求可以包含额外的headers等信息,等待服务器的响应。2、获取响应内容如果服务器正常响应,会得到一个Response,Response的内容便是所要获取的页面内容,类型可能有HTML、JSON、二进制文件(如图片、视频等类型)。3、解析内容得到的内容可能是HTML,可以用正则表达式、网页解析库进行解析。可能是JS原创 2021-01-23 09:25:26 · 190 阅读 · 0 评论 -
基础爬虫系列课程授课内容1——requests库的使用
requests库的使用requests简介:Requests是用python语言基于urllib编写的,采用的是Apache2 Licensed开源协议的HTTP库,Requests它会比urllib更加方便,可以节约我们大量的工作。一、安装requests库非常简单,打开命令行,输入下面的安装命令:pip install requests二、基本使用我们先来看一个使用小例子:import requests response = requests.get("https://www.原创 2021-01-22 10:44:51 · 156 阅读 · 0 评论 -
图片搜索引擎——python编写
Python图片搜索引擎话不多说,直接上代码!import requestsimport reheaders = {'User-Agent':"Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/85.0.4183.83 Safari/537.36 Edg/85.0.564.41"}def GetPic(pic,path): url = "https://imag原创 2020-09-01 12:06:55 · 560 阅读 · 0 评论 -
python爬虫——爬取房天下
python爬虫——爬取房天下话不多说,直接上代码!import requests as reqimport timeimport pandas as pdfrom bs4 import BeautifulSoupfrom sqlalchemy import create_engine global infodef getHouseInfo(url): info = {} soup = BeautifulSoup(req.get(url).text,"html.parser") r原创 2020-08-27 11:19:10 · 2478 阅读 · 1 评论 -
python爬虫爬取拉勾网招聘信息
python爬虫爬取拉勾网招聘信息话不多说,直接上代码!import mathimport randomimport requestsfrom pyquery import PyQuery as pqfrom urllib3.exceptions import MaxRetryErrorimport pandas as pdPROXY_POOL_URL = 'http://localhost:5555/random' # 使用了https://github.com/Python3WebS原创 2020-08-24 00:14:15 · 777 阅读 · 0 评论 -
python爬虫爬取腾讯网招聘信息
python爬虫爬取腾讯网招聘信息话不多说,直接上代码!from bs4 import BeautifulSoupimport urllib2import json # 使用了json格式存储def tengxun(detail,num): url = 'https://hr.tencent.com/' # detail = 'position.php?&start=0#a' request = urllib2.Request(url + detail)原创 2020-08-24 00:12:32 · 922 阅读 · 0 评论 -
python爬虫——淘宝爬取
python爬虫爬取淘宝商品信息话不多说,直接上代码!import refrom selenium import webdriverfrom selenium.webdriver.common.by import Byfrom selenium.webdriver.support.ui import WebDriverWaitfrom selenium.webdriver.support import expected_conditions as ECfrom pyquery import P原创 2020-08-24 00:11:57 · 2377 阅读 · 0 评论 -
python爬虫爬取知网
python爬虫爬取知网话不多说,直接上代码!import requests import reimport timeimport xlrdfrom xlrd import open_workbookfrom xlutils.copy import copyclass BeautifulPicture(): def get_pic(self): data = xlrd.open_workbook(r'C:\\flim\library_my\new.xls') #原创 2020-08-24 00:11:01 · 8501 阅读 · 6 评论