写一篇多根头发-优快云博客

原创词云——wordcloud

词云——wordcloud常用功能：fron_path :在图形中指定的字体，默认不支持中文，需要自己指定width/height：长宽max_word：需要绘制的最多词条数stopwords：停用词列表字体设定：min_font_size：字符大小范围fron_step：字号增加的步长relative_sacling：词条频数比例和字号比例的换算关系，默认50%prefer_horizontal：图中词条水平显示的比例颜色设定：background_color：图片背景色mod

2020-09-24 19:29:30 260

原创 python爬虫——jieba

python爬虫——jieba三种分词模式：精确模式：试图将句子精确分开jieba.cut(‘字符串’)全模式：将句子中所有可能成词的词语都扫描出来jieba.cut(字符串， cut_all=True)搜索引擎模式：适合于搜索引擎使用jieba.cut_for_search(字符串)jieba分词的基本用法：res = jieba.cut() 返回一个生成器以/为分隔符进行打印print(./.join(res))转换为列表list(res) 或者list(word for

2020-09-23 15:41:53 1616

原创 python爬虫——代理

python爬虫——代理原理：主机访问代理服务器，代理服务器访问网页服务器，将返回结果传回。作用：突破自身IP的访问限制，隐藏自身的真是ip，防止本机ip被封。代理服务器网址：全球代理ip快代理使用方式：proxies = { 'https': 'ip' } page_text = requests.get(url=url, headers=headers, proxies=proxies).textip为代理服务器ip；https还是http根据所需访问

2020-09-15 22:11:44 231

原创 Python爬虫——登录

Python爬虫——登录打开抓包工具，在network‘中勾选preserve log选项，点击登录在network中可以捕获到相关的包，点击login可以得到url值和请求的方式为post请求。往下拖动可以得到该请求所需要的参数列表得到服务器端给客户端发送的cookie值。（cookie值用来记录用户已经登录的这个状态，以此为凭据访问用户的数据）得到需要访问数据的url代码如下：（Code类的编写，请转到python爬虫——验证码识别）python爬虫——验证

2020-09-15 20:03:32 1344

原创 python爬虫——验证码识别

python爬虫——验证码识别识别工具：斐斐打码使用流程：单击后，点击用户中心。进行充值查看PD账号和PD密钥（后续会用到）进入开发者板块查看AppID和AppKey（后续会用到）进入开发文档在此可以查看不同验证码的类型下载python3解压得到使用斐斐打码平台将其打包为一个函数：#imgPath为文件路径，codeType为需要识别的验证码类型def getCode(imgPath, codeType):

2020-09-15 18:19:13 884

原创 python爬虫——xpath

python爬虫——xpath解析原理实例化一个etree对象，且将网页源码数据加载到该对象中调用etree对象中的xpath方法，使用xpath表达式实现标签的定位和内容的捕获环境的安装：lxml（from lxml import etree）etree对象的实例化用本地的源码数据进行实例化etree.parse(‘path’)将从互联网中捕获的源码数据加载到该对象中etree.HTML(‘page_text’)xpath表达式：/：表示的是从根节点开始定位，表示的是一个层

2020-09-12 22:43:13 295

原创 python爬虫——bs4

python爬虫——bs41.环境安装：bs4，lxml2.导包：from bs4 import BeautifulSoupimport lxml3.实例化通过本地的html文件进行初始化fp = open(‘文件名’， ‘r’’, encoding = ‘’)soup = BeautifulSoup(fp, ‘lxml’)通过网页上的源代码初始化page_text = response.textsoup = BeautifulSoup(page_text, ‘lxml’)4

2020-09-12 10:16:58 1152

原创 python爬虫——request

python爬虫——request1.确定url2.UA伪装headers = {‘User-Agent’ : ‘’}3.发起请求 request.get/postrequest.get(url, param, headers)request.get(url, data, headers)4.获取响应数据4.1 text（返回字符串信息）4.2 json（返回对象）4.3 content（返回二进制）5.持久化存储textwith open(‘文件名’， ‘w’ , encod

2020-09-11 19:01:46 204

qq_43685335的博客