
网络爬虫
大鸟老王
技术无罪
展开
-
常见的网站登录验证码种类及其解决办法
在爬虫开发时,大家经常会遇到验证码识别,在网站中加入验证码的目的是加强用户安全性和提高反爬虫机制,有效防止对某一特定注册用户用特定程序暴力破解的方式不断地进行登录尝试。在此为大家介绍一下验证码的种类。【字符验证码】:在图片上随机产生数字、英文字母或汉字,一般有4位或者6位验证码字符。通过添加干扰线、添加噪点以及增加字符的黏连程度和旋转角度来增加机器识别的难度。但这种传统的验证码随着OCR技术的...原创 2019-05-06 17:05:56 · 4114 阅读 · 1 评论 -
Python数据清洗——字符串操作
常用的数据清洗方法有:字符串操作、正则表达式和第三方库。常用数据清洗的字符串操作有截取、替换、查找和分割。截取:str[开始位置 : 结束位置 : 间隔位置] #默认开始位置为0# 替换:str.replace('被替换的内容','替换后的内容') #replace()方法替换字符串后仅为临时变量,需重新赋值才能保存# 查找:str.find('要查找的内容',[开始位置,结...原创 2019-07-10 16:59:35 · 1685 阅读 · 0 评论 -
Python文档数据存储---CSV数据写入与读取
常用的数据存储介质有文件、关系式数据库和非关系式数据库。文本文档存储适用于具有时效性的数据,入股市行情、商品信息和排行榜信息等,这类数据具有动态变化性质,非特殊要求下,建议存放文件。1、CSV数据写入 写入数据分为单行写入和多行写入,对应的函数分别为writerow和writerows,数据写入CSV的代码如下:import csv#若存在csv则打开;若...原创 2019-07-18 17:48:26 · 781 阅读 · 0 评论 -
Python文档数据存储---Excel数据写入与读取
Python操作的Excel库有xlrd、xlwt、pyExcelerator和openpyxl。其中,pyExcelerator只支持2003版本,openpyxl只支持2007版本,xlrd支持Excel任何版本的读取,xlwt支持Excel任何版本的写入。1、Excel数据写入 数据写入Excel的整体思路如下:xlwt创建生成临时Excel对象。 添加W...原创 2019-07-19 00:20:56 · 492 阅读 · 0 评论 -
Python文档数据存储---Word数据写入和读取
Word文档中一般存储文章、新闻报道和小说这类文字内容较长的数据为主。1、Word数据写入 Word写入数据的整体思路如下:创建生成临时Word对象。 分别使用add_paragraph()和add_heading()对Word对象添加标题和正文内容。 如果设置正文内容的字体加粗和斜体等,可以将正文内容p对象的属性runs[0].bold和add_run('XX'...原创 2019-07-20 18:11:02 · 3601 阅读 · 0 评论