
Python
文章平均质量分 82
Mr.Bean-Pig
这个作者很懒,什么都没留下…
展开
-
citespace数据处理:用python对Ref文档进行去重
使用citespace分析前的去重处理原创 2021-01-16 15:08:55 · 2125 阅读 · 0 评论 -
python:扫描目录下重复引用【头文件】的文件
使用场景:某工程下的代码文件中存在重复引用头文件的情况,现在需要找到这些文件原创 2019-07-30 17:06:02 · 516 阅读 · 0 评论 -
实例演示Scrapy的基本用法
Scrapy是一个非常强大的异步爬虫框架,里边已经写好了许许多多的组件,有了它,就可以只关心爬虫的逻辑了。本文通过一个项目,梳理一遍流程,以此来大致了解scrapy的原理和用法。目标站点分析http://quotes.toscrape.com/这是scrapy官方提供的一个抓取网站,主要显示了一些名人名言,以及作者、标签等等信息。点击页面底端的next翻页后,可以看到page变为2:...原创 2018-11-20 23:55:42 · 960 阅读 · 0 评论 -
如何用Flask和Redis来动态维护Cookies池
为什么要用Cookies池目标网站需要登录才能爬取,例如新浪微博。爬取过程中,如果请求频率过高,会导致封号。这就需要维护多个账号的Cookies池实现大规模爬取。Cookies池的要求自动登录更新定时验证筛选提供外部接口Cookies池的架构首先,需要有一个账号队列,把一些账号密码存到数据库里,生成器即程序从队列里面拿出账号密码,自动地进行登录,并获取登录的Cookie...原创 2018-11-07 09:26:59 · 823 阅读 · 0 评论 -
如何用Flask和Redis来动态维护代理池
我们在爬虫时可能会遇到封IP的问题,那么利用代理就可以进行IP的伪装,然后进行爬虫的请求。我们有时会需要非常多的ip,那么维护一个代理池(代理的队列,可以存入或取出),需要对整个池进行定期的检查和更新,以此来保证代理的高质量(也就是代理的检测和筛选),以免对爬虫产生影响。Redis主要给代理池提供一个队列存储。Flask用来实现代理池的接口。为什么要用代理池?许多网站有专门的反爬虫措施,可...原创 2018-11-04 10:14:12 · 946 阅读 · 0 评论 -
使用Selenium+Chrome/PhantomJS抓取淘宝“美食”详解
准备工作淘宝的页面是相当复杂的,含有各种请求参数或是加密参数,如果直接请求或者分析Ajax将十分繁琐。Selenium是一个自动化测试工具,可以驱动浏览器完成各种操作,比如模拟点击、输入、下拉等等,这样我们只需要关心操作,而不再需要关心后台发生了什么请求。Chrome是一个常用浏览器。PhantomJS是一个无界面浏览器(可以在不打开浏览器界面的情况下完成爬取)。本次将要爬取的是淘宝“美...原创 2018-11-01 22:19:50 · 651 阅读 · 0 评论 -
用Requests和正则表达式爬取豆瓣图书TOP250
思路和上文大同小异。import requestsfrom requests.exceptions import RequestExceptionimport reimport jsonheaders = {'User-Agent':'Mozilla/5.0(Macintosh;Intel Mac OS X 10_11_4)AppleWebKit/537.36(KHTML,like ...原创 2018-10-24 13:02:37 · 1653 阅读 · 0 评论 -
解决在终端安装python库后在pycharm中没有该库的问题
https://blog.youkuaiyun.com/helloshijie_c/article/details/79844464转载 2018-10-23 21:30:13 · 3834 阅读 · 0 评论 -
if __name__ = '__main__',python 主程序入口
https://blog.youkuaiyun.com/liukai2918/article/details/79465671转载 2018-10-23 21:29:01 · 981 阅读 · 0 评论 -
用Requests和正则表达式爬取猫眼电影(TOP100+最受期待榜)
目标站点分析如图,猫眼电影的翻页offset明显在URL中,所以只要搞定第一页的内容加上一个循环加上offset就可以爬取前100。流程框架1、抓取单页内容利用requests请求目标站点,得到单个网页HTML代码,返回结果。2、正则表达式分析根据HTML代码分析得到电影的排名、地址、名称、主演、上映时间、评分等信息。3、保存至文件通过文件的形式将结果保存,每一部电影一个结果一...原创 2018-10-23 21:28:20 · 2724 阅读 · 0 评论 -
BeautifulSoup库使用详解
BeautifulSoup库是灵活又方便的网页解析库,处理高效,支持多种解析器。利用它不用编写正则表达式即可方便地实现网页信息的提取。安装:pip3 install beautifulsoup4解析库 解析器 使用方法 优势 劣势 Python标准库 BeautifulSoup(markup, “...原创 2018-10-21 20:46:56 · 20309 阅读 · 0 评论 -
通过分析Ajax请求抓取【今日头条】“街拍”美图
有一些网页直接请求得到的HTML代码并没有在网页中看到的内容,因为一些信息是通过Ajax加载,并通过js渲染生成的,这时就需要通过分析网页的请求来获取想要爬取的内容。本文通过抓取今日头条街拍美图讲解一下具体操作步骤。网络库:Requests解析库:BeautifulSoup+正则表达式存储数据库:MongoDB其他库:PyMongo请确保以上库已经正确安装。目标站点分析打开今日头条...原创 2018-10-28 16:47:21 · 504 阅读 · 0 评论 -
Python中常用的正则表达式
正则表达式是对字符串操作的一种逻辑公式,就是用事先定义好的一些特定字符、及这些字符的组合,组成一个“规则字符串”,这个“规则字符串”用来表达对字符串的一种过滤逻辑。(非python独有,但是python的re模块提供了实现,在python中写正则表达式几乎都用这个库)样例展示这里要用到在线正则表达式测试。右侧是常用的正则表达式,可以从待匹配的文本中匹配到相应的结果。使用方法常用的匹配规...原创 2018-10-20 22:19:47 · 1369 阅读 · 0 评论 -
Selenium使用详解
Selenium是一个自动化测试工具,支持多种浏览器。它采用Javascript单元测试工具JSUnit为核心,模拟真实用户操作,包括浏览页面、点击链接、输入文字、提交表单、触发鼠标事件等等,并且能够对页面结果进行种种验证。也就是说,只要在测试用例中把预期的用户行为与结果都描述出来,我们就得到了一个可以自动化运行的功能测试套件。(Selenium的核心是Javascript写的,他和浏览器进行通信...原创 2018-10-22 23:39:17 · 1605 阅读 · 0 评论 -
PyQuery库使用详解
PyQuery是强大而又灵活的网页解析库,如果你觉得正则写起来太麻烦,又觉得BeautifulSoup语法太难记,如果你熟悉jQuery的语法那么,PyQuery就是你绝佳的选择。安装:pip3 install pyquery一、初始化下面介绍三种初始化PyQuery的方法。1.字符串初始化html = '''<div> <ul> &l...原创 2018-10-22 20:19:50 · 1892 阅读 · 0 评论 -
使用Requests库来进行爬虫的详解
Requests是用Python编写,基于urllib,采用Apache2 Licensed开源协议的HTTP库。它比urllib更方便,可以节约我们大量的工作,完全满足HTTP测试需求。安装:pip3 install requests使用实例:import requestsresponse=requests.get('https://www.baidu.com')print(ty...原创 2018-10-17 16:52:53 · 19921 阅读 · 1 评论 -
Urllib库的详解(urlopen,response,request,Headler,异常处理,URL解析)
简介Urllib是Python内置的HTTP请求库。它包含四个模块:urllib.request :请求模块urllib.error :异常处理模块urllib.parse url : 解析模块urllib.robotparser :robots.txt解析模块,用的比较少相比Python2变化:Python2: import u...原创 2018-10-15 23:45:47 · 12228 阅读 · 0 评论