呆小白来巡山-优快云博客

原创 Linux环境中ElasticSearch启动时常见错误、解决

● ES启动常见报错及解决措施说明文章基于ElasicSearch版本：7.3.2，Linux版本：CentOS-7.7。供其他版本参考。启动报错报错1—— [xpack.ml.enabled: false]Caused by: org.elasticsearch.ElasticsearchException: Failure running machine learning n...

2020-03-14 17:16:41 7841

原创开源爬虫框架pyspider介绍、安装步骤（Windows平台）

● pyspider简介 pyspider 是国人binux 编写的强大的网络爬虫框架，它带有强大的WebUI 、脚本编辑器、任务监控器、项目管理器以及结果处理器，同时支持多种数据库后端、多种消息队列，另外还支持JavaScript渲染页面的爬取，使用起来非常方便，本节介绍一下它的安装过程。相关链接官方文档：http: //docs.pyspider.org / PyPI：h...

2019-07-15 23:56:19 933

原创关于gulp插件gulp-cache运行出错SyntaxError: Unexpected identifier

Gulp是一款基于Node.js构建工具（自动任务运行器）。Gulp提供了大量的集成好的插件，开发者可以通过简单的命令实现一些繁杂的功能，但是Gulp的插件也存在不少坑。在构建完前端环境运行时，一直报语法错误：SyntaxError: Unexpected identifier，但是检查语法有没发现问题。一开始怀疑是Gulp的问题，于是编写简单的测试程序，程序如下：var gulp =...

2019-06-16 14:29:13 2779 1

原创 ProxyHandler处理器（代理设置）(urllib库）

ProxyHandler处理器(代理) 很多网站会检测某一段时间某个IP的访问次数(通过流量统计，系统日志等)，如果访问次数多的不像正常人，它会禁止这个IP的访问。所以我们可以设置一些代理服务器，每隔一段时间换一个代理，就算IP被禁止，依然可以换个IP继续爬取。 urllib中通过ProxyHandler来设置使用代理服务器，下面代码说明如何使用自定义opener来使用代理： 1、代理...

2019-04-22 21:46:11 603

原创 Python网络爬虫与信息提取——网络爬虫Scrapy框架

第四章网络爬虫之Scrapy框架● Scrapy爬虫框架Scrapy爬虫框架介绍Scrapy爬虫框架解析requests库和Scrapy爬虫比较Scrapy爬虫常用命令● Scrapy爬虫基本使用● Scrapy爬虫实例...

2019-04-21 11:57:06 2412 4

原创 Python网络爬虫与信息提取——网络爬虫规则（Re篇）

第四章网络爬虫之规则（Re正则表达式篇）● Re（正则表达式）库入门正则表达式简介1、RE（regular expression，regex，正则表达式）是用来简洁表达一组字符串的表达式。2、RE库理解；1）通用的字符串表达框架； 2）简洁表达一组字符串的表达式； 3）针对字符串表达“简洁”和“特征”思想的工具； 4）判断某字符串的特征归属...

2019-04-20 16:00:36 1214

原创 Python网络爬虫与信息提取——网络爬虫规则（BeautifulSoup篇）

第二章网络爬虫之规则（BeautifulSoup篇）●BeautifulSoup库入门BeautifulSoup库的安装1.安装方法：CMD窗口->pip install beautifulsoup42.使用方法：from bs4 import BeautifulSoup soup = BeautifulSoup('<p>data<>...

2019-04-19 20:12:30 581

原创 Python网络爬虫与信息提取——网络爬虫规则（Requests篇）

第二章网络爬虫之规则●Requests库入门特点:简单、简洁，一行代码即可从网站上获取资源。安装方法：CMD窗口->pip install requestsRequests库的主要方法：1、requsets.request()方法使用格式：requests. request(method, url, **kwargs) -method:请求方式,对应...

2019-04-15 19:44:35 598 1

原创 Python网络爬虫与信息提取——导学篇

第一章网络爬虫之前奏●网络爬虫课程内容导学爬虫基本要求：掌握定向网络数据肥取和网页解析的基本能力主要部分：1、Requests：自动爬取HTML页面，自动网络请求提交；2、robots. txt：网络爬虫排除标准；3、Beautiful Soup：解析HTML页面，框架解析、提取相关信息；4、Re:正则表达式详解，提取页面局部关键信息；5、Scrapy*:专业网络爬虫框架。 ...

2019-04-15 19:44:09 556

qq_41915019的博客