- 博客(16)
- 收藏
- 关注
原创 Mac解决多个pip混乱,软连接设置无效的问题
Mac解决多个pip混乱,软连接设置无效的问题问题记一次修改配置pip3软连接,解决多pip混乱的问题。如此时我的电脑上Xcode有一个python3.8,自己安装python3.7.4。在命令行输入pip3,会自动调到python3.8下的pip3。踩了几个坑,记录下。修改1.要设置环境变量顺序因为现在Mac下/usr/local/bin的环境变量是可以修改的,但是/usr/bin的不能更改的。所以我们要保证/usr/local/bin的环境变量位置在/usr/bin前面,这样才能先读/usr
2021-03-29 00:10:11
1505
原创 解决问题twisted.internet.error.DNSLookupError: DNS lookup failed: address 'none' not found: [Errno 8] no
twisted.internet.error.DNSLookupError: DNS lookup failed: address 'none' not found: [Errno 8] nodena...相关错误,这是这是Scrapy在运行的时候出现的问题,看了很多解决方案。我自己的问题是出在中间件的代理设置,自己设置的代理池出现了问题。测试可以看到,如果不使用代理是不会报错的。那么问题肯定...
2020-05-07 13:46:29
4589
转载 chrome浏览器解除网页右键点击屏蔽方法
操作非常简单,在简书上看到的,特意转载过来1、右键书签栏,添加网页2、标题随便起,网址栏输入如下代码,保存javascript:(function() { function R(a){ona = "on"+a; if(window.addEventListener) window.addEventListener(a, function (e) { for(var n=e.origi...
2020-05-07 01:29:49
3725
原创 jieba库的使用学习
参考文章:https://blog.youkuaiyun.com/ebzxw/article/details/803047611、虽然有参考文章,但还是自己动手记一下会好得多。jieba(结巴)中文分词,通过查阅可以看到有以下几种模式,支持三种分词模式: 精确模式:试图将句子最精确的分开,适合文本分析 全模式:把句子中所有的可以成词的词语都扫描出来,速度很快,但是不能解决歧义 搜索引擎分词:...
2020-05-07 00:29:27
1282
原创 Scrapy分布式知识(二)---五大核心组件之(Pipelines)
Pipelines也就是管道,主要用来对数据进行一些处理,如对数据的持久化存储、数据清洗、去重、插入数据库等操作如这是默认的Pipelines文件:1、process_item:这个是最主要的方法,用来存储引擎传过来的item,一定要有返回值item,可以有2个类型来选择。return item:item是返回正常的item return DropItem/raise DropI...
2020-05-02 15:29:43
491
原创 Scrapy分布式知识(一)---Scrapy工作流程图,五大核心组件(DownloadMiddleware、Spider)
这是自己手动整理的一个Scrapy工作流程图和网络上找到的关于Scrapy的流程图,大家可以看看Scrapy目录结构介绍:下面介绍Scrapy五大核心组件DownloadMiddleware,下载中间件:它可以改写你发起的请求,也可以处理返回的数据(或者是当出现异常的时候进行一些处理) 官方文档位置:https://docs.scrapy.org/en/latest/t...
2020-05-02 15:10:04
500
原创 配置云服务器+bt面板搭建自己的服务器
1、购买服务器这里使用阿里云服务器进行搭建,近期有活动,学生的话有优惠,这里是购买学生机https://promotion.aliyun.com/ntms/act/campus2018.html2、配置控制台购买完成之后,来到控制台,会在1~5之内在控制台生成实例,在控制台实例选项中点击实例ID可以进入实例详情。然后在更多厦门可以进行重置密码,主要为后续远程连接到服务器需要输入的用户名...
2020-05-02 14:20:18
925
原创 分布式爬虫联系项目1–阳光热线网站的分布式爬取
要爬取的目标网站地址:http://wz.sun0769.com/political/index/politicsNewest?id=1&page=1要爬取的内容为问政标题和处理状态。1、首先介绍Spider.py里面的代码1.1、首先,如果要使用scrapy_redis分布式,需要导入scrapy_redis对应的包。这里使用深度爬取CrawlSpider来进行fr...
2020-05-02 12:22:34
569
原创 阿里云部署flask接口,5000端口或其他端口均无法访问。问题解决
1:修改阿里云防火墙打开官网,控制台,自己的服务器,点防火墙,然后添加规则,开放端口(5000)2:ssh连接服务器修改防火墙,我这里使用finalShell连接到阿里云服务器输入:systemctl start firewalld.servicefirewall-cmd --zone=public --add-port=5000/tcp --permanentsystemc...
2020-05-02 12:18:02
3120
原创 Linux(CentOS)下安装Python(3.7.4版本)
这里记录下在CentOS虚拟机上安装Python3.7.4版本时候遇到的坑和安装步骤,我的系统是Mac,仅供参考。1、安装编译需要的包其中yum -y groupinstall "Development tools"(这一步还是蛮关键的),因为之前在下载的时候多次遇到卡顿,即在最后编译Python部分的时候会卡在307/416,一个下载socket的步骤,尝试了多个方法如升级openssl...
2020-04-25 23:19:29
683
原创 网络基础知识(二)OSI七层协议、TCP/UDP、粘包现象
OSI七层协议 TCP/UDP 粘包现象1、OSI七层协议应用层(7) 表示层(6) 会话层(5) 传输层(4) 网路层(3) 数据链路层(2) 物理层(第1层)标准的是七层协议,而为了大部分程序员的开发,将OSI七层协议合并成了OSI五层协议,将其中的应用层、表示层、会话层合并成了应用层。所以,也可以叫,OSI五层协议(应用层、传输层、网络层、数据链路层、物理层)1....
2020-04-07 23:54:28
419
原创 网络编程的基础知识(一):局域网、IP、端口
主要结合所学知识,以个人的理解进行整理,有以下几点:局域网内通信 局域网与局域网之间的通信 IP 端口首先了解两个概念:MAC地址:相当于人的身份证号,在电脑出厂的时候就附加上了,且不会重复。作为唯一的标识符,不变。 IP地址:相对于人在不同阶段的时候的代号,如学号,工号。是一种临时的标识符,可变。1、局域网内:(使用到交换机)多台主机之间形成一个局域网,如在学校的机房中,...
2020-04-06 23:32:24
1984
原创 Windows下Python环境配置和分布式搭建(二)
本文主要讲分布式搭建最主要的redis数据库的按照和配置,以及实现分布式架构的流程。1、按照redis数据库,可以参考视频教程:https://www.bilibili.com/video/av19057145?p=3下载redis的官网链接:https://redis.io/download 启动redis可能会出现的错误问题: windows下安装Redis第一次启动报错:[236...
2020-03-27 14:19:31
247
原创 Windows下Python环境搭建并配置分布式环境(一)
本文主要讲解在Windows在Python环境的安装,以及搭建分布式架构的实现流程,包括一部分实现过程中遇到的问题。更多的实验步骤可以通过相关的教学视频上去参考学习。1、安装Python3和Anaconda(Windows下安装anaconda可以省去很多不必要的麻烦,下载一些库能够一键式搞定,不需要再配置更多东西很方便,推荐使用),参考视频链接:https://www.bilibili.co...
2020-03-27 11:39:43
527
原创 2、python爬虫学习项目之第三方代理IP的使用
在做爬虫的过程中,如果你爬取的频率过快,不符合人的操作模式。有些网站的反爬虫机制通过监测到你的IP异常,访问频率过高。就会对你进行封IP处理。目前已有比较多的第三方平台专门进行代理IP的服务,我们调用其API接口就可以随机获取到平台给定的IP。这里推荐几个比较常用的代理平台:阿布云:https://www.abuyun.com/ 讯代理:http://www.xdaili.cn/web 芝...
2020-02-18 16:22:49
1199
原创 Python爬虫学习之selenium项目1---12306模拟登录和验证码识别
Selenium是一款基于浏览器自动化的工具,使用它可以模拟浏览器进行网页访问,对于爬取一些动态加载数据的网站算是一个非常好用的工具了。今天练习的项目就是基于Selenium对12306进行模拟登陆,并对其中的登陆验证码通过调用第三方平台超级鹰来进行自动识别点击,完成自动登陆。一、首先,先对要爬取的网站12306进行一个分析。官方地址:https://www.12306.cn/index...
2020-02-14 20:20:49
994
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人