- 博客(10)
- 资源 (2)
- 收藏
- 关注
原创 Connection reset by peer
在使用git push 的时候突然失败 :报错信息如下:Connection reset by 52.74.223.119fatal: Could not read from remote repository.Please make sure you have the correct access rightsand the repository exists.解决方法:git...
2019-10-01 21:48:39
672
原创 python创建虚拟环境
python虚拟环境下执行程序好处多多,可以无视各种版本冲突的问题。一般在工作过程中都是针对每个项目创建一个虚拟环境。1、Ubuntu环境下#没有安装virtualenv,先进行安装pip install virtualenvvirtualenv .env #.env为虚拟环境目录名,目录名自定义#进入虚拟环境目录:source .env/bin/activate #so...
2019-04-26 16:54:53
214
原创 geckodriver的安装方法
在使用selenium爬虫,驱动firefox浏览器操作时,需要安装geckodriver插件,下面简单介绍一下其安装方法:1、下载地址:wget https://github.com/mozilla/geckodriver/releases/download/v0.24.0/geckodriver-v0.24.0-linux64.tar.gz我下载的是geckodriver-v0.18....
2019-04-26 16:45:11
5639
原创 linux下查看某软件是否安装
1、如果以deb包安装的,可以用dpkg -l能看到。如果是查找指定软件包dpkg -l|grep “软件或者包的名字”或者dpkg -s firefox2、yum方法安装的,可以用yum list installed查找,如果是查找指定包,命令后加 | grep “软件名或者包名”例如:yum list installed|grep firefox...
2019-04-26 16:37:16
1487
原创 git 常用命令总结
git 常用命令总结欢迎使用Markdown编辑器从命令行创建一个新的仓库提交新修改的代码冲突实例与远程的链接git日常使用命令git命令理解:欢迎使用Markdown编辑器记录工作中常用的git命令,便于自己查找使用。从命令行创建一个新的仓库touch README.mdgit initgit add README.mdgit commit -m "first commit"gi...
2019-04-25 13:30:58
184
原创 生成器generetor
生成器generetorgenerator是一种特殊的可迭代对象iterable。主要目的为节约内存, 后边元素没有用到时就暂时不创建,访问时才会生成。创建方式分两种:1、(i*2 for i in range(10)) 列表生成器;2、推算算法比较复杂,用列表推导式不能实现时,用函数的yield功能实现。生成器由于访问前由于没创建,因此不支持列表的切片操作,如 a[100]以下时一个...
2019-03-23 21:31:56
359
原创 Python3爬取搜狗微信公众号
本文主要参考《python3网络爬虫开发实战》,来实现对相应关键词的微信公众号的爬取。爬虫的API借口为https://weixin.sogou.com/
2019-03-19 11:15:19
3918
3
原创 免费代理池的搭建
在做爬虫的时候,由于高频访问,经常会出现IP被封禁的情况,因为服务器检测到某个IP在单位时间内访问次数超过某个阈值时,会认为是爬虫程序在访问,便直接拒绝服务。因此,一般的处理手段是我们可以使用代理,来伪装IP,让服务器无法识别由我们本机发起的请求。网络上有大量免费且公开的代理可以供我们使用,但这些单利并不能保证都可以使用,因为同样的代理可能被其他人拿来爬虫使用而遭到封禁,因此,在真正使用之前,我...
2019-03-19 11:15:07
5585
3
原创 信用风险评分的原理及实现
背景介绍信用评分技术是一种应用统计模型,其作用是对贷款申请人(信用卡申请人)做风险评估分值的方法。信用评分卡模型是一种成熟的预测方法,尤其在信用风险评估和金融风控领域得到了广泛的应用。信用评分卡可以根据客户提供的资料、客户的历史数据,对客户的信用进行评估,是建立在对大量数据进行统计分析的基础上,具有jiao较高的准确性和可靠性。本文通过对kaggle上的Give Me Some Credit...
2019-01-18 23:30:48
5829
2
原创 Python分析CDNow的用户消费行为
Python分析CDNow的用户消费行为加载数据初步了解数据集时间列转换数据探索分析复购率和回购率用户分层数据集来源于CDnow网站的用户购买行为,数据集一共包含四个字段:user_id,购买日期,购买数量和购买金额。属于非常典型的消费行为数据集,非常适合利用pandas以及numpy对其进行分析。数据集下载链接:加载数据导入相关库import pandas as pdimport n...
2019-01-14 23:53:52
3588
4
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人