
爬虫
读书小孩
‘路漫漫其修远兮,任重而道远’
展开
-
python在gbk编码转换成utf-8时乱码问题
实例网站:http://www.ip138.com/ips138.asp?ip=124.24.13.241&action=4 #项目爬虫,环境python-下载导入requests、lxml包 #url时是查ip位置的接口 url_1='http://www.ip138.com/ips138.asp?ip='+str(kh_ip)+'&action=2' #导入...原创 2018-10-28 09:57:32 · 2972 阅读 · 2 评论 -
关于python在爬虫scrapy框架,使用happybase方法链接hbase进行数据上传操作
如果有集群先将hbase的集群启起来python代码如下import happybaseimport MySQLdb#pipelines.py文件里面类覆盖原有类 Pachong_qcwyPipelineclass Pachong_qcwyPipeline(object): #初始化 def __init__(self): #同时导入mysql,mysql链接...原创 2018-10-25 23:10:06 · 589 阅读 · 0 评论 -
python 每天如何定时启动爬虫任务
想要每天定时启动,最好是把程序放在linux服务器上运行,毕竟linux可以不用关机,即定时任务一直存活;#coding:utf8import datetimeimport time def doSth(): # 把爬虫程序放在这个类里 print(u'这个程序要开始疯狂的运转啦')一般网站都是1:00点更新数据,所以每天凌晨一点启动def main(h=1,m=0...转载 2018-11-06 21:31:10 · 542 阅读 · 0 评论 -
Python的scrapy框架爬虫项目中加入邮箱通知(爬虫启动关闭等信息以邮件的方式发送到邮箱)
前面关于发送邮件的博客参考:普通邮件博客——点击打开链接 带附件的邮件——点击打开链接准备:1、创建scrapy爬虫项目2、代码主要是两部分:呈上代码第一部分是发送邮件的代码:import smtplibfrom email.mime.text import MIMEText import...转载 2018-11-06 21:39:07 · 555 阅读 · 0 评论 -
scrapy爬虫通知使用并发送email
此篇文章做个记录。使用脚本来发送email在python有两个模块来支持:smtplib和email此处是讲述如何用scrapy来发送,那么不管是何种语言或框架,它的过程都是类似于连接数据库,需要一个先构建一个发送器,通过对应的端口号,用户名,密码,以及发送的文本或命令。当然发送email此处变成了邮箱和密码,增加了从哪来(from)到哪去(to)的过程.并以两种方式来实现*上菜:两种方式...原创 2018-11-06 21:54:52 · 1258 阅读 · 3 评论 -
shell中的crontab定时任务
一、crontab简介:crond是linux下用来周期性的执行某种任务或等待处理某些事件的一个守护进程,与windows下的计划任务类似,当安装完成操作系统后,默认会安装此服务工具,并且会自动启动crond进程,crond进程每分钟会定期检查是否有要执行的任务,如果有要执行的任务,则自动执行该任务。Linux下的任务调度分为两类,系统任务调度和用户任务调度。系统任务调度:系统周期性所要执行...转载 2018-11-06 23:33:06 · 203 阅读 · 0 评论 -
爬虫大概分类
网络爬虫按照系统结构和实现技术,大致可以分为以下几种类型:通用网络爬虫(General Purpose Web Crawler)、聚焦网络爬虫(Focused Web Crawler)、增量式网络爬虫(Incremental Web Crawler)、深层网络爬虫(Deep Web Crawler)。 实际的网络爬虫系统通常是几种爬虫技术相结合实现的 [1] 。通用网络爬虫通用网络爬虫又称...翻译 2018-11-02 21:49:57 · 5816 阅读 · 0 评论