- 博客(19)
- 收藏
- 关注
原创 Hadoop集群文件上传及下载过程和hdfs各角色的作用
文件上传 文件上传过程: 客户端向namenode发送文件上传的请求 namenode进行一系列的检查.权限.文件的父目录是否存在 文件是否同名,检查通过则允许上传 允许客户端上传 客户端发送真正的文件上传的请求,请求包含一个重要信息,文件的长度和大小 namenode根据文件的长度计算文件的切块的个数,获取副本的配置信息;返回副本的节点的信息的时候原则: 就近原则 ,客户端所在节点,同机架,不...
2019-04-12 17:45:51
826
原创 大数据-Hadoop的四大机制
Hadoop四大机制 1.心跳机制 ** 心跳的报告信息:datanode块信息,存活状态 ** 每三秒datanode向namenode发送心跳信息 ** 连续10次未收到心跳信息,namenode会向datanode发送验证信息,10分钟一次,两次未响应,则datanode可能宕机了,时间是:3*10+300*2 = 630s 2.安全模式 集群启动顺序:namenode -...
2019-04-12 16:11:46
330
原创 python面试排序类
一.将两个有序数组去重合并为一个新的有序数组 def hebing(): a = [1,2,5,7,14,45,89] b = [3,5,8,9,23,45,67,101] i=0 j=0 m=0 c = [] while (i<len(a) and j<len(b)): if a[i]< b[j]: ...
2019-03-01 14:14:15
252
原创 websocket爬虫
在爬取虚拟货币的交易信息时,为保证数据的及时性,网站通常会使用websocket协议.此时我们的爬虫也需要使用websocket来处理这类问题. websocket的优点是在于: 1.可以节省每次请求的headers,一次请求可以节省几十个字节; 2.服务器可以自主向客户端传递数据,不用像传统的轮询的方式一样. 爬取neotracker的货币的数据并存入数据库 import websocket...
2018-12-24 16:51:58
910
原创 爬虫总结
爬虫总结(一) scrapy… setting.py ROBOTSTXT_OBEY = False , 拒绝接受默认协议 CONCURRENT_REQUESTS = 32 , 开启的线程数量 DOWNLOAD_DELAY = 0 , 等待时间 CONCURRENT_REQUESTS_PER_DOMAIN = 32 , CONCURRENT_REQUESTS_PER_IP = 32 , sc...
2018-11-27 17:09:52
187
原创 进程的queue和process
开启进程 进程中使用队列 – 进程彼此之间互相隔离,要实现进程间通信(IPC),multiprocessing模块支持两种形式:队列和管道,这两种方式都是使用消息传递的。 Queue([maxsize]):创建共享的进程队列,Queue是多进程安全的队列,可以使用Queue实现多进程之间的数据传递。 q.put方法用以插入数据到队列中。 q.get方法可以从队列读取并且删除一个元素。 ...
2018-08-21 23:07:28
662
原创 使用selenium进行豆瓣登录操作,验证码打码
from selenium import webdriver import time import requests from lxml import etree import base64 # 操作浏览器 driver = webdriver.Chrome() url = 'https://accounts.douban.com/login?alias=&redir=https%3A%...
2018-08-21 22:41:13
544
原创 爬取代理信息,用multiprocessing多进程验证代理是否可用
获取66ip的代理信息 创建进程池异步检测代理是否可用 import requests from lxml import etree import multiprocessing import time # 验证ip是否可以使用 def check_proxy(proxy): try: url = 'https://www.baidu.com/s?wd=ip' ...
2018-08-21 22:37:56
274
原创 我爱我家房源信息爬取
我爱我家房源信息获取 无特殊爬取需求 import requests from lxml import etree from mysql_link import mysql_connect def get_5i5j(count): mysql_ = mysql_connect() headers = { 'Cookie': '_Jo0OQK=6B2EFB...
2018-08-20 08:32:14
1183
原创 python连接mysql
import pymysql class mysql_connect(object): # 初始化的构造函数 def __init__(self): self.db = pymysql.connect(host='127.0.0.1',user='root',password='yao123',port=3306,database='pachong',charse...
2018-08-20 08:27:50
226
原创 tencnet社招信息抓取
从mysql_link导入数据库链接 from lxml import etree from urllib import parse import requests import json from mysql_link import mysql_connect def get_detail(detail_url,mysql): user_agent = 'Mozilla/5.0 (...
2018-08-20 08:26:54
327
原创 今日头条页面图片获取
今日头条页面图片获取 分为获取目录下的文件路径 以及具体目录下的多张图片 import re import requests import json,os from urllib import request def get_detail(url,title): headers = { 'User-Agent':'Mozilla/5.0 (Windows NTr ...
2018-08-16 22:48:04
1674
原创 requests应用,代理
对于requests包的调用 import requests url = 'http://www.xicidaili.com' proxy = { 'http':'http://root:Yao+ql2011@101.200.50.18:8118' } user_agent = 'Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537....
2018-08-15 21:30:55
205
原创 雪球网爬取数据并存入数据库
创建数据库连接 from urllib import request import json import pymysql class mysql_connect(object): # 初始化的构造函数 def __init__(self): self.db = pymysql.connect(host='127.0.0.1',user='root',pas...
2018-08-15 21:28:55
1375
1
原创 人人网cookie
人人的cookie的存储 from http import cookiejar from urllib import request,parse from interface_all import save_cookie import json url = 'http://www.renren.com/ajaxLogin/login?1=1&uniqueTimestamp=201872...
2018-08-14 21:11:46
211
原创 爬虫cookie类的封装
类的封装 from urllib import request,parse import json from http import cookiejar class save_cookie(object): # 创建类变量opener def __init__(self): cookie = cookiejar.CookieJar() hand...
2018-08-14 21:09:56
271
原创 python爬虫有道词典翻译
有道词典的翻译应用(post请求方式) from urllib import request import time,random from 爬虫.day01.interface_all import post import json # md5加密 def md5_object(st): import hashlib md5_obj = hashlib.md5() md...
2018-08-14 20:47:08
351
原创 爬虫初阶一:get和post请求
get和post请求 from urllib import request,parse import json def get(url,headers = None): return urlrequest(url,headers=headers) def post(url,data = None,headers = None): return urlrequest(url,...
2018-08-13 20:25:33
219
原创 cookie,session区别和联系
1、cookie数据存放在客户的浏览器上,session数据放在服务器上。 2、cookie不是很安全,别人可以分析存放在本地的cookie并进行cookie欺骗,考虑到安全应当使用session。 3、session会在一定时间内保存在服务器上。当访问增多,会比较占用你服务器的性能,考虑到减轻服务器性能方面,应当使用cookie。 4、单个cookie保存的数据不能超过4K,很多浏览器都限...
2018-08-13 20:22:09
144
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人
RSS订阅