冒_冒-优快云博客

原创 Hadoop集群文件上传及下载过程和hdfs各角色的作用

文件上传文件上传过程: 客户端向namenode发送文件上传的请求 namenode进行一系列的检查.权限.文件的父目录是否存在文件是否同名,检查通过则允许上传允许客户端上传客户端发送真正的文件上传的请求,请求包含一个重要信息,文件的长度和大小 namenode根据文件的长度计算文件的切块的个数,获取副本的配置信息;返回副本的节点的信息的时候原则: 就近原则 ,客户端所在节点,同机架,不...

2019-04-12 17:45:51 826

原创大数据-Hadoop的四大机制

Hadoop四大机制 1.心跳机制 ** 心跳的报告信息:datanode块信息,存活状态 ** 每三秒datanode向namenode发送心跳信息 ** 连续10次未收到心跳信息,namenode会向datanode发送验证信息,10分钟一次,两次未响应,则datanode可能宕机了,时间是:3*10+300*2 = 630s 2.安全模式集群启动顺序:namenode -...

2019-04-12 16:11:46 330

原创 python面试排序类

一.将两个有序数组去重合并为一个新的有序数组 def hebing(): a = [1,2,5,7,14,45,89] b = [3,5,8,9,23,45,67,101] i=0 j=0 m=0 c = [] while (i<len(a) and j<len(b)): if a[i]< b[j]: ...

2019-03-01 14:14:15 252

在爬取虚拟货币的交易信息时,为保证数据的及时性,网站通常会使用websocket协议.此时我们的爬虫也需要使用websocket来处理这类问题. websocket的优点是在于: 1.可以节省每次请求的headers,一次请求可以节省几十个字节; 2.服务器可以自主向客户端传递数据,不用像传统的轮询的方式一样. 爬取neotracker的货币的数据并存入数据库 import websocket...

2018-12-24 16:51:58 910

原创爬虫总结

爬虫总结(一) scrapy… setting.py ROBOTSTXT_OBEY = False , 拒绝接受默认协议 CONCURRENT_REQUESTS = 32 , 开启的线程数量 DOWNLOAD_DELAY = 0 , 等待时间 CONCURRENT_REQUESTS_PER_DOMAIN = 32 , CONCURRENT_REQUESTS_PER_IP = 32 , sc...

2018-11-27 17:09:52 187

原创进程的queue和process

开启进程进程中使用队列 – 进程彼此之间互相隔离，要实现进程间通信（IPC），multiprocessing模块支持两种形式：队列和管道，这两种方式都是使用消息传递的。 Queue([maxsize]):创建共享的进程队列，Queue是多进程安全的队列，可以使用Queue实现多进程之间的数据传递。 q.put方法用以插入数据到队列中。 q.get方法可以从队列读取并且删除一个元素。 ...

2018-08-21 23:07:28 662

原创使用selenium进行豆瓣登录操作,验证码打码

from selenium import webdriver import time import requests from lxml import etree import base64 # 操作浏览器 driver = webdriver.Chrome() url = 'https://accounts.douban.com/login?alias=&redir=https%3A%...

2018-08-21 22:41:13 544

原创爬取代理信息,用multiprocessing多进程验证代理是否可用

获取66ip的代理信息创建进程池异步检测代理是否可用 import requests from lxml import etree import multiprocessing import time # 验证ip是否可以使用 def check_proxy(proxy): try: url = 'https://www.baidu.com/s?wd=ip' ...

2018-08-21 22:37:56 274

原创我爱我家房源信息爬取

我爱我家房源信息获取无特殊爬取需求 import requests from lxml import etree from mysql_link import mysql_connect def get_5i5j(count): mysql_ = mysql_connect() headers = { 'Cookie': '_Jo0OQK=6B2EFB...

2018-08-20 08:32:14 1183

原创 python连接mysql

import pymysql class mysql_connect(object): # 初始化的构造函数 def __init__(self): self.db = pymysql.connect(host='127.0.0.1',user='root',password='yao123',port=3306,database='pachong',charse...

2018-08-20 08:27:50 226

原创 tencnet社招信息抓取

从mysql_link导入数据库链接 from lxml import etree from urllib import parse import requests import json from mysql_link import mysql_connect def get_detail(detail_url,mysql): user_agent = 'Mozilla/5.0 (...

2018-08-20 08:26:54 327

原创今日头条页面图片获取

今日头条页面图片获取分为获取目录下的文件路径以及具体目录下的多张图片 import re import requests import json,os from urllib import request def get_detail(url,title): headers = { 'User-Agent':'Mozilla/5.0 (Windows NTr ...

2018-08-16 22:48:04 1674

原创 requests应用,代理

对于requests包的调用 import requests url = 'http://www.xicidaili.com' proxy = { 'http':'http://root:Yao+ql2011@101.200.50.18:8118' } user_agent = 'Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537....

2018-08-15 21:30:55 205

原创雪球网爬取数据并存入数据库

创建数据库连接 from urllib import request import json import pymysql class mysql_connect(object): # 初始化的构造函数 def __init__(self): self.db = pymysql.connect(host='127.0.0.1',user='root',pas...

2018-08-15 21:28:55 1375 1

原创人人网cookie

人人的cookie的存储 from http import cookiejar from urllib import request,parse from interface_all import save_cookie import json url = 'http://www.renren.com/ajaxLogin/login?1=1&uniqueTimestamp=201872...

2018-08-14 21:11:46 211

原创爬虫cookie类的封装

类的封装 from urllib import request,parse import json from http import cookiejar class save_cookie(object): # 创建类变量opener def __init__(self): cookie = cookiejar.CookieJar() hand...

2018-08-14 21:09:56 271

原创 python爬虫有道词典翻译

有道词典的翻译应用(post请求方式) from urllib import request import time,random from 爬虫.day01.interface_all import post import json # md5加密 def md5_object(st): import hashlib md5_obj = hashlib.md5() md...

2018-08-14 20:47:08 351

原创爬虫初阶一:get和post请求

get和post请求 from urllib import request,parse import json def get(url,headers = None): return urlrequest(url,headers=headers) def post(url,data = None,headers = None): return urlrequest(url,...

2018-08-13 20:25:33 219

原创 cookie,session区别和联系

1、cookie数据存放在客户的浏览器上，session数据放在服务器上。 2、cookie不是很安全，别人可以分析存放在本地的cookie并进行cookie欺骗，考虑到安全应当使用session。 3、session会在一定时间内保存在服务器上。当访问增多，会比较占用你服务器的性能，考虑到减轻服务器性能方面，应当使用cookie。 4、单个cookie保存的数据不能超过4K，很多浏览器都限...

2018-08-13 20:22:09 144

qq_41847171的博客