- 博客(63)
- 收藏
- 关注
原创 python16
#ip代理池构建的第一种方式import randomimport urllib.requestimport re#用户代理池用列表存储,这里构建3个用户代理(自己随便构建个数)ippools = [“”, #这里输入不同的 User-Agent 的值“”, #这里输入不同的 User-Agent 的值“”, #这里输入不同的 User-Agent 的值]#接下来构...
2019-10-15 19:46:24
248
原创 python15
import randomimport urllib.requestimport re#爬取首页下每页的内容 ------# compile(pat,re.S) 匹配多行数据headers = (“User-Agent”,“Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko)...
2019-10-15 19:45:49
221
原创 python14
import reimport urllib.requestimport urllib.parse#python新闻爬虫‘’’需求:将腾讯新闻首页所有新闻都爬到本地思路:1先爬首页2.通过正则获取所有新闻链接3.然后依次爬各新闻链接4.寻找有没有frame5.若有,抓取frame下对应网页内容6.若没有,直接抓取当前页面7.最后保存到本地‘’’‘’’. 除 换行符...
2019-10-15 19:44:57
229
原创 python13
import reimport urllib.requestimport urllib.parse#异常处理‘’’常见状态码及含义URLError与HTTPError爬虫如果不进行异常处理,下次运行时,又会重头开始‘’’‘’’状态码301 重定向到新的URL,永久性302 重定向到临时的URL,非永久性304 请求的资源未更新400 非法请求401 请求未经授权40...
2019-10-15 19:44:16
204
原创 python12
import reimport urllib.request#urllib.request.urlcleanup()超时设置for i in range(0,5):file=urllib.request.urlopen(“https://read.douban.com/provider/all”,timeout=1)try:print(len(file.read().decode(“...
2019-10-07 21:55:48
216
原创 python11
import reimport urllib.request‘’’urlretrieve(网址,本地文件存储地址) #直接下载网页到本地urlcleanup() #清除爬虫缓存info() #当前爬取 相应的情况getcode() ...
2019-10-07 15:21:53
146
原创 python10
import reimport urllib.request‘’’如何匹配.com或.cn网址,以及如何匹配电话号码[a-zA-Z]+ 协议至少出现一次[^\s]* 域名不可能出现空白符,不知道出现多少次[.com|.cn] 模式选择,要么出现 .com , 要么出现 .cn‘’’#匹配.com或.cn网址string = “百度首页”pat = ...
2019-10-07 14:54:44
200
原创 python9
import re#模式修正符‘’’I 匹配时忽略大小写M 多行匹配L 本地化识别匹配U unicodeS 让.匹配包括换行‘’’string = “Python”pat = “pyt”result = re.search(pat,string)print(result)‘’’None‘’’string = “Python”pat = “pyt”result =...
2019-10-07 13:22:53
164
原创 python8
import re#元字符‘’’. 除 换行符 以外的 任意字符^ 不在原子表中,代表匹配开始位置$ 匹配结束位置前面的原子 重复出现 0次、1次、多次? 前面的原子 重复出现 0次、1次前面的原子 重复出现 1次、多次{n} 前面这个原子恰好出现n次{n,} 前面这个原子至少出现n次{n,m} 前面这个原子至少出现n次,最多出现m次| 模式选择符或...
2019-10-06 21:58:34
131
原创 python7
import re #导入正则string = “taoyunjiaoyu”pat = “yun”result = re.search(pat,string)print(result)‘’’<re.Match object; span=(3, 6), match=‘yun’>match 就是正则提取的结果‘’’‘’’1.普通字符作为原子2.通用字符作为原子3...
2019-10-06 21:48:15
116
原创 python6
‘’’继承:把某一个或多个类(基类)的特征拿过来重载:在子类(派生类)里面对继承过来的特征重新定义父类:基类子类:派生类‘’’#单继承,多继承#某一个家庭:父亲、母亲、儿子、女儿、父亲可以说话、母亲可以写字,儿子继承父亲#女儿同时继承了父母,并且有新能力听东西,小儿子继承父亲,但优化了父亲的说话能力#父亲类class father(): #基类def speak(se...
2019-10-06 19:57:32
124
原创 python5
#面向对象‘’’创建一个类class 类名:类里面内容实例化一个对象a = cl()pass 不进行任何操作,只是占了一个位置‘’’class cl:passa = cl() # a就是对象,cl()就是方法‘’’构造函数 == 构造方法类在实例化的时候自动首先触发的方法(构造方法)构造函数的实际意义:初始化init(self,参数) init...
2019-10-06 19:35:20
206
原创 python4
#异常处理‘’’异常处理格式try:程序except Exception as 异常名称(自己随意起):异常处理部分 #这里处理的时候程序不会崩溃,后面的程序可以继续执行‘’’for i in range(0,10):print(i)if(i == 4): # 制作一个异常print(i)print(jki) #变量未定义#print(i) ...
2019-10-06 18:36:53
127
原创 python3
#乘法口诀for i in range(1,10):for j in range(1,i+1):print(str(i)+""+str(j)+"="+str(ij),end=" “) # end=”" :不换行输出 // end=" " : 每一次执行后以空格分隔print() # print() :代表换行print()print()print()#逆向输...
2019-10-06 18:06:33
139
原创 爬取每个用户及评论和随机抽取一名幸运观众
import requestsimport jsonimport pprint # 打印会有结构,print打印没有结构import randomr = requests.get(‘https://api.bilibili.com/x/v2/reply?jsonp=jsonp&pn=1&type=1&oid=xxxx&sort=2&_=xxxx’)...
2019-10-05 23:47:48
918
原创 hbase优化
1.高可用,hbase支持对Hmaster的高可用配置,下面都是在主节点执行的关闭Hbase集群(没启动,就跳过这步)bin/stop-hbase.sh在conf目录下创建backup-masters文件touch conf/backup-masters在backup-masters文件中配置高可用Hmaster节点echo hadoop103 > conf/backup-mas...
2019-09-16 17:47:43
154
原创 hbase自定义mr-2
1.目标:实现将hdfs中的数据写入到hbase表中//数据样式1001 apple red1002 pear yellow1003 pineapple yellow1.创建fruit.tsv,导入数据,上传到hdfs / 下2.hbase 中 创建 fruit2 表3.把下面自定义 mr2打包 上传到集群中 // 例如: /opt 下4.运行命令:/opt/hadoop/bi...
2019-09-15 16:46:42
159
原创 hbase自定义mr-1
1.目标:将fruit表中的一部分数据,通过mr迁入到fruit1表中从hbase读数据,经过mr,最终写入hbase中//数据样式1001 apple red1002 pear yellow1003 pineapple yellow/opt/hadoop/bin/yarn jar /opt/hbase/lib/hbase-server-1.4.3.jar importtsv-Dim...
2019-09-15 16:46:11
178
原创 hbase搭建
1.创建hbase用户useradd hbasepasswd hbaseRetype new passwd2.添加java_home环境变量到hbase用户vi ~/.bashrcexport JAVA_HOME=/opt/jdk-12.0.2export PATH=$PATH:JAVA_HOME/bin3.添加hbase_home环境变量到hbase用户中vi ~/.bashr...
2019-09-14 17:06:22
777
原创 hbase中执行mr任务
1.查看hbase的mr任务的执行bin/hbase mapredcp2.环境永久生效,在/etc/profilevi /etc/profileexport HBASE_HOME=/opt/hbaseexport HADOOP_HOME=/opt/hadoop并在hadoop-env.sh中配置(for循环后面配)vi hadoop-env.shexport HADOOP_CLA...
2019-09-14 17:04:50
796
原创 python2
输入一个任意类型的数#import randomfrom random import randintimport mathinput01 = input(“please input a data:”)a = int(input01) # 转换成整型print(a)input01 = input(“please input a data:”)b = input01 # 任意类型...
2019-09-13 18:43:09
97
原创 python1
变量的使用x = 3print(id(x)) # 测试内存地址print(type(x))y = xprint(id(y)) # 按值存储 y 和x 统一空间a = “hello world”print(type(a))print(isinstance(x, int))‘’‘数字的大小 ,可表示尽可能大的数’’’z = 9999999999999999999999999...
2019-09-13 18:41:47
151
原创 zookeeper3.5.5配置
1.下载2.解压3.权限sudo chown -R 节点名:9000 /opt/zookeeper/4.修改配置文件cd /opt/zookeeper/confcp zoo_sample.cfg zoo.cfgvi zoo.cfg只改#example sakes下的一个文件路径就行了,data自己手动创建example sakes.dataDir=/opt/zookeeper/...
2019-09-13 18:29:49
714
2
原创 hbase API 增删改查
import java.io.IOException;import org.apache.hadoop.conf.Configuration;import org.apache.hadoop.hbase.Cell;import org.apache.hadoop.hbase.CellUtil;import org.apache.hadoop.hbase.HBaseConfiguration...
2019-09-12 19:54:42
204
原创 hbase7
1.删除表,列,列族时,严格按照时间戳来执行当 时间戳<删除时的时间戳 时,小于的时间戳的所有版本都被删除2.主键:rowkey访问hbase table中的行,只有三种方式1)通过单个rowkey访问2)通过rowkey的rang(正则)3)全表扫描rowkey可以是任意字符串,最大长度为64kb,rowkey保存为字节数组,存储时数据按照rowkey的字典顺序排序3.列族...
2019-09-11 15:40:27
119
原创 hbase6
1.进入hbasebin/hbase shell2.启动hbasebin/start-hbase.sh3.关闭hbasebin/stop-hbase.sh4.如果在关闭hbase时,出现…一直等待情况,直接jps,killkill -9 5578 //假设5578为hbase端口号5.进入zookeeper查看是否还有hbase进程bin/zkCli.shls /6....
2019-09-11 15:39:51
179
原创 hbase5
1.创建列族中有version的表create ‘user’ , {name=>‘info’ , versions=>10}2.测试version的作用put ‘user’ , ‘row1’ , ‘info:name’ , ‘x’put ‘user’ , ‘row1’ , ‘info:name’ , ‘x1’put ‘user’ , ‘row1’ , ‘info:name’ ...
2019-09-01 16:34:06
140
原创 hbase4
1.删除info列族,建表后alter ‘table’ , ‘delete’ => ‘info’2.增加info列族,建表后alter ‘table’ , ‘name’ => ‘info’3.添加数据put ‘user’ , ‘row1’ , ‘info:name’ , ‘san’put ‘user’ , ‘row2’ , ‘info:age’ , ‘20’put ‘us...
2019-09-01 16:33:30
142
原创 hbase3
1.获取用户对商品1001的行为scan ‘s_behavie’ , filter => “ValueFilter(=,‘binary:1001’)”row column+cell12_1 column=pc:v,timestamp=1234,value=100112_1 column=ph:o,timestamp=1235,value=1001//注意:ValueFilter会匹...
2019-08-31 17:26:57
236
原创 hbase2
1.创建表create ‘table_name’ ,{name=>‘pc’},{name=>‘ph’}该表名为:table_name,用来存储用户的行为数据,这个表有两个列族,列族pc用来存储用户pc端的用户行为数据,列族ph用来存储用户的手机端的用户的行为数据。2.查看所有表list会列出hbase数据库中所有已经创建的表3.查看建表describe ‘table_n...
2019-08-28 16:11:03
164
原创 hbase1
1.hbase集群增加节点假设新增节点ip为:192.168.1.10,slave21.修改/etc/hosts文件,在所有节点(除新加节点)上运行如下命令以追加新机器名与ip绑定到host文件然后将hosts文件复制到slave2echo ‘192.168.1.10’ slave2 >> /etc/hosts2.修改…/hadoop-2.6.5/etc/hadoop/sla...
2019-08-28 16:10:29
169
原创 sqoop
1.官网:http://sqoop.apache.org/2.sqoop,datax:同类产品3.版本:两个版本完全不兼容,sqoop1用的最多sqoop1:1.4xsqoop2:1.99x4.安装步骤(1)解压(2)配置环境变量export SQOOP_HOME=/xx/sqoop.xxsource /etc/profile(3)添加数据库驱动包cp mysql-conn...
2019-08-26 16:52:47
114
原创 hive视频日志转换格式
crontab -e //打开1 */1 * * * sh /opt/cp_movie_data.sh //每个小时第一分钟执行一次3 */1 * * * nohup sh /opt/up_movie_data.sh >> /opt/local/log.log 2>&1 & //一般...
2019-08-25 16:41:03
143
原创 hive随笔7
cd /optvi test.sh#!/bin/bashdatetime=(date′+source/etc/profilehive−e"loaddatalocalinpath′/opt/datame.txt′intotableshujuku.tablenamepartition(dt=(date '+%Y%m%d%H')sour...
2019-08-24 16:38:58
140
原创 hive随笔6
1.udf函数可以直接应用于select语句,对查询结构做格式化处理后,再输出内容2.编写udf函数的时候需要注意以下几点(1)自定义udf需要继承org.apache.hadoop.hive.ql.exec.UDF(2)需要evaluate函数3.步骤(1)把程序打包放到目标机器上去(2)进入hive客服端,添加jar包:add jar /usr/local/testdata/hiv...
2019-08-24 16:38:27
110
原创 hive随笔5
1.udf函数可以直接应用于select语句,对查询结构做格式化处理后,再输出内容2.编写udf函数的时候需要注意以下几点(1)自定义udf需要继承org.apache.hadoop.hive.ql.exec.UDF(2)需要evaluate函数3.步骤(1)把程序打包放到目标机器上去(2)进入hive客服端,添加jar包:add jar /usr/local/testdata/hiv...
2019-08-23 16:48:00
131
原创 hive随笔4
1.row_number() //窗口函数–一般用于分组中求TopN需求:每。。。。。前几名。。。。。//给每个分组数据打上行号作用:把每一组的每一行都打上数字,1,2,3…然后取自己要用的行语法:select * from (select name,data_time,row_number() over(partition by name order cost desc) a...
2019-08-23 16:47:10
141
原创 hive随笔3
1.hive函数使用if函数 if( , , )if(条件表达式,如果条件成立返回值,如果条件不成立返回值)select age,if(person_age=‘0’,null,person_age) from student;case when 函数 case when … endcase a when b then c [when d then e]* [else] en...
2019-08-22 16:30:21
265
原创 hive随笔2
1.查看建表语句show create table table_name;2.查看表的元信息desc table_name;desc extended table_name;desc formatted table_name;3.重命名表alter table table_name to rename to new_table;4.创建数据库cretae database dat...
2019-08-22 16:29:43
152
原创 hive随笔1
1.查看一个有很多内容的1.txt文件,可以先看一点内容head 1.txt2.hive基本语法-建表create [external] table table_name(a int,b string,c string)partitioned by(非必选,创建分区表 dt string)clustered by (userid) into 3000 buckets //非...
2019-08-21 16:18:24
138
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人