- 博客(40)
- 资源 (1)
- 收藏
- 关注
原创 Hive中的map类型及其操作
–创建表,并定义map类型create table employee(id string, perf map<string, string>) ROW FORMAT DELIMITED FIELDS TERMINATED BY '\t' COLLECTION ITEMS TERMINATED BY ',' --map形式key:value,
2020-06-29 15:22:27
22837
原创 Hive中创建udf
前提:你要写好udf的java代码,并打成jar包(网上有很多)----------------------创建临时udf----------------------add jar /home/hadoop/jar/new_udf.jar ;–添加jar包到linux系统create temporary function checkOrganiza as ‘com.szsm.udf.CheckOrganiza’;–创建临时方法select checkOrganiza(‘314554372’);–测
2020-06-29 15:02:47
441
转载 HIVE中用了 NOT IN的问题
两表通过id匹配,求 A-B ,用 NOT IN 实现select * from a where id not in ( select id from b );OKTime taken: 34.123 seconds, Fetched: 0 row(s)这里有诡异了,为什么结果集没了呢? 不能啊??原因:在RMDB中, t1.id IN (select t2.id from b t2 ) 等价于 : t1 join b t2 on t1.id = t2.id and t1.id is not n
2020-06-05 16:03:48
1180
原创 hive正则表达式匹配中文或者字符
hive正则表达式匹配中文或者字符regexp_replace()regexp_extract()regexp_replace()案例1:select regexp_replace('四川成都市A-17号','[^A-Za-z0-9\\u4e00-\\u9fa5]','');结果:四川成都市A17号解释:替换非字符(大小写),非数字和非中文的字符。regexp_extract()案例2:select regexp_extract('四川成都市A-17号','[^A-Za-z0-9\\u4
2020-05-19 15:42:22
12018
原创 win10中chrome浏览器书签路径
win10中chrome浏览器书签路径C:\Users\Administrator\AppData\Local\Google\Chrome\User Data\Default\Bookmarks
2020-05-07 14:38:14
9949
原创 notepad++用正则表达式处理数据
notepad++用正则表达式处理数据:**1.**用正则表达式进行查询,见下面两个例子:查询出K(9999CD5036200)**2.**进行正则表达式查询和正则表达式进行替换,见下面例子:替换之前的数据:将原始数据中的表空间TS_DW_DZDZ_DATA更改成TS_DW_DZDZ_IDX,按照下图操作即可完成功能...
2020-03-04 15:10:09
1276
原创 hadoop2.6+hive+oozie+sqoop+hue集群搭建
hadoop集群搭建一、 环境说明二、 环境搭建1. Linux系统准备2. 安装jdk8并设置环境变量3. 安装mysql4. 安装hadoop5. 安装hive6. 安装sqoop7. 安装oozie8. 安装hue9. 结果展示10. 启动集群脚本一、 环境说明我使用的是笔记本电脑,一台8G内存,一台4G内存,然后在笔记本上搭建虚拟机centos7.0当作搭建hadoop的机器,最终的结...
2020-01-20 18:05:01
1425
原创 在hue上使用oozie的时候报错java.lang.StackOverflowError
在hue上使用oozie的时候报错java.lang.StackOverflowError原因产生:问题的解决说明:自己搭建了一个大数据平台,但是在使用的时候报这个错误,这个可以给遇到此错误的人一个解决方法(我搭建的是CDH5.6.0的一套,后续我还会把我搭建的环境的整个步骤写成文档)。**原因产生:**网上说产生这个错误的原因2:1)启动MainActivity,会创建一个线程,同时...
2020-01-19 12:31:01
375
原创 oracle中sql的优化
版权声明:原文为博主原创文章,遵循 CC 4.0 BY-SA 版权协议,转载请附上原文出处链接和本声明。原文链接:https://blog.youkuaiyun.com/InJra_p/article/details/90081975
2019-10-14 15:24:00
170
原创 java写mr程序2-flowSum
2.mapreduce程序统计上行下行流量①FlowBean类:package cn.mr.flowSum;import java.io.DataInput;import java.io.DataOutput;import java.io.IOException;import org.apache.hadoop.io.Writable;import org.apache.hado...
2019-07-23 23:50:25
456
原创 java写mr程序1-worldCount
1.计数MapReducemapper程序:package cn.mr;import java.io.IOException;import org.apache.hadoop.io.LongWritable;import org.apache.hadoop.io.Text;import org.apache.hadoop.mapreduce.Mapper;import org.ap...
2019-07-23 23:26:35
680
原创 java操作pg库的工具类
地址 https://blog.youkuaiyun.com/u014131617/article/details/85336084
2019-07-17 20:15:02
1483
原创 windows下安装hadoop2.6和spark2.3.3需要的安装包
1.hadoop2.6.52.spark2.3.3-2.63.java8
2019-07-10 23:06:24
543
原创 python的多线程的一个类,直接可以使用
import threadingimport queueimport time'''queue.qsize() 返回队列的大小queue.empty() 如果队列为空,返回True,反之Falsequeue.full() 如果队列满了,返回True,反之Falsequeue.full 与 maxsize 大小对应queue.get([block[, timeout]])获取队列,t...
2019-06-28 21:34:41
922
原创 python的日志模块
'''date:2019-06-28autor:wangxc功能:1.写日志功能,当没有传入日志写入路径时,他会将 本文件名.log 的日志文件存放到脚本同路径下 例子:脚本路径在c:logger.py,那么生成的日志文件logger.log将会在c:下存在2.可以传入日志的级别,控制日志输出的形式,如何配置日志输出形式,可以看下面注释'''import loggingi...
2019-06-28 20:23:44
261
转载 hive日期操作
该片文章为转载,整理了两篇博客,主要是方便我的查找,里面内容经过检验。1.unix_timestamp()返回当前时区的unix时间戳返回类型:biginthive (tmp)> select unix_timestamp() from hive_sum limit 1;14658750162.from_unixtime(bigint unixtime[,string forma...
2019-04-28 09:55:40
2110
原创 hadoop相关学习博客
在此记录有助于方便学习!hadoop:https://www.cnblogs.com/wangsongbai/category/1226969.html学习hive博客地址:https://www.cnblogs.com/wangsongbai/tag/hive/https://www.cnblogs.com/wangsongbai/category/1226985.htmlstorm...
2019-04-24 08:58:56
184
转载 MySQL常用字符串函数
常用字符串函数原文地址:https://www.cnblogs.com/geaozhang/p/6739303.htmlMySQL 实现字符串拆分(含分隔符的字符串截取)原文地址:https://blog.youkuaiyun.com/pjymyself/article/details/81668157...
2019-04-18 17:10:24
164
原创 mysql添加索引语句
1.添加PRIMARY KEY(主键索引)mysql>ALTER TABLE `table_name` ADD PRIMARY KEY ( `column` )2.添加UNIQUE(唯一索引)mysql>ALTER TABLE `table_name` ADD UNIQUE (`column`)3.添加INDEX(普通索引)mysql>ALTER TA...
2019-04-10 10:38:30
15796
原创 mysql对索引的操作
1.ALTER TABLE ALTER TABLE用来创建普通索引、UNIQUE索引或PRIMARY KEY索引ALTER TABLE table_name ADD INDEX index_name (column_list)ALTER TABLE table_name ADD UNIQUE (column_list)ALTER TABLE table_name ADD PRIMA...
2019-04-10 10:37:14
200
转载 mysql分区解读
mysql分区原文地址:https://blog.youkuaiyun.com/ichglauben/article/details/81201424
2019-04-08 11:10:24
167
原创 hive常用字符串函数
hive常用字符串函数语法: instr(string A,string B) 返回值: int 说明:返回字符串B在字符串A的位置,不存在返回0举例: select instr('abcd','a')1select instr('abcd','t')0语法: length(string A) 返回值: int 说明:返回字符串A的长度 举例: hiv...
2019-04-04 11:06:53
10647
原创 Mysql实现ROW_NUMBER() OVER()
**Mysql实现ROW_NUMBER() OVER()**#1.将要进行分组的列进行order by(这个menu排序必须要这样做)select userid,menu,score from test_domain.wxc order by menu asc ,score desc ;#2.先判断pdept变量是否等于menu,如果相等rank变量相等,否则rank变量为1(所以在这...
2019-03-30 10:35:46
31864
3
原创 mysql添加表或字段注释
添加表注释1.创建表的时候写注释create table test1 (field_name int comment ‘字段的注释’)comment=‘表的注释’;2.修改表的注释alter table test1 comment ‘修改后的表的注释’;3.修改字段的注释alter table test1 modify column field_name int comment ‘...
2019-03-26 09:40:16
2695
原创 mysql的空与null
总结如下: 1.定义为NOT NULL的字段只能插入空值,不能插入null值,而NULL字段可以插入空值,也可以插入null值。 2.可以发现 is not null 只会过滤为null值的列,而<>会同时过滤空值和null值,所以要根据实际情况选择过滤方式。另外,判断null值只能用 is null 或 is not null ,不能用 = 或 <>。 3.在进行c...
2019-03-26 09:18:33
439
原创 mysql字符串截取函数
mysql字符串截取函数left(), right(), substring(), substring_index();还有 mid(), substr()。其中,mid(), substr() 等价于 substring() 函数,substring() 的功能非常强大和灵活。1. 字符串截取:left(str, length)mysql> select left(‘example....
2019-03-21 20:04:16
421
原创 mysql中取整函数ROUND,FLOOR和CEILING的用法
一、ROUND()函数用法ROUND(X) – 表示将值 X 四舍五入为整数,无小数位ROUND(X,D) – 表示将值 X 四舍五入为小数点后 D 位的数值,D为小数点后小数位数。若要保留 X 值小数点左边的 D 位,可将 D 设为负值。该函数与FLOOR函数有所不同,在应用中需注意,另外,DECIMAL函数也有类似该函数四舍五入的功能。1、ROUND示例:SELECT ROUND(‘...
2019-03-20 20:41:50
1489
原创 mysql表或字段注释
创建表的时候写注释create table test1 (field_name int comment ‘字段的注释’)comment=‘表的注释’;修改表的注释alter table test1 comment ‘修改后的表的注释’;修改字段的注释alter table test1 modify column field_name int comment ‘修改后的字段注释’;–...
2019-03-20 20:38:31
2348
原创 mysql 添加列,修改列,删除列
ALTER TABLE:添加,修改,删除表的列,约束等表的定义。查看列:desc 表名;修改表名:alter table old_table rename to new_table;添加列:alter table 表名 add column 列名 varchar(30);删除列:alter table 表名 drop column 列名;修改列名MySQL: alter table 表名...
2019-03-20 20:37:04
17787
原创 mysql中判断字段是否是数字
#查询出数据则为数字select * from standard_csbi_service_tree_1d_full where length(0+‘b123’)=length(‘b123’);例子:select name,name+0,userid,userid+0 from wxc;name name+0 userid userid+0f 0 5 5e 0 5 5c 0 3 3...
2019-03-20 20:31:58
5190
原创 mysql锁表的解决
–查看进程id,然后用kill id杀掉进程show processlist;SELECT * FROM information_schema.PROCESSLIST;//查询是否锁表show OPEN TABLES where In_use > 0;//查看被锁住的SELECT * FROM INFORMATION_SCHEMA.INNODB_LOCKS;//等待锁定SEL...
2019-03-20 20:19:05
7720
原创 mysql查询表或字段信息
查询数据库中所有表名select * from information_schema.tables where table_schema=‘数据库名’ and table_type=‘base table’;查询指定数据库中指定表的所有字段名column_nameselect * from information_schema.columns where table_schema=‘数据库名...
2019-03-20 20:15:58
4985
1
原创 python爬取贴吧网页信息
第一步分析网页代码如下:'''author:superWangdate:2017-09-15requests模板:2.18.4bs4模板:4.6.0json模板:2.0.9time模板:无爬取贴吧网页http://c.tieba.baidu.com/p/4994831746?pn=1 中的信息 ,url中pn=1表示第一页'''#!/usr/bin/env python#
2019-03-19 17:38:27
659
原创 python爬取贴吧网页信息
第一步分析网页代码如下:'''author:superWangdate:2017-09-15requests模板:2.18.4bs4模板:4.6.0json模板:2.0.9time模板:无爬取贴吧网页http://c.tieba.baidu.com/p/4994831746?pn=1 中的信息 ,url中pn=1表示第一页'''#!/usr/bin/env python#-*- c
2017-09-18 10:03:30
1126
原创 python查看模块的版本
查看模块的版本有两种方法,具体如下 1.模块名.version: >>> import requests >>> requests.__version__ '2.18.4'2.help(模块名) 看大概倒数的 VERSION 即版本号>>>help(requests)...VERSION 2.18.4AUTHOR Kenneth ReitzFILE
2017-09-15 17:29:53
37999
原创 爬取糗事百科的笑话,每按一下Enter键,输出一条信息
这是一个简单的爬虫,爬取糗事百科的笑话,每按一下Enter键,输出一条信息。'''author:superWangdate:2017-09-14爬取糗事百科的笑话'''#!/usr/bin/env python#-*- coding:utf-8 -*-import requestsfrom bs4 import BeautifulSoupimport reclass GetQiuShi
2017-09-14 23:45:09
408
原创 python对URL的编码和解码
@pythonimport urllib#解码print(urllib.parse.unquote('https%3A%2F%2Fapi.47ks.com%2Fconfig%2Fgetinfo.m3u8%3Fpt%3Dyouku%26src%3Dwebcloud%26t%3D1505203028%26vid%3DXMzAxOTE3ODg3Ng%253D%253D%26k%3D0a88ECxah
2017-09-12 16:35:49
1033
原创 python爬取百度新闻所有的新闻的前1页 标题和URL地址
这是我自己写的一个爬取百度新闻的一个代码,欢迎大家多来讨论,谢谢!(自己已经测试可以使用,在最后见效果图)'''爬取百度新闻所有的新闻的前1页 标题和URL地址'''import requestsimport jsonfrom bs4 import BeautifulSoupimport re#获得每页新闻标题和新闻地址def getPageInfo(url,page): ne
2017-09-06 11:27:42
5954
1
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人