- 博客(83)
- 资源 (3)
- 收藏
- 关注
原创 hive开窗函数 sum() over()
求有多少个数 sum(1) count(*)select sum(1) from table;求有多少个满足某个条件的个数 sum(if(2>1,0,1)) count( if(2>1,0,1))(此处的条件就是我们认为的事件)求本组有多少个满足某个条件的个数 sum(if(2>1,0,1))over(partition by user_id)求本组截止到当前行有多少个满足某个条件的个数 sum(if(2>1,0,1))over(p...
2021-07-14 15:25:18
1129
原创 org.apache.hadoop.hive.serde2.io.ParquetHiveRecord cannot be cast to org.apache.hadoop.io.BytesWrita
Caused by: java.lang.ClassCastException: org.apache.hadoop.hive.serde2.io.ParquetHiveRecord cannot be cast to org.apache.hadoop.io.BytesWritable at org.apache.hadoop.hive.ql.io.HiveIgnoreKeyTextOutputFormat$1.write(HiveIgnoreKeyTextOutputFormat.java:91).
2021-06-22 16:28:28
1557
转载 hive中 regexp_replace的用法,替换特殊字符问题
数据仓库中有的字段不合格,有特殊字符,比如换行符。poi_name \n19013 \n12013怎么把换行符替换掉呢?https://cwiki.apache.org/confluence/display/Hive/LanguageManual+UDF#LanguageManualUDF-StringOperatorsregexp_replace(string INITIAL_STRING, string PATTERN, string REPLACEMENT)Retu.
2020-12-16 11:28:16
3839
原创 使用idea对maven项目打包时,报 invalid LOC header (bad signature)异常处理
打包,报错: 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 [INFO] Including org.codehaus.groovy:groovy-all:jar:2.4.3in the shaded jar. [INF...
2019-11-05 15:59:04
1716
原创 谷歌浏览器开多个小号窗口
1 右键 新建快捷方式在弹出的对话框 对象的位置中输入chrome.exe 所在的位置2 在生成的快捷方式点击右键 --属性--目标 后面加上 --user-data-dir=E:\chrome\20最终事例目标"C:\Program Files (x86)\Google\Chrome\Application\chrome.exe" --user-data-dir=E:\chrome...
2019-11-01 17:48:12
4854
原创 hive导出csv文件
hive表没有指定分隔符hive -e 'set hive.execution.engine=tez; set hive.cli.print.header=true; set hive.resultset.use.unique.column.names=false; select * from xyy_bigdata_ods.user_city_tag_1027' | sed 's/x01/,...
2019-10-28 19:46:52
1390
原创 NoViableAltException(100124:1: selectItem :
报错信息:NoViableAltException(100@[124:1: selectItem : ( ( expression ( ( ( KW_AS )? identifier ) | ( KW_AS LPAREN identifier ( COMMA identifier )* RPAREN ) )? ) -> ^( TOK_SELEXPR expression ( ident...
2019-08-30 09:35:40
2491
1
转载 sqoop一些常用命令及参数
这里给大家列出来了一部分Sqoop操作时的常用参数,以供参考,需要深入学习的可以参看对应类的源代码。 序号 命令 类 说明 1 import ImportTool 将数据导入到集群 2 expor...
2019-08-26 17:51:56
701
原创 spark循环中的变量问题,,foreach里面向map填值,在循环外面值没有了
下面这个map在循环里面有值,到循环外的map里就没有值了。。。objectTest { defmain(args: Array[String]): Unit = { valconf =newSparkConf(); conf.setMaster("local[1]"); conf.setAppName("WcAppTask")...
2019-08-26 14:28:12
2884
5
原创 java.sql.BatchUpdateException: Data truncation: Out of range value for column 'aa' at row
sqoop从hive导出表到mysql问题原因:mysql表里面字段aa类型是decimal,长度是(10,2)解决方案:将长度改成(16,2)解决
2019-08-16 10:27:14
4456
原创 mysql密码忘记使用超级管理员密码重置
停止mysql服务 运行输入services.msc 停止mysql服务 在cmd下 输入: mysqld --skip-grant-tables启动服务器 光标不动 (注意:不要关闭该窗口) 再打开一个cmd窗口输入mysql -u root -p 不需要密码 进入MySQL后输入如下命令use mysql;update user set passwo...
2019-07-27 16:18:34
314
原创 Protocol message end-group tag did not match expected tag
ERROR o.a.s.d.executor -java.io.IOException: Failed on local exception: com.google.protobuf.InvalidProtocolBufferException: Protocol message end-group tag did not match expected tag.; Host Details :...
2019-06-28 11:59:04
12824
转载 解决pip安装太慢的问题
经常在使用Python的时候需要安装各种模块,而pip是很强大的模块安装工具,但是由于国外官方pypi经常被墙,导致不可用,所以我们最好是将自己使用的pip源更换一下,这样就能解决被墙导致的装不上库的烦恼。网上有很多可用的源,例如豆瓣:http://pypi.douban.com/simple/ 清华:htt...
2019-06-27 09:30:09
30398
10
原创 lombok在IntelliJ IDEA下的使用
lombok是一款可以精减java代码、提升开发人员生产效率的辅助工具,利用注解在编译期自动生成setter/getter/toString()/constructor之类的代码。代码越少,意味着出bug的可能性越低。官网地址:https://projectlombok.org/首页有一段几分钟的演示视频,看完就明白是怎么回事了。各种注解的详细用法,请参考:https://project...
2019-06-05 11:17:35
425
转载 Scala 2.10.0 新特性之字符串插值 s,f,raw
Scala 2.10.0 新特性之字符串插值 s,f,rawScala在处理字符串方面终于也与时俱进了,引入了字符串插件,这在许多脚本语言中就早已这么做了。有了这个特性,字面量字符串和变量连接可以不需要总是用加号进行丑陋的连接了。有些脚本语言会是只对双引号字符串解析其中的变量,单引号的不会,当然Scala是要区分字符串和字符类型。直白的讲字符串插值就是,val name="Unmi";...
2019-06-04 11:38:37
1197
原创 推荐系统之决策树算法
分类模型:决策树目录一、决策树的引入:................................................................................................................ 3二、首先从一个实例讲起:.......................................................
2019-05-28 16:05:27
2644
2
原创 TypeError: 'range' object is not callable
TypeError: 'range' object is not callableIn python 3,rangereturns an iterator, not a list itself. The following does hence not work with python 3. It does however, with python 2.import seaborn ...
2019-05-22 11:15:21
9380
原创 Python 数据科学库入门
Python 数据科学库入门1.Numpy1.1Numpy 简介Numpy(Numerical Python)Numpy:提供了一个在 Python 中做科学计算的基础库,重在数值计算,主要用于多维数组(矩阵)处理的库。用来存储和处理大型矩阵,比 Python 自身的嵌套列表结构要高效的多。本身是由 C 语言开发,是个很基础的扩展,Python其余的科学计算扩展大部分都是以此为基础。...
2019-05-19 17:14:51
1575
原创 Python 数据科学入门
Python 数据科学入门1.0 了解 Python1.1 绍 课程介绍 & 为什么 Python 如此受欢迎?(1) 课程介绍Tips:Python 基础+数据科学基础(Numpy\Pandas\Matplotlib\Scipy)(2) Python 为什么如此受欢迎?Python 语言介绍: 面向对象,解释型计算机程序设计语言 1989 年 Guido van Ro...
2019-05-16 09:24:59
671
原创 机器学习
1. 机器学习引入引用著名的西瓜书上对机器学习的引入。试想这样一个场景,傍晚小街路面上沁出微雨后的湿润,和煦的细风吹来,抬头看看天边的晚霞。心里想着明天又是一个好天气。走到水果摊旁,挑了个色泽青绿、敲起来声音浊响的青绿西瓜,一边期待着西瓜皮薄肉厚瓤甜的爽落感,一边愉快地想着,明天学习 Python 机器学习一定要狠下功夫,基础概念搞得清清楚楚,案例作业也是信手拈来,我们的学习效果一定差不...
2019-05-14 16:27:27
2145
原创 机器学习入门简介
机器学习Java、Python是一门语言,机器学习是一门技术或方法,数据挖掘是一件事情。语言------------------------->机器学习----------------------->数据挖掘、模式识别、人工智能也许你和这个叫『机器学习』的家伙一点也不熟,但是你举起iphone手机拍照的时候,早已习惯它帮你框出人脸;也自然而然点开今日头条推给你的新闻;...
2019-05-14 09:44:58
395
原创 Failed calling sys.__interactivehook__
C:\Users\data>pythonPython 3.7.0 (v3.7.0:1bf9cc5093, Jun 27 2018, 04:59:51) [MSC v.1914 64 bit (AMD64)] on win32Type "help", "copyright", "credits" or "license" for more information.Failed calli...
2019-05-13 11:59:19
5810
11
原创 jupyter-使用及设置密码 window系统下
(一)使用1.终端输入:jupyter notebook --generate-config 会生成一个配置文件,成功后会显示文件路径(C:\Users\bigdata03\.jupyter\jupyter_notebook_config.py) 2.打开路径下的jupyter_notebook_config.py配置文件,找到c.NotebookApp.notebook_dir=修改为自己...
2019-05-08 16:46:20
634
转载 稀疏矩阵的存储格式CSC理解。(Local Matrix)
稀疏矩阵的存储格式CSC理解。目的Compressed Sparse Column Format (CSC)的目的是为了压缩矩阵,减少矩阵存储所占用的空间。这很好理解,手法无法就是通过增加一些"元信息"来描述矩阵中的非零元素存储的位置(基于列),然后结合非零元素的值来表示矩阵。这样在一些场景下可以减少矩阵存储的空间。Spark API在Spark中我们一般创建这样的稀疏矩阵的API...
2019-04-18 10:20:37
3275
原创 A master URL must be set in your configuration
org.apache.spark.SparkException: A master URL must be set in your configuration at org.apache.spark.SparkContext.<init>(SparkContext.scala:376) at org.apache.spark.SparkContext$.getOrCr...
2019-03-20 11:19:16
947
转载 HBase隔离方案实战-rsgroup
HBase适合用于海量数据的存储,横向扩展非常方便,随着数据的增长,访问的性能却不会出现很大的下降。这是很多的公司选择使用HBase作为分布式数据库的一个很重要的原因。正常来说,一个HBase集群肯定不止跑一个业务,即多个业务共享集群资源。这些业务中有的对性能要求很高;有的业务要求存储很大;有的业务属于公司的核心业务,需要重点保障;有的业务是离线业务,短时间访问不了影响也不大。这里就会产生对于不同...
2019-03-20 09:49:07
1363
转载 基于Mysql表结构生成Hive表结构
背景业务系统库数据迁移到Hadoop平台做分析要涉及到所有迁入的表结构要类型和表结构语句的更改,部分表字段可能两三百个字段,对程序员来说捉行手动修改简直始终煎熬。。。表结构mysql`id` int(10) unsigned NOT NULL AUTO_INCREMENT,`city_id` int(11) NOT NULL DEFAULT '0' COMMENT '大区ID'...
2019-03-18 17:41:08
1835
2
原创 ALS.train 报错java.lang.StackOverflowError
开发协同过滤组件,运用了spark millb上的协同过滤 ALS算法。在测试过程中遇到了内存溢出的错误,查找了错误位置,发现在训练的时候,迭代次数的增加便会出现这个问题,原因可能是迭代是的计算的数据量指数上升sc.setCheckpointDir("/tmp")问题暂时解决因为这只是一个治标不治本的办法。每次你还要去删除/tmp里面的文件...
2019-03-13 16:29:58
786
原创 Notepad++找回自动保存缓存内容的文件
文件自动保存的路径 C:\Users\Administrator\AppData\Roaming\Notepad++\backup类似于图片上的 用Notepad++打开就能得到自动缓存的文件要是修改过路径按照以下方法查找点击Notepad++---设置---首选项--备份--定期备份在---后面跟着的就是你的备份路径...
2019-03-13 08:38:58
3613
2
转载 CDH 安装 presto集成hive和mysql
1.Presto简介 Presto是由Facebook开源,完全基于内存的并行计算以及分布式SQL交互式查询引擎。它可以共享Hive的元数据,然后直接访问HDFS中的数据,同时支持Hadoop中常见的文件格式比如文本,ORC和Parquet。同Impala一样,作为Hadoop之上的SQL交互式查询引擎,通常比Hive要快5-10倍。另外,Presto不仅可以访问HDFS,还可以...
2019-03-02 16:08:09
2765
3
转载 Spark 调优 (Tuning Spark)
由于大多数Spark计算任务是在内存中运行计算,任何集群中的资源限制都可能成为Spark程序的瓶颈,比如:CPU、网络、带宽、内存。通常情况下,如果内存能容纳所处理数据,主要的瓶颈则仅是网络带宽。但有些时候您也需要做一些调优,比如利用RDD序列化存储来降低内存消耗。本手册将会涵盖以下两个大点:数据序列化(对优化网络传输和降低内存开销有显著效果)、内存优化。我们同时会介绍另外的几个小点。数据序列...
2019-03-01 15:31:48
280
转载 Spark中cache和persist的作用以及存储级别
在Spark中有时候我们很多地方都会用到同一个RDD, 按照常规的做法的话,那么每个地方遇到Action操作的时候都会对同一个算子计算多次,这样会造成效率低下的问题例如:val rdd1 = sc.textFile("xxx")rdd1.xxxxx.xxxx.collectrdd1.xxx.xxcollect123上面就是两个代码都用到了rdd1这个RDD,如果程序执行的话,那...
2019-02-28 18:25:12
794
原创 遇到的问题集
问题1:streaming提交任务产生了堆积原因 消费偏移量产生了大量的堆积查看sparkUI界面可以得知由于偏移量由服务端掌握,所以2天堆积的数据达到了5000万条spark任务处理不过来对策:重置消费偏移量,增大运行存储(需要增加的特别大,因为堆积的数据量太多,需要想办法处理)spark.streaming.unpersist()设置为true,可以自动回收...
2019-01-11 15:46:06
4292
转载 DataFrame 读取与保存
Spark SQL支持多种结构化数据源,能够轻松从各种数据源中读取Row对象。这些数据源包括Hive表,JSON,Parquet,CSV等文件。 从文件系统加载与保存 // hdfs上读取val customerDF = spark.read.format("csv").mode("overwrite").option("header", true).load("hdfs:/temp...
2019-01-04 17:22:19
4899
转载 MAVEN手动安装jar到本地仓库mvn install
如果你:从远程仓库down jar比较慢,更换镜像还是很慢;依赖的jar文件不多,而且你手头正好有这个jar文件。那么你可以尝试手动安装jar到本地仓库。 maven命令:mvn install:install-file -Dfile=e:/it-blacklist-0.0.1-SNAPSHOT.jar -DgroupId=cn.blacklist -DartifactI...
2019-01-04 14:34:27
858
转载 java.net.ConnectException: Connection refused: no further information
java.net.ConnectException: Connection refused: no further information程序抛出这个异常的原因多数是因为在此[host:port]没有监听,那么该如何解决这个问题呢,如下第一个要做的是看你的host和port是否写错了,如 [ 127.00.1:8080 ] 第二个要看你的server是否真正的运行起来了,比如serv...
2019-01-02 17:13:22
10646
原创 hive+hbase做关联表问题 Error in metadata: MetaException(
运行的建表语句create table my_report(myrow string,lastname string) stored by 'org.apache.hadoop.hive.hbase.HBaseStorageHandler' with serdeproperties("hbase.columns.mapping"=":key,cf1:firstname") tblprope...
2018-12-11 17:12:22
698
原创 zeepplin连接hive 运行报错
java.lang.ClassNotFoundException: org.apache.hive.service.cli.thrift.TCLIService$Iface在配置hive的时候缺少jar包/opt/zeppelin-0.8.0-bin-all/lib/hadoop-common-2.7.3.jar/opt/zeppelin-0.8.0-bin-all/lib/hive...
2018-11-30 14:50:21
379
转载 impala 导出查询结果到文件
想用impala-shell 命令行中将查询的结果导出到本地文件,想当然的以为impala 和 hive 一样可以用 insert overwrite local directory ‘/home/test.txt’ select ……. 这样的命令导出到本地,执行了一下,发现impala 不支持这个。然后查了一下,发现impala-shell 可以像mysql 一样的方式导出查询结果到文件。...
2018-11-08 15:56:35
1326
转载 hadoop 权限错误 Permission denied: user=root, access=WRITE, inode="/":hdfs:super
hadoop 权限错误 Permission denied: user=root, access=WRITE, inode="/":hdfs:super关于不能执行Hadoop命令 并报权限问题执行错误1、Permission denied: user=root, access=WRITE, inode="/":hdfs:supergroup:drwxr-xr-xmkdir: Permis...
2018-11-08 14:07:00
11117
Apache Kylin中文权威指南.pdf
2018-11-02
Apache Kylin权威指南.pdf 高清完整版
2018-11-02
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人