
大数据
文章平均质量分 53
看穿数据之美
机器学习/深度学习/数据挖掘/推荐算法,微信为oppo62258801(同13011197941),邮箱为lcqbit11@163.com,欢迎学习交流!
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
hive 判断int值奇数偶数 hive中位运算妙用
hive表cinema有一列id,int类型。查询条件有一项:id为奇数。方式一:select id from cinema where id%2=1;方式二: select id from cinema where id & 1 =1;这里可以来看一下&这个运算符:可以看出,通过将数值&1,奇数对应为1,偶数对应为0,并且简单测试来看,按位&效率稍微更快一点。...原创 2021-05-11 16:02:23 · 3123 阅读 · 0 评论 -
linux sed 替换Host ip json中key值 hdfs路径
将json中某个key对应的值修改为指定的值condition="logtime > '2019-12-02 15:21:00 and logtime <='2019-12-02 15:22:00'"sed -i 's/\("where":"\).*/\1'"$condition"'",/g' tmptext.jsonip="logtime > '2019-12-02 15:36:00' and logtime <='2019-12-02 15:37:00'" sed原创 2021-01-15 10:53:05 · 1429 阅读 · 0 评论 -
CentOS7 配yum源 配阿里云
进入centos的yum文件夹cd /etc/yum.repos.d/用wget下载repo文件,下载的repo文件会在/etc/yum.repos.d/下wget http://mirrors.aliyun.com/repo/Centos-7.repoPS:如果wget命令不生效,说明还没有安装wget工具,进行安装:yum -y install wget备份系统原来的repo文件mv CentOS-Base.repo CentOS-Base.repo.bak替换原rep..原创 2021-01-04 16:55:18 · 464 阅读 · 0 评论 -
idea properties或配置文件 FileNotFoundException 系统找不到指定的路径 路径问题
开发环境:idea 2020.2.3问题:在写一个property工具类时,读取config.properties配置文件一直报错,尝试了多种路径都不行报错信息如下:Exception in thread “main” java.io.FileNotFoundException: \src\main\resources\config.properties (系统找不到指定的路径。)at java.io.FileInputStream.open0(Native Method)at java.io.F原创 2020-12-23 11:03:07 · 10963 阅读 · 5 评论 -
hadoop fs -getmerge 对ORC表文件合并后 报错Buffer size too small. size = 262144 needed = 592198
今日为解决项目上有个任务orc表产生小文件较多的问题,因此测试了一下hadoop fs -getmerge命令。测试过程如下:1.新建orc表,并分3次插入数据,并查看表路径中文件,产生3个文件2.使用命令合并3.将合并后的数据put回表路径4. 查询结果表,出现报错信息:Error: EXECUTION FAILED: Task MAPRED-SPARK error SparkException: [Error 1] Job aborted due to stage failure:原创 2020-12-08 18:55:39 · 6238 阅读 · 5 评论 -
linux上Python连接hive避坑指北指南
环境:centos7.4+Python 3.7.4 并已安装anaconda使用python连接hive,在开发中是一个硬需求。此处记录一个简单的连接测试过程。1.首先在centos中安装yum install cyrus-sasl-lib.x86_64yum install cyrus-sasl-devel.x86_64yum install libgsasl-devel.x86_64yum install saslwrapper-devel.x86_64tips:在安装后两个事提示没原创 2020-12-02 18:42:11 · 1075 阅读 · 0 评论 -
hive 求最大最小值均值及对应的一个key键(对应行)
hive 求最大最小均值就不多说了。此次在业务上碰到一个问题,是要求最大值、最小值、平均值的同时,还要求最大值、最小值对应行的key字段(以找到对应时间)。并且key中的时间戳还是0时区,在查询时要注意对时区进行转换。表结构大致如下:key doubleid+时间 对应的double数值方法一:join (最常见)比如取最小值和最小值所在行对应的key:select *from(select min(d) as minfrom(select key,df原创 2020-06-07 21:24:19 · 6173 阅读 · 1 评论 -
Hbase 多版本
hbase支持多版本存储,其一条数据的多版本是以timestamp来标识的。设置多版本.新建测试表hbase(main):032:0* create 'tmp_mutilversion', {NAME => 'f', VERSIONS => 5}0 row(s) in 2.2860 secondshbase(main):006:0> desc 'tmp_mutil...原创 2020-04-15 11:43:15 · 2610 阅读 · 0 评论 -
kafka topic consumer 消费非常大的消息
有业务上推送到kafka的json串非常大,json文件达到了6m,差不多36万行,内部嵌套四层,需要我们从kafka中接收数据并进行解析。在测试过程中,需要自己将该json串生产到测试的topic,发现这么大的字符串,没有办法从控制台那里粘贴上去。此处我们是用java写个生产者,读取文件然后发送值topic。然而不报错,也消费不到。这种情况下,需要配置kafka相关的一些参数,以下相关的参...原创 2020-03-06 10:53:15 · 2093 阅读 · 0 评论 -
presto对接cassandra
因为业务需要而cassandra查询功能缺少全局排序,测试presto+cassandra查询的方案测试时使用的cassandra版本为Cassandra 3.11.3测试时使用的presto版本为presto-server-0.230测试环境:三个cantos节点:10.28.3.137 cluster1 localhost10.28.3.142 cluster2 localhost...原创 2020-01-14 18:31:21 · 1734 阅读 · 0 评论 -
hadoop hbase hive spark对应版本
hbase和hive之间版本对应关系图片来源参考官网:http://hbase.apache.org/book.html#hadoophive和hadoop、hive和spark之间版本对应关系版本信息来自于hive源码包的pom.xml:hive-3.1.2<hadoop.version>3.1.0</hadoop.version><hbase.ve...原创 2020-01-07 11:32:07 · 12502 阅读 · 0 评论 -
clickhouse 安装
这里写自定义目录标题clickhouse安装1 检查clickhouse环境1.1 环境准备1.2 检查SSE 指令集(每台集群)1.3 单机安装clickhouse安装centos7.3 安装clickhouse介绍脚本安装方式,手动及其他可参考:https://github.com/Altinity/clickhouse-rpm-install/blob/master/README.m...原创 2019-12-18 18:26:07 · 1409 阅读 · 2 评论 -
hive中的排序操作 Sort/Distribute/Cluster/Order By
Hive中常见的排序操作有order by, sort by, distribute by, cluster by,下面一一介绍。1.order by在hive中如果需要对全部数据进行排序,可以使用order by操作,此时所有的数据都会分配到同一个Reducer处理。但是如果数据量太大的话,有可能会导致一个Reducer应付不过来。select userid, age, sa...原创 2019-10-30 23:31:22 · 1960 阅读 · 0 评论 -
linux crontab调度python文件报错:ModuleNotFoundError: No module named 'pandas'
环境:centOS7,anaconda3预测python脚本写好以后,准备用脚本部署调度。但是python文件 在linux本地直接python XX.py可以直接运行,放在crontab中调度一直没有成功。首先要确定crontab中调度的时候回,无论是脚本还是python,所有的路径注意写绝对路径。否则crontab默认的路径下会找不到文件。python脚本执行的问题主要是解释器的...原创 2019-11-11 16:29:19 · 3039 阅读 · 1 评论 -
hive导出数据:insert overwrite或beeline
在hive上处理数据的过程中,不免要导出数据,以下是我在查看相关资料,自己试验成功的方法:1.用insert,写到hdfs目录下,但是目录好像要由hive用户创建才可以,否则会报错INSERT OVERWRITE DIRECTORY '/tmp/test1029_tmp' ROW FORMAT DELIMITED FIELDS TERMINATED by ',' select * f...原创 2019-10-30 15:45:00 · 3258 阅读 · 0 评论 -
SQL.Mysql中Cast()函数的用法
之前讲到了orcale的字符串与日期等类型的转换,现在我们来看看MySQL是怎么转换的。比起orcale,MySQL相比之下就简单得多了,只需要一个Cast()函数就能搞定。其语法为:Cast(字段名 as 转换的类型 ),其中类型可以为:CHAR[(N)] 字符型 DATE 日期型DATETIME 日期和时间型DECIMAL float型SIGNED intT转载 2017-06-09 09:42:23 · 10067 阅读 · 0 评论 -
hbase compaction
hbase compaction最近发现在habse中,hbase.hregion.majorcompaction已经设置为0,日志中发现还存在major compaction的发生。将相关资料整理如下。compaction 分为minor compaction和major compaction。major compaction 把所有hfile文件compact成一个单独的文件。在执行c...原创 2018-10-30 10:25:10 · 2776 阅读 · 0 评论 -
hbase region move
hbase使用过程中,由于负载不均衡,或者出于某种需要,要将某些区域移动至指定的RS,即区域移动,方法很简单,hbase shell中输入移动回车查看移动用法:hbase(main):001:0> moveERROR: wrong number of arguments (0 for 1)Here is some help for this command:Move a re...原创 2018-11-14 14:13:52 · 2807 阅读 · 0 评论 -
hadoop hdfs missing blocks & 安全模式
近期在做磁盘有关的一些测试时,最先是发现habse出现了RIT而且还是meta表的RIT,查看hadoop,出现了hdfs missing blocks的问题,hadoop master上一上来就能看见报该问题。There are 88 missing blocks. The following files may be corrupted:blk_1076662996 /**/d...原创 2018-11-19 11:31:28 · 5575 阅读 · 1 评论 -
hbase hbck
hbase hbck是hbase自带的一项肥肠实用的工具,很多hbase中出现的问题都可以尝试用hbase hbck修复。新版本的hbck从 hdfs目录、META、RegionServer这三处获得region的Table和Region的相关信息,根据这些信息判断并尝试进行repair。 新版本的 hbck 可以修复各种错误,修复选项是:(请注意选项后面是否需要加具体表名) (1)-...原创 2018-11-19 14:18:22 · 5487 阅读 · 0 评论 -
hbase : Slow ReadProcessor read fields
在测试时,经常会看到hbase日志里有报DFSClient Slow ReadProcessor read fields的消息。2018-11-28 18:20:34,394 WARN org.apache.hadoop.hdfs.DFSClient: Slow ReadProcessor read fields took 31274ms (threshold=30000ms); ack: ...原创 2018-11-28 20:18:41 · 8102 阅读 · 1 评论 -
HIVE中get_json_object与json_tuple使用
hive中提供了两种针对json数据格式解析的函数,即get_json_object(…)与json_tuple(…),理论不多说,直接上效果示意图:假设存在如下json数据对象,若使用hive环境可这么设置:set hivevar:msg={"message":"2015/12/08 09:14:4", "client": "10.108.24.253", "server": "p.转载 2019-01-16 10:38:18 · 2441 阅读 · 0 评论 -
为什么样本方差里面要除以(n-1)而不是n,是如何计算的?
我们在计算方差时,通常会认为是除以(n),但是实际上,除以(n-1)才是正确的结果,因为除以(n-1)得到的方差估计量才是关于总体方差的无偏估计量。直接上推导过程如下:如上可以明白除以(n-1),而不是除以(n),到底是怎么来的。之后我会介绍为什么看上去,除以(n-1)计算得到的方差估计量更接近总体的方差的无偏估计...原创 2019-03-06 23:03:01 · 15796 阅读 · 1 评论 -
ETL-kettle踩坑:从Cassandra到HDFS
kettle是一个开源的ETL工具,基于java,在windows和linux上都可以解压后直接使用。最近在用kettle从Cassandra向hdfd抽取数据的时候,遇到不少问题,特此记录一下。版本信息:java: 1.8kettle: kettle-8.2.0.0-342hadoop: 2.7.3配置kettle进入kettle以后,选择主对象树 -> ...原创 2019-04-24 20:52:55 · 2139 阅读 · 0 评论 -
怎么在linux上运行Kettle任务
在linux上运行kettle转换任务(需要先上传kettle程序包至服务器)任务是从Cassandra抽取数据到hdfs上,这个转换的任务请参考上一篇博客https://blog.youkuaiyun.com/oppo62258801/article/details/89501428。考虑到放在linux运行,希望能传时间参数进去,再用linux脚本和定时去进行增量抽取。会比较方便。我也看了很多...原创 2019-04-26 11:32:53 · 11472 阅读 · 2 评论 -
kettle 一些错误解决方法
使用kettle 过程中,kettle导出为ORC时,报了不少Class Not Found的错。都是由于少包的缘由。把一些问题的解决方法记录下来,可供参考。kettle版本:kettle-8.2.0.0-342CDH5.1.4Q: java.lang.NoClassDefFoundError: org/apache/orc/TypeDescription加orc-core-1.2...原创 2019-05-10 12:45:15 · 29917 阅读 · 5 评论 -
Hbase WAL
问题:现在测试平台hbase升级到hbase1.3,在测试过程中,发现吞吐上不去,也有时延较大的情况。hbase很多参数是已经调优过的,所以问题应该不是这块。1.监控region server日志,发现以下日志非常非常频繁2019-05-09 09:51:20,283 INFO org.apache.hadoop.hbase.regionserver.wal.FSHLog: Slow s...原创 2019-05-10 13:39:27 · 4279 阅读 · 0 评论 -
Hive中and和or的执行顺序
今天在网上看到hive中and的执行优先级比or高,觉得很奇怪,于是就亲自尝试了一下,发现果然如此,下面是我测试的一些简单语句:select1 from student where 1=0 or 1=1 and 1 = 0;执行结果为空select 1 from student where 1=0 or 1=1 and 1 =1;执行结果为1第二个select语句毫无疑问w...转载 2019-05-23 00:58:38 · 6121 阅读 · 0 评论 -
windows kerberos认证报错:Cannot find KDC for requested realm
集群上最近开启了kerberos安全认证,按照下列博客进行windows下的kerberos认证设置:https://cloud.tencent.com/developer/article/1077711一直报错:Cannot find KDC for requested realm最后解决的过程如下:1.在windows下配置krb5.ini文件时,我是从集群上拷下来的信息,红框...原创 2019-07-15 16:41:38 · 11399 阅读 · 2 评论 -
hbase split
hbase split因为已经进行了预分区,在参数配置时,我们将hbase.hregion.max.filesize调整至了30G(32212254720),但是在测试中发现,还是会在表或者是region不到30G发生了split,日志中可见发生split信息。又碰到一个和major compaction差不多,设置了相应参数却不能唯一控制situation的参数。相关资料整理如下:Hba...原创 2018-10-31 09:50:38 · 1250 阅读 · 0 评论 -
高维数据的可视化 Visualizing data using t-SNE
Visualizing data using t-SNE, Laurens van der Maaten and Geoffrey Hintton, Journel of machine learning research, 2008. http://jmlr.org/papers/volume9/vandermaaten08a/vandermaaten08a.pdfUser's Guide fo...转载 2018-03-30 11:08:25 · 1908 阅读 · 2 评论 -
Stanford机器学习课程笔记2-高斯判别分析与朴素贝叶斯
版权声明:本文为博主原创文章,未经博主允许不得转载。目录(?)[-]判别学习算法和生成学习算法高斯判别分析Gaussian Discriminant Analysis朴素贝叶斯算法Naive Bayesian拉普拉斯平滑Laplace smoothing转载请注明出处: http://xiahouzuoxin.github.io/notes/转载 2017-09-05 02:33:33 · 692 阅读 · 0 评论 -
CTR预估中GBDT与LR融合方案
版权声明:本文为博主原创文章,未经博主允许不得转载。1、 背景 CTR预估(Click-Through Rate Prediction)是互联网计算广告中的关键环节,预估准确性直接影响公司广告收入。CTR预估中用的最多的模型是LR(Logistic Regression)[1],LR是广义线性模型,与传统线性模型相比,LR使用了Logit变换将函数值映射到0~转载 2017-09-05 01:25:19 · 442 阅读 · 0 评论 -
大数据竞赛平台——Kaggle 入门
大数据竞赛平台——Kaggle 入门篇这篇文章适合那些刚接触Kaggle、想尽快熟悉Kaggle并且独立完成一个竞赛项目的网友,对于已经在Kaggle上参赛过的网友来说,大可不必耗费时间阅读本文。本文分为两部分介绍Kaggle,第一部分简单介绍Kaggle,第二部分将展示解决一个竞赛项目的全过程。如有错误,请指正!1、Kaggle简介Kaggle是一转载 2017-08-06 14:51:36 · 880 阅读 · 0 评论 -
Ubuntu16.04安装R及RStudio
主要内容:介绍在Ubuntu16.04上安装R及RStudio安装R安装RStudio之前需要先安装R。添加镜像源添加镜像源到/etc/apt/sources.list注意Ubuntu版本(本人Ubuntu版本是xenial,即16.04。根据版本改变对应的名字。)# Ctrl+Alt+T打开终端$ sudo echo "deb http://cran.rstud转载 2017-07-15 16:47:56 · 2095 阅读 · 0 评论 -
HIVE中insert into 和overwrite的用法--转载
insert into 和overwrite的用法:Insert into代码 INSERT INTO TABLE tablename1 [PARTITION \ (partcol1=val1, partcol2=val2 ...)] \ select_statement1 FROM from_statement; Sq转载 2017-06-13 21:16:53 · 5616 阅读 · 0 评论 -
Hive 的collect_set使用详解
有这么一需求,在Hive中求出一个数据表中在某天内首次登陆的人;可以借助collect_set来处理sql:[html] view plain copy print?select count(a.id) from (select id,collect_set(time) as t from t_action_login where t转载 2017-07-03 17:03:06 · 9969 阅读 · 1 评论 -
MapReduce中的Shuffle和Sort分析
MapReduce 是现今一个非常流行的分布式计算框架,它被设计用于并行计算海量数据。第一个提出该技术框架的是Google 公司,而Google 的灵感则来自于函数式编程语言,如LISP,Scheme,ML 等。 MapReduce 框架的核心步骤主要分两部分:Map 和Reduce。当你向MapReduce 框架提交一个计算作业时,它会首先把计算作业拆分成若干个Map 任转载 2017-06-09 10:38:10 · 516 阅读 · 0 评论 -
hive mapjoin使用
今天遇到一个Hive的问题,如下hive sql:select f.a,f.b from A t join B f on ( f.a=t.a and f.ftime=20110802) 该语句中B表有30亿行记录,A表只有100行记录,而且B表中数据倾斜特别严重,有一个key上有15亿行记录,在运行过程中特别的慢,而且在reduece的过程中遇有内存不够而报错。转载 2017-06-09 10:00:51 · 840 阅读 · 0 评论 -
Hive调优(语法与参数层面优化)
一、简介 作为企业Hadoop应用的核心产品,Hive承载着FaceBook、淘宝等大佬 95%以上的离线统计,很多企业里的离线统计甚至全由Hive完成,如我所在的电商。Hive在企业云计算平台发挥的作用和影响愈来愈大,如何优化提速已经显得至关重要。好的架构胜过任何优化,好的Hql同样会效率大增,修改Hive参数,有时也能起到很好的效果。有了瓶颈才需要优化 1、Hado转载 2017-06-08 21:08:54 · 597 阅读 · 0 评论