
大数据
badbeat
这个作者很懒,什么都没留下…
展开
-
join算法整理
学习doris过程中看到一篇博客https://blog.bcmeng.com/post/doris-colocate-join.html,里面提到了很多种join。首先,根据sql语法有这些:inner join、full outer join、left join、left semi join、anti join。常见join算法有这几种:nested loop join:嵌套循环连接,就是用双层for循环。时间复杂度O(A*B)。hash join:小表join大表时,扫描小表,根据原创 2020-11-08 10:41:34 · 963 阅读 · 0 评论 -
hive常见面试题——求连续活跃天数
真的遇到了多次,很高频的sql题。原始数据:uid,active_dt1 20200101 1 20200102 1 20200103 1 20200105 1 20200107 2 ...想要的结果是这样的:uid,active_dt,连续活跃的第几天1 20200101 11 20200102 21 20200103 31 20200105 11...原创 2020-06-15 10:15:08 · 1782 阅读 · 0 评论 -
windows下hive环境搭建
先说一句,不建议在windows下搭建hive,感觉没必要,坑比较多,让我有了租云服务器的冲动!一、准备工作之前我们已经安装好了hadoop,根据网上的教程,还需要一个hadoop.dll文件需要扔到hadoop的bin目录,git上可以找到。hadoop可以正常启动。二、安装hive因为hadoop是2.7.7版本,我选...原创 2020-04-05 21:56:05 · 4751 阅读 · 5 评论 -
windows下spark环境搭建+idea中WordCount例子
一、windows下spark环境搭建1.安装JDK和scala2.安装spark和hadoophttp://spark.apache.org/downloads.htmlhttps://archive.apache.org/dist/hadoop/common/慢的话可以去国内镜像eg:http://mirror.bit.edu.cn/apache/hadoop/c...原创 2020-03-26 14:16:48 · 415 阅读 · 0 评论 -
easyscheduler任务成功显示失败问题:Data too long for column 'app_link' at row 1
最近使用dolphinscheduler(原easyscheduler)过程中,发现一个奇怪的问题:在一个shell任务中写了10个sqoop import命令,执行任务,显示执行失败,在UI查看日志发现所有的sqoop都执行成功了,而且shell中也增加了判断,失败就exit 1,都执行成功了最后会exit 0。为什么exit 0,shell脚本还是执行失败?——思路与之前一样,看日志!WEBU...原创 2020-01-06 16:07:07 · 1558 阅读 · 2 评论 -
YARN无任务的日志问题
近期在测试CM搭建的测试hadoop集群,在调试sqoop任务过程中,控制台打印的日志不详细,考虑看一下任务的详细日志,但是在yarn的webUI上找不到日志:在网上查找了其他查看yarn日志的方法——命令行的方式:yarn application -list -appStates ALL(这个不显示时间信息)——找到application_id,然后yarn logs -appl...原创 2019-12-17 14:52:49 · 2480 阅读 · 0 评论 -
一次easyscheduler报错及解决
起因:重装easyscheduler之后,sqoop任务报如下错误:[INFO] 2019-12-16 10:50:45.943 cn.escheduler.server.worker.log.TaskLogger:[178] - [taskAppId=TASK_11_4005_15340] -> Error: /opt/soft/hadoop does not exist! Pl...原创 2019-12-16 16:04:45 · 587 阅读 · 1 评论 -
一个未解决的hive语句问题
drop table dm_project.user_action_detail_lylccreate table dm_project.user_action_detail_lylc asselecta.teacher_id,a.teacher_name,a.teacher_subject,a.teacher_stage,a.school_name,b.action,b.re...原创 2019-11-07 15:43:14 · 695 阅读 · 1 评论 -
hive常用函数大全
1.日期函数to_datefrom_unixtimeunix_timestampdatediffyear2.数值计算round——取整/指定精度取整floor——向下取整ceil——向上取整abs——绝对值3.字符串处理lengthsubstringconcattrimsplit——返回数组[]4.聚合函数countsum5.关系运算like...原创 2019-10-22 14:51:47 · 233 阅读 · 0 评论 -
大数据时代还需要数据仓库么?——关于数据仓库的思考
最近在做业务数据支持相关的工作,主要内容包括PC页面上的一些统计值的开发,开发的方式是把数据接入hive数据仓库每天进行批处理,然后把结果存到mysql数据库,最后进行java开发,使用的是SSM框架。 开发过程中,总觉得步骤有些繁琐,我们公司使用的是阿里云EMR,最终结果需要展示哪些数据,首先要在EMR上的hive数据仓库中接入业务数据,然后使用sql处理业务逻辑,把需要展示的...原创 2019-09-11 11:51:36 · 913 阅读 · 0 评论 -
hadoop社区版与第三方开源版本对比
公司之前使用的是阿里云的EMR,近期准备使用自己的服务器搭建新的hadoop进群,故遇到问题:hadoop社区版与第三方开源版本怎么选? 社区版完全免费开源,社区活跃,但是版本混乱,部署集群需要编写大量配置文件分发到每一节点;集群运维需要安装三方软件;安装组件需要考虑兼容性问题;CM版hadoop版本清晰,兼容性、稳定性好,也是开源的,而且具有安装、部署、集群监控等功能,运维简单...原创 2019-07-19 11:00:20 · 711 阅读 · 0 评论