菜鸟壹号-优快云博客

原创 Centos 安装python

Centos 安装python3

2022-06-16 14:59:57 13100

原创【YARN】Container is running 247642624B beyond the ‘VIRTUAL‘ memory limit 运行报错

使用虚拟机搭建的hadoop集群，在运行wordcount example MR程序时报错原因：虚拟内存不足，导致运行失败解决方案在yarn-site.xml中加入虚拟内存检查开关<property> <name>yarn.nodemanager.vmem-check-enabled</name> <value>false</value></property>...

2022-03-04 15:23:57 290

虚拟机（Centos7）重启后，发现网络连接失败尝试重启网络访问failedservice network restart解决方式：禁用NetworkManager1. systemctl stop NetworkManager2. systemctl disable NetworkManager解决方式：禁用NetworkManagersystemctl stop NetworkManagersystemctl disable NetworkManager.

2022-03-04 14:55:21 3380 1

转载 Hive UDAF开发详解（转载）

Hive UDAF开发详解原文地址：https://blog.youkuaiyun.com/kent7306/article/details/50110067说明这篇文章是来自Hadoop Hive UDAF Tutorial - Extending Hive with Aggregation Functions：的不严格翻译，因为翻译的文章示例写得比较通俗易懂，此外，我把自己对于Hive的UDA...

2019-05-15 18:33:18 498

转载 kafka如何消费消息

转载自：http://generalcode.cn/archives/255消费者与消费组假设这么个场景：我们从Kafka中读取消息，并且进行检查，最后产生结果数据。我们可以创建一个消费者实例去做这件事情，但如果生产者写入消息的速度比消费者读取的速度快怎么办呢？这样随着时间增长，消息堆积越来越严重。对于这种场景，我们需要增加多个消费者来进行水平扩展。Kafka消费者是消费组的一部分，当...

2019-04-15 10:12:41 1029

转载 Hive窗口分析函数

Hive中提供了越来越多的分析函数，用于完成负责的统计分析。抽时间将所有的分析窗口函数理一遍，将陆续发布。今天先看几个基础的，SUM、AVG、MIN、MAX。用于实现分组内所有和连续累积的统计。Hive版本为 apache-hive-0.13.1数据准备CREATE EXTERNAL TABLE lxw1234 ( cookieid string, createt...

2019-04-14 15:23:18 154

转载 spark的shuffle过程

彻底搞懂spark的shuffle过程（shuffle write）什么时候需要 shuffle writer假如我们有个 spark job 依赖关系如下我们抽象出来其中的rdd和依赖关系:E <-------n------, C <--n---D---n-----F--s---, ...

2019-04-12 20:25:09 244

原创 idea 打包

指定META-INF/MANIFEST.MF的路径为src下（注意不要放到main/java目录下，否则打成的jar中META-INF/MANIFEST.MF不含有Main-Class信息）

2018-12-26 21:24:34 270

原创 MAC 安装mysql及遇到问题

1。安装步骤参照https://www.cnblogs.com/bookwed/p/5896619.html 2.出现问题1）缺data-dumperA 现象[root@localhost mysql]#./scripts/mysql_install_db --user=mysql --datadir=/usr/app/mysql/data/mysqlFATAL ERROR: please ins...

2018-02-13 22:45:12 481

weixin_41133459的博客