
分布式
陈伦(colby)
项目经理/数据架构师/资深数据从业者。
熟悉传统数据、互联网数据处理,精通数据仓库方法论、数据迁移、数据处理、数据可视化、数据建模、架构设计、方案设计,曾负责多个数仓项目0到1建设并落地,有PB级数据调优实战经验!
曾获得计算机四级数据库证书、PMP项目管理专业人士证书等。
展开
-
基于HA高可用搭建-Hadoop-3.2.1实战搭建之Hbase-2.2.5集群部署
版本选择:Hadoop-3.2.1/Hbase-2.2.5一、Zookeeper正常部署[deploy@hadoop102 module]$ zk.sh start二、Hadoop正常部署[deploy@hadoop102 module]$ start-dfs.sh[deploy@hadoop102 module]$ start-yarn.sh三、Hbase上传、解压[deploy@hadoop102 module]$ tar -xzvf hbase-2.2.5-bin.原创 2020-07-03 15:45:59 · 796 阅读 · 0 评论 -
错误: 找不到或无法加载主类 org.apache.hadoop.mapreduce.v2.app.MRAppMaster
安装Hadoop3.2.1,做基准测试的时候报以下错误[2020-05-31 19:16:40.815]Container exited with a non-zero exit code 1. Error file: prelaunch.err.Last 4096 bytes of prelaunch.err :Last 4096 bytes of stderr :错误: 找不到或无法加载主类 org.apache.hadoop.mapreduce.v2.app.MRAppMaster[原创 2020-05-31 11:28:31 · 859 阅读 · 0 评论 -
Container exited with a non-zero exit code 1. Error file: prelaunch.err.org.apache.hadoop.mapreduce.
这两天闲的慌,装了一下新版本的HADOOP 3.2.1,的HA,装好之后,测试wordcount程序时报下面的错误For more detailed output, check the application tracking page: http://hadoop102:8088/cluster/app/application_1590917926429_0002 Then click on links to logs of each attempt.. Failing the applicati原创 2020-05-31 10:32:58 · 21511 阅读 · 20 评论 -
Python之Scrapy框架Redis实现分布式爬虫详解
1、创建scrapy工程scrapy startproject youboy2、scrapy工程目录介绍│ main.py #爬虫程序入口cmdline.execute("scrapy crawl youboySpider".split())│ scrapy.cfg └─spider_youboy │ items.py #定义要存储的字段,原创 2017-09-29 14:45:04 · 3833 阅读 · 3 评论 -
hadoop-3.1.0双NameNode集群安装笔记-colby陈伦
1、修改主机名称vim /etc/hosts重启2、修改该hosts文件,添加主机跟ip的映射关系虚拟机网络host-only这个必须注释掉#127.0.0.1 localhost localhost.localdomain localhost4 localhost4.localdomain4#::1 localhost localhost.localdoma...原创 2019-08-28 17:13:18 · 358 阅读 · 1 评论 -
你还在用sqoop吗,大厂都在用datax了
一. DataX3.0概览 DataX 是一个异构数据源离线同步工具,致力于实现包括关系型数据库(MySQL、Oracle等)、HDFS、Hive、ODPS、HBase、FTP等各种异构数据源之间稳定高效的数据同步功能。(这是一个单机多任务的ETL工具)下载地址:http://datax-opensource.oss-cn-hangzhou.aliyuncs.com/datax.tar...转载 2019-08-28 18:07:33 · 884 阅读 · 0 评论