
云计算
文章平均质量分 96
语兴数据
语兴数据官方号
语兴简介:
语兴数据科技有限公司KOL、前大厂某线数据负责人
展开
-
Flume+Kafka+Spark Stremming+HBase+Phoenix实现日志数据处理分析
版本环境:Hadoop:3.0 -CDH6.2.1Spark:2.4-CDH6.2.1HBase:2.1.0-CDH6.2.1Phoenix:5.0.0-cdh6.2.0.p0.1308267基本架构:为什么要记录用户访问行为日志?1.网站页面的访问量2.网站的黏性 用户使用web端或者App端的多次点击,链接点击用户行为日志内容:客户端模块 app ID跳转链接地...原创 2019-12-16 18:05:20 · 1076 阅读 · 0 评论 -
数据仓库简介
数据仓库构建数仓架构图:数据仓库的三个阶段:第一阶段:使用大量成熟的开源框架,主要是离线批处理为主,外围系统自研能力较弱,数据量和集群资源少。第二阶段:使用开源+自研方式,有自己的方法论和建模体系,有完善的元数据管理,数据质量监控。能有效支持离线实时需求第三阶段: 自研通用一站式大数据处理平台,有完善的数仓理论基础和外围工具,有完善的数据共享机制和权限管理趋势: 工...原创 2019-12-16 17:48:53 · 251 阅读 · 0 评论 -
快速搭建大数据环境(CDH)
地址https://www.cloudera.com/downloads/quickstart_vms/5-13.html在构建完成后导入MySQL数据到Hivesqoop import-all-tables \--connect jdbc:mysql://127.0.0.1:3306/retail_db \--username=retail_dba \--password=cl...原创 2019-10-01 14:50:43 · 632 阅读 · 0 评论 -
Hadoop整理
Hadoop整理一台服务器登录到另一台a) Ssh + ip 例如ssh 192.168.56.100b) 登录其他计算机,都要输入密码 免密的目的就是能够方便登录Hadoop 分布式 启动的时候a) 启动首先在namenode启动所有服务b) 因为你datanode 是别的机器,不同服务器,必须有访问权限c) 所以需要设置免密 否则在启动每台节点的时候,都会提示你输入...原创 2019-08-30 08:43:56 · 219 阅读 · 1 评论 -
zeppelin配置
Zepplin安装使用一 下载安装包http://zeppelin.apache.org/download.html选择zeppelin-0.8.1-bin-all.tgz二 上传并解压上传到Linuxtar -zvxf zeppelin-0.8.1-bin-all.tgz -C /root进入目录cd /root/zeppelin-0.8.1-bin-all/-------ok...原创 2019-08-30 08:42:34 · 447 阅读 · 0 评论 -
Zeppelin安装配置
http://pan.baidu.com/s/1kVvcJL9 下载cd ~/zeppelin-0.7.3-bin-all/conf拷贝模板文件cp zeppelin-env.sh.template zeppelin-env.shvi zeppelin-env.sh添加环境变量 jdk目录 hadoop目录export JAVA_HOME=/usr/java/jdk1.7.0_7...原创 2019-07-15 08:46:05 · 330 阅读 · 0 评论 -
ELK搜索引擎三剑客(存储+检索+分析) ---Kibana(可视化展示)
1.安装修改kibana.yml文件中的server.host: “0.0.0.0”指定kibana.yml文件中数据来源为elasticsearch.url: “http://192.168.56.100:9200”2.端口:5601创建index patternManagement>Index Patterns>Create Index Pattern数据探索1.Di...原创 2019-07-09 17:37:42 · 518 阅读 · 0 评论 -
ELK搜索引擎三剑客(存储+检索+分析) ---logstach(日志收集)
logstach安装解压 配环境变量#运行 logstach 必须手写conf配置文件logstach作为日志收集工具1.支持多种数据源输入2.支持多种过滤器3.支持多种数据输出目的地实例1:input {file{path =>["/etc/passwd","/var/log/messages"]start_position =>“beginning”si...原创 2019-07-09 17:36:57 · 741 阅读 · 0 评论 -
ELK搜索引擎三剑客(存储+检索+分析) ---elasticsearch
ELK搜索引擎三剑客(存储+检索+分析) —elasticsearchelasticsearch:分布式搜索引擎,大规模数据的搜索下载es设置软连接 环境变量first: #编辑/etc/security/limits.conf,追加以下内容:* - nofile 65536 #针对当前系统针对所有用户最大打开文件数为65536second: #编辑/etc/...原创 2019-07-09 16:45:58 · 696 阅读 · 0 评论 -
Hadoop分布式集群搭建(HA)(爬坑成功!)
Hadoop分布式集群搭建(HA)1.准备四台虚拟机(我用的是vbox安装的centos7)2.安装jdk并配置环境变量3.使用xshell+xftp上传hadoop-2.7.3文件到Linux系统下,拷贝四份到虚拟机上,或配置免密登录发送文件过去,注意虚拟机之间最好配好彼此免密通信4.我的四台ip为:首先修改每台主机名称:vi /etc/hosts...原创 2019-06-18 20:26:01 · 436 阅读 · 0 评论