
大数据技术
大数据基础架构的核心组件与相关技术总结以及如何搭建大数据环境、结合业务使技术最佳落地
Coder_Boy_
主攻【Java 微服务 云原生】,涉猎 web前端 、大数据 Linux运维 、嵌入式。
目前主要从事K8S DevOps CICD 容器云平台的开发设计工作,擅长使用DDD理念设计代码架构。
在团队开发中乐于分享自己的心得与经验,常于同事讨论业务与技术问题,担任项目组长一职。
并时刻关注并学习新技术,并将所学应用于研发中,对于已经处理解决的问题,事后从源码层研究报错原因。时刻保持技术敏感度
展开
-
大数据技术_ linux系统 之 安装MySQL
一、安装MySQL使用以下命令即可进行mysql安装,注意安装前先更新一下软件源以获得最新版本:sudo yum update #更新软件源sudo yum install mysql-server #安装mysql上述命令会安装以下包:apparmormysql-client-5.7mysql-commonmysql-servermysql-server-5.7mysql-server-core-5.7因此无需再安装mysql-client等。安装过程会提示设置mysql r原创 2020-11-05 12:55:09 · 185 阅读 · 0 评论 -
大数据技术_ linux系统 之 Hive3.1.2版本 环境搭建
1. 下载并解压Hive安装包首先需要下载Hive安装包文件, Hive官网下载地址Hive官方下载:https://mirror.bit.edu.cn/apache/hive/sudo tar -zxvf ./apache-hive-3.1.2-bin.tar.gz -C /usr/local # 解压到/usr/local中cd /usr/local/sudo mv apache-hive-3.1.2-bin hive # 将文件夹名改为hivesudo chown -R原创 2020-11-05 12:46:07 · 584 阅读 · 0 评论 -
大数据技术_技术生态圈 之 边缘技术
基于大数据技术可以进一步拓展学习其他的边缘技术。主要包含如下:这些技术以大数据技术为底层支持技术,结合不同业务衍生的技术栈,对于大数据工程师了解即可,都学习了话,还是很难的,毕竟另一个技术生态圈。...原创 2020-11-05 11:06:08 · 528 阅读 · 0 评论 -
大数据技术_ 基础理论 之主要行业应用
1 地震监测大数据1.1 大数据时代和地震1.2 密集地震观测网将地震带进大数据时代1.3 地震大数据一定是巨量数据1.4 地震大数据找关联1.5 地震处理从复杂到简单-从“复杂算法”到“简单算法”2 交通大数据2.2 大数据应用交通的意义1.智能交通系统中的交通数据2.4 大数据挖掘技术在智能交通中的应用2.5 河北交通卡口数据分析系统3 环境大数据3.1 环境大数据概念3.2 环境数据的采集与获取3.3 环境数据原创 2020-11-05 10:46:55 · 413 阅读 · 0 评论 -
大数据技术_ 基础理论 之 大数据商业应用
1 用户画像和精准营销人在网络世界中的行为集合代表了他在网络世界中的“性格”,这个集合就描述了他的网络个性和用户特征(UserProfile)。从数据拥有者,也就是企业角度来看,他们掌握了所有用户在网络世界中“某方面”的行为习惯,如用户浏览了哪些网页、搜索了哪些关键词、购买了哪些商品、留下了哪些评价等,企业都会收集汇总。如何将如此庞杂的数据转换为商业价值,成为现在企业越来越关注的问题。面对高质量、多维度的海量数据,如何建立精准的用户模型就显得尤为重要,用户画像的概念也就应运而生。1.1用户画像和精原创 2020-11-05 10:15:46 · 779 阅读 · 0 评论 -
大数据技术_ 基础理论 之 互联网大数据处理方法
1 互联网信息抓取1.1概述互联网信息自动抓取,最常见且有效的方式是使用网络爬虫。爬虫可以被分为两类: 一类叫作“通用爬虫”; 另一类叫作“聚焦爬虫”。目前成熟的网络爬虫有很多,其中不乏Googlebot、百度蜘蛛这样的广分布式多服务器多线程的商业爬虫和GNU Wget、Apache Nutch这样的灵活方便的开源爬虫搜索引擎。1.2Nutch爬虫1.3案例:招聘网站信息抓取1.4案例:舆情信息汇聚2 文本分词2.1文本分词2.2MMSEG分词工具2.3原创 2020-11-05 09:53:36 · 500 阅读 · 0 评论 -
大数据技术_ 基础理论 之 大数据可视化
概览:大数据可视化核心问题随着互联网技术的发展,尤其是移动互联技术的发展,网络空间的数据量呈现出爆炸式增长。如何从这些数据中快速获取自己想要的信息,并以一种直观、形象的方式展现出来?这就是大数据可视化要解决的核心问题。数据可视化解释数据可视化,最早可追溯到20世纪50年代,它是一门关于数据视觉表现形式的科学技术研究。数据可视化是一个处于不断演变之中的概念,其边界在不断地扩大,主要指的是技术上较为高级的技术方法,而这些技术方法允许利用图形图像处理、计算机视觉及用户界面,通过表达、建模,以及对立体原创 2020-11-05 09:33:54 · 5817 阅读 · 0 评论 -
大数据技术_ 基础理论 之 数据挖掘与分析
3.1 数据挖掘概述3.1.1 数据挖掘概念20世纪80年代末,数据挖掘(Data Mining,DM)提出。1989年,KDD 这个名词正式开始出现。1995年,“数据挖掘” 流传。从科学定义分析,数据挖掘是从大量的、有噪声的、不完全的、模糊和随机的数据中,提取出隐含在其中的、人们事先不知道的、具有潜在利用价值的信息和知识的过程。从技术角度分析,数据挖掘就是利用一系列的相关算法和技术,从大数据中提取出行业或公司所需要的、有实际应用价值的知识的过程。知识表示形式可以是概念、规律、规则与模式原创 2020-11-03 21:03:33 · 2342 阅读 · 0 评论 -
大数据技术_ 基础理论 之 数据采集与预处理
2.1 大数据采集架构2.1.1概述如今,社会中各个机构、部门、公司、团体等正在实时不断地产生大量的信息,这些信息需要以简单的方式进行处理,同时又要十分准确且能迅速满足各种类型的数据(信息)需求者。这给我们带来了许多挑战,第一个挑战就是在大量的数据中收集需要的数据,下面介绍常用的大数据采集工具。2.1.2 常用大数据采集工具数据采集最传统的方式是企业自己的生产系统产生的数据,除上述生产系统中的数据外,企业的信息系统还充斥着大量的用户行为数据、日志式的活动数据、事件信息等,越来越多的企业通原创 2020-11-03 20:25:00 · 2921 阅读 · 0 评论 -
大数据技术_ 基础理论 之 大数据概念与应用
1.1 大数据的概念与意义1.从“数据”到“大数据”时至今日,“数据”变身“大数据”,“开启了一次重大的时代转型”。“大数据”这一概念的形成,有三个标志性事件:2008年9 月,美国《自然》(Nature)杂志专刊——The next google,第一次正式提出“大数据”概念。2011年2月1日,《科学》(Science)杂志专刊——Dealing with data,通过社会调查的方式,第一次综合分析了大数据对人们生活造成的影响,详细描述了人类面临的“数据困境”。2011年5月,麦肯锡研原创 2020-11-03 19:49:02 · 8510 阅读 · 0 评论 -
大数据技术_ linux系统 之 HBase 2.2.0版本 环境搭建
1、准备阶段(node1,hduser账号)解压命令 tar -zxvf hbase-2.2.0-bin.tar.gz重命名 mv hbase-2.2.0 hbase2、配置(node1,hduser账号)进入 /home/hduser/hbase/conf 目录2.1、配置hbase-env.sh2.1.1在最顶部,追加这项代码: export JAVA_HOME=/usr/java/jdk/2.1.2打开配置(去掉选项前面的#号即可) export HBASE_MANAGES_ZK原创 2020-11-03 16:44:38 · 356 阅读 · 3 评论 -
大数据技术_ linux系统 之Jdk环境配置
配置jdk1.81、上传我们jdk到linux系统。我的jdk文件名 jdk-8u221-linux-x64.tar.gz 。假设我们上传在 /home目录下2、创建一个目录mkdir /usr/java3、解压jdk到/usr/java目录下tar -zxvf /home/jdk-8u221-linux-x64.tar.gz -C/usr/java4、重命名我们的jdk文件名cd /usr/javamv jdk1.8.0_221 jdk经过这两步,我们得到jdk的根目录为 /us原创 2020-11-02 22:08:54 · 145 阅读 · 0 评论 -
大数据技术_ linux系统 之 使用hdfs API (java编程方式)
使用hdfs api——java编程方式示例项目 https://github.com/qiyueW/hadoop.file.git1、编写MapReduce程序继承public class Mapper<KEYIN, VALUEIN, KEYOUT, VALUEOUT>重写里面的map方法。示例命令说明示例备注hadoop fs -mkdir 创建目录hadoop fs -mkdir /user在HDFS中创建“/user”目录创建目录h.原创 2020-11-03 13:54:32 · 555 阅读 · 0 评论 -
大数据技术_ linux系统 之HDFS常用命令总结
执行以下命令需要在hadoop安装目录下的bin目录中执行,比如我的安装路径是/home/hduser/hadoop,那么就在/home/hduser/hadoop/bin目录下执行。执行命令的脚本: hadoop目录/bin/hadoop语法:hadoop fs -help:显示帮助信息hadoop fs -help rm-ls:显示目录信息hadoop fs -ls /-mkdir:在HDFS上创建目录hadoop fs -mkdir -p /user/ysir-m原创 2020-11-02 22:53:46 · 319 阅读 · 0 评论 -
大数据技术_ linux系统 之hadoop 3.1.2版本的安装(续)
接着上一篇环境配置 我们继续下面配置后即可使用hadoop环境4、关要克隆2台(先把node1关机)采用完整克隆方式,把node1克隆两次。分别为node2、node34.1、针对克隆机node2修改主机名如图,修改文件修改ip与uui备注:uuid类似人类的身份证,表示唯一的编号。因为我们复制node1,所以,需要把它改成唯一!注意长度与格式不能为修改完后,重启一次。4.2、针对克隆机node3修改主机名为 node3 命令参考node2修改ip为192.168.72.1.原创 2020-11-02 22:49:05 · 261 阅读 · 0 评论 -
大数据技术_ linux系统 之hadoop 3.1.2版本的安装
环境版本: hadoop 3.1.2版本、CentOS7.81、准备阶段(hduser)使用hduser账号登陆上传文件。解压文件: tar -zxvf ~/hadoop-3.1.2.tar.gz修改文件名为hadoop: mv hadoop-3.1.2 hadoop备注:当我们不知道解压后的文件名是什么时我们可以使用 ls 命令列出当前目录的文件名或文件夹名2、配置hadoop环境变量(hduser)编译 sudo vi /etc/profile 文件,在最后加入以下内容:.原创 2020-11-02 22:35:06 · 1491 阅读 · 4 评论 -
大数据技术_ linux系统 之centos7搭建
大数据环境准备 三台电脑(使用虚拟机)主机名 Ip地址 root账号 备注node1 192.168.72.11 12345678 先集中力量配置好这台node2 192.168.72.12 12345678 等node1配置好,再克隆出来node3 192.168.72.13 12345678 等node1配置好,再克隆出来1、配置信息node1示例2、配置root账号的无密码登陆(可选)使用无密码登陆 ssh node1 成功即可。方便我们登陆3、绑定ip与主机名修改文件/etc原创 2020-11-02 21:28:29 · 338 阅读 · 0 评论 -
数据驱动未来-Java大数据工程师-大数据基础
大数据技术概述原创 2020-09-15 13:30:58 · 170 阅读 · 0 评论