
大数据
文章平均质量分 82
Blueeyedboy521
Java架构师,微服务,前端Vue,人工智能,C/C++嵌入式编程
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
大数据Hadoop、Hive实战第一章 配置环境
Linux有一个安全模块:SELinux用以限制用户和程序的相关权阳来确保系统的安全稳定在当前,我们只需要关闭SELinux功能,避免导致后面的软件运行出现问题即可。开启node1,修改主机名为node1,并修改固定ip为:192.168.88.131。同样的操作启动node2和node3。以下操作在三台Linux均执行。export/server内。原创 2024-10-22 08:00:00 · 479 阅读 · 0 评论 -
大数据-Hadoop-基础篇-第四章-HDFS(分布式文件存储)
使用 get 命令可以将 HDFS 文件系统中的文件下载到本地,注意下载时的文件名不能与本地文件相同,否则会提示文件已经存在。使用 appendToFie 命令可以将单个或多个文件的内容从本地系统追加到 HDFS 系统的文件中。例如,将本地文件a.txt移动到HDFS的/imnput 文件夹中,命令如下:.使用 cp命令可以复制 HDFS 中的文件到另一个文件,相当于给文件重命名并保存,但源文件仍然存在。例如,将本地文件 a.txt 上传到 HDFS 文件系统的/input文件夹中,命令如下:。原创 2024-09-17 08:00:00 · 1304 阅读 · 0 评论 -
大数据-Hadoop-基础篇-第五章-HBase (分布式 NoSQL 数据库)
Hbase 是 Hadoop database 的简称,也就是基于 Hadoop 数据库,是一种 NoSQL 数据库,主要适用于海量明细数据(十亿、百亿)的随机实时 查询,如日志明细、交易清单、轨迹行为等。HBase中的列是由 列族前缀和列的名字组成的,以冒号间隔。例如这一行的列名就是a.HBase 基于 Hadoop 的 HDFS 存储, zookeeper 进行管理,处理数据是基于 列 的而不是基于行的模式,适合海量数据的随机访问。HBase 是近实时系统,支持实时查询,支持增删改查。原创 2024-08-27 18:00:00 · 572 阅读 · 0 评论 -
阿里QuickBI实战
Quick BI是一款全场景数据消费式的BI平台,秉承全场景消费数据,让业务决策触手可及的使命,通过智能的数据分析和可视化能力帮助企业构建数据分析系统,您可以使用Quick BI制作漂亮的仪表板、格式复杂的电子表格、酷炫的大屏、有分析思路的数据门户,也可以将报表集成在您的业务流程中,并且通过邮件、钉钉、企业微信等分享给您的同事和合作伙伴。原创 2024-08-20 08:00:00 · 1612 阅读 · 0 评论 -
大数据-Hadoop-基础篇-第六章-Hive (搜狗用户搜索词分析)
1)、数据介绍:搜索引擎查询日志库设计为包括约1个月(2008年6月)Sogou搜索引擎部分网页查询需求及用户点击情况的网页查询日志数据集合。2)、数据格式访问时间\t用户ID\t[查询词]\t该URL在返回结果中的排名\t用户点击的顺序号\t用户点击的URL。原创 2024-07-21 08:00:00 · 1924 阅读 · 0 评论 -
大数据-Hadoop-基础篇-第七章-Hive 实战(sogou用户搜索日志分析)
当Hive提供的内置函数不能满足査询需求时,用户也可以根据自己的业务编写自定义函数(User Defined Functions,UDF),然后在HiveQL中调用。例如有这样一个需求:为了保护用户的隐私,当查询数据的时候,需要将用户手机号的中间四位用星号()代替,比如手机号18001292688需要显示为180***2688。这时候就可以写一个自定义函数来实现这个需求。原创 2024-07-09 08:00:00 · 1484 阅读 · 0 评论 -
大数据-Hadoop-基础篇-第八章-Flume
Flume中传输数据的基本单位是event(如果是文本文件,通常是一行记录),event包括event头(headers)和event体(body),event头是一些key-value键值对,存储在Map集合中,就好比HTTP的头信息,用于传递与体不同的额外信息,event体为一个字节数组,存储实际要传递的数据。Flume中最小的独立运行单位是Agent,Agent是一个JVM进程,运行在日志收集节点(服务器节点),其包含三个组件Source(源)、Channel(通道)和Sink(接收地)。原创 2024-07-09 08:00:00 · 686 阅读 · 0 评论 -
大数据-Hadoop-基础篇-第十章-Spark
Spark是一种通用的大数据计算框架,是基于RDD(弹性分布式数据集)的一种计算模型。那到底是什么呢?可能很多人还不是太理解,通俗讲就是可以分布式处理大量集数据的,将大量集数据先拆分,分别进行计算,然后再将计算后的结果进行合并。SparkSQL。原创 2024-06-30 08:00:00 · 1908 阅读 · 1 评论 -
大数据-Hadoop-基础篇-第九章-Storm
使用一个Bolt 订阅切分的单词 Tuple,并且选择使用按字段分组的策略进行单词统计,将统计结果发射出去:最后使用一个Bot订阅统计结果,词频实时排序,把前10个单词打印到log中。Stom 可以作为Kafka 的生产者,将 Stom 中的每条记录作为消息发送到 Kafka 消息队列中,也可以将 Stom 作为消费者,消费Kafka队列中的消息。在实际开发中经常将两者结合使用,用 Kafka 缓存消息,并将不均匀的消息转换成均匀的数据流提供给 Stom 进行消费,这样才可以实。重发,可以用于计数吗?原创 2024-06-23 08:00:00 · 661 阅读 · 0 评论 -
大数据-Hadoop-基础篇-第四章-MapReduce (离线计算引擎)
MapReduce 常用于对大规模数据集(大于 1TB)的并行运算,或对大数据进行加工、挖掘和优化等处理。MapReduce 将并行计算过程高度抽象到了两个函数 map 和reduce 中,程序员只需负责 map和 reduce 函数的编写工作,而并行程序中的其它复杂问题(如分布式存储、工作调度、负载均衡、容错处理等)均可由MapReduce 框架代为处理,程序员完全不用心。原创 2024-06-17 08:00:00 · 1155 阅读 · 0 评论 -
MongoDB入门与实战-第六章-MongoDB分片
mongodb分片猿创征文|MongoDB数据库 分片集群搭建部署实战MongoDB 分片集群介绍在Mongodb里面存在另一种集群,就是分片技术,可以满足MongoDB数据量大量增长的需求。当MongoDB存储海量的数据时,一台机器可能不足以存储数据也足以提供可接受的读写吞吐量。这时,我们就可以通过在多台机器上分割数据,使得数据库系统能存储和处理更多的数据。应用程序不必知道哪片对应哪些数据,甚至不需要知道数据已经被拆分了,所以在分片之前要运行一个路由进程,进程名,这个路由器知道所有数据的存放位置,所以原创 2022-12-07 08:00:00 · 941 阅读 · 0 评论 -
MongoDB入门与实战-第五章-MongoDB副本集
MongoDB副本集MongoDB的副本集MongoDB 教程MongoDB复制是将数据同步在多个服务器的过程。复制提供了数据的冗余备份,并在多个服务器上存储数据副本,提高了数据的可用性, 并可以保证数据的安全性。通俗的讲就是用多台机器进行同一数据的异步同步,从而使多台机器拥有同一数据的多个副本,并且当主库当掉时在不需要用户干预的情况下自动切换其他备份服务器做主库。而且还可以利用副本服务器做只读服务器,实现读写分离,提高负载。(1)数据冗余:副本集可以确保副本节点与主节点数据的更新,以防止单个数据库的原创 2022-12-05 07:00:00 · 2479 阅读 · 0 评论 -
MongoDB入门与实战-第三章-数据操作增删改查索引
mongodb数据增删改查原创 2022-11-03 08:00:00 · 904 阅读 · 0 评论 -
大数据-Hadoop-基础篇-第二章-介绍
https://hadoop.apache.org/Release 3.3.3 availableCloudera:https://www.cloudera.com/products/open-source/apache-hadoop.htmlHortonworks:https://www.cloudera.com/products/hdp.html原创 2022-06-22 23:29:49 · 273 阅读 · 0 评论 -
大数据-Hadoop-基础篇-第一章-导论
(Batch Processing)面向过去,面向历史,分析已有的数据在时间维度明显成批次性变化。一周一分析(T+7),一天一分析(T+1),所以也叫做(Real Time Processing Streaming)面向当下,分析实时产生的数据;所谓的实时是指从数据产生到数据分析到数据应用的时间间隔很短,可细分秒级、毫秒级(Machine Learning)基于历史数据和当下产生的实时数据预测未来发生的事情;侧重于的运用,如分类、聚类、关联、预测...原创 2022-06-21 23:34:05 · 419 阅读 · 1 评论 -
Elasticsearch实战-ES集群-分布式新增查询、故障转移
三个节点9200(master)92019202参考:Elasticsearch实战-ES集群-搭建一、实战1、新增用kibana连接到主节点9200POST /itcast/_doc/1{ "title": "设置插入一条id = 1"}用工具分别插入id=1,3,5三条数据2、 查询GET /itcast/_search{ "query": { "match_all": {} }}3、从节点查询从9201/9202查询,发现也是3条数据4、分析存原创 2022-05-05 19:00:00 · 1269 阅读 · 0 评论 -
Elasticsearch实战-ES集群-集群职责及脑裂
集群中节点角色分布式查询elasticsearch中的每个节点角色都有自己不同的职责,因此建议集群部署时,每个节点都有独立的角色脑裂总结master eligible节点的作用参与集群选主主节点可以管理集群状态、管理分片信息、处理创建和删除索引库的请求data节点的作用数据的CRUDcoordinator(协调)节点的作用路由请求到其他节点合并请求到结果,返回给用户...原创 2022-05-05 18:45:00 · 1191 阅读 · 0 评论 -
Elasticsearch实战-ES集群-搭建
一、ES集群结构二、部署通过docker-compose部署es集群。es最新版本:7.5.11、准备mkdir -p /usr/local/es-group/elasticsearch/configmkdir /usr/local/es-group/elasticsearch/{data1,data2,data3}# 进入目录cd /usr/local/es-group# 把版本号设置到环境变量echo 'ELK_VERSION=7.5.1' > .env查看目录结构tr原创 2022-05-05 19:30:00 · 504 阅读 · 0 评论 -
Elasticsearch实战-数据同步(解决es数据增量同步)
一、数据同步问题分析之前测试的数据都是一次从mysql导入到es,随着时间的推移,每天都有可能发生增删改查,不可能每次都全量同步,所以需要考虑增量同步问题。二、解决方案1、同步调用缺点:耦合性高,服务之间会相互影响2、异步通知依赖消息队列的可靠性3、监听binlog4、方案对比三、案例-利用MQ实现Mysql与Elasticsearch数据同步1、导入hotel-admin项目启动:端口80992、申明exchange、queue、RoutingKey/** *原创 2022-04-26 16:17:10 · 5807 阅读 · 8 评论 -
Elasticsearch实战-实现Hotel索引库的自动补全、拼音搜索功能
一、实现思路1.修改hotel索引库结构,设置自定义拼音分词器2.修改索引库的name、all字段,使用自定义分词器3.索引库添加一个新字段suggestion,类型为completion类型,使用自定义的分词器4.给HotelDoc类添加suggestion字段,内容包含brand、business5.重新导入数据到hotel库二、参考文献通过hotel-demo演示RestClient操作DSL入门及高级教程Elasticsearch高级使用-自动补全三、数据准备1、新建索引库原创 2022-04-25 17:23:47 · 832 阅读 · 0 评论 -
Elasticsearch高级使用-自动补全
一、概念注意事项为了避免搜索同音字,搜索时不要使用拼音分词器二、拼音分词器官网https://github.com/medcl/elasticsearch-analysis-pinyin安装注意与elasticsearch的对应关系下载我们的ES使用了7.15.1,所以我们使用master分支代码。打开官网,下载master分支的zip代码https://codeload.github.com/medcl/elasticsearch-analysis-pinyin/zip/refs/原创 2022-04-25 14:20:09 · 1617 阅读 · 0 评论 -
Elasticsearch高级使用-数据聚合
该示例中用到的索引hotel和代码仓库请参考如下文章:通过hotel-demo演示RestClient操作Elasticsearch一、什么是聚合1、官网https://www.elastic.co/guide/en/elasticsearch/reference/current/search-aggregations.html2、简述聚合是对文档数据的统计、分析、计算二、聚合的分类Bucket(桶):对文档数据分组,并统计每组数量Metrc(度量):对文档数据做计算,例如avgPip原创 2022-04-24 19:33:11 · 1801 阅读 · 0 评论 -
DSL入门及高级教程
官网:https://www.elastic.co/guide/en/elasticsearch/reference/current/query-dsl.html一、DSL语法分类查询所有# 查询所有,默认显示10条GET /hotel/_search{ "query":{ "match_all": {} }}全文检索查询match查询会对用户输入的内容分词,然后倒排索引库检索因为all已经用copy_to将多个字段拷贝到all一个字段,所以查询效率更高# 全文原创 2022-04-19 22:37:26 · 841 阅读 · 0 评论 -
Java高可用架构设计-【春晚大流量高并发】
场景一 春晚大流量高并发https://www.toutiao.com/article/7087738138654704131/?log_from=036bdb534fca5_1650254671454前端接入CDN在全国各地都搞一批服务器,然后呢,让CDN提前请求我们的后端系统,把一些图片、视频一类的静态资源都加载到 全国各地的CDN服务器上去。接着呢,全国各地的用户打卡手机APP,想要加载图片和视频的时候,就近找一个距离自己最近的CDN服务器加载图片和视频就可以了,这样就可以让超高流量分散到全国转载 2022-04-18 12:14:17 · 500 阅读 · 0 评论 -
通过hotel-demo演示RestClient操作Elasticsearch
指南https://www.bilibili.com/read/cv11763184一、 什么是RestClientES官方提供了各种不同语言的客户端,用来操作ES。这些客户端的本质就是组装DSL语句,通过http请求发送给ES。官方文档地址:https://www.elastic.co/guide/en/elasticsearch/client/index.html本套视频教程所有配套资料索取方式如下:关注微信公众号:黑马程序员,回复关键词:领取资源02还可获得1000+G全套自学java资源,原创 2022-04-14 23:07:35 · 1751 阅读 · 0 评论 -
ELK入门及高级应用+docker部署ELK
一、基于7.5.1docker pull docker.elastic.co/logstash/logstash:7.5.1docker pull docker.elastic.co/elasticsearch/elasticsearch:7.5.1docker pull docker.elastic.co/kibana/kibana:7.5.1 二、部署Elasticsearch1、创建docker子网络docker network create elk-net2、安装ElasticSe原创 2022-04-08 14:12:44 · 3724 阅读 · 0 评论 -
FIreBeat的安装使用
window下安装官网 https://www.elastic.co/cn/downloads/beats/下载filebeat-8.1.2-windows-x86_64.ziphttps://www.elastic.co/downloads/past-releases/filebeat-8-1-2https://artifacts.elastic.co/downloads/beats/filebeat/filebeat-8.1.2-windows-x86_64.zip解压之后效果配置拷贝一原创 2022-04-08 11:44:32 · 583 阅读 · 0 评论 -
使用kettle将1亿数据导入mysql
一、导入思路二、准备一份亿级数据t_user.txttxt中数据只有连个字段,用;隔开,如下0;程序不就是0和1_01;程序不就是0和1_12;程序不就是0和1_2...可以通过一下程序生成生成的文件大约4G主要mysql所在的磁盘预留足够空间,由于有binlog日志和数据,所以大约会占用15G。三、建立数据库表t_user四、运行kettle1.在左侧转换,点击新建,在核心对象的【输入】中选择文本,然后拖入右侧工作面浏览选择文件t_user.txt,并且点击增加,原创 2022-03-30 10:44:56 · 2972 阅读 · 0 评论