
大数据工程师的成长之路
文章平均质量分 80
hadoop
优惠券已抵扣
余额抵扣
还需支付
¥399.90
¥499.90
购买须知?
本专栏为图文内容,最终完结不会低于15篇文章。
订阅专栏,享有专栏所有文章阅读权限。
本专栏为虚拟商品,基于网络商品和虚拟商品的性质和特征,专栏一经购买无正当理由不予退款,不支持升级,敬请谅解。
做一个有趣的人Zz
wx公众号:大数据葵花宝典
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
ES+HBase【案例】仿百度搜索05:项目中遇到的典型问题
一、单索引库查询效率降低的问题爬虫程序每天都会到互联网上采集新的文章数据,如果项目运行了半年、1年,所有的数据都存储到ES的一个索引库里面,这样会导致查询效率降低。可以考虑按周或者按月创建索引库,通过索引库别名关联最近半年内的索引库,实现默认查询最近半年内的数据。索引库的命名可以按照一定的规律,假设是按月建立索引库,则索引库的名称大致是这样的:article_202201article_202202article_202203…如果确实需要查询历史以来所有的数据,在查询的时候可以通过索引库通原创 2022-03-17 00:38:21 · 630 阅读 · 0 评论 -
ES+HBase【案例】仿百度搜索04:开发仿百度搜索项目
一、介绍这个搜索引擎项目主要涉及到数据采集、数据存储、建立索引和数据展现环节。针对一个搜索引擎项目而言,它的数据基本上都是来源于互联网上的公开数据,想要获取这些数据就需要使用爬虫工具了,目前市面上有一些爬虫产品,但是在使用的时候基本上都需要二次开发,所以企业里面都会有专门的爬虫工程师负责这个工作。我们在开发这个搜索引擎项目的时候就不再针对爬虫数据采集模块进行扩展了,到时候我会提供一个数据接口,大家通过接口可以直接获取到一些互联网上的公开数据。1、数据格式数据大致格式是这样的:我们在开发这个搜索原创 2022-03-17 00:38:10 · 4629 阅读 · 1 评论 -
ES+HBase【案例】仿百度搜索03:ES高级特性扩展
在具体开发项目之前,先来了解一下ES中的几个特性:一、ES中的_source字段在ES中包含一个特殊的字段:_source当我们在ES中对数据建立索引的时候,在ES底层其实会存储两份数据,一份是原始文档的内容,还有一份是对原始文档分词产生的倒排索引内容。其中原始文档内容会存储到_source这个字段里面,咱们前面在学习JavaAPI操作ES的时候,通过search查询的结果数据,最终在解析的时候其实就是从_source字段中解析的。_source字段中默认会包含原始文档中所有字段的内容。二、E原创 2022-03-17 00:37:46 · 950 阅读 · 0 评论 -
ES+HBase【案例】仿百度搜索02:项目架构设计
一、项目概览二、项目整体架构流程1:项目的数据来源可以是通过爬虫到互联网上采集的数据,也可以是企业数据库中的内部数据2:根据数据的来源不同,使用不同的程序将数据入库到HBase,实现海量数据存储3:针对HBase中的数据在ES中建立索引。注意:并不是把HBase中数据的完整内容全部在ES中建立索引,只需要将检索用到的那些字段在ES中建立索引即可。例如:HBase存储的原始数据有20个字段,在ES可能只需要存储5个字段即可,具体的存储细节在后面会详细分析。4:在数据展现模块中提供仿百度搜索功能原创 2022-03-17 00:37:33 · 1734 阅读 · 1 评论 -
ES+HBase【案例】仿百度搜索01:企业中快速复杂查询痛点分析
ES+HBase【案例】仿百度搜索01:企业中快速复杂查询痛点分析原创 2022-03-17 00:37:21 · 978 阅读 · 0 评论 -
Scala【进阶篇】01:Scala高级特性
Scala【进阶篇】01:Scala高级特性原创 2022-03-08 09:34:07 · 359 阅读 · 0 评论 -
Scala【使用篇】06:函数式编程【案例】统计多个文本内的单词总数
Scala【使用篇】06:函数式编程【案例】统计多个文本内的单词总数原创 2022-03-08 09:33:50 · 805 阅读 · 1 评论 -
Scala【使用篇】05:Scala的函数式编程
Scala【使用篇】05:Scala的函数式编程原创 2022-03-08 09:33:31 · 1599 阅读 · 0 评论 -
Scala【使用篇】04:Scala面向对象
Scala【使用篇】04:Scala面向对象原创 2022-03-08 09:33:11 · 692 阅读 · 0 评论 -
Scala【使用篇】03:Scala中函数的使用
Scala【使用篇】03:Scala中函数的使用原创 2022-03-08 09:32:44 · 807 阅读 · 0 评论 -
Scala【使用篇】02:Scala的集合体系
Scala【使用篇】02:Scala的集合体系原创 2022-03-07 09:25:11 · 380 阅读 · 0 评论 -
Scala【使用篇】01:Scala基础语法
Scala【使用篇】01:Scala基础语法原创 2022-03-07 09:24:51 · 415 阅读 · 0 评论 -
Scala【安装篇】01:Scala介绍及安装配置
Scala【安装篇】01:Scala介绍及安装配置原创 2022-03-07 09:24:31 · 417 阅读 · 1 评论 -
Kafka【集成篇】02:Kafka集群平滑升级
Kafka集群平滑升级原创 2022-03-14 10:05:25 · 1119 阅读 · 0 评论 -
Kafka【集成篇】01:Flume集成Kafka
Flume集成Kafka原创 2022-03-14 10:05:05 · 4401 阅读 · 2 评论 -
Kafka【进阶篇】01:Kafka集群参数调优、Kafka Topic命名小技巧
Kafka集群参数调优、Kafka Topic命名小技巧原创 2022-03-14 10:04:31 · 1124 阅读 · 0 评论 -
Kafka【操作篇】01:Java操作Kafka
Java代码实现生产者代码、Java代码实现消费者代码、消费者代码扩展、Consumer消费offset查询原创 2022-03-13 10:47:15 · 5622 阅读 · 0 评论 -
Kafka【理论篇】03:Kafka的存储和容错机制
Kafka的存储和容错机制原创 2022-03-13 10:47:01 · 1428 阅读 · 0 评论 -
Kafka【理论篇】02:Broker扩展、Producer扩展、Consumer扩展、Topic和Partition扩展、Message扩展
Broker扩展、Producer扩展、Consumer扩展、Topic和Partition扩展、Message扩展原创 2022-03-13 10:46:49 · 3592 阅读 · 0 评论 -
Kafka【使用篇】01:Kafka中Topic的操作、Kafka中的生产者和消费者
Kafka中Topic的操作、Kafka中的生产者和消费者原创 2022-03-13 10:46:31 · 3646 阅读 · 0 评论 -
Kafka【理论篇】01:什么是kafka以及相关组件介绍
什么是kafka以及相关组件介绍原创 2022-03-13 09:29:13 · 468 阅读 · 0 评论 -
Kafka【安装篇】01:Kafka【单机】【集群】【手动】安装部署
Kafka【单机】【集群】【手动】安装部署原创 2022-03-13 09:29:28 · 1380 阅读 · 0 评论 -
Kafka【安装篇】02:Kafka集群监控管理工具【CMAK安装部署以及使用】
Kafka集群监控管理工具【CMAK安装部署以及使用】原创 2022-03-14 10:04:48 · 5198 阅读 · 1 评论 -
Flink【使用篇】03:Spark Streaming
Flink【使用篇】03:Spark Streaming原创 2022-03-16 00:04:55 · 415 阅读 · 0 评论 -
Flink【使用篇】02:Kafka-Connector【Kafka Consumer的使用、Kafka Producer的使用】
Flink【使用篇】02:Kafka-Connector【Kafka Consumer的使用、Kafka Producer的使用】原创 2022-03-16 00:04:11 · 2163 阅读 · 1 评论 -
Flink【理论篇】06:并行度【TaskManager与Slot、并行度的设置、并行度案例分析】
Flink【理论篇】06:并行度【TaskManager与Slot、并行度的设置、并行度案例分析】原创 2022-03-16 00:02:43 · 2366 阅读 · 0 评论 -
Flink【理论篇】05:Flink中的Window和Time详解
Flink中的Window和Time详解原创 2022-03-15 00:13:10 · 1279 阅读 · 0 评论 -
Flink【理论篇】04:Flink核心API【Table API和SQL:Table API 和SQL的使用;DataStream、DataSet和Table之间的互相转换】
Flink【理论篇】04:Flink核心API【Table API和SQL:Table API 和SQL的使用;DataStream、DataSet和Table之间的互相转换】原创 2022-03-15 00:12:58 · 949 阅读 · 0 评论 -
Flink【理论篇】03:Flink核心API之DataSet【DataSource、Transformation、Sink】
Flink【理论篇】03:Flink核心API之DataSet【DataSource、Transformation、Sink】原创 2022-03-15 00:12:42 · 544 阅读 · 0 评论 -
Flink【理论篇】02:Flink核心API之DataStream【DataSoure、Transformation、DataSink】
Flink【理论篇】02:Flink核心API之DataStream【DataSoure、Transformation、DataSink】原创 2022-03-15 00:12:31 · 656 阅读 · 0 评论 -
Flink【安装篇】01:Flink集群安装部署【Standaone模式、ON YARN模式】
Flink【安装篇】01:Flink集群安装部署【Standaone模式、ON YARN模式】原创 2022-03-15 00:12:12 · 1744 阅读 · 0 评论 -
Flink【使用篇】01:流处理和批处理开发
Flink【使用篇】01:流处理和批处理开发原创 2022-03-15 00:11:40 · 770 阅读 · 0 评论 -
Flink【理论篇】01:什么是Flink
什么是Flink原创 2022-03-15 00:11:27 · 6923 阅读 · 1 评论 -
Spark【FAQ】01:报错:java.lang.IllegalArgumentException: System memory 259522560 must be at least 47185
Spark【FAQ】01:报错:java.lang.IllegalArgumentException: System memory 259522560 must be at least 47185原创 2022-03-17 00:39:01 · 720 阅读 · 0 评论 -
Spark【理论篇】06:sortByKey如何实现全局排序
Spark【理论篇】06:sortByKey如何实现全局排序原创 2022-03-18 11:16:00 · 821 阅读 · 0 评论 -
Spark【使用篇】07:TopN主播统计【SparkSQL进行实现】
Spark【使用篇】07:TopN主播统计【SparkSQL进行实现】原创 2022-03-10 09:26:11 · 692 阅读 · 0 评论 -
Spark【使用篇】06:Spark SQL
DataFrame常见算子操作、DataFrame的sql操作、RDD转换为DataFrame、load和save操作、SaveMode、内置函数原创 2022-03-09 10:25:48 · 2599 阅读 · 0 评论 -
Spark【优化篇】02:算子优化
Spark【优化篇】02:算子优化原创 2022-03-09 10:25:19 · 724 阅读 · 0 评论 -
Spark【优化篇】01:高性能序列化类库、持久化或者checkpoint、JVM垃圾回收调优、提高并行度、数据本地化
Spark【优化篇】01:高性能序列化类库、持久化或者checkpoint、JVM垃圾回收调优、提高并行度、数据本地化原创 2022-03-09 10:25:09 · 392 阅读 · 0 评论 -
Spark【理论篇】05:checkpoint
Spark【理论篇】05:checkpoint原创 2022-03-09 10:24:58 · 480 阅读 · 1 评论