╭⌒若隐_RowYet——大数据-优快云博客

原创构建企业级数据的愿景、目标与规划历程

伴随着数字科技、通信、人工智能的发展，很多企业组织都已经意识到，数据已经慢慢演变成为企业的资产，冠以数据是企业的“信息货币”、“生命之血”，甚至“新的石油”。企业不仅依托数据开展业务，也从数据中分析和挖掘出更多的价值。但从数据中获取价值并非凭空产生，而是需要有愿景、目标、规划、协作、落地等来保障，当然也需要企业的管理和领导力，此篇则作为总览篇章专门来讲述构建企业数据的愿景、目标与规划。

2025-03-21 21:04:04 789

原创后智能体时代的LLM和Agent

随着`OpenAI`、`Deepseek`、`Manus`等等智能体的爆火，跟大家一起聊一聊关于AI重塑的哲学体系，关于AI大模型体系的认知，关于AI大模型体系的畅想，关于人和AI大模型体系的共处的话题。

2025-03-08 22:15:19 1132

原创实时推荐算法的架构

偷得浮生半日闲，跟大家一起聊一聊大家最喜欢的实时推荐算法架构。

2024-08-11 18:28:46 1543

原创浅谈用户标签/画像系统构建

本文主要已专业的角度，讲述如何构建用户标签及用户画像。

2024-07-21 16:52:35 2068

随着云时代的发展，大数据的使用变得越来越便捷，数据也变得越来越重要，你可以说一个企业暂时没有从数据中挖掘出价值，但是一个企业绝对不可能离开数据工作，大数据对于很多的人而言，终究像是一位神秘女神，一睹她芳泽的人把她传的神乎其神，导致最终的听者都觉得她无所不能，特别在最近很火的AI生成ChatGPT的带领下，仿佛数据已经是IT技术界的虚空黑洞，不仅可能吞噬一切，而且所有解释不了的东西，最终都可以从中得到答案，尽管博主也觉得ChatGPT 的充满潜力和希望，但是博主今天还是更想跟大家聊聊数据本身的发展规律……

2023-08-20 19:15:13 808

原创亚马逊云科技——户外广告传媒行业数字化转型的摆渡者

本文就亚马逊云科技在IoT物联网、数据仓库、数据湖、数据可视化等方面的如何助力户外广告传媒行业数字化转型的问题上展开探讨。

2022-05-19 12:24:50 3478

原创 idea for mac 最全快捷键整理

最强IDEA关于Mac版本的常用快捷键

2022-05-06 11:03:10 1734

原创 Apache Flink从入门到放弃——快速上手（Java版）（二）

以经典的大数据word count统计为例，讲述传统Apache Flink DataSet API（批处理API）和新的流式DataStream API的两种Java代码的实现，从代码动手开始揭开Apache Flink的神秘面纱。

2022-05-04 00:27:11 1318

原创 Apache Flink从入门到放弃——Flink简介（一）

Apache Flink是一个分布式大数据计算引擎，可以对有界的数据和无界的数据进行有状态的计算，可部署在各种集群环境中，对各种大小数据规模进行快速计算，本章节主要介绍下Flink的历史和由来以及框架基础。............

2022-05-03 13:12:20 7527 1

原创飞算（SoFlu）软件机器人——人人都是全栈架构师

SoFlu(飞算)软件机器人是全球首款面向微服务架构设计和最佳实践的软件项目开发智能平台，平台以Java为主要开发语言，包含（后端）全自动开平台、（前端）全自动开发平台、全自动测试平台、全自动运维平台的项目全栈解决方案；她全程参数化的配置填写，拖拉拽的界面设计使得一人就能全栈解决后端服务到前端开发，以及后续的测试部署，甚至机器资源的运维监控与服务，因为她的存在，人人都是全栈架构师。

2022-04-26 00:25:56 7468 2

原创 JavaSE基础——异常机制

曾有人说过：“一个程序项目内30%的代码就能实现功能，剩下70%的代码都在检查异常、增加约束……”本文就总结下Java的异常机制。

2022-04-16 00:54:47 679

原创 Java面向对象程序的执行顺序及内存分析

Java面向对象程序的执行顺序及数据在内存中的状态变化是怎么样的呢？本文就带你领略一番。

2022-04-13 00:23:12 631

原创 brew结合iTerm2花式玩转MacOS软件管理的终端指令

为什么你的Mac终端能语法高亮、高端智能提示、风骚的指定风格、有趣的fuck插件(shell指令报错怎么办？fuck一下！)，还有张陌上人如玉，公子世无双的嵩嵩（老婆最爱）的背景板等等，因为我利用国内镜像安装brew，结合iTerm2花式玩转MacOS的软件管理呀，想学呀？我教你呀！

2022-03-29 00:50:51 3138

原创 Linux基础篇——ftp的安装与配置

为啥ftp？安装ftp主要是还为了传输文件，但是我有一台服务器或者计算机，直接登录进去获取文件不行吗？为啥还要多此一举用ftp呢？原因是用ftp的话，它的会话是持久的，只有一次认证过程，传输多个文件都是使用同一个连接。因为 ftp 就是为远程文件交互而设计的，更适；而且有些时候只是为了单纯让你做一个文件传输，运维未必会给你一台服务器，这个时候往往只是给你搭建ftp服务。

2022-03-28 00:09:14 24791 18

原创大数据之路之Linux篇

为什么要学习Linux1. 工作需要，从事IT工作或多或少都要设计Linux；2. 迟早老子会有钱，要买一台苹果Mac坐在星巴克追剧，那你会发现，Mac的命令行模式竟然和Linux惊人的相识，我每次用到Mac命令行操作都是直接网上直接copy的，不知道啥意思，这是我一个做设计的朋友跟我吐槽的，嘿嘿，就怕哪天你copy了个`rm -rf *`3.每次看美国大片，发现那些电脑高手都在一个黑框框里啪啦啪啦的敲键盘，他们在敲啥呢？想不想成为他们一样的高手？

2022-03-27 14:13:34 5923

原创 Linux基础篇——Linux进程、服务管理

程序（program）、进程（process）、守护进程（daemon）与服务（service）的之间是什么关系？简直一个头两个大，服务器之间的各个进程、服务又是怎么管理的呢？本篇文章，带你走进Linux进程（process）和服务（service）的世界。

2022-03-11 19:23:21 4042

原创项目实战——参数配置化Spark将Hive表的数据写入需要用户名密码认证的ElasticSearch（Java版本）

如何优雅的将Hive的数据写入ES，每次新增一张表是否新增一个配置文件就能实现呢？当然可以，本篇文章就带你走进这个优雅的ETL Jar包；

2022-03-03 17:49:41 3397 1

原创 Linux基础篇——Linux运行级别及找回root密码

离职的前辈把root密码也带走了，或者自己root密码忘记了，咋办？这篇文章就带你玩点刺激的，毕竟人生来就喜欢偷窥秘密。

2022-02-08 18:48:09 3566

原创 Linux基础篇——Linux网络配置（配置网卡、固定IP，固定hostname，终端远程）详解

你是在玩单机吗？对于现在而言，这句话无疑是略带嘲讽的含义，也恰恰证明了网络的重要性，那么计算机里面的网络是怎么分布的呢，为啥你能上网呢，Linux系统需要需要进行哪些网络配置呢，这里就给大家简单介绍下；

2022-01-12 11:40:54 36256 7

原创 Apache Superset——开源的大数据探索分析、可视化报表平台

传统BI工具数据源太老？商用BI工具昂贵？云产品又技术壁垒？公司又没人力物力自研一款BI工具？那么你可以了解下Apache Superset，一款开源的大数据探索分析、可视化报表平台，支持丰富的数据库作为数据源，多姿多彩的图表可视化，非常好用。

2021-07-25 20:31:51 34994 14

原创 Metabase——开源的大数据分析探索、可视化报表神器

metabase是一款开源的简易但强大同时又无缝兼容大数据和传统数据库的分析工具，帮助公司每一个人对企业数据的学习挖掘，进而达到更好的数据化运营和决策。

2021-07-23 16:28:48 26537 8

原创免费相对安全的远程控制软件

有了这些支持跨平台(Windows,Mac,Linux,IOS,Android)免费的白嫖远程控制软件，再也不用担心女朋友的电脑有问题了，再也不用担心在家远程办公不稳定了。

2021-06-20 15:08:28 9874 3

原创 Apache DolphinScheduler——开源大数据调度器神器

手把手教您玩转开源大数据调度器Apache DolphinScheduler安装维护与实践，学不会你来打我。

2021-06-11 19:20:00 10948 10

原创 Linux基础篇——Linux磁盘操作（磁盘基础知识、分类、分区、挂载、卸载、扩容）详解

目录1.概念1.概念图1.1 分区的概念与好处假如你有个大木桶要装东西，如果木桶没有划分层，所有东西全部放入里面，虽然可以装，但是对大木桶的使用就合不合理，造成杂乱无章，寻找东西时候也耗时，甚至还有不同物品之间不能存放在一起而导致危险，那更好的做法自然是给大木桶画一下不同的区域，分成不同的层，每个层放不同的东西，即安全，寻找起来也方便；计算机的磁盘（也叫硬盘）也是如此，为了区分存储内容的不同，以及快速定位寻址文件，也需要采取分区的形式；...

2021-05-23 20:05:15 20134 50

原创 Linux通过anaconda来安装python

consumer.commitAsync(new OffsetCommitCallback() { @Override public void onComplete(Map<TopicPartition, OffsetAndMetadata> offsets, Exception exception) { if (exception != null) { System.out.println("Commit failed, offset =

2021-04-25 18:18:14 3237 3

原创 python执行sql server的insert 、update、delete未commit的坑

目录1. 问题场景2. `import pymssql`代码案例3. `from sqlalchemy import create_engine`代码案列4.`pyspark` 操作sql server默认就是自动提交1. 问题场景由于平时博主都是python操作mysql比较多，python处理sql server极为少见，但最近发现python在操作sql server的insert 、update、delete、truncate table等改变表数据内容的DML语句时，必须手动提交；这里

2021-04-23 18:45:08 2496

原创 SQL Server有则更新，无则插入操作之merge into

目录1.场景2.实现1.场景 sql server假设目标表rpt.tbb_student被前端报表无缝链接，或被其它库订阅，则在更新表rpt.tbb_student就不能用全删全插的理念，这个时候就会有个思路有则更新，无则插入的增量理念； sql server天生就自带这种语法merge into,有的人疑问了，那我直接写两段语句，一段update,一段insert不行吗？答案当然是可以的，只是这种做法相对于merge into效率较低，不够优化，因为这样的两段语句需要扫描表两次，时间复杂度

2021-04-21 10:34:29 1649

原创用distcp实现ftp到hdfs、hdfs到hdfs、hdfs到ftp的文件传输

文件本身存在ftp上，为了文件内的数据和数仓hive中的数据做分析，需要将ftp的数据上传到hdfs,方法有很多，如果不是需要完全实时监控的话，可以采取hdfs自带的指令distcp抽取; 题外话：完全实时上传可以采取flume监控ftp文件件，再读取存入kafka,后续消费者消费kafka获取文件数据的方式，后续再讲，这节只讲distcp；1. 指令用法 distcp不仅可以实现hdfs集群1到hdfs集群2的文件传输，也可以实现ftp和hdfs之间的文件传输，只需要切换相应的协议头即

2021-04-10 12:51:05 2086 8

原创花式玩转Linux集群免密登录

@[TO]1.言大数据集群往往需要多台机器构成一个集群，集群内的这些机器往往需要能够互相免密登录，这里就总结下设置免密登录的常见做法；重点： 1）需要集群内部的集群都有这个相同的用户； 2）免密登录是绑定用户的，当你设置了用户hadoop的免密登录后，你切换到另一个用户rowyet，如果rowyet本身配置是没有免密登录的话，那么rowyet并不能实现集群内部的免密登录，也需要配置；结论：大数据集群上组件启动，最好需要用配置了免密登录账号启动较为稳妥，虽然有些组件设计容错性较高，

2021-04-05 18:10:28 1700 1

原创如何写一篇沁人心脾的博客文档

文章目录1.缘起心态2.逻辑架构3.布局排版4.词藻讲究5.标识语言markdown6.大神都在用的小工具6.1 MarkDown免费编辑笔记本Typora6.2 在线作图工具`Process On`6.3 思维导图软件`幕布`6.4 markdown格式转微信公众号文章格式6.5 插入动态图片gif7.自审加她审8.发版1.缘起心态做任何一件事，心态当然最重要啦，伟大的“哲学家”暗黑元首辛德拉曾经说过：“人们总是害怕那些他们不能理解的事物！ ”，所以重要的是客服内心的恐惧，真正的高手向来都是包罗万

2021-04-01 00:07:10 336 1

原创 ElasticSearch中嵌套结构使用

文章目录1.需求2.ElasticSearch嵌套数据存储结构2.ElasticSearch嵌套数据写入2.ElasticSearch嵌套查询2.ElasticSearch嵌套Java API操作1.需求需求看板查看全国各省的城市，当选中江西省时，可以点进去查看江西省的各大城市；2.ElasticSearch嵌套数据存储结构这个情况呢，可以存两个index，形成一对多的关系来查询；那这里说另一种结构，嵌套结构；建表语句如下，citys_list就是一个嵌套结构，你可以认为citys_l

2021-03-09 11:59:44 830

原创 Kibana 7.7.1安装

文章目录1.版本配置2.官网下载3.安装3.1 解压，设置软链3.2 修改配置3.3 启动，查询端口、网页访问1.版本配置OS:CentOS7ElasticSearch:7.7.1Kibana:7.7.1 注意:ELK架构中elasticsearch，kibana必须版本一致，如果不一致请下载同一样的版本；2.官网下载 Download Kibana 如图2.1，找到自己相应的版本下载，注意，一定要和自己的elasticsearch的版本一致；下载选择tar包下载吧；下载

2021-03-02 20:34:25 890

原创 Apache Zeppelin支持Spark，Python的小试牛刀

版本 Apache Zeppelin：0.9.0 Spark 2.3.3 关于Apache Zeppelin-0.9.0的安装以及配置Spark-2.3.3请参考博客Apache Zeppelin-0.9.0安装配置Spark-2.3.3，这里不再重复累赘；创建Note 打开zeppelin网页端口，登录后，可以通过图1菜单栏Notebook下拉或者直接点击页面的Create new note创建Note,Note就是你写代码的编辑窗口，然后弹出图2，按要求编辑好；图1 zeppe

2021-01-13 21:33:46 1091

原创 Apache Zeppelin-0.9.0安装配置Spark-2.3.3

什么是Apache Zeppelin图1 Apache Zeppelin的功能直接上官网图，Apache Zeppelin是一个支持20+种语言的多功能后端，说白了就是一个支持多种语言的开发集成环境，如你写spark一般用linux的spark-shell或者spark-sql，你写python你可能用pycharm，你写flink你可能用flink-shell等，等等，现在好了，有一款可以集成这些所有语言的即时查询环境，你觉得棒不棒？配置好了，用起来确实很香，物极必反，包含的多，坑也多，所以耐心

2021-01-13 20:20:38 1857

原创 ElasticSearch7.7.1安装分词器——ik分词器和hanlp分词器

背景之所以选择用ES，自然是看重了她的倒排所以，倒排索引又必然关联到分词的逻辑，此处就以中文分词为例以下说到的分词指的就是中文分词，ES本身默认的分词是将每个汉字逐个分开，具体如下，自然是很弱的，无法满足业务需求，那么就需要把那些优秀的分词器融入到ES中来，业界比较好的中文分词器排名如下，hanlp> ansj >结巴>ik>smart chinese analysis；博主这里就选两种比较常用的讲解hanlp和ik ，hanlp在业界名声最响，ik是官方推荐和ES版

2020-12-25 19:59:57 3909 2

原创 ElasticSearch处理数据库里面的null值

背景博主有次在给ES导数的时候，将Hive内的一个字段导入ES内，一直报错说什么null值异常，一开始一脸懵逼，后面经过查阅了官网发现原来ES不支持null值；其实我们想想原理也很简单，因为ES是根据他的field来做倒排索引，如果给的是个null值，你让怎么排呢对吧？全文索引：也叫倒排索引，将需要匹配搜索条件的一段词语根据分词器进行分词，分出的单个词语放到一个分词库中，并且标注这个词隶属于哪一个行目标数据id；于是客户端在搜索时，根据搜索内容也进行分词到分词库中去检索，然后找打匹配的内容

2020-12-14 11:22:37 2182

原创 Hive从入门到放弃——Hive与其他技术的结合之spark on hive（十七）

背景

2020-12-14 10:45:18 425

原创 Spark从入门到放弃——Spark2.4.7安装和启动（二）

Spark版本 Spark是Apache开源的顶级项目，官网地址,目前也一直不断更新迭代，截至本博客发布时间(20201202)最新版本是Spark 3.0.1 released (Sep 08, 2020),因为公司目前生产用的是Spark2.4.7,所以后续的教程都是以Spark2.4.7为主；讲解版本：Spark2.4.7 工欲善其事，必先利其器！这里就讲解下Spark的安装与启动；安装准备 Spark从入门到放弃——初始Spark（一）说到，Spark只是计算框架，取代的是Ma

2020-12-14 00:57:24 3329 2

原创 Spark从入门到放弃——初识Spark（一）

Spark版本 Spark是Apache开源的顶级项目，官网地址,目前也一直不断更新迭代，截至本博客发布时间(20201202)最新版本是Spark 3.0.1 released (Sep 08, 2020),因为公司目前生产用的是Spark2.3.3,所以后续的教程都是以Spark2.3.3为主；讲解版本：Spark2.3.3什么是Spark Apache Spark is a fast and general-purpose cluster computing system.

2020-12-09 11:46:10 935 1

Apache Flink快速上手word count项目（Java版）

Apache Flink作为流式计算的佼佼者，如何快速入手一个Flink项目呢，本例就以经典的大数据word count统计为例，讲述传统Apache Flink DataSet API（批处理API）和新的流式DataStream API的两种实现，从代码动手开始揭开Apache Flink的神秘面纱，项目包含以下内容： 1. 环境准备和创建项目 1.1 软件准备及版本 1.2 IDEA下创建Java项目FlinkTutorial 2. DataSet API 批处理实现word count 3. DataStream API 流处理实现word count 3.1 有界的流处理 3.2 无界的流处理

2022-05-04

hive常见的优化方案ppt

涉及到Hive优化相关的一些常用技巧，当Hive出现数据倾斜时或者负载不均衡等情况，往往会出现耗久，甚至跑不出结果的尴尬场面，这个时候如果计算资源监控显示有没有完全饱和利用，就需要涉及到优化了；

2020-12-15

项目实战——钉钉报警校验ElasticSearch和Hive数据仓库内的数据质量（Java版本）

此篇文章主要选取关键性指标，数据校验数据源Hive和目标ES内的数据是否一致；因为你不知道将Hive的数据导入到了ElasticSearch后，数据量是否准确，所以需要钉钉报警校验ElasticSearch和Hive数据仓库内的数据质量，注意，这个项目打包后，最好另起一个进程调用，并且开始时间为文章1或者2最大预估的结束时间后的10分钟后调用，这样可以校验两种情形： 1.ETL项目被调度了，但是造成了数据异常，可以捕捉到； 2.ETL项目压根就没起来，即超时了，造成了数据异常，亦可被捕捉！

2020-10-24

项目实战——Spark将Hive表的数据写入ElasticSearch（Java版本）

项目实战：Java一站式解决Hive内用Spark取数，新建ES索引，灌入数据，并且采用ES别名机制，实现ES数据更新的无缝更新，底层采用Spark计算框架，数据较快。

2020-10-24

ElasticSearch常用查询的Java实现

ElasticSearch查询term，terms，match，id查询 ElasticSearch查询refix，fuzzy，wildcard，range，regexp查询 ElasticSearch查询scroll，delete-by-query，bool，boosting，filter，highlight查询 ElasticSearch查询cardinality，range，extended_stats聚合统计aggregations查询 ElasticSearch查询geo_distance，geo_bounding_box，geo_polygon地图检索geo查询的Java实现

2020-10-12

elasticsearch-HQ.zip

ElasticHQ 是一个基于浏览器的直观和功能强大的 ElasticSearch 管理和监控工具，它提供了对 ElasticSearch 的实时监控、全集群管理、搜索和查询等功能。 ElasticHQ 主要优点如下：能够实时监控ElasticSearch的集群和集群节点能够管理索引、映射、分片、别名和节点能够查询一个或多个索引具有REST风格的API，无需繁琐的JSON的数据格式完全基于Web浏览器，无需安装或者下载任何软件针对手机、平板电脑和其他小屏幕的设备进行了优化具有易于使用和吸引力的用户界面免费

2020-08-21

TA关注的人

Apache Flink快速上手word count项目（Java版）

hive常见的优化方案ppt

项目实战——钉钉报警校验ElasticSearch和Hive数据仓库内的数据质量（Java版本）

项目实战——Spark将Hive表的数据写入ElasticSearch（Java版本）

ElasticSearch常用查询的Java实现

elasticsearch-HQ.zip

城市GDP_总人口数据_清洗后(截至2019).xlsx

数据库原理PPT课件.zip

hive-2.3.5配置文件.rar

MobaXterm_Personal_1

博客插入gif文件失败？