- 博客(115)
- 资源 (11)
- 问答 (1)
- 收藏
- 关注
原创 构建企业级数据的愿景、目标与规划历程
伴随着数字科技、通信、人工智能的发展,很多企业组织都已经意识到,数据已经慢慢演变成为企业的资产,冠以数据是企业的“信息货币”、“生命之血”,甚至“新的石油”。企业不仅依托数据开展业务,也从数据中分析和挖掘出更多的价值。但从数据中获取价值并非凭空产生,而是需要有愿景、目标、规划、协作、落地等来保障,当然也需要企业的管理和领导力,此篇则作为总览篇章专门来讲述构建企业数据的愿景、目标与规划。
2025-03-21 21:04:04
789
原创 后智能体时代的LLM和Agent
随着`OpenAI`、`Deepseek`、`Manus`等等智能体的爆火,跟大家一起聊一聊关于AI重塑的哲学体系, 关于AI大模型体系的认知,关于AI大模型体系的畅想,关于人和AI大模型体系的共处的话题。
2025-03-08 22:15:19
1132
原创 大数据从入门到放弃——浅谈数据架构的前世今生
随着云时代的发展,大数据的使用变得越来越便捷,数据也变得越来越重要,你可以说一个企业暂时没有从数据中挖掘出价值,但是一个企业绝对不可能离开数据工作,大数据对于很多的人而言,终究像是一位神秘女神,一睹她芳泽的人把她传的神乎其神,导致最终的听者都觉得她无所不能,特别在最近很火的AI生成ChatGPT的带领下,仿佛数据已经是IT技术界的虚空黑洞,不仅可能吞噬一切,而且所有解释不了的东西,最终都可以从中得到答案,尽管博主也觉得ChatGPT 的充满潜力和希望,但是博主今天还是更想跟大家聊聊数据本身的发展规律……
2023-08-20 19:15:13
808
原创 亚马逊云科技——户外广告传媒行业数字化转型的摆渡者
本文就亚马逊云科技在IoT物联网、数据仓库、数据湖、数据可视化等方面的如何助力户外广告传媒行业数字化转型的问题上展开探讨。
2022-05-19 12:24:50
3478
原创 Apache Flink从入门到放弃——快速上手(Java版)(二)
以经典的大数据word count统计为例,讲述传统Apache Flink DataSet API(批处理API)和新的流式DataStream API的两种Java代码的实现,从代码动手开始揭开Apache Flink的神秘面纱。
2022-05-04 00:27:11
1318
原创 Apache Flink从入门到放弃——Flink简介(一)
Apache Flink是一个分布式大数据计算引擎,可以对有界的数据和无界的数据进行有状态的计算,可部署在各种集群环境中,对各种大小数据规模进行快速计算,本章节主要介绍下Flink的历史和由来以及框架基础。............
2022-05-03 13:12:20
7527
1
原创 飞算(SoFlu)软件机器人——人人都是全栈架构师
SoFlu(飞算)软件机器人是全球首款面向微服务架构设计和最佳实践的软件项目开发智能平台,平台以Java为主要开发语言,包含(后端)全自动开平台、(前端)全自动开发平台、全自动测试平台、全自动运维平台的项目全栈解决方案;她全程参数化的配置填写,拖拉拽的界面设计使得一人就能全栈解决后端服务到前端开发,以及后续的测试部署,甚至机器资源的运维监控与服务,因为她的存在,人人都是全栈架构师。
2022-04-26 00:25:56
7468
2
原创 JavaSE基础——异常机制
曾有人说过:“一个程序项目内30%的代码就能实现功能,剩下70%的代码都在检查异常、增加约束……”本文就总结下Java的异常机制。
2022-04-16 00:54:47
679
原创 brew结合iTerm2花式玩转MacOS软件管理的终端指令
为什么你的Mac终端能语法高亮、高端智能提示、风骚的指定风格、有趣的fuck插件(shell指令报错怎么办?fuck一下!),还有张陌上人如玉,公子世无双的嵩嵩(老婆最爱)的背景板等等,因为我利用国内镜像安装brew,结合iTerm2花式玩转MacOS的软件管理呀,想学呀?我教你呀!
2022-03-29 00:50:51
3138
原创 Linux基础篇——ftp的安装与配置
为啥ftp?安装ftp主要是还为了传输文件,但是我有一台服务器或者计算机,直接登录进去获取文件不行吗?为啥还要多此一举用ftp呢?原因是用ftp的话,它的会话是持久的,只有一次认证过程,传输多个文件都是使用同一个连接。因为 ftp 就是为远程文件交互而设计的,更适;而且有些时候只是为了单纯让你做一个文件传输,运维未必会给你一台服务器,这个时候往往只是给你搭建ftp服务。
2022-03-28 00:09:14
24791
18
原创 大数据之路之Linux篇
为什么要学习Linux1. 工作需要,从事IT工作或多或少都要设计Linux;2. 迟早老子会有钱,要买一台苹果Mac坐在星巴克追剧,那你会发现,Mac的命令行模式竟然和Linux惊人的相识,我每次用到Mac命令行操作都是直接网上直接copy的,不知道啥意思,这是我一个做设计的朋友跟我吐槽的,嘿嘿,就怕哪天你copy了个`rm -rf *`3.每次看美国大片,发现那些电脑高手都在一个黑框框里啪啦啪啦的敲键盘,他们在敲啥呢?想不想成为他们一样的高手?
2022-03-27 14:13:34
5923
原创 Linux基础篇——Linux进程、服务管理
程序(program)、进程(process)、守护进程(daemon)与服务(service)的之间是什么关系?简直一个头两个大,服务器之间的各个进程、服务又是怎么管理的呢?本篇文章,带你走进Linux进程(process)和服务(service)的世界。
2022-03-11 19:23:21
4042
原创 项目实战——参数配置化Spark将Hive表的数据写入需要用户名密码认证的ElasticSearch(Java版本)
如何优雅的将Hive的数据写入ES,每次新增一张表是否新增一个配置文件就能实现呢?当然可以,本篇文章就带你走进这个优雅的ETL Jar包;
2022-03-03 17:49:41
3397
1
原创 Linux基础篇——Linux运行级别及找回root密码
离职的前辈把root密码也带走了,或者自己root密码忘记了,咋办?这篇文章就带你玩点刺激的,毕竟人生来就喜欢偷窥秘密。
2022-02-08 18:48:09
3566
原创 Linux基础篇——Linux网络配置(配置网卡、固定IP,固定hostname,终端远程)详解
你是在玩单机吗?对于现在而言,这句话无疑是略带嘲讽的含义,也恰恰证明了网络的重要性,那么计算机里面的网络是怎么分布的呢,为啥你能上网呢,Linux系统需要需要进行哪些网络配置呢,这里就给大家简单介绍下;
2022-01-12 11:40:54
36256
7
原创 Apache Superset——开源的大数据探索分析、可视化报表平台
传统BI工具数据源太老?商用BI工具昂贵?云产品又技术壁垒?公司又没人力物力自研一款BI工具?那么你可以了解下Apache Superset,一款开源的大数据探索分析、可视化报表平台,支持丰富的数据库作为数据源,多姿多彩的图表可视化,非常好用。
2021-07-25 20:31:51
34994
14
原创 Metabase——开源的大数据分析探索、可视化报表神器
metabase是一款开源的简易但强大同时又无缝兼容大数据和传统数据库的分析工具,帮助公司每一个人对企业数据的学习挖掘,进而达到更好的数据化运营和决策。
2021-07-23 16:28:48
26537
8
原创 免费相对安全的远程控制软件
有了这些支持跨平台(Windows,Mac,Linux,IOS,Android)免费的白嫖远程控制软件,再也不用担心女朋友的电脑有问题了,再也不用担心在家远程办公不稳定了。
2021-06-20 15:08:28
9874
3
原创 Apache DolphinScheduler——开源大数据调度器神器
手把手教您玩转开源大数据调度器Apache DolphinScheduler安装维护与实践,学不会你来打我。
2021-06-11 19:20:00
10948
10
原创 Linux基础篇——Linux磁盘操作(磁盘基础知识、分类、分区、挂载、卸载、扩容)详解
目 录1.概 念1.概 念图1.1 分区的概念与好处 假如你有个大木桶要装东西,如果木桶没有划分层,所有东西全部放入里面,虽然可以装,但是对大木桶的使用就合不合理,造成杂乱无章,寻找东西时候也耗时,甚至还有不同物品之间不能存放在一起而导致危险,那更好的做法自然是给大木桶画一下不同的区域,分成不同的层,每个层放不同的东西,即安全,寻找起来也方便; 计算机的磁盘(也叫硬盘)也是如此,为了区分存储内容的不同,以及快速定位寻址文件,也需要采取分区的形式;...
2021-05-23 20:05:15
20134
50
原创 Linux通过anaconda来安装python
consumer.commitAsync(new OffsetCommitCallback() { @Override public void onComplete(Map<TopicPartition, OffsetAndMetadata> offsets, Exception exception) { if (exception != null) { System.out.println("Commit failed, offset =
2021-04-25 18:18:14
3237
3
原创 python执行sql server的insert 、update、delete未commit的坑
目 录1. 问题场景2. `import pymssql`代码案例3. `from sqlalchemy import create_engine`代码案列4.`pyspark` 操作sql server默认就是自动提交1. 问题场景 由于平时博主都是python操作mysql比较多,python处理sql server极为少见,但最近发现python在操作sql server的insert 、update、delete、truncate table等改变表数据内容的DML语句时,必须手动提交;这里
2021-04-23 18:45:08
2496
原创 SQL Server有则更新,无则插入操作之merge into
目 录1.场景2.实现1.场景 sql server假设目标表rpt.tbb_student被前端报表无缝链接,或被其它库订阅,则在更新表rpt.tbb_student就不能用全删全插的理念,这个时候就会有个思路有则更新,无则插入的增量理念; sql server天生就自带这种语法merge into,有的人疑问了,那我直接写两段语句,一段update,一段insert不行吗?答案当然是可以的,只是这种做法相对于merge into效率较低,不够优化,因为这样的两段语句需要扫描表两次,时间复杂度
2021-04-21 10:34:29
1649
原创 用distcp实现ftp到hdfs、hdfs到hdfs、hdfs到ftp的文件传输
文件本身存在ftp上,为了文件内的数据和数仓hive中的数据做分析,需要将ftp的数据上传 到hdfs,方法有很多,如果不是需要完全实时监控的话,可以采取hdfs自带的指令distcp抽取; 题外话:完全实时上传可以采取flume监控ftp文件件,再读取存入kafka,后续消费者消费kafka获取文件数据的方式,后续再讲,这节只讲distcp;1. 指令用法 distcp不仅可以实现hdfs集群1到hdfs集群2的文件传输,也可以实现ftp和hdfs之间的文件传输,只需要切换相应的协议头即
2021-04-10 12:51:05
2086
8
原创 花式玩转Linux集群免密登录
@[TO]1.言 大数据集群往往需要多台机器构成一个集群,集群内的这些机器往往需要能够互相免密登录,这里就总结下设置免密登录的常见做法; 重点: 1)需要集群内部的集群都有这个相同的用户; 2)免密登录是绑定用户的,当你设置了用户hadoop的免密登录后,你切换到另一个用户rowyet,如果rowyet本身配置是没有免密登录的话,那么rowyet并不能实现集群内部的免密登录,也需要配置; 结论:大数据集群上组件启动,最好需要用配置了免密登录账号启动较为稳妥,虽然有些组件设计容错性较高,
2021-04-05 18:10:28
1700
1
原创 如何写一篇沁人心脾的博客文档
文章目录1.缘起心态2.逻辑架构3.布局排版4.词藻讲究5.标识语言markdown6.大神都在用的小工具6.1 MarkDown免费编辑笔记本Typora6.2 在线作图工具`Process On`6.3 思维导图软件`幕布`6.4 markdown格式转微信公众号文章格式6.5 插入动态图片gif7.自审加她审8.发版1.缘起心态 做任何一件事,心态当然最重要啦,伟大的“哲学家”暗黑元首辛德拉曾经说过:“人们总是害怕那些他们不能理解的事物! ”,所以重要的是客服内心的恐惧,真正的高手向来都是包罗万
2021-04-01 00:07:10
336
1
原创 ElasticSearch中嵌套结构使用
文章目录1.需求2.ElasticSearch嵌套数据存储结构2.ElasticSearch嵌套数据写入2.ElasticSearch嵌套查询2.ElasticSearch嵌套Java API操作1.需求需求看板查看全国各省的城市,当选中江西省时,可以点进去查看江西省的各大城市;2.ElasticSearch嵌套数据存储结构 这个情况呢,可以存两个index,形成一对多的关系来查询;那这里说另一种结构,嵌套结构; 建表语句如下,citys_list就是一个嵌套结构,你可以认为citys_l
2021-03-09 11:59:44
830
原创 Kibana 7.7.1安装
文章目录1.版本配置2.官网下载3.安装3.1 解压,设置软链3.2 修改配置3.3 启动,查询端口、网页访问1.版本配置OS:CentOS7ElasticSearch:7.7.1Kibana:7.7.1 注意:ELK架构中elasticsearch,kibana必须版本一致,如果不一致请下载同一样的版本;2.官网下载 Download Kibana 如图2.1,找到自己相应的版本下载,注意,一定要和自己的elasticsearch的版本一致;下载选择tar包下载吧;下载
2021-03-02 20:34:25
890
原创 Apache Zeppelin支持Spark,Python的小试牛刀
版 本 Apache Zeppelin:0.9.0 Spark 2.3.3 关于Apache Zeppelin-0.9.0的安装以及配置Spark-2.3.3请参考博客Apache Zeppelin-0.9.0安装配置Spark-2.3.3,这里不再重复累赘;创建Note 打开zeppelin网页端口,登录后,可以通过图1菜单栏Notebook下拉或者直接点击页面的Create new note创建Note,Note就是你写代码的编辑窗口,然后弹出图2,按要求编辑好;图1 zeppe
2021-01-13 21:33:46
1091
原创 Apache Zeppelin-0.9.0安装配置Spark-2.3.3
什么是Apache Zeppelin图1 Apache Zeppelin的功能 直接上官网图,Apache Zeppelin是一个支持20+种语言的多功能后端,说白了就是一个支持多种语言的开发集成环境,如你写spark一般用linux的spark-shell或者spark-sql,你写python你可能用pycharm,你写flink你可能用flink-shell等,等等,现在好了,有一款可以集成这些所有语言的即时查询环境,你觉得棒不棒?配置好了,用起来确实很香,物极必反,包含的多,坑也多,所以耐心
2021-01-13 20:20:38
1857
原创 ElasticSearch7.7.1安装分词器——ik分词器和hanlp分词器
背 景 之所以选择用ES,自然是看重了她的倒排所以,倒排索引又必然关联到分词的逻辑,此处就以中文分词为例以下说到的分词指的就是中文分词,ES本身默认的分词是将每个汉字逐个分开,具体如下,自然是很弱的,无法满足业务需求,那么就需要把那些优秀的分词器融入到ES中来,业界比较好的中文分词器排名如下,hanlp> ansj >结巴>ik>smart chinese analysis; 博主这里就选两种比较常用的讲解hanlp和ik ,hanlp在业界名声最响,ik是官方推荐和ES版
2020-12-25 19:59:57
3909
2
原创 ElasticSearch处理数据库里面的null值
背 景 博主有次在给ES导数的时候,将Hive内的一个字段导入ES内,一直报错说什么null值异常,一开始一脸懵逼,后面经过查阅了官网发现原来ES不支持null值; 其实我们想想原理也很简单,因为ES是根据他的field来做倒排索引,如果给的是个null值,你让怎么排呢对吧?全文索引:也叫倒排索引,将需要匹配搜索条件的一段词语根据分词器进行分词,分出的单个词语放到一个分词库中,并且标注这个词隶属于哪一个行目标数据id;于是客户端在搜索时,根据搜索内容也进行分词到分词库中去检索,然后找打匹配的内容
2020-12-14 11:22:37
2182
原创 Spark从入门到放弃——Spark2.4.7安装和启动(二)
Spark版本 Spark是Apache开源的顶级项目,官网地址,目前也一直不断更新迭代,截至本博客发布时间(20201202)最新版本是Spark 3.0.1 released (Sep 08, 2020),因为公司目前生产用的是Spark2.4.7,所以后续的教程都是以Spark2.4.7为主; 讲解版本:Spark2.4.7 工欲善其事,必先利其器!这里就讲解下Spark的安装与启动;安装准备 Spark从入门到放弃——初始Spark(一)说到,Spark只是计算框架,取代的是Ma
2020-12-14 00:57:24
3329
2
原创 Spark从入门到放弃——初识Spark(一)
Spark版本 Spark是Apache开源的顶级项目,官网地址,目前也一直不断更新迭代,截至本博客发布时间(20201202)最新版本是Spark 3.0.1 released (Sep 08, 2020),因为公司目前生产用的是Spark2.3.3,所以后续的教程都是以Spark2.3.3为主; 讲解版本:Spark2.3.3什么是Spark Apache Spark is a fast and general-purpose cluster computing system.
2020-12-09 11:46:10
935
1
Apache Flink快速上手word count项目(Java版)
2022-05-04
hive常见的优化方案ppt
2020-12-15
项目实战——钉钉报警校验ElasticSearch和Hive数据仓库内的数据质量(Java版本)
2020-10-24
项目实战——Spark将Hive表的数据写入ElasticSearch(Java版本)
2020-10-24
ElasticSearch常用查询的Java实现
2020-10-12
elasticsearch-HQ.zip
2020-08-21
城市GDP_总人口数据_清洗后(截至2019).xlsx
2020-07-20
hive-2.3.5配置文件.rar
2020-05-17
MobaXterm_Personal_1
2018-03-09
博客插入gif文件失败?
2021-07-23
TA创建的收藏夹 TA关注的收藏夹
TA关注的人