
大数据入门笔记
文章平均质量分 91
记录大数据自学笔记,不积跬步无以至千里
程序员石磊
专注大模型、AI Agent、室内定位、在职读研分享!
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
单表七千六百万数据量(oracle)进行实时汇总,sql很慢客户不能忍一下,该怎么办?
问题背景描述某省系统界面需要展示业务指标,该指标来自一张表如下图所示,数据量巨大。旧方案的统计逻辑是:java cron定时任务执行sql汇总插入汇总表,汇总频率一小时一次。在进行定时汇总的时候,由于需要统计历史所有数据,尽管sql已经优化避免全表扫描但是查询sql执行时间很久。导致:界面长时间没数据。限制因素数据库服务器配置一般,普通Pc配置(16g内存,500g硬盘,cpu不清楚),没有ssd;上集群、大数据分析、hadoop?想多了,估计没人会(除了我,这里不谦虚了),运维成本比较高,原创 2021-08-12 21:45:34 · 831 阅读 · 2 评论 -
大数据分析之纳税人画像-实现和优化思路
1.背景环境本文章来自最近做的项目模块的思考和总结,主要讲思路不涉及过多的基础和实现细节。需求:统计出来纳税人名称、行业、近一年业务量(办税服务厅、电子税务局、自助渠道),近一年业务量top5(办税服务厅、电子税务局、自助渠道)、近一年纳税金额、近一年申报数、近一年用票数。支持根据所属税务机关分页查询。看上去业务不复杂,但是**数据来自多个系统,数据量很大。**来来画个示意图展示下数据来源的复杂程度:-java 操作hdfs
hadoop3自学入门笔记(3)-java 操作hdfs1.core-site.xml<configuration> <property> <name>fs.defaultFS</name> <value>hdfs://192.168.3.61:9820</value> <...原创 2020-02-23 11:34:23 · 592 阅读 · 0 评论 -
hadoop3自学入门笔记(2)—— HDFS分布式搭建
一些介绍Hadoop 2和Hadoop 3的端口区别Hadoop 3 HDFS集群架构我的集群规划nameiprole61192.168.3.61namenode,datanode62192.168.3.62datanode63192.168.3.63secondnamenode64192.168.3.64datanode...原创 2020-02-20 09:13:32 · 692 阅读 · 1 评论 -
hadoop3自学入门笔记(1)——虚拟机安装和网络配置
前言年过30惶惶不安,又逢疫情,还是不断学习,强化自己的能力。hadoop的视频和书籍在15年的时候就看过,但是一直没动手实践过,要知道技术不经过实战,一点提升也没有。因此下定决心边学边做,希望能有所收获。软件版本介绍virtualbox 6.1centos7hadoop-3.2.1jdk-8u241-linux-x64xshellxftp虚拟机配置规划namei...原创 2020-02-16 23:07:51 · 521 阅读 · 2 评论 -
大数据将如何影响会计行业
如果我说我们已经正式进入数据时代,那将不是一件容易的事。根据世界经济论坛(World Economic Forum)的数据,到2020年,一天的总数据量将达到44 ZB。随着大量如此大量的数据涌入,企业需要时刻保持警惕,以从浩如烟海的数据中找到有价值的信息和见解。但是,他们还需要清除无用的数据。大数据在这方面发挥了作用。恰当地命名,大数据涉及高速生成的大量不同种类的数据,这实际上是常规数据处...原创 2020-02-08 20:51:43 · 9817 阅读 · 0 评论 -
一图说明矩阵等价,相似,合同
一、矩阵等价、相似和合同之间的区别:1、等价,相似和合同三者都是等价关系。2、矩阵相似或合同必等价,反之不一定成立。3、矩阵等价,只需满足两矩阵之间可以通过一系列可逆变换,也即若干可逆矩阵相乘得到。4、矩阵相似,则存在可逆矩阵P使得,AP=PB。5、矩阵合同,则存在可逆矩阵P使得,P^TAP=B。6、当上述矩阵P是正交矩阵时,即PT=P(-1),则有A,B之间既满足相似,又满足合同关系...原创 2020-02-07 16:30:22 · 46581 阅读 · 1 评论 -
数据可视化中常用的16种图表
在信息爆炸的时代,越来越多的数据堆积。但是,这些密集数据没有重点关注并且可读性较差。因此,我们需要 数据可视化 以帮助数据易于理解和接受。相反,可视化更加直观和有意义,并且使用适当的图表来可视化数据非常重要。在这篇文章中,我将介绍数据可视化中排名前16位的图表类型,并分析它们的应用场景,以帮助您快速选择显示数据特征的图表类型。注意:本文中的所有图表均取自数据可视化工具 finere...翻译 2020-02-06 09:53:37 · 109287 阅读 · 7 评论 -
从零搭建企业大数据分析和机器学习平台-技术栈介绍(三)
目录数据传输和采集Sqoop数据传输工具Flume日志收集工具Kafka分布式消息队列数据存储Hbase分布式Nosql数据库Hdfs分布式文件系统大数据处理HadoopSpark数据查询分析工具Apache HivePig、Impala和Spark SQL机器学习MahoutSpark mllib其他工具 大...原创 2019-09-03 17:43:44 · 1288 阅读 · 0 评论 -
从零搭建企业大数据分析和机器学习平台-建设思路(二)
本ppt来自于互联网,不是原创原创 2019-09-03 17:38:31 · 1048 阅读 · 0 评论 -
从零搭建企业大数据分析和机器学习平台-技术架构图(一)
原创 2019-08-29 11:12:49 · 1153 阅读 · 2 评论