普通网友-优快云博客

原创最全高并发架构（消息队列）(4)，2024年最新学习大数据开发开发的步骤

总结：通过一个 MQ，Pub/Sub 发布订阅消息这么一个模型，A 系统就跟其它系统彻底解耦了。

2024-05-16 05:34:22 1046

原创最全面试官：跨库多表存在大量数据依赖问题有哪些解决方案(1)，高级大数据开发面试题及答案

而且，依赖商品这个核心服务的服务实在是太多了，也就导致后续商品服务每次更新商品时，都需要调用更新订单冗余数据、更新采购冗余数据、更新门店库存冗余数据、更新运营冗余数据等一大堆服务。仔细计算后，我们发现之前数据冗余的方案中每个订单都需要保存一份商品的冗余数据，假设订单总数是 N，商品总数是 M，而 N 一般远远大于 M。2、每个依赖的服务需要重复实现冗余数据更新同步的逻辑。前面我们讲了采购、订单及其他服务都需要依赖商品数据，因此每个服务需要将冗余数据的订阅、更新逻辑做一遍，最终重复的代码就会很多。

2024-05-16 05:33:49 626

原创最全面试官：设计模式中的桥接模式是什么？_前端面试题什么叫桥接(3)，含面试题+答案

我：桥接模式就是将抽象部分与它的实现部分解耦，使得两者都能够独立变化。

2024-05-16 05:33:16 1034

原创大数据最新开放数据库：中医古方数据库，2024年最新一文详解

数据存储位置：国家人口健康科学数据中心数据仓储（PHDA）数据来源：中国医学科学院中医药信息研究所。讲解视频，并且后续会持续更新**数据库名称：中医古方数据库。

2024-05-15 20:46:20 868

原创大数据最新开局掉马，逃荒前我还在学Spark(3)，2024年字节跳动74道高级程序员面试

MapReduce是一个分布式运算程序的编程框架，是用户开发“基于Hadoop的数据分析应用”的核心框架。MapReduce核心功能是将用户编写的业务逻辑代码和自带默认组件整合成一个完整的分布式运算程序，并行运行在一个Hadoop集群上。Spark于2000年诞生于美国加州大学伯克利分校的AMP实验室，它是一个可应用于大规模数据处理的统一分析引擎。它是基于内存计算的大数据并行计算框架。Spark 是一个专门用来对那些分布式存储的大数据进行处理的工具，没有提供文件管理系统，自身不会进行数据的存储。

2024-05-15 20:45:47 456

原创大数据最新开发者，云原生数据库是未来吗？_云原生数据库没有前景 (3)，关于网络优化你必须要知道的重点

云原生（Cloud Native）是一种构建和运行应用程序的方法，是一套技术体系和方法论。Cloud为云平台，Native表示应用程序从设计即考虑到云的环境，原生应用在云上以最佳姿势运行，充分利用和发挥云平台的弹性+分布式优势。随着时代和技术的发展，不断演化，容器技术、微服务、可持续交付、DevOps，构成云原生的四个要点。云原生数据库，是一种通过云平台构建、部署和分发的数据库服务。它以 PaaS 的形式进行分发，相比于传统数据库，云原生数据库提供了更好的访问性和可伸缩性。

2024-05-15 20:45:14 348

原创大数据最新建议收藏丨大数据集群常用监控命令（内存、磁盘、CPU、网络(1)，面试必备

df –h：条数、每条大小、内存是DDR4还是DDR3、内存频率是2666MT/S还是1600MT/sjps -l # 获取进程id● USER，进程所有者的用户名。● PID，进程号，可以唯一标识该进程。● %CPU，进程自最近一次刷新以来所占用的CPU时间和总时间的百分比。● %MEM，进程使用内存的百分比。● VSZ，进程使用的虚拟内存大小，以K为单位。● RSS，进程占用的物理内存的总数量，以K为单位。● TTY，进程相关的终端名。

2024-05-15 20:44:41 446

原创基于内存的分布式NoSQL数据库Redis(一)介绍与安装_nosql 允许数据丢失(1)

(img-bgaUWl7c-1715738077068)]：实现Redis的Linux版单机部署。

2024-05-15 09:54:59 436

原创基于SpringBoot实现的AI智能大数据医疗诊断平台_基于springboot的医疗服务平台

用户个人信息管理用户修改密码切换主题接口文档注意：集成的是swaggerAPI文档，由于代码中未加swagger相关注解，未全部展示，小白在此调试了一个api，小伙伴有需要可以按照下面方式自行添加注解添加方法：1、在controller层添加@Api注解2、在API接口添加@ApiOperation注解效果代码生成系统管理->用户管理系统管理->角色管理系统管理->部门管理系统管理->字典管理系统管理->菜单管理系统管理->登录日志系统管理->业务日志系统管理->监控管理。

2024-05-15 09:54:23 439

原创基于SpringBoot实现的AI智能大数据医疗诊断平台_基于springboot的医疗服务平台(1)

微信关注视频号：【全栈小白】，查看演示视频基于SpringBoot实现的AI智能大数据医疗诊断平台，主要包含六个大模块：系统管理、居民医保信息、药物信息管理、居民健康信息、居民就诊信息和我的预约信息。项目启动后可以通过管理员身份、医生或者病人身份进入系统，进入系统后会呈现对应的后台管理主界面，通过后左侧的导航菜单，实现不同模块功能的使用、数据维护等。一共是17张有效数据表。

2024-05-15 09:53:47 530

原创基于spark的音乐数据分析系统的设计与实现_基于spark的音乐数据分析系统的设计与实现的功能介绍

本文主要对音乐数据，进行分析，系统技术主要使用，1.对原始数据集进行预处理；3.使用python语言编写Spark程序对HDFS中的数据进行处理分析，并把分析结果写入到MySQL数据库；4.利用Spark MLlib进行数据和关系预测；5.利用IntelliJ IDEA搭建动态Web应用；6.利用plotly进行前端可视化分析。关键词：音乐数据分析；可视化分析；python语言本文对网易云音乐平台的数据进行分析，分析年度音乐专辑销量TOP10；年度月排行榜榜首播放量；最受欢迎的音乐类型；

2024-05-15 09:53:10 583

原创【云原生 Kubernetes 系列】K8s 实战使用 Kustomize 对 Kubernetes 对象进行声明式管理_configmapgenerator(1)

此基准可在多个覆盖中使用。你可以在不同的覆盖中添加不同的 namePrefix 或其他贯穿性字段。

2024-05-15 01:16:38 489

原创【云原生 Kubernetes 系列】K8s 实战 Kubernetes 声明式对象的增删改查_kubectl

使用打印其现时配置：输出显示注解。

2024-05-15 01:16:02 358

原创【云原生 Kubernetes 系列】K8s 实战 Kubernetes 声明式对象的增删改查_kubectl(3)

资料，也有适合3年以上经验的小伙伴深入学习提升的进阶课程，涵盖了95%以上大数据知识点，真正体系化！来更新某个目录中定义的所有对象，即使那些对象已经存在。注解值中包含了用来创建对象的配置文件的内容。$ kubectl apply -f /$ kubectl apply -f /$ kubectl diff -f /此操作会在每个对象上设置。

2024-05-15 01:15:26 314

原创【云原生 Kubernetes 系列】K8s 实战 Kubernetes 声明式对象的增删改查_kubectl(2)

使用打印其现时配置：输出显示注解。

2024-05-15 01:14:49 397

原创 H5+echarts模拟全国程序员可视化大数据【附完整源码】_html和echarts可视化源码

【代码】H5+echarts模拟全国程序员可视化大数据【附完整源码】_html和echarts可视化源码。

2024-05-14 15:54:00 293

原创 H5+echarts模拟全国程序员可视化大数据【附完整源码】_html和echarts可视化源码(1)

网上学习资料一大堆，但如果学到的知识不成体系，遇到问题时只是浅尝辄止，不再深入研究，那么很难做到真正的技术提升。type: “shadow” // 默认为直线，可选为：‘line’ | ‘shadow’dt.getMinutes() + “分” +dt.getSeconds() + “秒”;dt.getDate() + “日-” +dt.getHours() + “时” +// 坐标轴指示器，坐标轴触发有效。name: “直接访问”,// 指定配置和数据。

2024-05-14 15:53:24 969

原创 Grafana【部署 02】可视化工具 Grafana 9 最新版下载安装配置及使用（新特性体验）_grafana下载教程

配置文件 /etc/grafana/grafana.ini 可以修改默认配置，这个配置文件的内容是很多的，由于我的云服务器 localhost 映射的并非服务器的内网地址，这里要进行修改。较多，这里只是将部分目录截图出来，全套包含大厂面经、学习笔记、源码讲义、实战项目、大纲路线、讲解视频，并且后续会持续更新**有安装及配置说明，以下内容均根据官网的说明进行安装与配置。1️⃣ 通过系统调用启动【本次使用】2️⃣ 二进制方式启动。

2024-05-14 15:52:48 685

原创 Grafana【部署 02】可视化工具 Grafana 9 最新版下载安装配置及使用（新特性体验）_grafana下载教程(1)

官网的配置说明：配置文件 /etc/grafana/grafana.ini 可以修改默认配置，这个配置文件的内容是很多的，由于我的云服务器 localhost 映射的并非服务器的内网地址，这里要进行修改。

2024-05-14 15:52:13 661

原创 2024年最全大数据计算引擎：impala对比hive，大数据开发已死

把执行计划表现为一棵完整的执行计划树，可以更自然地分发执行计划到各个Impalad执行查询，而不用像Hive那样把它组合成管道型的map->reduce模式，以此保证Impala有更好的并发性和避免不必要的中间sort与shuffle。: 采用拉的方式，后续节点通过getNext主动向前面节点要数据，以此方式数据可以流式的返回给客户端，且只要有1条数据被处理完，就可以立即展现出来，而不用等到全部处理完成，更符合SQL交互式查询使用。: 采用推的方式，每一个计算节点计算完成后将数据主动推给后续节点。

2024-05-14 07:15:55 990

原创 2024年最全大数据精品栏目介绍_初学者栏目介绍(3)，程序员必学

大数据入门核心技术栏目里集合。

2024-05-14 07:15:19 844

原创 2024年最全大数据竞赛数据抽取部分_gy_pub(3)，面试加分项

insert into table ods.user_info partition (etldate=“19971201”) values(6814,“89xtog”,“周杰伦”,“”,“卖片”,17777124243,“89xtong@163.net”,“”,1,“1965-04-26”,“M”,“2020-04-26 18:55:55”,“2020-04-26 5:53:55”);面经、学习笔记、源码讲义、实战项目、大纲路线、讲解视频，并且后续会持续更新**

2024-05-14 07:14:44 783

原创 2024年最全大数据物流项目：概述及Docker入门（一）_物流大数据项目(1)，大数据开发ui基础教程

即席查询，即席查询（Ad Hoc）是用户根据自己的需求，灵活的选择查询条件，系统能够根据用户的选择生成相应的统计报表。在实际项目开发中，除了依据业务开发应用（实时ETL数据转换、报表分析、即席查询等）之外，比如集群规模、业务数据量、开发团队人员配置等等。任何一个大数据项目，首先数据流转图：项目数据从哪里来的，存储到哪里去，进行什么应用分析。在神策数据产品中，用户自定义查询，就是所说的即席查询，底层使用Impala分析引擎。即席查询，在大数据领域中，比较普遍需求，随时依据用户的需求，查询分析海量数据。

2024-05-14 07:14:07 874

原创 2024年大数据最新hbase 总结，学习大数据开发开发的步骤

【代码】2024年大数据最新hbase 总结，学习大数据开发开发的步骤。

2024-05-13 22:27:44 241

原创 2024年大数据最新hadoop（使用）(1)，2024年最新写的太详细了

包含大厂面经、学习笔记、源码讲义、实战项目、大纲路线、讲解视频，并且后续会持续更新**为了安全和管理方便，建议为Hadoop创建一个专用用户。

2024-05-13 22:27:08 354

原创 2024年大数据最新Hadoop大数据应用：HDFS 集群节点缩容(1)，宅家36天咸鱼翻身入职腾讯

9.09 G （jenkins 1.24 GB,pinpoint 3.27 GB ,存储副本量为2）node04节点状态变为Decommissioned in Program。node04节点状态变为Decommissioned。(9)修改配置文件（hadoop节点）（7）再次查看节点状态（已使用）（15）查看节点（已使用）（8）计算总存储使用量。(13) 再次查看节点。（10）配置移除主机。（12）查看节点状态。

2024-05-13 22:26:31 348

原创 2024年大数据最新Hadoop入门(二)——VMware15，2024年最新【面试必备

在讲之前，我对上一篇内容做出一点修改，当然完全按照上一篇操作对于初学者来说完全够用，但考虑到后期扩充内存的麻烦，博主又重新装了一遍，基本步骤不变只是将每个处理器的数量由2改为3，然后虚拟机的磁盘容量由20G变为了50G,当然磁盘容量改了，相应手动分区的各区域分配也相应改变。改的原因：比如我们这台服务器是Hadoop100，每次重启服务器ip地址变化，下次想要访问服务器ip地址就找不到了，因此我们把它配置为静态的。补充完上面的内容后，我们配置服务器的IP地址，一共有三个地方的IP地址需要配置。

2024-05-13 22:25:55 951

原创每天一道大厂SQL题【Day21】华泰证券真题实战(三)_### 华泰证券2 查询课程编号

2 | 一年三班 | | | 2 | 李四 | 女 | 1 || 3 | 三年一班 | | | 3 | 王五 | 男 | 2 |

2024-05-12 19:30:55 761

原创每天一道大厂SQL题【Day21】华泰证券真题实战(三)_### 华泰证券2 查询课程编号(3)

4、数据量要小，工具要快，如果用hive，就设置set hive.exec.mode.local.auto=true;,每个中间步骤都执行打印结果，看是否符合预期，根据中间结果，进一步调整修饰SQL语句，再执行，直到接近结果表。从源表到结果表，一路可能要走多个步骤，其实就是可能需要多个子查询，过程多就用with as来重构提高可读性。参考答案适用HQL，SparkSQL，FlinkSQL，即大数据组件，其他SQL需自行修改。2、先将结果表画出来，包括结果字段名有哪些，数据量也画几条。

2024-05-12 19:30:19 869

原创每天一道大厂SQL题【Day21】华泰证券真题实战(三)_### 华泰证券2 查询课程编号(2)

参考答案适用HQL，SparkSQL，FlinkSQL，即大数据组件，其他SQL需自行修改。查询课程编号“2”的乘积比课程编号“1”低的所有同学的学号、姓名。查询没有学全所有课的同学的学号、姓名。点击下方卡片关注联系我进群。提高SQL功底的思路。

2024-05-12 19:29:43 930

原创每天一道大厂SQL题【Day21】华泰证券真题实战(三)_### 华泰证券2 查询课程编号(1)

一路走来，随着问题加深，发现不会的也愈来愈多。但底气着实足了不少，相信不少朋友和我一样，日积月累才是最有效的学习方式！，作为一名资深大数据选手，深知SQL重要性，接下来我准备用100天时间，基于大数据岗面试中的。查询课程编号“2”的乘积比课程编号“1”低的所有同学的学号、姓名。，以每日1题的形式，带你过一遍热门SQL题并给出恰如其分的解答。明明可以靠脸吃饭，你却靠才华，这就是你跟明明的差距。大家好，我是Maynor。2.有表结构及数据如下，请完成相应查询。查询没有学全所有课的同学的学号、姓名。

2024-05-12 19:29:06 996

原创最新32、学习 Java 中的注解（参照官方教程）_@unused 注解(4)，2024年大数据开发高级面试题总结

📄 注解（Annotation）也被称为元数据（Metadata），用于解释包、类、方法、属性、构造器、局部变量等数据的信息既有适合小白学习的零基础资料，也有适合3年以上经验的小伙伴深入学习提升的进阶课程，涵盖了95%以上大数据知识点，真正体系化！由于文件比较多，这里只是将部分目录截图出来，全套包含大厂面经、学习笔记、源码讲义、实战项目、大纲路线、讲解视频，并且后续会持续更新需要这份系统化资料的朋友，可以戳这里获取[外链图片转存中…(img-fcRh1Fim-1715482722547)]

2024-05-12 10:59:14 521

原创最新3(4)，1个月学会大数据开发开发

占8比特，最初以秒为单位，最大生存周期为255秒，路由器转发IP数据报的时候，把IP数据报首部中的该字段的值减去IP数据报在本路由器上所耗费的时间，若不为0，就转发，否则就丢弃。同样道理，两台主机A,B要想进行通信的话，他们应该也要知道对方的地址，这样才能进行连接，然后发送信息，信息沿着链路，然后顺着路由器的转发，直到转发到主机上。现在以"跳数"为单位，路由器转发IP数据报的时候，把IP数据报首部中的该字段的值减1，如果不为0，就转发，否则就丢弃。：占16比特，表示IP数据报的总长度(首部+数据载荷)

2024-05-12 10:58:38 462

原创最新21天学习挑战赛之java多线程，大数据开发客户端开发面试题目

提到池，大家应该能想到的就是水池。水池就是一个容器，在该容器中存储了很多的水。那么什么是线程池呢？线程池也是可以看做成一个池子，在该池子中存储很多个线程。线程池存在的意义：系统创建一个线程的成本是比较高的，因为它涉及到与操作系统交互，当程序中需要创建大量生存期很短暂的线程时，频繁的创建和销毁线程对系统的资源消耗有可能大于业务处理是对系统资源的消耗，这样就有点"舍本逐末"了。针对这一种情况，为了提高性能，我们就可以采用线程池。

2024-05-12 10:57:25 387

原创大数据最新每天一道大厂SQL题【Day24】华泰证券真题实战(六)，2024年最新附面试题答案

最大回撤定义：在该客户的净值曲线中，当出现最大的净值的时点记为m1，这之后出现的净值比m1那天净值相差最大的净值记为m2，最大回撤就是(m2-m1)/m1.(注意是出现最大净值之后的最小净值，两者的差)date,pft)as values。

2024-05-12 02:21:26 634

原创大数据最新每天一道大厂SQL题【Day23】华泰证券真题实战(五)(1)，分布式架构演进+相关笔记参考

定义：市值增长率=(当日市值-上日市值)/上日市值，求每日每个客户每只股票的市值增长率。init_date integer comment ’ 日期 ',计算股票表 stock 中各股票的增长率。人生不如意之事十有八九，剩下的十之一二，超级不如意。–假设都是连续日期，没有中断。comment ’ 股票代码 ',求每日每个客户每只股票的市值增长率。comment ‘客户号’,comment ‘持仓市值’

2024-05-12 02:20:50 1056

原创大数据最新架构师的核心能力_架构师核心业绩，2024年最新头条三面技术四面HR

一般来说，传统企业在开始考虑做服务治理时，已经积累了大量接口。接口改造和测试的耗费巨大而且周期长，其中部分系统可能是外包出去的，难以控制。综合企业环境和团队人员等因素，服务治理分阶段执行是比较合适的。下面以传统企业几年前的服务治理为例，分析企业机构服务治理的过程。

2024-05-12 02:20:15 442

原创大数据最新机器学习算法（1）—— K-近邻算法_k近邻算法k的取值(2)，先睹为快

根据KNN每次需要预测一个点时，我们都需要计算训练数据集里每个点到这个点的距离，然后选出距离最近的k个点进行投票。当数据集很大时，这个计算成本非常高，针对N个样本，D个特征的数据集，其算法复杂度为O(DN^2)kd树：为了避免每次都重新计算一遍距离，算法会把距离信息保存在一棵树里，这样在计算之前从树里查询距离信息，尽量避免重新计算。其基本原理是，如果A和B距离很远，B和C距离很近，那么A和C的距离也很远。有了这个信息，就可以在合适的时候跳过距离远的点。这样优化后的算法复杂度可降低到O(DNlogN)

2024-05-12 02:19:39 777

原创大数据最全Hadoop集群部署和启动与关闭_启动hadoop(2)，2024年最新零基础入门大数据开发

vi slaves系统环境变量文件profile配置完成后保存并退出即可，随后执行“”命令初始化系统环境变量使配置内容生效。完成分发操作，分别在虚拟机Spark02和Spark03中执行“”命令初始化系统环境变量。

2024-05-11 17:41:39 854

原创大数据最全Hadoop集群完全分布式的搭建~（超详细版）来了(1)，2024年最新老师讲的真棒

1.1.1 第一步：VM也就是VMware® Workstation “是否”在自己的Windows10系统上安装好，或者“是否”在自己Macos桌面操作系统上安装好了；第二步：创建一个以centos镜像的虚拟机机。3.1.3 在虚拟机中检查一下有没有安装SSH,若没有则按下面步骤操作（注意在虚拟机中操作哦）3.1.4 向虚拟机中上传jdk和hadoop压缩包。1.1.2 所需要jdk和hadoop压缩包。

2024-05-11 17:41:03 319

空空如也

空空如也