自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(83)
  • 收藏
  • 关注

原创 大数据面试题每日练习 -- 解释RDD的概念

RDD(Resilient Distributed Datasets)是Spark中的核心数据结构,是一个不可变的、分区的数据集合,可以并行操作。

2024-11-24 14:24:26 466

原创 大数据面试题每日练习--Spark与Hadoop相比有什么优势?

内存计算:Spark可以在内存中处理数据,这使得它比Hadoop更快。内存计算减少了磁盘I/O操作,提高了数据处理速度。 高级抽象:Spark提供了更高级别的抽象,如DataFrame和Dataset,简化了开发过程。开发者可以使用类似SQL的语法进行数据操作。 多计算框架支持:Spark不仅支持批处理,还支持实时流处理(Spark Streaming)、机器学习(MLlib)、图计算(GraphX)等多种计算框架。 容错性:Spark使用RDD(Resilient Distributed Datas

2024-11-24 14:23:13 127

原创 大数据面试题每日练习--HDFS是如何工作的?

HDFS(Hadoop Distributed File System)是一个分布式文件系统,设计用于存储非常大的文件。

2024-11-23 22:23:01 399

原创 大数据面试题每日练习-- 解释MapReduce的概念

MapReduce是一种编程模型,用于处理和生成大规模数据集。

2024-11-23 22:21:44 147

原创 大数据面试题每日练习-- Hadoop是什么?

Hadoop是一个开源框架,用于存储和处理大型数据集。

2024-11-23 22:21:03 352

原创 大数据面试题每日练习-- 描述大数据的三个V

Volume(大量):大数据的第一个特征是数据量巨大。例如,社交媒体平台每天产生的数据量可以达到PB级别,这些数据包括用户生成的文本、图片、视频等。 Velocity(高速):大数据的第二个特征是数据生成和处理的速度非常快。例如,股票交易系统每秒处理数百万笔交易,实时广告系统每秒处理数千万次广告请求。 Variety(多样):大数据的第三个特征是数据类型的多样性。数据可以来自不同的来源,包括结构化数据(如数据库中的表格数据)、半结构化数据(如XML、JSON文件)和非结构化数据(如文本、图像、视频)。

2024-11-23 22:20:32 143

原创 spark 写入mysql 中文数据 显示?? 或者 乱码

用spark写入mysql中,查看中文数据 显示??或者 乱码主要原因是因为编码冲突,scala,spark,mysql-connect连接,mysql三个编码不一致。

2024-11-23 19:55:43 1349

原创 大数据面试题每日练习--Hadoop是什么?它由哪些核心组件组成?

定义:Hadoop是一个开源框架,用于存储和处理大规模数据集。它通过分布式计算和存储技术,提供了高可靠性和高性能的数据处理能力。 核心组件: HDFS(Hadoop Distributed File System):分布式文件系统,用于存储大规模数据集。HDFS将文件分割成多个块(默认64MB或128MB),并将这些块分布到多个节点上,以提高可靠性和性能。 MapReduce:分布式计算模型,用于处理大规模数据集。MapReduce将任务分解为Map和Reduce两个阶段,Map阶段处理数据并生成中

2024-11-21 16:10:40 434

原创 大数据面试题每日练习--什么是大数据?它有哪些特点?

定义:大数据是指数据量巨大、类型多样且增长速度快的数据集合。这些数据无法通过传统的数据处理应用进行有效处理。 特点: Volume(大量):数据量非常大,通常以PB(拍字节)或EB(艾字节)为单位。 Velocity(高速):数据生成和处理的速度非常快,需要实时或近实时处理。 Variety(多样性):数据来源多样,包括结构化数据(如数据库记录)、半结构化数据(如XML、JSON)和非结构化数据(如文本、图像、视频)。 Value(价值):数据本身具有潜在的价值,但需要通过分析才能提取。

2024-11-21 16:10:13 226

原创 AI大模型如何重塑软件开发流程

在传统的软件开发流程中,开发团队通常遵循一个线性的模式,从需求分析开始,经过设计、编码、测试,最终部署和维护。这个过程依赖于开发者的经验和技能,且往往耗时较长,容易受到人为错误的影响。相比之下,AI参与的软件开发流程引入了智能化的工具和方法,从而改变了游戏规则。例如,代码生成工具如GitHub Copilot,利用机器学习模型根据开发者的提示自动生成代码片段,显著提高了编码效率。在智能调试方面,AI可以预测和识别潜在的错误和性能瓶颈,从而减少调试时间。

2024-11-14 20:05:33 474

原创 AI大模型如何赋能电商行业

例如,亚马逊的推荐系统就是一个典型案例,它通过实时分析用户的购物行为,提供个性化的商品推荐,从而提高转化率和用户满意度。同时,随着自然语言处理技术的进步,AI驱动的客服机器人将变得更加智能,提供更加人性化的服务。总之,AI技术正在深刻影响电商行业的未来,为电商平台提供新的思路和方法,同时也带来了新的挑战。随着技术的不断发展,我们有理由相信,AI将在电商领域发挥更大的作用。随着技术的发展,越来越多的电商平台开始尝试运用AI技术来提高销售效率,从用户体验到供应链管理,AI深刻影响着行业的未来发展趋势。

2024-11-14 20:01:38 325

原创 了解监督学习

监督学习是机器学习的一种核心方法,它依赖于已标记的数据集来训练模型。在训练过程中,模型学习输入数据与输出结果之间的映射关系,以便能够对新数据做出准确预测。监督学习主要应用于两大类问题:分类和回归。

2024-11-14 19:54:50 939

原创 【机器学习】K-means聚类算法应用

‌‌,用于将数据集划分为K个簇,使得簇内的数据点相似度高,而簇间的数据点相似度低。该算法通过迭代优化簇的中心位置,直到满足一定的收敛条件。‌12。

2024-10-24 16:44:51 389

原创 【无标题】

你好! 这是你第一次使用 Markdown编辑器 所展示的欢迎页。如果你想学习如何使用Markdown编辑器, 可以仔细阅读这篇文章,了解一下Markdown的基本语法知识。我们对Markdown编辑器进行了一些功能拓展与语法支持,除了标准的Markdown编辑器功能,我们增加了如下几点新功能,帮助你用它写博客:撤销:Ctrl/Command + Z重做:Ctrl/Command + Y加粗:Ctrl/Command + B斜体:Ctrl/Command + I标题:Ctrl/Command + S

2024-10-24 16:43:23 833

原创 安装配置sqoop(超详细)

sqoop就是sql-to-hadoop,说通俗点,我们用到最多的就是mysql与hive之间的数据传递,而hive是依靠hadoop运行的,所以要再mysql和hive之间互相传递数据,就必须要安装sqoop。

2024-10-21 15:52:05 3598 2

原创 Vue的学习 —— <Vuex>

Vuex作为Vue.js框架下专门设计的状态管理工具,采用核心的集中式存储架构来系统化地统一管控应用程序内部所有组件共享的状态信息。这一机制有效地化解了多组件间数据交互和同步的挑战,极大地简化了状态数据的操作流程与管理逻辑。本章的将带你掌握Vuex在解决多组件间复杂数据通信、实现简洁直观的数据操作与管理方面的强大功能。

2024-05-22 01:00:00 998

原创 Vue的学习 —— <Echarts组件库技术应用>

在这个课程中,我们将学习一款强大的开源数据可视化工具——ECharts。在当今数据驱动的时代,数据可视化变得越来越重要。它能够帮助我们更好地理解和分析数据,从而做出更明智的决策。ECharts,全称Easy Chart,是一款由百度开源的数据可视化库,基于JavaScript,可以在网页中展示丰富的图表类型,如折线图、柱状图、饼图等。通过课程的学习,掌握ECharts数据可视化技术,并在实际项目开发中得心应手使用ECharts数据可视化技术,提升自身的技术能力与价值。ECharts是一款基于Javascri

2024-05-21 10:40:30 2683

原创 如何让大模型更聪明?

通过以上策略的综合应用,我们可以让大模型在多个方面得到提升,从而变得更聪明、更可靠、更适应复杂环境的需求。

2024-05-21 09:36:49 343

原创 Vue的学习 —— <网络请求库Axios>

在之前的开发案例中,我们通常直接在组件中定义数据。但在实际的项目开发中,我们需要从服务器获取数据。当其他用户希望访问我们自己编写的网页时,服务器就显得尤为重要。在传统的网页开发中,我们通常使用Ajax来实现JavaScript程序与服务器之间的交互。而在Vue框架中,更推荐使用Axios库来实现这种交互。

2024-05-16 02:00:00 1515

原创 Vue的学习 —— <路由与网络请求>

在之前的学习中了解到单页Web应用通常只有一个HTML页面,所有的组件展示和切换都在这个页面上完成。虽然我们可以通过动态组件实现组件的切换,但当用户刷新页面或通过URL重新访问时,这些切换状态却无法被保留。为了解决这个问题,我们可以使用路由来实现组件的切换。

2024-05-16 01:00:00 1437

原创 Vue的学习 —— <vue组件>

props: {自定义属性A: 类型,自定义属性B: 类型,……

2024-05-15 10:07:30 3243 1

原创 Vue的学习 —— <vue事件处理>

事件指的就是用户和网页交互的行为,这些行为,包括:鼠标单击、鼠标双击、键盘按下、抬起等。为了简化开发,Vue为开发者提供了事件修饰符,它可以与v-on配合使用,以便于对事件进行控制和处理,让开发者更专注于逻辑。事件修饰符用于修饰事件的行为,写在事件名称之后,多个事件修饰符可以串联使用。

2024-05-15 10:06:57 1103

原创 Vue的学习 —— <vue指令>

在完成Vue开发环境的搭建后,若想将Vue应用于实际项目,首要任务是学习Vue的基础知识。只有掌握了Vue框架的核心知识,我们才能依据实际需求,游刃有余地进行项目开发。接下来详细Vue开发的基础知识。

2024-05-14 07:00:00 880 1

原创 Vue的学习 —— <vue响应式基础>

Vue.js 以其高效的数据绑定和视图更新机制广受开发者喜爱。这一特性主要依赖于其独特的响应式系统设计,它能够实时监测数据变化并自动驱动相应的视图更新。简单来说,就是当数据发生变化时,依赖该数据的视图会自动进行更新。这种“响应”是通过在初始化阶段对数据对象属性进行深度观测和转换来实现的。在第二章中,我们使用Vite创建了一个Vue项目,并且注意到目录结构中包含了一些扩展名为.vue的文件。这些.vue文件实际上是用来定义Vue的单文件组件。在Vue中,单文件组件是一种特殊的文件格式,用于构建用户界面。

2024-05-14 06:00:00 2820

原创 Vue的学习 —— <vue的开发环境> “6000字超详细”

在开始编写Vue应用程序之前,搭建一个合适的开发环境至关重要。本章节将详细指导如何设置和配置Vue的开发环境,确保有一个稳定、高效的工作空间。从安装Node.js开始,因为Vue.js项目需要Node.js来执行构建和打包过程。然后,我们会介绍如何使用Vue CLI(命令行界面)以及Vite创建新的Vue项目,包括一些常见的选项和配置。在创建项目之后,继续探索如何安装和管理项目依赖,以及如何设置开发服务器以便实时预览应用程序。

2024-05-13 08:35:21 1548

原创 Vue的学习 —— <初识vue>

Vue(读音:/Vjuː/)是一款用于构建用户界面的渐进式框架。其中,“渐进式”是指在使用Vue核心库时,可以在核心库的基础上根据实际需要逐步增加功能。轻量级。Vue是一个轻量级的前端开发框架,文件体积小。Vue项目基于JavaScript语言开发,开发者不用单独学一门陌生的语言,从而降低了学习的门槛。Vue在使用上比较灵活,开发人员可以选择使用Vue开发一个全新项目,也可以将Vue引入现有项目。

2024-05-13 08:31:25 697

原创 Pipeline 处理管道

在Apache Spark的MLlib库中,是一个强大的工具,它允许用户将多个数据处理和模型训练步骤组合成一个单一的工作流。的主要优势在于它可以自动处理数据在不同阶段之间的转换,并且提供了一种简洁的方式来管理整个机器学习过程。下面是处理管道的一些主要特点和用法:定义处理阶段: 通过一系列的阶段(对象)来定义数据的处理流程。这些阶段可以是特征转换器(如、)、模型训练器(如、)、独热编码(如 one-hot编码),或者是其他任何实现了接口的转换器或估计器。拟合与转换: 一旦定义了的阶段,就可以使用方法在一个

2024-04-01 10:36:57 431

原创 余弦相似度

在编程中,余弦相似度是一种常用于比较两个向量之间相似性的度量方法。它基于余弦定理,通过计算两个向量夹角的余弦值来衡量它们之间的相似性。在编程中,余弦相似度常用于推荐系统、文本相似度分析、图像处理等领域。

2024-04-01 09:31:15 567

原创 Error running DataMing01. Command line is too long. Shorten the command line via JAR manifest or via

翻译为:运行DataMing01出错。命令行太长。通过JAR清单或通过类路径文件缩短命令行并重新运行。

2024-03-30 21:00:00 658

原创 join函数 和 crossJoin函数

在Spark中,普通的join操作是根据两个DataFrame之间共享的键(或列)来组合行的。这与SQL中的JOIN操作非常相似内连接:会过滤掉 id之间不同的数据,剔除表与表中用户id与用户id不存在现有的维表中的记录左连接:不丢数据: 只返回两个DataFrame中键匹配的行。: 返回左DataFrame的所有行,以及右DataFrame中键匹配的行。如果右DataFrame中没有匹配的行,则结果中的对应列将为null。

2024-03-30 00:15:00 477

原创 数据挖掘篇【 concat函数 和 concat_ws函数 】

这个表达式的作用是将user_id列的值、字符串":"(由lit(":")生成)和sku_id列的值连接在一起。$"user_id"$"sku_id"lit(":")lit":"concat因此,如果user_id列的值是123sku_id列的值是456,那么的结果将是字符串"123:456"。

2024-03-29 09:39:43 789

原创 数据挖掘篇【 alias方法 和 隐式转换 】

在 Apache Spark 中,.alias是一个方法,用于给 DataFrame 的列或表达式指定一个新的别名。当你需要对列进行重命名或者在 SQL 表达式中使用更易读的名称时,这个方法非常有用。.alias方法通常与 DataFrame 的列(使用符号或col函数引用)或表达式一起使用,以便在后续的查询或操作中引用它们。

2024-03-29 09:37:38 743 1

原创 数据挖掘篇【 窗口函数 之 dense_rank() 】

是 Apache Spark 中一个用于窗口函数(Window Functions)的排名函数。这个函数会对指定的列进行排序,并为每一行分配一个排名。与函数不同的是,在处理相同值时会保留排名的连续性。也就是说,如果有两个或多个相同的值,它们会获得相同的排名,并且下一个不同值的排名会紧接着前一个排名的下一个整数,而不会跳过任何数字。

2024-03-28 10:36:10 1177

原创 大数据挖掘

大数据挖掘是从大量的、不完全的、有噪声的、模糊的、随机的数据中提取隐含在其中的、人们事先不知道的,但又是潜在有用的信息和知识的过程。它通常与计算机科学紧密相关,并通过统计分析、线上解析解决、情报检索、机器学习算法、专家系统和模式识别等多种方式来实现上述目标。总的来说,大数据挖掘是一个充满挑战和机遇的领域,它不仅为各行各业提供了更高效、更精准的数据支持和服务,也推动了数据科学领域的不断进步和创新。

2024-03-28 10:35:40 285

原创 IDEA的Scala环境搭建

第一个问题肯定是,scala是什么Scala是一门以Java虚拟机(JVM)为运行环境并将面向对象和函数式编程的最佳特性结合在一起的 静态类型编程语言(静态语言需要提前编译的如:Java、c、c++等,动态语言如:js)。Scala是一门多范式的编程语言,Scala支持面向对象和函数式编程。(多范式,就是多种编程方 法的意思。有面向过程、面向对象、泛型、函数式四种程序设计方法。

2024-03-26 22:27:32 4724

原创 Hudi最强指南 — Hudi的安装部署(Linux)

随着大数据技术的飞速发展,企业对于数据处理的效率和实时性的要求也越来越高。Hadoop作为大数据领域的领军技术,长久以来一直承载着海量数据的存储和处理任务。然而,传统的Hadoop数据模型在处理更新和删除操作时的局限性,使得它难以满足实时数据湖等复杂场景的需求。正是在这样的背景下,Hudi应运而生。

2024-03-26 22:26:13 8626 8

原创 搭建Hadoop HA

Hadoop是一个由Apache基金会所开发的分布式系统基础架构,它允许用户在不了解分布式底层细节的情况下开发分布式程序,充分利用集群的威力进行高速运算和存储。Hadoop主要解决大数据存储和大数据分析两大核心问题,其核心组件包括HDFS(Hadoop Distributed File System,即Hadoop分布式文件系统)和MapReduce。而Hadoop HA,即Hadoop高可用(High Availability),指的是Hadoop集群在出现故障时能够持续提供服务的能力。

2024-03-26 15:30:49 493

原创 HBase分布式安装配置

安装部署HBase之前需要确保hadoop分布式部署成功,安装zookeeper。

2024-03-16 01:00:00 921

原创 Clickhouse 单机部署安装

在大数据的时代背景下,数据的处理和分析能力成为企业竞争力的关键。ClickHouse,作为一款由俄国Yandex公司开发的分布式数据分析型数据库,凭借其卓越的性能和稳定性,赢得了业界的广泛关注。本文将介绍ClickHouse的基本概念、特性,并详细阐述其单机部署安装的过程,帮助读者初步了解并顺利搭建ClickHouse环境。

2024-03-15 12:00:10 851

原创 Flink on Yarn安装配置

Apache Flink,作为一个开源的分布式处理引擎,近年来在大数据处理领域崭露头角,其独特的流处理和批处理一体化模型,使得它能够在处理无界和有界数据流时展现出卓越的性能。本文旨在对Flink进行简要的前言性介绍,以及他的安装配置。

2024-03-15 02:00:00 4736

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除