
python大数据开发
文章平均质量分 81
烟解愁、酒上头
这个作者很懒,什么都没留下…
展开
-
Spark与PySpark交互流程 spark-submit相关参数、RDD特性特点 以及构建 RDD的算子函数
Spark相关内容 3 RDD相关内容 3.1 什么是RDD? RDD:**弹性分布式数据集** RDD出现的目的:主要用于支持迭代计算,并且提升迭代计算的效率 3.2 RDD的五a大特性: (必须具备)可分区的 (必须具备)计算函数(对每个分区进行计算操作) (必须具备)存在依赖 (上一步每执行完 下一步无法执行 需要上一步的结果) (可选)对于key-value数据存在分区计算函数 (可选)移动数据不如移动计算(将计算程序运行在离数据越近越好) —距离优化 其中前3个特性是每一个原创 2021-10-13 19:50:54 · 386 阅读 · 0 评论 -
Hive的相关优化
1、hive的相关优化 1.1 hive的压缩配置 压缩有什么用? '好处': 在有限的空间下,存储更多的资源 '坏处': 压缩和解压需要消耗额外的资源 通过压缩 优化MR 提升效率 位置一: 'map阶段的输出结果上' '好处一':当reduce在拉取数据的时候,由于数据已经压缩,所以整个数据量减少,从而减少网络带宽,提升拉取的效率 '好处二':在一些特殊情况下,整个MR只有map 没有reduce的,此时map输出的结果就是最终的结果,对结果进行压缩,减少磁盘存储,提升磁盘利用率 位置原创 2021-10-06 07:41:33 · 267 阅读 · 0 评论 -
HIVE的参数配置、行转列 列转行 json相关 窗口函数
1、Hive的参数配置 ./hive 是hive的第一代客户端,次客户端,主要有两大作用 用于执行一些交互式或者批处理的操作,第二大作用,是用于启动hive的各项服务 第一大作用:交互式(了解) ./hive 进入交互式 进入之后,可以在客户端内部,不断和hive进行相关操作,在一个会话中,可以不断和hive进行交互 批处理 批处理: 指的在不进入hive的交互窗口下, 即可操作hive, 主要是linux的命令行下操作 好处: 主要的目的是为了后续在linux的脚本中连接hive进行原创 2021-10-06 05:51:53 · 946 阅读 · 0 评论 -
Hive安装操作 及初体验
hive的安装操作 第一步:修改 hadoop的 core-site.xml中, 添加以下内容: #修改hadoop 配置文件 etc/hadoop/core-site.xml,加入如下配置项 <property> <name>hadoop.proxyuser.root.hosts</name> <value>*</value> </property> <property> <name>原创 2021-09-25 21:34:42 · 294 阅读 · 0 评论 -
Hadoop--------HDFS
HDFS相关内容 HDFS介绍 HDFS是Hadoop Distribute File System 的简称,意为:Hadoop分布式文件系统。是Hadoop核心组件之一,作为最底层的分布式存储服务而存在。 **分布式文件系统解决的问题就是大数据存储** Hadoop 生态图 HDFS的重要特性 首先,它是一个文件系统,用于存储文件,通过统一的命名空间目录树来定位文件; 其次,它是分布式的,由很多服务器联合起来实现其功能,集群中的服务器有各自的角色。 HDFS 的节点 NameNode 负责管理原创 2021-09-25 18:12:12 · 148 阅读 · 0 评论 -
大数据入门 离线第一阶段
大数据入门 离线第一阶段 大数据的特点: Volume:数据量大,包括采集、存储和计算的量都非常大; Variety:种类和来源多样化 。包括结构化、半结构化和非结构化数据; Value:数据价值密度相对较低,或者说是浪里淘沙却又弥足珍贵; Velocity:数据增长速度快,处理速度也快,时效性要求高; Vwracity:数据逇准确性和可信赖度,即数据的质量。 数据的分析基本步骤: 明确分析目的 确保分析框架的体系化和逻辑性,简单来说就是先分析什么,后分析什么,使得各个分析点之间具有逻辑联系 明白本原创 2021-09-25 13:29:30 · 146 阅读 · 0 评论 -
Apache Hadoop Liunx 安装部署
Hadoop 介绍 Hadoop是Apache旗下的一个用java语言实现开源软件框架,是一个开发和运行处理大规模数据的软件平台。允许使用简单的编程模型在大量计算机集群上对大型数据集进行分布式处理。 狭义上说,Hadoop指Apache这款开源框架,它的核心组件有: HDFS(分布式文件系统):解决海量数据存储 YARN(作业调度和集群资源管理的框架):解决资源任务调度 MAPREDUCE(分布式运算编程框架):解决海量数据计算 当下的Hadoop已经成长为一个庞大的体系,随着生态系统的成长,新出现的项目原创 2021-09-25 16:46:10 · 226 阅读 · 0 评论 -
2021-08-20
数据推断 目标: 知道数据推断使用的业务场景 使用SQL 完成关键指标推断逻辑 业务背景 确失关键指标 场景 一家餐厅想要通过 数据分析 数据挖掘提升销量 但是在历史记录的数据中 缺少了重要的一个维度 用餐人数 梳理思路 : 1、如何 根据数据确定就餐人数 - 可以将菜单数据分成几类 根据不同种类食物的点单量来推断就餐人数 1、例如 主食类 饮料 小吃 酱料 主菜 - 确定判断的规则: 1、1份主食对应1个人 (1:1) 2、1份主菜对应1个人 (1:1)原创 2021-08-20 20:58:37 · 202 阅读 · 0 评论 -
数据分析---------指数计算
数据分析---------指数计算 指数计算是用来干什么的? 数据分析 /大数据分析的目的是为了用数据驱动运营 用数据驱动业务增长(数据驱动设计,数据驱动决策········) 数据分析的几个层次 - 描述性分析 1、做数据驱动最基础的层次就是描述性分析 2、建立一套数据指标来描述业务 3、使用指标建立相关的报表(日报,周报,月报) 4、利用指标 监控每天的业务运行情况方便及时发现问题 - 诊断性分析 - 预测分析 - 规范分析 啥是个数据指标 确定一系列标准 衡量目标 与既定目标相比较 有啥作用呢原创 2021-08-20 16:59:23 · 455 阅读 · 0 评论 -
mini—web搭建
mini—web搭建 各位 想学python的小伙伴 上篇文章我讲到了循环 不知道大家学习的怎么样 有没有不懂的地方啊 我这边可能人气太低了 也没有小伙伴评论和我交流 那今天我就不往下讲了 今天给大家像一个比较有意思的 东西 就是标题上写的 mini——web的搭建 相信大家看完我这篇文章 也能够搭建出属于自己的服务。 好了 话不多说 咱们进入今天的主题 ** python搭建服务端 ** 在python中搭建服务端框架 是一件特别容易的事情 细分的话一共也就是7个步骤 1、导入网络模块工具 soc原创 2021-07-24 18:38:59 · 292 阅读 · 0 评论 -
python学习第四天 ————循环
hello everyone 今天我得连更两篇啦 因为最近很忙 拖了好久一致没有更新内容 话不多说 进行今天的内容学习 python学习第四天 ————循环 其实在python中的循环也就是连个 一个是while循环 一个就是for循环 接下来我们来一个一个的征服它们 ** while循环 ** 这里大家需要先明白什么是循环 大家去学校里看看 学校的操场 是不是个圈 这不经的让我想去了那首民间小调“毛驴儿啊 你走不出那个圈” 哈哈哈 不说笑了 操场的那个跑道是不是一个范围约束啊 你跑原创 2021-07-21 17:46:12 · 154 阅读 · 0 评论 -
python基础学习的第三天
python基础学习的第三天 今天开始我们正是学习分支语句,什么是分支语句呢? 字面意思就是把语句分开。 给大家介绍一个新的小伙伴 if 这个小伙伴以后将一直陪伴着我们,它在英语中的意思就是如果。那在咱们Python里 它依然是如果 不过我们给他赋予了一个更标准得、更牛逼的名称:条件判断语句。 他是一个流程控制结构,不多哔哔 上代码 看效果: # if 的标准结构 if 判断条件: 符合条件执行的代码 else: 不符合执行的代码 看到了吗??这就是if的基本结构 他是把一个总的条原创 2021-07-21 15:04:35 · 93 阅读 · 0 评论 -
python学习第二天
python学习第二天 输入 这篇文章我们来讲讲 python是如何进行输入的 先看一下源代码: name = input('请输入你的名字:') #在这里我们定义一个变量name 它的值就是后面input要输入的内容 这里它的内容是可变得 print(name) 看一下控制台运行的结果:在这里我没有给他进行输入名字的样子 看一下我们输入一个名字为tom以后的结果 看 在这里程序给我返回了一个tom 为什么说我上一篇文章里将 变量的具有临时性 可变性呢? 因为我们再次运行程序以后 我们再输入一个 ti原创 2021-06-30 19:28:56 · 245 阅读 · 0 评论 -
Python 基础知识
** 小白的python学习知识点分享 感觉写的不错的 点赞分享加关注啊 ** 1. python解释器 什么是python解释器呢? 顾名思义,python解释器就是把py文件进行解释;解释给谁呢? 解释给硬件系统。 所以呀总结起来就是一句话:python解释器就是把 程序员写的python文件 解析成计算机能读懂的二进制字符 或者是字节码(机器语言就时二进制 0和1)然后让计算机做出相应的相应。 还有一种是编译器:将py文件编译成计算机能读懂的二进制文件 或者是 字节码 这两种都是用来解释你写的原创 2021-06-30 17:06:39 · 107 阅读 · 0 评论