- 博客(18)
- 资源 (19)
- 收藏
- 关注
原创 pyspark线性回归
本节说明PySpark中的线性回归,代码操作主要按5个步骤组成。(1)读取数据:读取各类的数据源,构建分析用DataFrame。(2)探索性数据分析:用各pyspark API进行对数据浏览、统计,对数据进行理解。(3)特征转换:针对数据特征列的转换工作,以适应特征机器学习算法要求。(4)算法训练数据:构建机器学习算法对数据训练做出预测。(5)预测的准确性:查看训练预测结果的准确性。操作视频如下,全系列课程可免费在腾讯课堂上查看:个人大数据平台的搭建与学习实践-PySpark-学习视频教程-
2021-11-03 18:42:12
1635
原创 Spark SQL说明和操作
DataFrame关联密切的是Spark SQL技术,作为Spark中的4大模块之一,在DataFrame的基础上,将其注册为表,然后使用SQL语句进行读取处理。主要的处理步骤如下:操作的对应的视频如下,在腾讯课堂可免费查看所有的视频与下载简介资料个人大数据平台的搭建与学习实践-PySpark-学习视频教程-腾讯课堂 (qq.com)PySpark的认识和使用1-创建DataFrame,对于Spark2使用SparkSession;对于Spark 1使用SQLContext.
2021-10-28 19:36:31
1031
原创 Spark DataFrame操作
操作的对应的视频如下,在腾讯课堂可免费查看所有的视频与下载简介资料个人大数据平台的搭建与学习实践-PySpark-学习视频教程-腾讯课堂 (qq.com)PySpark的认识和使用简介DataFrame在Spark 1.3时加入,其前身是Spark 1中的SQL Context、Streaming Context、Hive Context等对象,它类似于关系数据库中的表,是行和列进行组织数据。DataFrame相当是一张二维表,可以使用SparkSession中的各种函数来创建。按照
2021-10-27 19:12:41
983
原创 在Windows中安装PySpark环境
在Windows中安装PySpark环境安装Python可以选择安装官方版本的Python,或是Anaconda,对应的地址如下。下载地址Python:https://www.python.org/Anaconda: https://www.anaconda.com/download/#windowsMiniConda:https://docs.conda.io/en/latest/miniconda.html安装Java运行环境安装Java运行环境下载地址在线安装包: https
2021-08-09 16:04:30
1109
1
原创 使用Excel建立数据模型-MSBI
更多信息https://blue-shadow.top/关于上下文Power Pivot 中的公式可受到在数据透视表中应用的筛选器、表之间的关系以及公式中使用的筛选器的影响。可以通过“上下文”执行“动态分析”。行上下文Row context可被视为“当前行”,如果创建了计算列,则行上下文由每个单独行中的值以及与当前行相关的列中的值组成。还有一些函数(EARLIER 函数和EARLIES...
2020-02-18 14:33:55
12014
原创 PySpark-推荐系统-RecommenderSystem
书籍<<Python在大数据平台的应用>>更多信息请关注本书附书代码:附书代码Github工程:https://github.com/Shadow-Hunter-X推荐系统自动推荐内容或产品以个性化的方式向适当的用户提供,以增强整体体验。推荐系统在术语上非常强大使用海量的数据,学会理解偏好。对于PySpark中的“推荐系统”模块 pyspark.ml.recomme...
2020-02-16 14:53:18
1445
原创 大数据平台装载数据
更多信息https://blue-shadow.top/书籍<<Python在大数据平台的应用>>更多信息请关注本书附书代码:附书代码Github工程:https://github.com/Shadow-Hunter-X主要函数主要是这三个函数:parallelize ; textFile ; wholetextFiles其他的针对特定格式的文件:bin...
2020-02-14 14:39:00
720
pyspark前言说明
更多信息https://blue-shadow.top/书籍<<Python在大数据平台的应用>>更多信息请关注本书附书代码:附书代码Github工程:https://github.com/Shadow-Hunter-X主要内容说明主要按以下3个大点进行说明,也符合进行操作过程种的步骤,读取数据-操作数据-分析保存数据.总结起来就是:从哪里获取数据 ; 如何操作数...
2020-02-13 09:35:57
255
原创 Hive调优
更多信息https://blue-shadow.top/附书代码Github工程:https://github.com/Shadow-Hunter-X技术#1:使用TEZHive可以使用Apache Tez执行引擎而不是Map-reduce引擎。不会详细介绍这里提到的使用Tez的许多好处; 相反,提出一个简单的建议:如果在您的环境中默认情况下没有打开它,请在Hive查询的开头使用Tez设置为...
2020-02-12 10:33:34
217
原创 Hive视图和索引
更多信息https://blue-shadow.top/附书代码Github工程:https://github.com/Shadow-Hunter-X视图视图可以允许保存一个查询并像对待表一样对这个查询j进行操作,这是要给逻辑结构,因为它不会像一个表会存储数据,当一个查询引用一个视图时,这个视图说定义的查询语句和用户查询语句结合在一起,然后Hive指定查询计划,从逻辑上讲Hive先执行这...
2020-02-12 10:32:56
217
Hive数据操作
更多信息https://blue-shadow.top/附书代码Github工程:https://github.com/Shadow-Hunter-X管理表中装载数据使用LOAD命令装载数据,分别可以从本地和HDFS上进行上传。使用的命令分别是 LOAD DATA LOCAL INPATH ‘file://local_path’LOAD DATA INPATH ‘HDFS://hdfs...
2020-02-11 22:54:05
446
Hive数据查询
更多信息https://blue-shadow.top/附书代码Github工程:https://github.com/Shadow-Hunter-XSELECT子句针对复合类型列的查询(数组,字典,结构)含有复合类型列的样表:CREATE TABLE IF NOT EXISTS employees_t( name STRING COMMENT 'Employee nam...
2020-02-10 20:45:32
255
原创 Hive数据定义
更多信息https://blue-shadow.top/附书代码Github工程:https://github.com/Shadow-Hunter-XHive数据定义HiveQL是Hive查询语言,作为ANSI SQL的一种方言。但是其还是有和关系数据库支持的SQL中有本质的差异。如:Hive不支持事务,且默认情况下不支持行级别插入,更新,删除操作。虽然可以在HiveQL中使用关联子句,但...
2020-02-10 13:45:47
239
原创 Hive数据类型和文件格式
更多信息https://blue-shadow.top/附书代码Github工程:https://github.com/Shadow-Hunter-XHive数据类型和文件格式Hive 支持关系数据库中的大多数基本的数据类型,同时也支持在关系数据库中很少出现的三种 数据集合 类型。和大多数数据库相比,Hive具有一个独特的功能,就是对数据在文件中的编码方式具有相当大的灵活性,大多数据库对数...
2020-02-09 13:49:53
308
原创 python-snakebite
更多信息https://blue-shadow.top/附书代码Github工程:https://github.com/Shadow-Hunter-XPython-Snakebite库Snakebite是由Spotify创建的python包, 它提供了python客户端库,运行以编程方式从Python应用程序访问HDFS。客户端库使用 protobuf 消息直接与 NameNode 通信。S...
2020-02-08 22:22:25
682
原创 Hortonworks-Data-Platform-大数据开发环境的使用
更多信息https://blue-shadow.top/附书代码Github工程:https://github.com/Shadow-Hunter-XHortonworksHortonworks是国际领先的开发、推广和支持Apache Hadoop的商业供应商,它的Hadoop认证也是业界公认的Hadoop权威认证。其有多款产品,其中HDP为数据平台,目前最新版本的 HDP 为企业提供了新...
2020-02-08 14:18:17
3181
1
原创 Hive命令汇总说明
更多信息https://blue-shadow.top/附书代码Github工程:https://github.com/Shadow-Hunter-XHDFS命令HDFS命令大全Usage: hdfs [–config confdir] COMMAND where COMMAND is one of:命令说明dfs执行hadoop支持的文件系统命令run a f...
2020-02-08 13:27:42
501
转载 Google C++ Style
Google Style的C++编码规范试着看了一下Google Style的C++编码规范,先随手写了一个最简单的程序来试试Cpplit。代码如下————————————#include using namespace std;int main() {cout return 0;}————————————运行指令————————————
2012-12-05 12:29:23
572
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人