
大数据
samll_tree
这个作者很懒,什么都没留下…
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
Hive 库表操作: 创建,查看,修改,删除
Hive 库表操作: 创建,查看,修改,删除 参考链接: Hive Tutorial Hive LanguageManual 库操作 创建库 create database if not exist test; 创建库带注释 create database test comment "learning hive" location hdfs_path 查看数据库 show databases; 查看满足条件的数据库 show databases like 'price*' 显示数据库原创 2020-12-10 17:56:49 · 366 阅读 · 1 评论 -
Git 使用参考资料
设置本机邮箱与名字 git config --global user.email "you@example.com" git config --global user.email "you@example.com" 常用命令 git clone git add 命令可将该文件添加到缓存 git status 查看当前状态 git diff 命令显示已写入缓存与已修改但尚未写入缓存的改动的区别 git commit 将缓存区内容添加到仓库中 git reset HEAD 命令用于取消已缓存的内容 git原创 2020-07-22 14:29:31 · 306 阅读 · 0 评论 -
SparkSQL 内置函数: 聚合函数,集合函数,日期操作,数学,字符串操作
SparkSQL自带了一组功能丰富的内置函数,这些函数既可以用于DataFrame API, 也可以用于SQL接口。 内置函数可以分为几类: 聚合操作, 集合操作, 日期/时间, 数学, 字符串,窗口操作,其他。 from pyspark.sql import SparkSession import pyspark.sql.functions as F spark = SparkSession ...原创 2019-12-19 09:35:29 · 1102 阅读 · 0 评论 -
pyspark.sql DataFrame创建, 常用操作以及输出到文件
Spark SQL 简介及参考链接 Spark 是一个基于内存的用于处理大数据的集群计算框架。它提供了一套简单的编程接口,从而使得应用程序开发者方便使用集群节点的CPU,内存,存储资源来处理大数据。 Spark API提供了Scala, Java, Python和R的编程接口,可以使用这些语言来开发Spark应用。为了用Spark支持Python,Apache Spark社区发布了一个工具PySp...原创 2019-11-29 20:14:23 · 3400 阅读 · 0 评论 -
win 10 安装单点Spark+Hadoop+Python环境
window 10 下配置spark 2.0调试环境 1.下载文件: spark2.0.0 http://spark.apache.org/downloads.html scala2.10.4 http://www.scala-lang.org/download/2.10.4.html jdk 1.8.0_101 http://原创 2019-10-14 16:17:33 · 517 阅读 · 0 评论