大数据
文章平均质量分 68
wuzd
这个作者很懒,什么都没留下…
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
Spark的数据存储目录HDFS
Spark主要在内存中运算,最终的运算结果可以通过Hive存入到Mysql(MariaDB)和HDFS系统的。 1.spark和Hive集成,2.通过Spark来建表,和插入数据,3.在DB和DHFS中查看插入的数据。一、项目环境 Linux:centos7 JDK: java version 1.8 Python:3.8 Spark:spark-3.2.1 Hadoop:2.7.3 Hive:2.1.1 MariaDB:5.5.64...原创 2022-05-22 22:21:18 · 2349 阅读 · 0 评论 -
IDEA2020中PySpark的两表关联(字段名相同)
提示:文章写完后,目录可以自动生成,如何生成可参考右边的帮助文档文章目录前言 一、pandas是什么? 二、使用步骤 1.引入库 2.读入数据 总结前言提示:这里可以添加本文要记录的大概内容: 使用GROUPLENS的电影评价的大数据集,Windows中IDEA2020环境中SPARK做两表关联测试学习。 个人用户学习大数据,一般会搭建的基于Linux虚拟机的HDFS集群。而SPARK主要运行在内存中,若在虚拟机的内存中运行没有...原创 2022-05-15 17:51:41 · 1432 阅读 · 0 评论 -
IDEA2020中测试PySpark的运行出错
IDEA中测试PySpark py4j.protocol.Py4JJavaError: An error occurred while calling z Cannot run program "python3": CreateProcess error=2, 系统找不到指定的文件。原创 2022-04-03 13:33:52 · 2617 阅读 · 0 评论 -
Hbase VS ElasticSearch
从关系数据库的视角观察ElasticSearch和Hbase的读写,若ElasticSearch是AK47,那Hbase就是马克沁。运行环境:同一台笔记本电脑,虚拟的3节点的Centos7 环境数据:一百万条数据的高表测试。(电脑弱,就做个试验)结论:全件写入:Hbase快全件遍历:ES快单行读出:都在0.5秒内详细:一、Hbase1.用Python操作Hbase2.Python写入100万行耗时,37分 3...原创 2020-08-29 09:51:44 · 1044 阅读 · 0 评论 -
Python读出Hbase的表中一个字段(happybase)
Python读出Hbase的表中一个字段(happybase)1.引入库代码如下(示例):import happybase2.Hbase的表t11中数据3.读入数据代码如下(示例):import happybaseconnection = happybase.Connection('192.168.113.201', port=9090)connection.open()table = connection.table('t11...原创 2020-08-22 18:49:45 · 589 阅读 · 0 评论
分享