- 博客(45)
- 资源 (2)
- 收藏
- 关注
原创 CDH6.3.2搭建(二)——常见组件安装及问题处理
[Q1]安装完毕后集群HDFS报警,提示 ’集群中有293个副本不足的块。集群众共有296个块。百分比副本不足的块:98.99%。临界阈值:40% Under-Replicated Blocks‘,【原因】产生的原因只安装了2台机器,DataNode节点只有2个,而安装过程中采用的都是默认配置,dfs.replication 默认设置的为3,所以导致次报警【解决方法】1)CM中复制因子改为2 dfs.replication = 22)cdh01机器上执行ha...
2022-04-18 15:00:20
2078
原创 CDH6.3.2搭建(一)——搭建流程
前言-虚拟机安装Centos 7 【略】一、环境准备1.0 设置静态ip,重启网络vi /etc/sysconfig/network-scripts/ifcfg-ens33TYPE="Ethernet"PROXY_METHOD="none"BROWSER_ONLY="no"BOOTPROTO="static" 【dhcp修改成static】DEFROUTE="yes"IPV4_FAILURE_FATAL="no"IPV6INIT="yes"IPV6_AUTOCO
2022-04-13 16:41:03
1727
1
原创 plotly 安装解决关于python:pip install plotly 失败问题
Plotly 做数据分析和可视化的在线平台,功能强大,在线绘制很多图形比如条形图、散点图、饼图、直方图等等。支持在线编辑,以及多种语言python、javascript、matlab、R等许多API。好像很厉害的样子,网上教程pip install plotly,安装开撸,像没啥问题。。。自己开撸时,WTF,pip 安装总是不成功。换https://www.lfd.uci.edu/~...
2020-01-03 15:32:08
8481
8
原创 python导入自定义模块和包
python导入自定义模块和包python包包是一个分层次的文件目录结构,它定义了一个由模块及子包,和子包下的子包等组成的 Python 的应用环境。简单来说,包就是文件夹,但该文件夹下必须存在 __init__.py 文件, 该文件的内容可以为空。__init__.py用于标识当前文件夹是一个包。导入同级目录文件如果需要引入同级目录下的文件,则可以采用import一个模块的...
2019-08-13 09:24:00
396
原创 Python程序返回结果字典中的Unicode编码显示成汉字
如图,text是一句中文语句,调用百度的AipNlp的接口进行词性分析后返回的结果是unicode编码。无法正常的看到每个分词的词性。解决方法:import jsonprint json.dumps(ret, encoding="UTF-8", ensure_ascii=False)...
2019-06-14 10:30:31
3802
原创 hive impala表Error loading columns.
,创建表之后,向表中insert into导入数据,报错信息+建表语句如图所示: 原因是创建表时,设置ROW FORMAT DELIMITED STORED AS RCFILE; 将RCFILE改成TEXTFILE,即可...
2018-12-04 16:07:22
1041
原创 Microsoft Visual C++ is required
微软为Python提供了专用的编译器Microsoft Visual C++ Compiler for Python 2.7(包含32位和64位) 下载地址: http://aka.ms/vcpython27下载直接安装,安装完成后找到vcvarsall.bat,实在找不到 search vcvarsall.bat 这个文件,我的是在'C:\Users\zhucm\AppData\Loca...
2018-11-09 11:30:54
352
转载 Apache Spark 2.2.0 中文文档 - Spark RDD(Resilient Distributed Datasets)
Spark RDD(Resilient Distributed Datasets)论文概要1: 介绍2: Resilient Distributed Datasets(RDDs)2.1 RDD 抽象2.2 Spark 编程接口2.2.1 例子 – 监控日志数据挖掘2.3 RDD 模型的优势2.4 不适合用 RDDs 的应用3 Spark 编程接口3.1 Sp...
2018-08-19 12:48:48
262
转载 Spark使用Java读取mysql数据和保存数据到mysql
原文引自:http://blog.youkuaiyun.com/fengzhimohan/article/details/78471952项目应用需要利用Spark读取mysql数据进行数据分析,然后将分析结果保存到mysql中。 开发环境: java:1.8 IDEA spark:1.6.2一.读取mysql数据 1.创建一个mysql数据库 user_test表结构如下: cre...
2018-08-19 12:47:44
3340
转载 spark 应用场景2-身高统计
原文引自:http://blog.youkuaiyun.com/fengzhimohan/article/details/78564610a. 案例描述本案例假设我们需要对某个省的人口 (10万) 性别还有身高进行统计,需要计算出男女人数,男性中的最高和最低身高,以及女性中的最高和最低身高。本案例中用到的源文件有以下格式, 三列分别是 ID,性别,身高 (cm),格式如下: b.人口数据的生成...
2018-08-19 12:45:27
1101
转载 spark 应用场景1-求年龄平均值
原文引自:http://blog.youkuaiyun.com/fengzhimohan/article/details/78535143 该案例中,我们将假设我们需要统计一个 10 万人口的所有人的平均年龄,当然如果您想测试 Spark 对于大数据的处理能力,您可以把人口数放的更大,比如 1 亿人口,当然这个取决于测试所用集群的存储容量。假设这些年龄信息都存储在一个文件里,并且该文件的格式如下,第一列...
2018-08-19 12:42:18
1667
转载 Spark Java API(二)
sparkJavaApi逐个详解说明:掌握spark的一个关键,就是要深刻理解掌握RDD各个函数的使用场景,这样我们在写业务逻辑的时候就知道在什么时候用什么样的函数去实现,得心应手,本文将逐步收集整理各种函数原理及示例代码,持续更新,方便大家学习掌握。函数列表: 1、join的使用2、cogroup的使用3、GroupByKey的使用4、map的使用5、flatmap的使用...
2018-08-19 12:39:54
355
转载 Spark Java API(一)
原文引自:http://blog.youkuaiyun.com/u011497897/article/details/71440323一、Spark简介 1、什么是Spark 发源于AMPLab实验室的分布式内存计算平台,它克服了MapReduce在迭代式计算和交互式计算方面的不足。 相比于MapReduce,Spark能充分利用内存资源提高计算效率。 2、Spark计算框...
2018-08-19 12:35:30
2235
原创 关于spark运行FP-growth算法报错
package SparkJavaCluster; /** * @Author: zhuchangmin * @Date: 2018/8/15 10:50 * @Version 1.0 * @FileName: SparkJavaCluster.FPDemo_Cluster2.java * @Software: IntelliJ IDEA */import org.apache...
2018-08-17 16:01:47
906
原创 win10如何关闭计算机设备和驱动器非硬盘图标
按win键+R,打开注册表regedit,找到这个路径: HKEY_CURRENT_USER\Software\Microsoft\Windows\CurrentVersion\Explorer\MyComputer,把里面的注册表文件夹删除即可解决!
2018-07-26 11:38:20
15020
原创 mysql常见错误提示及解决方法
B.1. 服务器错误代码和消息 服务器错误信息来自下述源文件: · 错误消息信息列在share/errmsg.txt文件中。“%d”和“%s”分别代表编号和字符串,显示时,它们将被消息值取代。 · 错误值列在share/errmsg.txt文件中,用于生成include/mysqld_error.h和include/mysqld_ername.h MySQL源文件中的定义。 · SQLSTAT...
2018-06-29 14:27:34
8827
原创 使用spark.read.csv ,出现NameError: name 'spark' is not defined
from pyspark.context import SparkContextfrom pyspark.sql.session import SparkSessionsc = SparkContext('local')spark = SparkSession(sc)df = spark.read.csv('aaa.csv')
2018-06-27 11:13:39
10488
原创 python3 pymysql模块操作数据库输出中文显示问题
1.打开找到Project Interpreter的路径位置2. 打开 D:\code\python_demo\venv\Lib\site-packages\pymysql\connections.py 文件3.将DEFAULT_CHARSET = 'latin1'改为 DEFAULT_CHARSET = 'utf8'
2018-06-26 18:23:41
1062
原创 sql修改表名,数据库名,添加分区
#修改表名ALTER TABLE employee RENAME TO emp;#更新数据库的某个字段set sql_safe_updates=0;update shenbi.good_out set good_out.season = '春' where good_out.season = 'Q1'#修改数据库名CREATE DATABASE new_db;RENAME TABLE old_db...
2018-06-15 10:19:50
2494
原创 LINUX vim定位文件位置
G 移至行行首nG 移至第n行行首n+ 移n行行首n- 移n行行首n$ 移n行(1表示本行)行尾0 所行行首$ 所行行尾^ 所行首字母h,j,k,l 左移移移右移H 前屏幕首行行首M 屏幕显示文件间行行首L 前屏幕底行行首...
2018-06-14 11:02:31
2756
原创 利用udf函数将hive数据导入到mysql
hive>add jar /opt/cloudera/parcels/CDH/jars/hive-contrib-1.1.0-cdh5.11.0.jar; hive>add jar /usr/share/java/mysql-connector-java.jar; hive>CREATE TEMPORARY FUNCTION dboutput AS 'org.apache.Ha...
2018-06-14 10:41:12
593
1
原创 #将hive表导入mysql
##########################################sed -i "1d" filename 删除文件第一行############################################将hive表导入mysqlsqoop export \--connect jdbc:mysql://10.10.3.149:3306/shenbi \--userna...
2018-06-06 15:37:59
1029
原创 解决锁表问题:Lock wait timeout exceeded; try restarting transaction
死锁查询是否锁表show OPEN TABLES where In_use > 0;查询进程show processlist;查询到相对应的进程kill id;
2018-06-06 10:17:49
6712
转载 Notepad++ 更换主题
到Textmate Theme Directory下载主题;用文本编辑器把它打开,复制所有代码,贴到theme converter page里,然后“Download”;保存;在Notepad++中选择设置->导入->导入主题;或者直接copy到Notepad++安装目录Notepad++\themes下;导入后,选择设置->语言格式设置,选择新的主题就可以了。推荐下面这两个主题...
2018-06-01 21:23:58
1046
原创 hive操作
显示地展示当前使用的数据库hive> set hive.cli.print.current.db=true; hive(default)>Hive显示列头hive (default)> set hive.cli.print.header=true; hive (default)> desc addressall_2015_07_09; OK col_name data_ty...
2018-05-31 17:25:04
344
原创 sqoop将mysql的数据导入到hive表中
1:先将mysql一张表的数据用sqoop导入到hdfs中准备一张表 需求 将 bbs_product 表中的前100条数据导 导出来 只要id brand_id和 name 这3个字段 数据存在 hdfs 目录 /user/xuyou/sqoop/imp_bbs_product_sannpy_ 下bin/sqoop import \--connect jdbc:mys...
2018-05-31 10:52:19
4204
1
转载 使用IntelliJ IDEA 配置Maven(入门)
转:https://blog.youkuaiyun.com/qq_32588349/article/details/514611821. 下载Maven 官方地址:http://maven.apache.org/download.cgi解压并新建一个本地仓库文件夹2.配置本地仓库路径 3.配置maven环境变量 4.在IntelliJ IDEA中配置maven 打开-File-Settings 5.新建...
2018-05-28 20:39:00
315
原创 将SPARK启动和运行时的一些INFO信息过滤掉
cd $SPARK_HOME/conf目录下,拷贝一个log4j.properties.template,命名为log4j.properties[plain] view plain copy$ cp log4j.properties.template log4j.properties 2. 进入log4j.properties文件,将其中的INFO修改为WARN(第二行位置) 后,只显示WAR...
2018-05-28 17:45:38
1054
转载 Hive内部表和外部表的区别详解
内部表&外部表未被external修饰的是内部表(managed table),被external修饰的为外部表(external table); 区别: 内部表数据由Hive自身管理,外部表数据由HDFS管理; 内部表数据存储的位置是hive.metastore.warehouse.dir(默认:/user/hive/warehouse),外部表数据的存储位置由自己制定; 删除内部表会直...
2018-05-23 13:40:54
829
原创 shell---VI使用
vi编辑器是所有Unix及Linux系统下标准的编辑器,它的强大不逊色于任何最新的文本编辑器,这里只是简单地介绍一下它的用法和一小部分指令。由于对Unix及Linux系统的任何版本,vi编辑器是完全相同的,因此您可以在其他任何介绍vi的地方进一步了解它。Vi也是Linux中最基本的文本编辑器,学会它后,您将在Linux的世界里畅行无阻。 1、vi的基本概念 基本上vi可以分为三种状态,分别是命...
2018-05-23 11:41:10
604
原创 sqoop 使用
Sqoop是一个用来将Hadoop和关系型数据库中的数据相互转移的工具,可以将一个关系型数据库(例如 : MySQL ,Oracle ,Postgres等)中的数据导进到Hadoop的HDFS中,也可以将HDFS的数据导进到关系型数据库中。sqoop import \--connect jdbc:mysql://localhost:3306/gota\--username root \--pass...
2018-05-23 11:11:15
239
原创 数据库操作
Hive安装完并初始化元数据后,会自动产生一个默认的数据库default.但在时间的生产环境中,我们通常要创建自己的数据库.文本介绍如何通过hive客户端和java程序创建和删除hive数据库。 创建数据库:在hive中创建数据库,和在关系型数据库中创建数据库类似,用create database 语句创建数据库。Hive中的数据库,实际上是一个命名空间namespace或者表的集合。创建语法如下...
2018-05-23 10:58:52
178
转载 mysql数据库索引的优缺点以及创建方法
为什么要创建索引呢?这是因为,创建索引可以大大提高系统的性能。第一,通过创建唯一性索引,可以保证数据库表中每一行数据的唯一性。 第二,可以大大加快数据的检索速度,这也是创建索引的最主要的原因。 第三,可以加速表和表之间的连接,特别是在实现数据的参考完整性方面特别有意义。 第四,在使用分组和排序 子句进行数据检索时,同样可以显著减少查询中分组和排序的时间。创建索引的缺点也许会有人要问:增加索引有如此...
2018-05-23 10:47:52
157
原创 mysql 索引
假如你有一个表,SQL> CREATE TABLE test_tab ( 2 id INT, 3 name VARCHAR(10), 4 age INT, 5 val VARCHAR(10) 6 );你的业务,有一个查询,是SELECT * FROM test_tab WHERE name = 一个外部输入的数据刚开始,数据不多的时候,执行效果还不...
2018-05-23 10:41:49
145
原创 插入指定字段
TRUNCATE `zhucm_sql`.`bala_zhu_weekly_insert`;insert into zhucm_sql.bala_zhu_weekly_insert(Platform,Store_Name,Order_Num,Purchase_quantity)SELECTPlatform,Store_Name,Purchase_quantityfromzhucm_sql.bala...
2018-05-23 10:23:40
989
原创 CREATE TABLE 2
CREATE TABLE if not exists `bala_zhu_weekly_insert` ( `Platform` varchar(10) CHARACTER SET utf8 DEFAULT NULL COMMENT '平台', `User_Id` varchar(50) CHARACTER SET utf8 DEFAULT NULL COMMENT '买家昵称', `Sto...
2018-05-23 10:23:21
177
原创 create table tab1
use zhucm_sql;--创建表并将本地数据导入表drop table if exists bala_zhu_weekly_tmp;create table 'bala_zhu_weekly_tmp'( 'Platform' VARCHAR(20) COMMENT '平台', 'brand' VARCHAR(20) COMMENT '品牌', `Order_time` varchar(50...
2018-05-23 10:23:01
384
原创 mysql中update和delete时sql_safe_updates问题
今天删除mysql数据库中的一条记录的时候,一直不能删除,提示错误信息如下:[html] Error Code: 1175. You are using safe update mode and you tried to update a table without a WHERE that [html] uses a KEY column To disable safe mode, togg...
2018-05-23 09:52:55
395
原创 Linux文件与目录管理
小知识:绝对路径:路径的写法,由根目录 / 写起,例如: /usr/share/doc 这个目录。相对路径:路径的写法,不是由 / 写起,例如由 /usr/share/doc 要到 /usr/share/man 底下时,可以写成: cd ../man 这就是相对路径的写法。ls (列出目录)在Linux系统当中, ls 命令可能是最常被运行的。选项与参数:-a :全部的文件,连同隐藏档( 开头为 ...
2018-05-22 19:09:40
188
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人