- 博客(559)
- 资源 (4)
- 问答 (1)
- 收藏
- 关注

原创 Hive - 问题 & 解决
1 Hive - mapjoin问题:hive sql:select f.a,f.b from A t join B f on ( f.a=t.a and f.ftime=20110802)该语句中B表有30亿行记录,A表只有100行记录,而且B表中数据倾斜特别严重,有一个key上有15亿行记录,在运行过程中特别的慢,而且会在reduce的过程中遇到内存不够而报错解决方案:考虑使...
2019-10-20 20:13:33
344

原创 Linux - 问题 & 解决
1 MySQL - 安装问题:warning: MySQL-client-5.5.47-1.linux2.6.x86_64.rpm: Header V3 DSA/SHA1 Signature, key ID 5072e1f5: NOKEYerror: Failed dependencies: /usr/bin/perl is needed by MySQL-client-5....
2019-08-26 20:31:07
387

原创 Linux - 常用命令
1 Linux的帮助命令man COMMAND COMMAND --help info COMMAND//以ls命令为例man lsls --helpinfo ls备注:按q键退出2 Tab键的使用自动补全命令或者目录1、在某个目录下如果只有一个目录的时候可以不用输入首字母直接按Tab键就可以自动补齐2、双击tab时一般为显示所有命令或者列出某个目录下的所有目录或文件。...
2019-07-25 20:18:45
420
原创 Spark SQL 常见问题汇总
1 DataFrame转RDD,map中获取时,下标从0开始例如:solve02DF .rdd .map(x => (x.getInt(0), x.getInt(1), x.getDouble(2))) .foreach(println)
2020-05-13 00:21:28
725
原创 MySQL常用命令
1、 启动(1)service方式:service mysql start2、停止(2)service方式:service mysql stop3、重启(1)service方式:service mysql restart
2020-05-11 23:21:45
359
原创 MySQL: Got a packet bigger than 'max_allowed_packet' bytes
Python导入数据到MySQL,提示出现错误:Got a packet bigger than ‘max_allowed_packet’ bytes原因:导入的数据大于MySQL限制的最大包的大小解决方法:修改max_allowed_packet的值,然后重启MySQL-- 查看当前的max_allowed_packet的值show variables like '%max_allowed_packet%'-- 修改max_allowed_packet的值,10M: 10485760.
2020-05-11 23:18:01
461
原创 Python3 Json转字典
import jsonjson.loads(json_str) # Json字符串转字典json.dumps(dict) # 字典转Json字符串'''读取评分数据,写入到MongoDB中'''import json# 输入 - 文件inPath = 'D:/projectData/EcSystem/Amazon/reviews.json'inFile = open(i...
2020-04-23 15:53:50
948
原创 Python3 - 时间戳转日期
import pymongoimport timefrom bson.int64 import long# 输入 - 文件inPath = 'D:/projectData/EcSystem/Amazon/ratings.csv'inFile = open(inPath, 'r', encoding='UTF-8')for line in inFile: # 去掉末尾换行符...
2020-04-23 11:19:08
377
原创 Spark Core - 数据加载 - 从HDFS读取数据
package DataInputimport org.apache.spark.{SparkConf, SparkContext}/** * @ Description:Spark Core - 从HDFS读取数据 * @ Modified By: * @ Date :22:53 2020/4/20 0020 * * @ Author :leoxr...
2020-04-20 23:33:07
571
原创 Python Django - MgongoDB2View
创建一个app,从MongoDB中获取数据,加载到页面(1)创建app(venv) C:\Project\PythonProject\EcSystemPython> python manage.py startapp django_web(2)修改settings.py文件,添加INSTALLED_APPS(3)templates文件夹中,创建test.html(4)编辑d...
2020-04-20 21:08:24
276
原创 推荐系统实践-笔记-第1章
第1章 好的推荐系统1.1 什么是推荐系统推荐系统,帮助信息消费者从大量信息中找到自己感兴趣的信息,帮助消息生产者让信息展现在对它感兴趣的用户面前信息过载的解决方案:分类目录、搜索引擎分类目录只能覆盖少量的热门网站搜索引擎需要用户主动提供准确的关键词推荐系统,帮助用户快速发现有用信息,不需要用户提供明确的需求,通过分析用户的历史行为给用户的兴趣建模搜索引擎满足了用户有明确目的时的主动...
2020-04-17 22:08:59
1235
原创 Python - 爬取图片并下载到本地
import requests #用来模拟浏览器发送网络请求from lxml import etree #解析数据from urllib import request #下载保存urlretrive()import time #time.sleep让程序延迟几秒再进行# 函数的封装 defdef huya_spide...
2020-03-28 22:53:05
735
原创 二进制除法
二进制除法中包括除法和模2除法,两个计算并不同一、除法二、模2除法参考文章1链接:https://blog.youkuaiyun.com/e891377/article/details/85036212参考文章2链接:https://blog.youkuaiyun.com/u010190210/article/details/80707698...
2020-02-21 10:58:57
52797
2
原创 Redis
1 bind ip地址bind 0.0.0.0所有访问bind 127.0.0.1本地访问bind 内网IP地址指定的内网IP可以 访问参考文章链接:https://blog.youkuaiyun.com/sinat_21354977/article/details/83150127...
2019-12-26 15:17:03
228
原创 Scala - 小项目 - 奥特曼打小怪兽
一、项目描述奥特曼 1个 名字 血量 普通 必杀 一次只能打1只 魔法 所有 奥特曼的攻击 10%必杀 30%魔法 60%普攻 小怪兽 4只 名字 血量 普通 回合制游戏 示例输出:======== 第1回合 ========(aa奥特曼,血量:100) 使用魔法,攻击了b1小怪兽,小怪兽血...
2019-10-31 19:27:39
757
1
原创 Idea - 问题 & 解决
1 Error:java: Compilation failed: internal java compiler error原因:项目中Java版本不一致解决:参考文章地址:https://blog.youkuaiyun.com/qq291539326/article/details/79311373/
2019-10-22 19:44:28
287
原创 HBase - 完全分布式搭建
1 Zookeeper 正常部署启动Zookeeper2 Hadoop 正常部署启动Hadoop3 HBase 解压[hadoop@hadoop105 ~]$ tar -zxvf hbase-1.2.1-bin.tar.gz -C apps/4 配置环境变量[hadoop@hadoop105 ~]$ sudo vi /etc/profile添加内容如下:export HBASE...
2019-10-21 21:15:40
270
原创 Flume - 故障转移、负载均衡
故障转移概述:故障转移机制的工作方式是将失败的sink放到一个池中,并在池中为它们分配一段冷冻期,在重试之前随着连续的失败而增加。一个sink成功发送event后,将其恢复到活动池。sink有一个与它们相关联的优先级,数字越大表示优先级越高。如果一个sink在发送event时失败,则下一个具有最高优先级的sink将被尝试用于发送事件。实例:# hadoop105# Name t...
2019-10-20 20:24:35
674
原创 Flume - 安装
一、安装1 解压缩[root@hadoop01 ~]# tar -zxvf apache-flume-1.9.0-bin.tar.gz -C /usr/local/2 修改名称[root@hadoop01 local]# mv apache-flume-1.9.0-bin/ flume-1.9.0/3 修改配置[root@hadoop01 flume-1.9.0]# cd conf...
2019-09-21 20:27:34
507
原创 Tez - 安装、简介、优化
一、Tez 安装1 下载地址https://mirrors.tuna.tsinghua.edu.cn/apache/tez/0.9.0/2 二进制包安装2.1 解压并重命名[root@hadoop01 ~]# tar -zxvf /home/apache-tez-0.9.0-bin.tar.gz -C /usr/local/[root@hadoop01 ~]# mv /usr/l...
2019-09-21 14:47:15
1565
原创 Tez - 安装
一、Tez 安装1 下载地址https://mirrors.tuna.tsinghua.edu.cn/apache/tez/0.9.0/2 二进制包安装2.1 解压并重命名[root@hadoop01 ~]# tar -zxvf /home/apache-tez-0.9.0-bin.tar.gz -C /usr/local/[root@hadoop01 ~]# mv /usr/l...
2019-09-21 12:02:06
1425
原创 Sqoop
一、Sqoop1 官网http://sqoop.apache.org/2 概述1、用于结构化数据存储(如传统关系型数据库)和Hadoop之间的数据传输2、Sqoop的核心设计思想是利用MapReduce加快数据传输速度,即Sqoop的导入和导出功能是通过基于Map Task(只有Map)的MapReduce作业完成,因此Sqoop是一种批处理方式进行数据传输,难以实现实时的数据进行导入...
2019-09-20 15:07:46
1318
原创 Hive - 文件存储、文件压缩、视图、日志、运行方式、JDBC、优化
一、文件存储格式File Formats and Compression: RCFile, Avro, ORC, Parquet; Compression, LZO1.1 textfile1、textfile是hive默认的数据文件存储格式2、textfile是普通的文件文本存储3、不压缩4、可以配合压缩配置属性进行压缩CREATE TABLE `u4`( `id` int,...
2019-09-19 21:34:07
680
原创 DataX - 安装
1 将安装包上传到服务器2 将安装包解压缩到规划目录[root@hadoop01 ~]# tar -zxvf datax.tar.gz -C /usr/local/3 进入datax的bin子目录,运行datax.py进行自检[root@hadoop01 bin]# python datax.py ../job/job.json...
2019-09-16 23:37:00
304
原创 Hive - 安装
1 启动集群start-all.sh2 hive压缩包解压缩tar -zxvf apache-hive-1.2.1-bin.tar.gz -C /usr/local/3 移动到规划位置mv /usr/local/apache-hive-1.2.1-bin/ /usr/local/hive-1.2.14 添加环境变量[root@hadoop02 ~]# vi /etc/prof...
2019-09-08 15:35:55
322
原创 MapReduce - A - 归约 - Combiner
题目:使用Conbiner进行词频统计思路:Combiner在整个Map阶段结束后,进行一次合并,可以理解为提前的一次reduce代码://MyCombinerpackage A_Combiner02;import org.apache.hadoop.io.LongWritable;import org.apache.hadoop.io.Text;import o...
2019-09-07 21:45:12
307
原创 MapReduce - A - 排序 - TreeSet
题目:求评分(平均值)最高的前10的电影id?(输出:moveid 平均分)思路:Map中获取数据,键:电影好,值:电影信息类(实现Comparable)Reduce中汇总数据,将某部电影的评分算出来,然后放到TreeSet中Reducer的cleanup中,输出TreeSet中记录的电影信息代码://电影信息类package Sort02;import org...
2019-09-07 20:58:11
311
原创 MapReduce - A - 分组 - Comparator
题目:求每个通信商的上行、下行、总流量 (输出:通信商 上行 下行 总的)思路:通过手机号的前三位区分通信运营商按照运营商分组后,在每个Reduce里计算各运营商总和即可代码://分组比较器package Comparator02;import org.apache.hadoop.io.WritableComparable;import org.apache...
2019-09-07 20:56:22
323
原创 MapReduce - A - 分区 - Partitioner
题目:求每个通信商的上行、下行、总流量 (输出:通信商 上行 下行 总的)思路:通过手机号的前三位区分通信运营商按照运营商分区后,在每个Reduce里计算各运营商总和即可代码://分区比较器package Partitioner02;import org.apache.hadoop.io.Text;import org.apache.hadoop.mapre...
2019-09-07 20:53:33
226
原创 MapReduce - A - 迭代(多次MR)
题目:对给定的文件进行词频统计,然后按照词频从大到小排序词频相同时,按照单词的字典序思路:通过两个MR进行解决第一个MR:统计词频第二个MR:利用Shuffle阶段的排序,实现排序效果代码://单词类package Test02;import org.apache.hadoop.io.WritableComparable;import java.io.Dat...
2019-09-07 20:51:21
829
原创 Linux - 安装MongoDB
安装包官网下载地址:https://www.mongodb.com/download-center#community1 下载curl -O https://fastdl.mongodb.org/linux/mongodb-linux-x86_64-3.0.6.tgz2 解压tar -zxvf mongodb-linux-x86_64-3.0.6.tgz3 将解压包拷贝...
2019-09-04 20:02:49
230
原创 MapReduce - 词频统计
统计一个文本的词频package Test01;import org.apache.hadoop.conf.Configuration;import org.apache.hadoop.fs.Path;import org.apache.hadoop.io.IntWritable;import org.apache.hadoop.io.LongWritable;import or...
2019-09-02 19:52:19
980
原创 Shell - 常用命令
l 列出当前行上下各5行,总共10行q|quit 退出h 帮助/for/ 向后搜索字符串for?for? 向前搜索字符串forx 1+2 计算算术表达式的值!! ls -laRt 执行shell命令n 执行下一条语句s 4 ...
2019-09-02 19:44:13
213
原创 Shell - 测试
任何语编程都有对应的调试工具,如java有Debug、mysql有调试工具、js有调试工具等,shell也不例外shell的语法检测:相当于java的编译1. shell语法检测:sh -n ./test.sh (sh是/bin/sh 是系统提供的可执行脚本)2. shell的普通调试:sh -x ./test.sh如test.sh的内容如下:#!/bin/ba...
2019-09-01 10:22:31
396
原创 Shell - 文件引入
和其他语言一样,Shell 也可以包含外部脚本。这样可以很方便的封装一些公用的代码作为一个独立的文件。Shell 文件包含的语法格式如下:. filename # 注意点号(.)和文件名中间有一空格或source filename案例:vi /home/shell/1.sh#!/bin/bashname=‘123’vi /home/shell/2.sh. ...
2019-09-01 10:12:01
424
原创 Shell - 函数
shell中函数的定义格式如下:[ function ] funname (){ action; [return int;]}注:1、可以带function fun() 定义,也可以直接fun() 定义,不带任何参数。2、参数返回,可以显示加:return 返回,如果不加,将以最后一条命令运行结果,作为返回值。 return后跟数值n(0-255)作为一个返...
2019-09-01 09:06:48
220
原创 Shell - for、while、until、case
循环-forFor i in 1 2 3;do echo $i;donefor var in item1 item2 ... itemNdo command1 command2 ... commandNdone案例1:for loop in 1 2 3 4 5do echo "The value is: $loop"done案例2...
2019-09-01 09:00:04
172
原创 Shell - if
七、条件控制if支持嵌套写成一行就得这么写:if [ ] ; then echo “” ;fi单一的if:(表达式必须有空格)if []thencmd1fi单一的if else :(表达式必须有空格,else后不能有then)If []thencmd1elsecmd2fiif else-if else :(elif后必须有then)if condi...
2019-09-01 08:49:18
230
原创 Shell - 基本运算符 - 文件测试运算符
文件测试运算符用于检测 Unix 文件的各种属性。属性检测描述如下:操作符 说明 举例-b file 检测文件是否是块设备文件,如果是,则返回 true。 [ -b $file ] 返回 false。-c file 检测文件是否是字符设备文件,如果是,则返回 true。 [ -c $file ] 返回 false。-d file 检测文件是否是目录,如果是,则返回 true。 [ ...
2019-09-01 08:46:30
311
Hive安装,使用MySQL作为元数据库
2019-09-08
mysql + navicat for mysql
2019-01-22
C语言中如何开很大的二维数组
2016-12-24
TA创建的收藏夹 TA关注的收藏夹
TA关注的人