- 博客(56)
- 资源 (6)
- 收藏
- 关注
原创 本地上传文件到hdfs
本地上传文件到hdfs使用javaApi上传文件本地上传文件到hdfs使用javaApi上传文件import org.apache.hadoop.conf.Configuration;import org.apache.hadoop.fs.FileSystem;import org.apache.hadoop.fs.Path;public class PutHdfsFile { public static void main(String[] args) throws E
2021-09-08 17:14:06
1253
原创 Linux 实现远程ssh服务节点操作
背景:当我们拥有集群时,需要操作每台服务节点,用到shell脚本自动化去执行某些命令是程序员的第一选择。简单、快捷、方便。shell脚本实现,实现去每一台节点去安装python服务依赖的jar包。 cat scp_servicelib.sh#!/bin/bashnodes=$(cat ./other_nodes) for node in $nodes do echo $node ":" ss
2021-09-02 10:51:24
717
原创 HIVE2-hiveserver2 ConnectException 问题解决
背景:使用hive2本地生成excel文件,提供给项目经理;读取hive中的数据,生成excel文件该小程序一直在使用,但是由于服务器迁移,要更换链接serviceIp,以至于该问题的出现;异常ExceptionCaused by: org.apache.thrift.transport.TTransportException: java.net.ConnectException: Connection refused: connect at org.apache.thrift.transpo.
2020-11-17 15:53:46
1048
原创 spark-hdfs问题解析
Spark程序读取hdfs中数据 java.io.IOException: Premature EOF reading from
2019-08-21 17:09:34
799
原创 linux 脚本 获取以某字符结尾的文件名
以系统当前时间为文件名获取当前文件夹下以“csv”结尾的文件名如果相同,则继续如不同,则将文件夹下的文件mv为系统命名的文件名#!/bin/bash//获取系统前一小时的时间currentime=`date -d -1hour +%Y%m%d_%H`echo $currentimefilename=${currentime}".csv"echo $filename//...
2019-01-10 16:10:50
4495
原创 【scala】获取当前时间的上一个自然周以及自然周集合;获取当前时间的上一个自然月以及自然月的第一天与最后一天
获取当前时间的上一个自然周的开始时间:import java.text.SimpleDateFormatimport java.util.{Calendar, Date} def getLastWeek():String={ var list=List(("","","")) list = list.init var num = 7 ...
2018-12-20 14:18:11
2512
原创 combineByKey之Spark中一个比较核心高级函数
import org.apache.spark.{HashPartitioner, Partitioner, SparkConf, SparkContext}/** * Created by Administrator on 2018/7/3. */object test { def main(args: Array[String]): Unit = { v...
2018-11-22 11:17:47
237
原创 SparkSql将数据源Hive中数据导入MySql实例
背景:能看到这篇博客的伙计儿,应该是充分理解了[理想是丰满的 现实是骨感] 这句名言了吧。为啥子这么说呢,那就是 不就是个SparkSql从hive导入到mysql吗 有什么技术含量,但是呢 不断地踩坑ing填坑ing。
2018-11-09 09:55:41
3829
原创 java.lang.NoSuchMethodError: org.apache.thrift.protocol.TProtocol.getScheme()Ljava/lang/Class;
背景: java程序读取hive数据异常: 应该是包冲突Exception in thread "main" java.lang.NoSuchMethodError: org.apache.thrift.protocol.TProtocol.getScheme()Ljava/lang/Class; at org.apache.hive.service.cli.thrift....
2018-10-29 11:11:21
2724
原创 Linux 定时脚本crontab 中文乱码 编码格式转换
在linux下,利用定时脚本跑一个xx.jar,把结果输出到文件中。结果里面有中文,输出到文件后,显示为乱码。测试的时候发现,手动运行jar输出正常;用shell脚本运行输出正常;当使用定时脚本去跑的时候,输出就是乱码了。原因:因为Unix/Linux下使用crontab时的运行环境已经不是用户环境了,因此原本用户下的一些环境变量的设置就失效了。解决方法:只需要在脚本最
2018-01-25 13:44:52
846
原创 【java】获取当前时间currentTimeMillis()
现在小编要分享的是,获取当前时间,并且时间格式为yyyy-MM-dd HH:mm:ss。
2017-12-06 16:06:57
8750
原创 【java】org.xml.sax.SAXParseException;在实体引用中, 实体名称必须紧跟在 '&' 后面。解决方法
【java】org.xml.sax.SAXParseException;在实体引用中, 实体名称必须紧跟在 '&' 后面。解决方法
2017-11-15 16:45:27
28145
原创 scala正则表达式获取url的host
小编今天要分享的是,通过正则表达式获取url中的host, 在实际开发中这是很常用的,大家收好了。 代码:import java.util.regex.Pattern/** * Created by Administrator on 2017/9/26. */object UrlGeyHostTest { def main(args: Array[String]): Unit = {
2017-10-27 13:54:54
2102
原创 Sql查询语句将数据转换数据格式
小编今天要分享的是,通过Sql查询语句将数据转换成想要的数据格式banji表结构为:name scores subject张三 60 英语张三 82 数学张三 73 语文李四 74 数学李四 89 英语李四 90 语文tiyu表结构为:name scor
2017-10-26 14:46:27
4879
原创 【spark】编程代码,随笔记录
spark-yarn模式 –master yarn-cluster (只需在spark-submit执行时,添加参数)速度慢: 提升cores数(提升并行执行的task);使用spark-rdd,textFile基于本地系统,linux系统,路径格式简介: //hdfs单个文件夹 val onePath = "hdfs://100.38.101.2:9000//log/month=01
2017-10-17 10:15:00
341
原创 使用Java读取xlxs文件和写入txt文件,并将数据写入到本地文件
小编今天要给大家分享的是从xlxs文件中将数据读取出来,并将数据写入到本地txt文件中。 那么为啥有这个分享呢,来看看背景介绍: 背景:在实际开发中,通常会用到使用xlxs来提取业务的需求,同时在xlxs文件中会有大量的数据用于业务开发的使用中,应趋势所取,便有了现在这个分享。 好了,一起走进小编的代码,一个简单的小应用,解决手动导入的麻烦. 我要从xlxs中将数据取出,并将数据存放到有一定
2017-10-11 15:31:58
2359
1
原创 【spark】idea 手动添加设置参数
当你需要将项目打成jar在服务器上运行时, 当你需要动态的更改输入url时, 难道你还要每一次都去打包吗? 不,如今你不需要这样做了,使用java时,你有Scanner可以控制台输入参数, 同样的在scala中,你也是可以的。 下面来跟我一起去看一下吧!首先第一步:object StrTest { def main(args: Array[String]): Unit = {
2017-09-27 17:31:59
1567
原创 【spark】spark-hive操作
hiveserver2hive on tez 1,创建maven项目,就hive-site.xml,core-size.xml,hdfs-site.xml放到项目resources下面2.spark-hive连接:package com.people.item/** * Created by Administrator on 2017/8/2
2017-09-13 13:52:44
1140
原创 scala 时间戳比较大小
scala,时间戳比较大小,三个参数:currentTime:String,starTime:String,endTime:String
2017-09-04 17:27:36
4596
2
原创 解决OplogThread: Failed during dump collection cannot recover!方案
在使用mongo-connector,同步mongodb与elasticsearch数据的时候
2017-07-12 14:45:18
4296
3
原创 Mongodb Failed: lost connection to server,导入大量数据报错
Mongodb Failed: lost connection to server。因为Mongo对单次处理好像有大小限制(16m)好像是,所以大文件会出问题,这应该是个Bug mongoimport 默认会10000条 为一个批量导入数据,但实际上单条数据太大了,每10000条导入一次肯定是不行的参数 --batchSize 可以指定每次批量导入的条数 设置小一些就OK了,可
2017-03-31 17:13:24
2320
原创 <java代码> 实现Unix时间戳(Unix timestamp)与普通时间 之间的相互转换
<java代码> 实现Unix时间戳(Unix timestamp)与普通时间 之间的相互转换
2017-03-27 16:01:48
1923
原创 Elasticsearch function_score函数之field_value_factor(字段值影响_score)
function_score之field_value_factor使用事注意事项,尤其是 你使用的field为一个多值字段或可丢失字段
2017-03-24 14:56:08
4603
原创 es function_score expected field name but got [START_OBJECT]
expected field name but got [START_OBJECT],这个异常代表的语句逻辑有问题查询语句有问题,你可以就你的部分语句放到一个查询中,进行检测
2017-03-23 17:09:13
4358
原创 MongoDB使用ObjectId作为_id字段值,简述ObjectId构造
ObjectId简介,转换ObjectId结构为时间戳,string
2017-03-10 11:41:06
2425
原创 .ElasticSearch的数据导入导出工具-ElasticDump,安装及使用
在linux上 安装,步骤如下: 1) yum install epel-release 2) yum install nodejs 3) yum install nodejs npm 4) npm install elasticdump 使用命令行: 1) cd node_modules/elasticdump/bin 2)
2017-03-06 17:36:33
5867
原创 Mongodb数据库导入数据到elasticsearch,mongo-connector实现mongodb与elastic数据同步
同步mongo与elasticsearch之间的数据
2017-03-06 17:30:51
1032
原创 MapReduce WordCount
package com.hadoop.mr;import java.io.IOException;import java.util.StringTokenizer;import org.apache.hadoop.conf.Configuration;import org.apache.hadoop.fs.Path;import org.apache.hadoop.io
2017-03-03 16:22:39
437
原创 Linux nc安装
1.将该包上传到一个文件夹中2.进入该目录,执行命令: rpm -ihv nc-1.84-22.el6.x86_64.rpm3.安装后执行命令,进行测试: nc --help
2017-03-03 15:55:44
602
MapReduce--分布式计算框架
2017-02-24
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人