- 博客(75)
- 收藏
- 关注
原创 linux 上python集成cx_Oracle流程
1、所需要的文件1、https://www.oracle.com/database/technologies/instant-client/downloads.html这是oracle迷你客户端的下载,根据你的oracle版本和服务器的版本进行选择,这里需要两个文件 instantclient-basic-linux.x64-21.1.0.0.0.zip instantclient-sdk-linux.x64-21.1.0.0.0.zip2、https://pypi.org/sea
2020-12-17 15:27:52
711
原创 多个jar包合成一个jar包
1、到所有合并的jar下面,新建一个文件夹new_jar2、cd new_jar,进入到新的文件夹 jar -xvf ../*.jar3、jar - cvfM all_jars.jar ./* 将所有解压的文件,重新打成一个jar包
2020-05-29 10:29:08
757
原创 pyspark 与es的交互
# Author:Dengwenxing# -*- coding: utf-8 -*-# @Time :2019/12/30 15:09# @Site :# @fILE : esReader.py# @Software :import sys, osfrom pyspark import SparkConffrom pyspark.sql import SparkSessionfrom pyspark.sql import functions as funfr.
2020-05-25 18:45:17
2056
原创 pyspark集群环境中jdk版本不兼容,python无相应模块的包的解决办法
问题:在某些情况下,我们会用到其他厂商的大数据平台,而我们是没有相关管理权限的,但是集群和我们已有的代码所需要的环境存在差异,所以我们要向集群设置我们自己的运行环境的参数等,主要解决方案如下1、对于pyspark,首先我们需要一个我们的相关的所有包的python虚拟环境,这里推荐anaconda的虚拟环境,里面包含很多科学计算的模块便于数据分析使用,在任意一台能联网的机器上创建一个con...
2020-05-08 14:54:08
1572
原创 pyspark 与hbase的读写
在读取hbase的时候,由于hbase存储的是16进制的字节码,我这里用了各种方法,都无法在转换为df的时候,将其转换为中文,看了很多方法,各种decode, encode都没有找到合适的方法,如果有哪位同学,在看到这篇文章并解决了这个问题,麻烦告知我一声,谢谢读取hbase 需将hbase下lib的几个常用包,软连接到spark的jars目录下出现无法读取hive.sql的问题,将hi...
2019-12-31 17:17:09
1557
原创 spark 读写hbase
测试代码package make.zhangsheniMainimport make.bean.CaseClass.userimport make.service.HbaseServiceimport make.tools.PropertiesToolimport org.apache.hadoop.hbase.client.{Put, Result}import org.apa...
2019-11-06 16:37:15
262
原创 spark 读写 es
测试代码:package make.zhangsheniMain/** * Hello world! * */import make.bean.CaseClass.{people, people_id}import make.service.EsServiceimport make.tools.{DateUtils, PropertiesTool}import or...
2019-11-06 16:33:43
707
原创 shell 日期格式化
now_day=`date -d today +"%Y-%m-%d %T"`now_day=`date -d yesterday +"%Y-%m-%d %T"`cp=`date -d today +"%Y%m%d00"`
2019-04-29 15:30:22
1138
原创 jyputer notebook 与pyspark在本地windows的环境配置
1、下载anacond并安装,可以选择自动配置环境变量,也可以后面手动配置环境变量2、http://spark.apache.org/downloads.html下载spark的对应版本3、解压到一个指定的你想要存放的本地spark目录,自己创建,方便以后管理4、设置各种环境变量,如下这里 java scala 的环境配置不必要但是还是需要配置一下,特别注意这里的PYSP...
2019-04-12 20:08:47
708
原创 记一次用pyspark 对地理数据的的索引距离判定
1、接到一次需求,需要对源手机的定位数据,来判定是否处于景区和商圈的范围内,来宏观统计消费流量2、最开始,正常的想法,我需要对每条数据的经纬度和列表的经纬度做一次距离判定,判断该手机定位是否是属于某一个地方,如果是则对其进行保留,不是进行过滤,但是由于数据量巨大,每天的数据量约为80亿条,及每一条数据的经纬度都要做130次经纬度的距离计算,可以想象 这个计算量是非常巨大的,尝试跑了一下,但是非...
2019-04-12 18:03:43
1102
原创 记一次pyspark 的一个报错处理
在运行PySpark程序的时候,报错为:PySpark error: AttributeError: 'NoneType' object has no attribute '_jvm'是因为定义了一个udf函数,在函数中使用abs()方法,于是就出现了这种情况查找原因发现是使用from pyspark.sql.functions import * 语句引入的时候,覆盖了abs()方法导致...
2019-03-30 16:54:27
739
原创 pyspark 对接kafka 写入hive
1、pyspark 对接kafka需要依赖一些jar包 kafka-0-8或者kafka-0-10的关于kafka版本的全部的包 大概如下,反正如果jar包不全会有各种异常信息,到时候对应着补齐就行,注意自己的kafka和spark的版本 kafka_2.x-0.x.0.0.jar kafka-client-0.x.0.0.jar spark-sql-kafk...
2019-03-08 11:55:04
2522
原创 redis 安装和简单的命令
1、下载redis.4.0.12.tar.gz https://redis.io/download2、随便解压到哪里 然后cd 到 src/ 目录下 执行 make 等他编译完 直接make install 会默认安装在 usr/local/bin 目录下,将五个而二进制文件 复制到你想要的 安装目录3、创建一个 conf文件夹 vim pid_6379.conf ...
2019-01-09 16:28:25
260
原创 es的坑 记一次处理节点启动异常
1、本来按照往常的节奏,今天应该对图库的数据进行全量更新,但是下午悠哉来到办公室,他么的,我的spark任务怎么挂了,于是开始排查原因 2、发现日志报错,GraphFactory could not instatiate this Graph implementation ??? 于是想到是不是图库挂了,于是去尝试重启图数据库,特喵的 还是报错 具体是 无法与一个节点进行通讯,这就...
2018-12-05 10:51:25
1573
原创 jg的相关知识点
1、jg分为节点表,和边表,节点有自己的jid和相关属性字段,这个jid为全局唯一,每一个节点的jid都不一样2、边表会保存两个jid,一个start_jid,为起始节点,一个end_jid,为终止节点,还包括边的相关属性信息3、因为jg的数据是存入hbase中的,所以要对index即jid进行散列,防止热点 一个hive到jg的数据写入和rowkey设计的案列# encod...
2018-10-30 10:56:48
892
原创 初识mongodb
1、下载zip包解压,进入命令行2、show dbs 查看相关数据库,3、db.createCollection("maketubu", {capped:true, size:100000,autoIndexId:true,max:2000}) 创建集合capped:(可选)如果为 true,则创建固定集合。固定集合是指有着固定大小的集合,当达到最大值时,它会自动覆盖最早的文档...
2018-10-24 22:44:21
296
原创 pyspark 对RDD的相关api
1、aggregate,可以用来求平均值如下示例rdd2 = spark.sparkContext.parallelize([1,2,3,4,5,6,7,8,9,10])seqop = (lambda x,y: (x[0]+ y, x[1]+ 1)) #0+1 0+1 1+2 1+1 3+3 2+1cpmop= (lambda x,y: (x[0]+ y[0],...
2018-10-18 11:34:52
1444
原创 工作中 pyspark的小知识点
1、df.na.fill({'字段名1':'default','字段名2':'default'}) 对空值进行替换2、df.dropDuplicaates() 去重根据字段名进行去重,空参为全部字段3、df.subtract(df1) 返回在当前df中出现,并且不在df1中出现的元素,不去重。4、print time.localtime([timestamp]) ...
2018-10-16 19:46:10
1069
原创 配置jupyter 虚拟机spark+python2.7.15
1、将默认的 phthon2.6.6 换成2.7.15 如下wget https://www.python.org/ftp/python/2.7.15/Python-2.7.15.tgztar -zxvf Python-2.7.15.tgzcd Python-2.7.15./configure --prefix=/usr/local/python2makemake ins...
2018-10-15 16:05:25
575
原创 python 身份证校验
国家校验码校验标准1、将前面的身份证号码17位数分别乘以不同的系数。从第一位到第十七位的系数分别为:7 9 10 5 8 4 2 1 6 3 7 9 10 5 8 4 2 ;2、将这17位数字和系数相乘的结果相加;3、用加出来和除以11,看余数是多少;4、余数只可能有0 1 2 3 4 5 6 7 8 9 10这11个数字。其分别对应的最后一位身份证的号码为1 0 X 9 8 7 ...
2018-10-09 13:16:26
8447
2
原创 spark sql 的常用写法
import org.apache.spark.sql.{SaveMode, SparkSession}import org.apache.spark.sql.types.{LongType, StringType, StructField, StructType}object taxi_csv { def main(args: Array[String]): Unit = { ...
2018-09-28 17:13:12
1619
转载 hadoop 参数调优及测试
hadoop参数优化#hadoop验证版本为2.6.4,其它版本酌情参考core-site.xml参数名 默认值 说明 hadoop.tmp.dir /tmp/hadoop-${user.name} hadoop中间临时文件最好单独指定目录,比如mr split信息,stag信息 io.file.buffer.size 4096 设置IO操作缓...
2018-08-23 11:19:35
1007
转载 hadoop集群运维
(一)备份namenode的元数据namenode中的元数据非常重要,如丢失或者损坏,则整个系统无法使用。因此应该经常对元数据进行备份,最好是异地备份。1、将元数据复制到远程站点(1)以下代码将secondary namenode中的元数据复制到一个时间命名的目录下,然后通过scp命令远程发送到其它机器#!/bin/bashexport dirname=/mnt/tmphadoop/...
2018-08-23 10:12:44
1445
原创 kafka_2.11-0.10.2.1 的生产者 消费者的示例(new producer api)
环境,以及单独的pom.xml文件环境:java 1.8 ,kafka_2.11-0.10.2.1pom.xml文件如下<?xml version="1.0" encoding="UTF-8"?><project xmlns="http://maven.apache.org/POM/4.0.0" xmlns:xsi="http://www.w3....
2018-08-09 13:47:31
2143
原创 sparkstream 2.2.0 结合 kafka_2.10-0.10.2.1 的消费示例演示
今天讲了kafka和sparkstream的一个简单结合,试着在网上找了一个例子进行实现1、相关配置 spark2.2.0,scala2.11.8,kafka_2.10-0.10.2.1,jdk1.82、这里是自己的pom.xml文件 如下<project xmlns="http://maven.apache.org/POM/4.0.0" xmlns:xsi="http://...
2018-08-08 19:14:26
1881
原创 spark2.2.0 kafka 0.10.2.1的createDirectStream第一次尝试
1、这里简单记录一下 kafka的简单操作命令 创建Topic $ bin/kafka-topics.sh --create --topic make2 --zookeeper make.spark.com:2181/kafka_10 --replication-factor 3 --partitions 3 --config max.message.bytes=128000...
2018-08-07 23:44:13
977
转载 Spark Cache和Checkpoint功能
Cache 和 Checkpoint作为区别于 Hadoop 的一个重要 feature,cache 机制保证了需要访问重复数据的应用(如迭代型算法和交互式应用)可以运行的更快。与 Hadoop MapReduce job 不同的是 Spark 的逻辑/物理执行图可能很庞大,task 中 computing chain 可能会很长,计算某些 RDD 也可能会很耗时。这时,如果 task 中途运...
2018-08-06 10:16:54
1403
1
转载 spark 基本概念与入门
Spark集群一组计算机的集合,每个计算机节点作为独立的计算资源,又可以虚拟出多个具备计算能力的虚拟机,这些虚拟机是集群中的计算单元。Spark的核心模块专注于调度和管理虚拟机之上分布式计算任务的执行,集群中的计算资源则交给Cluster Manager这个角色来管理,Cluster Manager可以为自带的Standalone、或第三方的Yarn和Mesos。Cluster Mana...
2018-08-06 10:16:44
169
转载 spark 数据倾斜 解决思路
数据倾斜调优- 绝大多数task执行得都非常快,但个别task执行极慢。比如,总共有1000个task,997个task都在1分钟之内执行完了,但是剩余两三个task却要一两个小时,这种情况很常见- 原本能够正常执行的Spark作业,某天突然报出OOM(内存溢出)异常,观察异常栈,是我们写的业务代码造成的。这种情况比较少见数据倾斜发生的原因:在进行shuffle的时候,必须将各个节点上...
2018-08-06 10:16:29
223
转载 spark 的内存管理机制
1. 堆内和堆外内存规划作为一个 JVM 进程,Executor 的内存管理建立在 JVM 的内存管理之上,Spark 对 JVM 的堆内(On-heap)空间进行了更为详细的分配,以充分利用内存。同时,Spark 引入了堆外(Off-heap)内存,使之可以直接在工作节点的系统内存中开辟空间,进一步优化了内存的使用。图 1 . 堆内和堆外内存示意图1.1 堆内内存堆内内存的大...
2018-08-06 09:56:55
3039
转载 spark 性能调优 高级篇 数据倾斜,和shuffle调优
前言继基础篇讲解了每个Spark开发人员都必须熟知的开发调优与资源调优之后,本文作为《Spark性能优化指南》的高级篇,将深入分析数据倾斜调优与shuffle调优,以解决更加棘手的性能问题。数据倾斜调优调优概述有的时候,我们可能会遇到大数据计算中一个最棘手的问题——数据倾斜,此时Spark作业的性能会比期望差很多。数据倾斜调优,就是使用各种技术方案解决不同类型的数据倾斜问题,以保证...
2018-08-06 09:55:09
242
转载 spark 性能调优 常见思路 基础篇
前言在大数据计算领域,Spark已经成为了越来越流行、越来越受欢迎的计算平台之一。Spark的功能涵盖了大数据领域的离线批处理、SQL类处理、流式/实时计算、机器学习、图计算等各种不同类型的计算操作,应用范围与前景非常广泛。在美团•大众点评,已经有很多同学在各种项目中尝试使用Spark。大多数同学(包括笔者在内),最初开始尝试使用Spark的原因很简单,主要就是为了让大数据计算作业的执行速度更...
2018-08-06 09:54:07
260
转载 spark 底层调度
Spark Scheduler内部原理讲解分布式运行框架Spark可以部署在多种资源管理平台,例如Yarn、Mesos等,Spark本身也实现了一个简易的资源管理机制,称之为Standalone模式。由于工作中接触较多的是Spark on Yarn,以下所述表示Spark on Yarn。Spark部署在Yarn上有两种运行模式,分别是client和cluster模式,它们的区别仅仅在于S...
2018-07-31 18:46:37
879
原创 spark RDD的底层原理、任务提交、资源调度等记录
开始在IDEA中编写代码(可以用spark实现原始的mapreduceSpark on windows local 异常信息: 1. 17/05/20 09:32:08 ERROR SparkContext: Error initializing SparkContext. org.apache.spark.SparkException: A master URL ...
2018-07-23 18:14:45
1811
原创 spark 提交任务到yarn上运行
1、在idea上先写好,自己的代码并进行测试,这里贴一个很简单的统计单词个数的代码package sparkimport org.apache.spark.rdd.RDDimport org.apache.spark.{SparkConf, SparkContext}object WordCount { def main(args: Array[String]) { /...
2018-07-20 17:54:57
5386
转载 大数据常用端口
Hadoop: 50070:HDFS WEB UI端口 8020 : 高可用的HDFS RPC端口 9000 : 非高可用的HDFS RPC端口 8088 : Yarn 的WEB UI 接口 8485 : JournalNode 的RPC端口 8019 : ZKFC端口 10020:historyserver端口Zo...
2018-07-19 14:39:51
1062
原创 hive 修改元数据库 对mysql的修改及权限设置
1、查看对应的权限(把表清空)select user,host from mysql.user;mysql> d.1';Query OK, 1 row affected (0.00 sec)elete from user where host='127.0.0mysql> delete from user where host='make.spark.com';Query OK, 2 ...
2018-07-10 22:49:22
1221
原创 flume 之监视日志数据抽出到hdfs上示例
今天学习了一个新的轻量级框架,就是一个的实时日志收集系统,由cloudera公司开发的框架下面贴上代码##对log的完成数据,进行数据抽取,并对文件夹下所有文件进行实时监视###define agenta3.sources = r3a3.channels = c3a3.sinks = k3#define sourcesa3.sources.r3.type = spooldira3...
2018-06-30 09:41:24
764
原创 flume导入日志数据之hive分区
1、环境配置,截图如下2、我们知道sink-hive官网上有一个分区的示例,我们看一下但是这个示例我没有看懂什么意思,所以作为小白的我,开始了另一种分区的方式2.1首先我们看看我们需要分区的日志文件的格式"27.38.5.159" "-" "31/Aug/2015:00:04:37 +0800" "GET /course/view.php?id=27 HTTP/1.1" "303" "440&quo
2018-06-29 18:43:34
4610
1
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人