- 博客(65)
- 资源 (2)
- 收藏
- 关注
原创 pyspark udf udaf 参数传递
1.定义udf基于F.lit(data) 实现传参F.lit 函数实际上是新增一例,可以理解是自定义的函数把参数当列一样来操作from pyspark.sql import SparkSession,functions as Ffrom pyspark.sql.types import *from pyspark.sql import Windowdef filter(col,filters=["haha","hehe"]) col_map={} try: fo
2021-01-20 17:55:55
846
原创 PySpark的select fliter agg join
1.初始化from __future__ import print_function, divisionfrom pyspark import SparkConf, SparkContextfrom pyspark.sql import SparkSession,functions as Ffrom pyspark.sql.types import StringType,MapType2.读取数据def parse_log_schema(txt): try: fileds=txt.st
2020-10-28 14:59:31
382
原创 spark 同时读取多个路径的方法
1.传入多个参数 val result = spark.read.text("hdfs://hdfs-name/user/aa.txt","hdfs://hdfs-name/test/bb.txt")2.正则val result = spark.read.text("hdfs://hdfs-name/user/*")3.文件列表val path = "hdfs://hdfs-name/user/*.txt" val path2 = "hdfs://hdfs-name/test/*.txt"
2020-10-22 15:58:06
2156
1
原创 大数据 Guava冲突问题
程序使用的guava版本和hadoop hbase大数据之类的包冲突,总是报NoSuchMethod和ClassNoDef之类的错误解决方法:将guava-22.0单独打成jar包,并改名,再重新放回源程序基于maven-shade-plugin,guava单独打成jar包,修改包路径,并加入源程序的maven本地仓库1.guava单独打成jar包的pom文件<?xml version="1.0" encoding="UTF-8"?><project xmlns="http://
2020-10-10 10:51:44
1800
转载 2020-08-06
A/B测试背后有着高深的统计学知识,今天我们就来讲讲常见的辛普森悖论。辛普森悖论 (Simpson’s Paradox) 是英国统计学家 E.H.辛普森 (E.H.Simpson) 于1951年提出的悖论,即在某个条件下的两组数据,在分别讨论时都会满足某种性质,可是一旦合并起来进行考虑,却可能导致相反的结论。举一个辛普森悖论的简单小例子:一个大学里有商学院和法学院两个学院。这两个学院的女生都抱怨“男生录取率比女生录取率高”,有性别歧视。但是学校做总录取率统计,却发现总体来说女生录取率远远高于男生录取率!
2020-08-06 16:38:32
290
原创 python SimpleHTTPServer 使用
python SimpleHTTPServer本地目录分享python -m SimpleHTTPServer 10000获取 wget http://ip:10000/filename
2019-12-19 17:16:00
484
原创 java Load conf
1 加载resources下的普通文件//构造函数中InPutStream resourceAsStream = this.getClass().getClassLoader().getResourceAsStream("filter.txt")List listFilter= loadData(resourceAsStream)private static List<Strin...
2019-12-05 21:21:27
290
原创 ImmutableMap/ImmutableSet/ArrayList
private static Map<String,String> FeaturesMap = ImmutableMap.<String, String>builder().put("a", "a").put("b", "b").put("c","c").build();Set<String> needfactors = ImmutableSet.o...
2019-12-05 20:42:05
218
原创 windos idea bash 错误
idea 下 git bash 错误bash: /dev/null: Bad address修复以管理员身份运行CMD,在CMD下输入 sfc /scannow 进行系统扫描修复
2019-09-10 22:00:54
633
1
原创 ES学习
#创建 索引为blog 类型为article的文档curl -H 'Content-Type:application/json' -XPUT http://localhost:9200/blog/article/1 -d '{ "id": "1", "title": "New version of Elasticsearch released!", "con...
2019-08-31 20:41:11
276
原创 压力测试工具
1.siegea.安装$ wget http://download.joedog.org/siege/siege-latest.tar.gz$ tar -xvf siege-latest.tar.gz$ cd siege-4.0.4/ $ ./configure$ make && make installb.使用$ siege -c10(10个线程) -t10s...
2019-02-20 11:47:32
900
1
原创 git
1.远程与本地冲突git pull originerror: Your local changes to the following files would be overwritten by merge: recallctr-topology.iml src/main/java/com/wifi/recall/factorctr/DocMatrixCounte...
2019-02-18 19:55:51
151
原创 opentsdb加kerberos认证
1.编辑启动脚本 cat start_tsdb.shOPENTSDB_HOME=/data/opentsdbJVMARGS="${JVMARGS} -Djava.security.auth.login.config=${OPENTSDB_HOME}/jaas.conf -Dzookeeper.sasl.client=false" ./tsdb tsd --config=${OPENTSDB_...
2019-02-15 11:42:37
1256
原创 flink 学习笔记资料
1.https://blog.youkuaiyun.com/yanghua_kobe/article/category/61705732.http://www.54tianzhisheng.cn/tags/Flink/3.https://blog.youkuaiyun.com/liguohuabigdata/article/category/72790204.http://wuchong.me/5.https:/...
2019-01-02 10:40:39
525
原创 hbase 数据迁移
#!/bin/bash#hbase org.apache.hadoop.hbase.mapreduce.Import -Dimport.wal.durability=SKIP_WAL namespace:tablename /user/tjoffline/hbase_export_tablename/#hbase org.apache.hadoop.hbase.mapreduce.Impor...
2018-12-27 18:32:29
626
原创 hbase Filter使用
背景昨天同事反馈hbase查询返回无数据了,查了下返回RowTooBigEXcepiton,初步看是value过大导致?以为是有异常数据写入,我们hbase设计上一个列族,然后对应每个时间分片会通过动态列会记录时间分片类的数据指标,每天查询的时候通过rowkey +时间窗户, get返回对应的指标,分析初步分析,有数据异常,某个value值过大,因为默认value值的大小是1G...
2018-11-01 19:03:47
715
原创 hbase-2.1.0 源码阅读-2
接着上篇 我们看看在hmaster//hbase 继承自HRegionServerpublic class HMaster extends HRegionServer implements MasterServices //HRegionServer继承自 HasThreadpublic class HRegionServer extends HasThread implements ...
2018-10-15 19:57:31
411
原创 hbase-2.1.0 源码阅读
1.Hmaster启动用了这么久的hbase,今天开始着手hbase方面的源码阅读2.1.0版本刚发布不久,是Hbase 2.x系列的第二次版本。旨在提高 HBase 的稳定性和可靠性,主要更新内容如下:基于 Procedure v2 的复制对等修改串行复制最小 Hadoop 版本已更改为 2.7.1成功完成从 1.4.3 到 2.1.0 的滚动升级,这表明可以从 1.x 滚动升级到 ...
2018-10-11 15:50:59
1492
原创 hive 使用技巧
1.抽样从一个表中随机抽样得到一个不重复的数据样本,随机取样SELECT * FROM &amp;amp;amp;lt;Table_Name&amp;amp;amp;gt; DISTRIBUTE BY RAND() SORT BY RAND() LIMIT ;这是使用RAND()函数和LIMIT关键字来获取样例数据。使用DISTRIBUTE和SORT关键字来保证数据是随机分散到mapper和reducer的。ORDER BY ...
2018-10-10 12:06:45
1358
原创 hive如何使用json格式的数据
查看当前hive支持的json函数show functions like &quot;*json*&quot;;OKget_json_objectjson_tupleTime taken: 0.006 seconds, Fetched: 2 row(s) get_json_objectdescribe function get_json_object; OK get_json_object...
2018-09-26 14:12:09
2546
原创 python 消费 kafka 数据
1.安装python模块pip install --user kafka-python==1.4.3 如果报错压缩相关的错尝试安装下面的依赖yum install snappy-develyum install lz4-develpip install python-snappypip install lz42.生产者#!/usr/bin/env python...
2018-09-11 16:53:58
4220
原创 mac python 多版本管理
https://youjiexia.github.io/2017/05/01/Installing-Python27-and-Python36-Concurrently/
2018-08-20 17:03:12
847
原创 opentsdb+hbase+grafana
hbase 监控 https://blog.bcmeng.com/post/hbase-monitor.html http://www.54tianzhisheng.cn/2017/10/21/HBase-metrics/grafana 1.表的读写qps hbase metric hbase.regionserver.regions.readRequestCount/writeRe...
2018-08-03 15:54:42
968
原创 python 操作hive pyhs2
使用kerberos时import pyhs2class HiveClient: # 初始化 def __init__(self, db_host, user, password, database, port=10000, authMechanism="PLAIN", configuration=None): self.conn = pyhs2.conne...
2018-07-25 18:17:37
1964
原创 kylin 新版 dashbard 功能开启
1.在 kylin.properties 中将一下配置开启kylin.server.query-metrics2-enabled=truekylin.metrics.reporter-query-enabled=truekylin.metrics.reporter-job-enabled=truekylin.metrics.monitor-enabled=truekylin.web...
2018-07-17 20:18:35
1270
原创 cassandra 笔记
数据迁移 第一次使用cassandra,笔记一下,业务迁移,有两列数据没有迁移到新平台,特此实验,研究一下查看dbDESCRIBE KEYSPACE查看表DESCRIBE TABLES查看表信息DESCRIBE tablename创建测试表CREATE TABLE test.cl_test ( id int PRIMARY KEY, ...
2018-07-12 17:22:07
880
原创 hive1.2.1 分区表 增加列显示为null 问题
1.问题 hive中增加字段 发现之后之后添加的数据正常,之前数据无法读取 问题修复: 查找hive元数据的分区字段边 SDS MySQL [hive]&amp;gt; SELECT * FROM SDS WHERE location LIKE '%video_test%' ; +--------+-------+----------------------------------------...
2018-04-26 13:54:20
370
原创 kylin 开源可视化工具 superset使用
superset + kylin1.superset 和kylin 连接问题 使用kylinpy pip install kylinpy在kylin.py 增加解决下拉列表问题@compact_response() def list_schemas(self): table_schemas = [t['table_SCHEM'] for t in sel...
2018-03-31 14:21:32
2027
原创 kylin 读写分离构建问题
kylin非常时候做读写分离设计。即需要两个集群,一个做计算,另一个做存储 注意kylin起的环境变量通过hbase加载,因此在配置上需要不通的客户端配置来保障问题1:java.lang.ClassNotFoundException: org.apache.kylin.engine.mr.KylinMapper配置: kylin.engine.mr.lib-dir指向hive的...
2018-03-03 12:31:51
913
原创 spark hive hbase 结合
spark hive hbase 结合业务需求,需要整合需要读取hive数据导入hbase中,一下是环境配置流程以及中间遇到的问题1.spark读hive需要copy hive-site和hdfs-site 等配置文件到项目资源包下object hivesql { case class Record(key: Int, value: String) def ma
2018-01-18 14:04:41
1344
原创 spark thriftserver
1.hive mr 太慢了,基于次 适配 spark-sql的功能 ,于是乎,想通过spar启动thriftserver来解决问题1:17/12/29 16:28:59 WARN thrift.ThriftCLIService: Error opening session:java.lang.RuntimeException: Could not load shims in class org.a
2017-12-29 17:16:14
2069
原创 mysql Specified key was too long; max key length is 767 bytes
mysql建表错误 cursor.execute(statement, parameters) File "/home/wifi/supersetpy35/lib/python3.5/site-packages/MySQLdb/cursors.py", line 250, in execute self.errorhandler(self, exc, value) File "/
2017-12-28 14:03:44
26248
原创 hive + tez
安装配置1.下载:wget http://mirrors.hust.edu.cn/apache/tez/0.8.5/apache-tez-0.8.5-bin.tar.gztar -zxf apache-tez-0.8.5-bin.tar.gzcd apache-tez-0.8.5-bin/confvim tez-site.xml增加一下配置<configuration><property
2017-12-27 15:32:22
1477
原创 linux 僵尸进程
产生背景 买的云主机,装的docker,docker启动一段时间后,同事反映不能写入了,结果发现,根路径100% ,新手原因,他启动的时候没有映射本地路径,docker默认存储位置是/var/lib/docker 下,在镜像中写入的时候导致根目录沾满,于是让他听掉对应的进程,发现已经停不了了,无赖之下直接停止了docker 服务,发现有个镜像文件已无法识别。 再次启动systemctl star
2017-12-13 15:52:51
1142
原创 docker 中文乱码、时区问题
1.在进入容器时设置,发现进入之后设置并不生效docker exec -it f83573b2a54b env LANG=C.UTF-8 /bin/bash2.永久性生效Ubuntu操作系统 Dockerfile文件添加以下内容:set china time zone(方法一)ENV TIME_ZONE Asia/Shanghai RUN apt-get install tzdata RUN
2017-12-13 13:47:16
1158
原创 tensorflow 学习 demo(-)
#!/usr/bin/env pythonimport tensorflow as tf#numpy 是一个科学计算工具包,这里通过numpy工具包生成模拟数据集from numpy.random import RandomState#定义数据batch的大小batch_size=8#定义神经网络参数w1= tf.Variable(tf.random_normal(([2,3] ),stdd
2017-12-07 12:28:13
569
原创 hadoop 源码编译2.7.4
1。下载源码 查看BUILDING.txt,依据说明要求 进行编译yum -y install svn ncurses-devel gcc*yum -y install lzo-devel zlib-devel autoconf automake libtool cmake openssl-develwget https://sourceforge.net/projects/findbugs/fi
2017-12-04 18:15:56
269
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人