- 博客(60)
- 资源 (1)
- 收藏
- 关注
原创 Spark On Yarn的配置
Spark on Yarn模式下的配置spark-env.sh配置如下,standalone deploy mode部署模式下忽略export JAVA_HOME=/usr/jdk64/jdkexport SPARK_HOME=/opt/spark# Options read in YARN client/cluster modeexport SPARK_CONF_DIR...
2020-03-17 19:53:25
729
原创 win10中tensorflow-gpu安装
本机安装的版本号如下操作系统: Windows10 GPU型号: NVIDIA GeForce 920MXTensorFlow版本:tensorflow-gpu 1.9.0CUDA版本: cuda_9.0.176_win10CUDNN版本: cudnn-9.0-windows10-x64-v7.1安装python的...
2018-07-25 10:25:43
1141
原创 spark中日志清理
spark开启history-server之后,app日志会保存在制定的目录下,若yarn开启日志收集,也需要进行app-logs的自动清理## yarn日志收集yarn.log-aggregation.retain-seconds = 1209600yarn.log-aggregation.retain-check-interval-seconds = 86400## spa...
2018-07-17 10:54:26
3541
原创 回归评价指标
分类问题一般使用准确率,召回率等评价指标,但是回归问题评价一般使用误差相关定义指标:MSE Mean Squared Error 均方误差 这个就是目标损失函数loss functionRMSE rmse = sqrt(MSE)MAER2参考:https://blog.youkuaiyun.com/skullFang/article/details/79107127...
2018-07-10 16:40:49
325
原创 hbase regionserver进程启动参数
/usr/jdk64/jdk1.8.0_77/bin/java -Dproc_regionserver-Dcom.sun.management.jmxremote -Dcom.sun.management.jmxremote.port=18409 -Djava.rmi.server.hostname=10.50.70.20 -Dcom.sun.management.jmxremote.s...
2018-06-15 11:16:27
668
原创 hive中SerDe使用
SerDe is a short name for “Serializer and Deserializer.”Hive uses SerDe (and !FileFormat) to read and write table rows.HDFS files –> InputFileFormat –> <key, value> –> Deserializer –>...
2018-05-07 11:21:48
2575
原创 二分类评判指标
Precision:TP/(TP+FP),分类器预测出的正样本中,真实正样本的比例Recall:TP/(TP+FN),在所有真实正样本中,分类器中能找到多少Accuracy:(TP+TN)/(TP+NP+TN+FN),分类器对整体的判断能力,即正确预测的比例参考文章:http://alexkong.net/2013/06/introduction-to-auc-and-roc/...
2018-03-28 17:42:09
507
原创 NLP处理-Spark中的HashTF与CountVectorizer模型
http://spark.apache.org/docs/latest/ml-features.html#tf-idfimport org.apache.spark.ml.feature._import org.apache.spark.ml.linalg.SparseVectorimport org.apache.spark.sql.SparkSessionimport sc
2017-07-10 15:32:17
3089
原创 maven编译异常错误loading CharSequence class file is broken
在用maven对项目进行编译打包时,遇到了下面奇怪的编译错误"C:\Program Files\Java\jdk1.8.0\bin\java" "-Dmaven.home=C:\Program Files (x86)\JetBrains\IntelliJ IDEA Community Edition 2016.2.1\plugins\maven\lib\maven3" "-Dclasswo
2017-07-06 11:09:38
5817
原创 spark application运行时版本不兼容错误
17/06/27 14:34:41 INFO deprecation: mapred.map.tasks is deprecated. Instead, use mapreduce.job.maps17/06/27 14:34:41 INFO MemoryStore: Block broadcast_0 stored as values in memory (estimated size 788
2017-07-03 17:46:52
1148
原创 ssh远程到目标机器执行命令shell脚本
linux下ssh到目标机器首先需要配置免密码登陆,才能执行如下脚本 hostnames服务器列表文件master.hadoopw1.hadoopw2.hadoopw3.hadoopw4.hadoop 运行shell脚本#!/bin/bashfunction usage() { echo "Wrong arguments input..." echo "Usa
2017-06-30 09:50:49
2858
原创 spark读取mongodb数据
val spark = SparkSession.builder .appName(this.getClass.getName().stripSuffix("$")) .getOrCreate() val df = spark.read.format("com.mongodb.spark.sql").options( Map
2017-06-26 11:38:51
10460
原创 spark在windows上local模式下的缺失winutils.exe异常
在window10上Intellij IDEA上已Local的模式运行调试Spark程序,并且将中间结果写入本地目录时,程序抛出异常错误Using Spark's default log4j profile: org/apache/spark/log4j-defaults.properties17/06/19 11:24:33 INFO SparkContext: Running Spark
2017-06-19 11:49:41
5453
原创 mongo在shell中操作命令
在linux中安装mongodb的客户端很简单,下载对应版本的mongodb-linux-x86_64-rhel62-3.4.2.tgz,解压后加入目录bin到环境变量中就可使用mongo 198.168.0.1:27017/nlp -u nlp_s -p 123456 连接mongo之后,数据库操作命令# 查看库中所有表show collections;# 查看表中数据db.
2017-06-05 11:44:07
440
转载 随机变量协方差的意义
在概率论中,两个随机变量 X 与 Y 之间相互关系,大致有下列3种情况:当 X, Y 的联合分布像上图那样时,我们可以看出,大致上有: X 越大 Y 也越大, X 越小 Y 也越小,这种情况,我们称为“正相关”。当X, Y 的联合分布像上图那样时,我们可以看出,大致上有:X 越大Y 反而越小,X 越小 Y 反而越大,这种情况,我们称为“负相关”。
2017-05-26 14:12:16
3162
2
原创 spark提交任务端口占用异常
当在同一台机器上提交多个spark任务时 并且是以client的方式提交,会报端口占用错误17/05/05 15:51:07 WARN AbstractLifeCycle: FAILED org.spark-project.jetty.server.Server@3c8bdd5b: java.net.BindException: Address already in usejava.net.
2017-05-05 16:13:59
9518
原创 导数据中的网络引起的异常
最近由hive想应用数据库mysql 和 hbas导数据的时候,莫名的出现很多连接异常或者中断的情况,初步怀疑是开启并发过多占满网络带宽导致 导入mysql数据库Lost connection to MySQL server at 'reading authorization packet', system error: 0 导入Hbase数据库时ssh连接中断 ja
2017-04-27 14:52:37
546
转载 利用Fiddler进行http抓包
转载自 作者:Findyou地址:http://www.cnblogs.com/findyou/p/3491014.html前言:做前端测试,基本要求会抓包,会分析请求数据包,查看接口是否调用正确,数据返回是否正确,问题产生是定位根本原因等。不管是之前做HTML5手机项目测试,还是现在的企邮app测试,经常需要抓包,做前端开发基本第一时间会想到Fiddler,的
2017-04-25 16:56:31
1693
原创 hbase常用shell命令
#范围扫描scan 'edw_applications:user_profile_customer', STARTROW=> '00502be7c4df-8509-d144-b2c8-03108f00', ENDROW=> '00502be7c4df-8509-d144-b2c8-03108f00'#值扫描scan 'edw_applications:user_profile_
2017-04-25 15:57:32
495
原创 hive上创建表视图
数据仓库中对有些表采用全量分区,每天一个历史镜像数据,有些数据应用系统正好使用该类型表,可以对外输出一个表视图使数据消费方不用关心是何种类型的表,在workflow中每天定时重建该视图,还可以屏蔽调度数据失败对外面的影响,即使失败数据消费方还能继续work,只是数据是前天生成的而不是最新的数据drop view if exists edw.test_tablename_view;crea
2017-04-25 14:50:25
1944
原创 HDFS上磁盘数据清理
HDFS数据清理一些办法:datanode数据做reblance 清理临时目录、日志目录文件 全量分区表历史分区清理 使用lzo,orc格式进行数据压缩 清理或者归档历史冷数据 增加datanode横向扩容附上自动清理目录下过期的文件#!/bin/bashsource ~/.bash_profile# 将待检测的目录(可以为多个)加载至数组中yarn_log_di...
2017-04-14 08:31:02
5467
原创 windows下python环境安装与配置
1. Python安装包在https://www.python.org/downloads/下载, 因对对python2.x熟悉些 所以下载的是python-2.7.13版本 安装完成后添加环境变量 Path=%Path%;C:\Python272. 安装Python pip工具来安装管理python库包,https://pypi.python.org/pypi/pip#dow
2017-03-23 15:05:35
508
原创 hadoop常用命令整理
1. 直接删除文件不进入垃圾回收桶 hadoop fs -rm -r -skipTrash xxxx2. 基于yarn提交的application查看日志和stdout,stderr输出 yarn logs -applicationId application_1479210500211_555588 > spark.log
2017-02-15 10:32:59
493
原创 impala大数据量查询/tmp/impala-scratch创建异常
使用impala对大数据量查询distinct的时候出现如下错误5ab149d_24414dab2c19caca:e54b206c5ab149f_91001337-9d70-4c93-84ce-e7916c1ae804 failed with errno=2 description=Error(2): No such file or directoryBackend 4:Create fil
2017-02-10 17:37:11
1819
原创 横竖表相互转换SQL
以Oracle数据库为例,测试在数据处理中经常遇到数据库中横表和竖表的相互转换,采用学生各科成绩分数为测试数据横表转换竖表:CREATE table score( username varchar(10) , chinese int , math int , physics int); INSERT into score(username ,
2017-02-10 17:08:46
4976
原创 spark-submit提交的shell脚本
spark-submit向yarn提交application的脚本,包括spark参数、环境变量、应用程序参数传入#!/bin/bashsource ~/.bash_profileAPP_HOME=/home/data_user/recommendecho $APP_HOME###################### etl候选集和浏览数据集 #################
2017-02-09 14:10:02
8809
原创 hive sql优化整理
Hive sql优化方法参数一些整理,方便快速查找使用1. map数量与reduce数量的控制 输入文件大小指实际文件大小,与文件格式textfile, ORC等无关,压缩的文件格式会小很多设置参数要适当调整--map数量控制set hive.input.format=org.apache.hadoop.hive.ql.io.CombineHiveInputFormat;set mapr...
2017-02-09 12:58:46
1107
原创 hive常用函数整理
Hive常用的函数整理,方便快速查找使用1.时间戳格式化select from_unixtime(unix_timestamp(),'yyyy-MM-dd HH:mm:ss');select current_timestamp;2. 时间日期大小比较(天)select datediff('2016-09-01','2016-08-01');select datediff(f
2017-02-09 10:53:30
1349
原创 hive常用sql整理
Hive常用的sql整理,方便快速查找使用1.创建Hive表CREATE TABLE if not exists edw_applications.dws_test_table ( cid string, event_code int, event_date string, house_
2017-02-04 16:03:31
1438
原创 Linux下网络设置
Linux下网络环境相关配置,基于Redhat版本的设置1. 静态IP配置vim /etc/sysconfig/network-scripts/ifcfg-eth0DEVICE=eth0ONBOOT=yesBOOTPROTO=staticIPADDR=192.168.0.3NETMASK=255.255.255.0GATEWAY=192.168.0.1
2017-02-04 15:04:52
280
原创 mysql导出库结构和表数据
##导出整个数据库结构和数据mysqldump -h localhost -uroot -p123456 database > dump.sql##导出单个数据表结构和数据mysqldump -h localhost -uroot -p123456 database table > dump.sql ##导出整个数据库结构 (不包含数据)mysqldump -h
2017-02-04 14:52:18
395
原创 运行java程序shell脚本
一个运行普通Java程序的shell脚本,指定运行的jdk,依赖jar路径和运行时arguments#!/bin/bashsource ~/.bash_profileAPP_HOME=/home/xubc/app_testecho $APP_HOMEfor f in $APP_HOME/lib/*.jar; do APP_CLASSPATH=$f:${APP_CLASSPAT
2017-02-04 14:29:00
751
原创 kafka0.8.2命令
## kafka启动zookeeper-server startbin/kafka-server-stop.sh nohup bin/kafka-server-start.sh config/server.properties > logs/kafka-server-start.log & ## 查看当前节点状态echo stat | nc 127.0.0.1 2181
2017-02-04 14:06:21
1045
原创 数据库SQL解析执行过程
SQL解析执行的主要步骤:1. 对提交SQL的进行判断是否已解析和生产执行计划,对已生成执行计划的SQL直接执行返回结果2. 对SQL进行语法规范检查3. 对SQL进行语义检查,使用表、字段、函数、视图等数据库对象是否存在,以及是否拥有对应的操作权限4. 将SQL解析成语法树,按照不同的算法策略并做一些替换其中视图、表达式,合并查询等优化,去生成由关系代数算子组成的(投影 (π),
2017-02-03 16:49:28
2457
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人