- 博客(418)
- 资源 (3)
- 问答 (1)
- 收藏
- 关注
原创 combineByKey 一点通
var rdd = sc.makeRDD(Array(("A",2),("A",1),("A",3),("B",1),("B",2),("C",1))) val collect: Array[(String, String)] = rdd.combineByKey( (v: Int) => v + "_", (c: String, v: Int) => c + "@" + v,//同一分区内 (c1: String, c2: String) ...
2022-02-16 10:40:06
763
原创 coalesce 影响task数量解决方法
coalesce算子不是suffle算子,在划分stage时不会把它分在一个独立的stage中,而它又明确指定了分区数,所以这个stage的分区数就由它确定了,如果目的是为了减少输出文件而合并分区,但是又不影响上一个stage的并行度,可以执行colesce(num,true)让coalesce发生shuffle,这样它的分区数就不会影响到上一个stage了但是会多发生一次shuffle...
2021-08-26 16:29:30
456
原创 xgboost面试小结
这几天面试,面了很多讲xgboost,自己也是半吊子,在这里总结一下考点1.error :bias和variance2.特征选择 与 特征构造:特征组合可以提升逻辑回归模型对非线性性数据的拟合能力。3.并行:树之间是必须串行训练的,但是树里的每个节点是可以串行训练的4.输出结果:每棵树的输出结果相加5.残差训练:正确值减掉输出值作为下一个样本的输入...
2021-08-26 16:27:35
379
原创 spark jobs 数量有什么决定?
参考:(6条消息) spark中job,stage,task之间的关系_mys_35088的博客-优快云博客我猜,是由不相干的reduce的数量决定的,注意,是不相干,如果reduce之间有联系,那就是同一个job了。
2021-08-23 22:31:38
514
原创 pycharm 安装不了git,原因是目录不对
艹,坑死我算了,应该是这个目录C:\Program Files\Git\cmd\git.exe,之前我一直用的是git-bash那个,导致一直不对。
2021-08-17 17:54:48
5250
原创 scala + = 和 +=
scala> var a =1a: Int = 1scala> a + = 1 ^ error: ambiguous reference to overloaded definition, both method + in class Int of type (x: Char)Int and method + in class Int of type (x: Byte)Int match expected type...
2021-08-10 15:15:49
552
原创 gbdt,xgboost,lightgbm
Q1:xbg为啥快?所谓的并行,是指,每个特征算增益的时候,是并行算的,而不是每棵树是并行算的Q2:gbd的输入是什么?每棵树的输入是什么?回答这个问题,要明白,构建每个树,都是为了让总体的loss达到最小。对于mse,真实y值和前一个树的输出的差即所谓残差作为正好能让总体的loss最小,所以每个树正好是y值残差但是xbg,每个树的输入,还是原来的数值。但是在构建每个树的时候,至于叶节点的值,是最小化loss导出最大化信息增益然后导出每个节点的w值...
2021-08-06 14:22:41
151
原创 scala里的import scala.collection.immutable.HashMap import scala.collection.mutable
import scala.collection.immutable.HashMap这个map是个坑,很多op都不能用,比如put,+=(k->v),foreachimport scala.collection.mutable这个是好用的,我试过的操作都可以
2020-10-21 15:38:35
1116
原创 mysql 遇到的大坑,!= NULL 和 is not null
有屎以来最丑的坑:MySQL [general_growth]> select "d" != null ;+-------------+| "d" != null |+-------------+| NULL |+-------------+1 row in set (0.00 sec)MySQL [general_growth]> select "d...
2019-10-15 10:39:05
653
3
原创 sed 或运算 同时处理两个字符串 用\|,记住,一定要加上转移斜杠
finish_out0.000000 0.536274 b'63939' b'3418219'0.000000 0.058268 b'59920' b'7633987'0.000000 0.385762 b'250422' b'13985778'0.000000 0.034014 b'20789' b'13943778'0.000000 0.056284 b'223316' b'140...
2019-04-02 10:27:42
3028
原创 tar --exclude 的坑
晕,已解决# tar -cvzf test.tar.gz --exclude=test/005/ test# tar -cvzf test.tar.gz --exclude=test/005test这两个效果是绝对不一样的。、不要加斜杠啊啊啊啊啊啊啊啊啊tar -cvf deepfm.tar deepfm/ --exclude deepfm/model/wide_deep_x...
2019-03-31 16:04:02
4620
1
转载 因为一次时区问题闹的误会,尴尬
timestamp也可以直接被转换到UTC标准时区的时间:>>> from datetime import datetime>>> t = 1429417200.0>>> print(datetime.fromtimestamp(t)) # 本地时间2015-04-19 12:20:00>>> print(dat...
2019-03-01 11:22:57
297
转载 scala Seq Array List 区别
seq()和array()Scala数组与Scala序列是兼容的 - 在需要Seq[T]的地方可由Array[T]代替。最后,Scala数组支持所有的序列操作。https://www.cnblogs.com/iceelor/p/6039088.htmlScala的Seq将是Java的List,Scala的List将是Java的LinkedList。https://zhidao.ba...
2019-01-24 11:53:04
14820
1
原创 连续join
在实际工作中,很多情况下会用到外连接,尤其是做主页面的数据展示查询时,连续用到多个left join会很常见,这样的多个left join会怎么样执行呢,之前在网上查到的执行顺序是,顺序的从坐到右的连接表,例如有 a,b,c三张表的数据都需要查到,就需要进行连接查询,如 select * from a left join b on a.id = b.id left join a.id = ...
2019-01-22 09:34:52
510
转载 source 命令找不到
zz:https://blog.youkuaiyun.com/liuweihang/article/details/70049246执行shell报错source:notfound2017年04月11日 11:14:05 _vliu 阅读数:2100更多个人分类: Linuxsudo sh rsyncclient.shrsyncclient.sh ---------source ${A...
2018-10-29 15:31:47
11810
1
原创 机器学习小结
关于svm和神经网络的恩爱情仇两者都是在寻找一个可分割的超平面,单层神经网络的感知机是线性可分,非线性不可分的。有局限性。这时候svm出现了,通过核函数解决了非线性数据的问题。后来随着硬件的发展解决了多层神经网络的计算问题,神经网络也可以做非线性数据的分割问题了 至于svm怎么寻找超平面的,大概分三步第一步,线性可分,求距离各个样本距离最短的超平面。第二步,线性不太可分,引入松...
2018-08-14 15:41:32
273
原创 关于boost和bagging对error的影响
error分为bias和variance。boost,多个二傻子一起思考,第一个二傻子只会算加法,第二个二傻子只会算乘法。最后得出的结果,就比较接近真实值,bias就比较小 bagging,多个聪明人,第一个聪明人,可能估值偏小,第二个聪明人可能估值偏大。总体想加,variance就小了...
2018-08-01 14:35:37
341
原创 mysql数据库同步
因为权限问题,不能用mysqldump或是load file的方式。。。所以自己手动写脚本导入。遇到了很多坑,最主要的就是null和空格问题:function manage_db(){ mysql -h "s4494i.mars.grid.sina.com.cn" -P 4494 -u ea_fuyi_read_r -p3c5c7dfb6d873b7 ea -N -e "set ...
2018-07-25 14:21:11
410
原创 【Windows环境下jdk安装环境配置】
set JAVA_HOME=C:\Program Files\Java\jdk1.8.0_171set PATH=%JAVA_HOME%\bin;%PATH%set CLASSPATH=.;%JAVA_HOME%\lib;%JAVA_HOME%\lib\tools.jar
2018-07-12 17:56:23
202
转载 python mysql_config: command not found 安装 MySQL-python 的错误解决
yum -y install MySQL-python问题解决只是下面blog的评论https://blog.youkuaiyun.com/changdejie/article/details/19415147
2018-05-04 14:23:40
1803
转载 解决ERROR 2002 (HY000): Can't connect to local MySQL server through socket '/tmp/mysql.sock' (2)
https://stackoverflow.com/questions/4448467/cant-connect-to-local-mysql-server-through-socket-var-lib-mysql-mysql-sock/31984482#31984482
2018-05-04 12:01:36
399
原创 Python文件直接操作文件描述符open的大坑
17 fr1 = open(file1).readlines() 18 fr2 = open(file2).readlines() ###如果是fr2 = open(file2) ,那么for 嵌套循环会报错 19 sh_dict = {} 20 cnt_mil = 0 21 cnt_ent =0 22 cnt_tech = 0 23 ch1 = '' 24 for l
2018-01-23 15:26:47
2606
原创 awk的数组
awk -F '\001' '{split($3,a,",");print $1"\001"$2"\001"a[1]"]"}' all.result >awk.result
2018-01-19 20:35:55
1078
原创 awk重复行输出重复数,逆排序
cat mark.all |awk -F '\t' '{a[$1]++}END{for(i in a){print i,a[i] | "sort -k 2nr"}}'
2018-01-19 20:15:08
2208
原创 xargs解决循环的问题
ls *.original |xargs -I @ echo " head -10000 @ > ratio/@.10000 "|sh
2018-01-17 19:39:13
1656
原创 建索引后,发现还是慢,原因竟然是。。。
我的搜索条件extension2设为数字,但实际上是字符串,这里包含了隐式转换,可能对全表做了很多次扫描。太惨痛的教训了
2017-12-26 16:52:33
8795
1
原创 line 132: syntax error: unexpected end of file
这种情况,一般不是Windows转Unix引起的。一般是if ...fi 双引号,大括号引起的
2017-12-19 11:08:48
983
原创 Git 状态 untracked 和 not staged的区别
untrack表示是新文件,没有被add过,是为跟踪的意思。not staged 表示add过的文件,即跟踪文件,再次修改没有add,就是没有暂存的意思具体看:https://git-scm.com/book/zh/v2/Git-%E5%9F%BA%E7%A1%80-%E8%AE%B0%E5%BD%95%E6%AF%8F%E6%AC%A1%E6%9B%B4%E6%96%B0%E5%88
2017-12-14 17:37:23
18830
转载 python 从哪开始执行 之 main 函数
[ Python ] python 从哪开始执行 之 main 函数转载 2013年04月11日 08:53:0715375http://www.cnblogs.com/lvxiuquan/archive/2012/07/09/2582437.htmlpython main函数初次接触Python的人会很不习惯Python没有ma
2017-12-07 14:32:22
16242
原创 写文件时候,permission deny的原因:建文件,ls,用户和用户组
我今天写脚本遇到写入一个文件时候,发生permission deny的错误。查了原因:我用root用户建立的文件夹,然后用zeus用户写这个文件夹下的文件。而mkdir 的目录,系统默认权限,用户所在的组只有读,没有写的权限。如下图所示:后记:之前zeus不在用户root组里面的,我 usermod -g root zeus 赋予zeus用户root权限,
2017-12-06 14:53:30
1449
原创 mysql update join
update cec_item_lib a inner join cec_item_info_lib b on a.item_id = b.item_id set a.status =10 where substring_index(b.categroy,';',1) in ("699","703","807","13529","1410","4978","4979","12323","490
2017-09-22 20:15:05
1458
原创 hive表insert table into这个要注意
insert into table cna_goods_info PARTITION(dt='20170905') select 跟sql不一样。table后面没有(),而且要有table关键字
2017-09-06 10:06:29
7226
转载 python处理命令行参数
http://blog.youkuaiyun.com/shy871265996/article/details/17247529例 10.20. sys.argv 介绍如果您还没有下载本书附带的样例程序, 可以 下载本程序和其他样例程序。#argecho.pyimport sysfor arg in sys.argv: print arg每个
2017-09-02 11:30:01
563
原创 使用xargs循环查找文件中的字符串并打印出来
sed -n "539,1469p" cate_data_all |awk -F "\t" '{print $2}' |xargs -I {} grep ',,{}' item_id.thread.all一直不知道xargs的{}能不能在别的shell命令中双引号里起作用,这次试了一下,跟我用Python执行的结果是一样的,看来是可以的【步骤五】sed -n "开始行,结束
2017-08-31 10:17:54
1537
转载 使用grep精确匹配一个单词
使用grep精确匹配一个单词2012-05-24 15:35:09标签:的 abc原创作品,允许转载,转载时请务必以超链接形式标明文章 原始出处 、作者信息和本声明。否则将追究法律责任。http://lynnteng0.blog.51cto.com/2145094/876020面试时问到一个问题,要精确的找出进程名为abc,判断进程的数量是否在3-5之间,如果不在,
2017-08-31 10:00:49
23654
1
逻辑地址在运行时会发生变化吗?
2014-01-03
TA创建的收藏夹 TA关注的收藏夹
TA关注的人