- 博客(66)
- 资源 (5)
- 问答 (13)
- 收藏
- 关注
原创 IDEA import java.nio.file.Files包报错
IDEA import java.nio.file.Files包报错我报错的原因:解决方案:
2021-07-17 15:11:11
852
1
转载 spark RDD collect()
collect的作用 Spark内有collect方法,是Action操作里边的一个算子,这个方法可以将RDD类型的数据转化为数组,同时会从远程集群是拉取数据到driver端。已知的弊端 首先,collect是Action里边的,根据RDD的惰性机制,真正的计算发生在RDD的Action操作。那么,一次collect就会导致一次Shuffle,而一次Shuffle调度一次stage,然而一...
2018-08-24 17:01:05
28361
原创 Hive报错"Expression not in GROUP BY key"
select user_id, distance from table a group by user_id这是由于根据user_id做group by时,每个user_id存在多个distance,考虑只保留一个distance或使用collect_set函数。select user_id, min(distance) from table a...
2018-08-24 16:33:31
4007
原创 hive中的concat,concat_ws,collect_set用法
需求:对用户的信息进行分析,相同用户的地址信息按照不同类型分别展示出来,每个用户一行。table1: user_id location location_type 123 w2ny6s ...
2018-08-24 16:12:36
23127
原创 python-xgboost 异常AttributeError: 'DMatrix' object has no attribute 'handle'
xgboost异常AttributeError: ‘DMatrix’ object has no attribute ‘handle’ 提示的错误是DataFrame.dtypes for data must be int, float or bool.通过分析训练样本的类型发现,存在一列的数据是object类型,需要将其转换为int/float/bool 类型。可以通过pd.to_nu...
2018-08-14 11:09:11
5059
转载 pandas中Dataframe的查询方法([], loc, iloc, at, iat, ix)
pandas中Dataframe的查询方法([], loc, iloc, at, iat, ix)
2018-08-13 11:56:34
455
原创 spark运行原理
1、YARN架构设计详解 2、Spark on Yarn的运行原理 3、详细探究Spark的shuffle实现 4、Spark基本工作流程及YARN cluster模式原理 5、Spark学习笔记1:Application,Driver,Job,Task,Stage理解...
2018-07-22 18:25:30
537
转载 over partition by与group by 的区别
这里首先给出一个简单的表,表ss结构如下: D号 工资 部门 userid salary dept 1 2000 1 2 1000 1 3 500 2 4 1000 2 现在需要查询出部门的最低工资的userid 号 有一个高人给出了一种答案: SELECT MI...
2018-07-19 10:58:17
431
转载 scala中下划线的使用
1、用于替换java的等价语法 1.1 导入通配符 *在scala中是合法的方法名,所以导入包时使用_代替//Javaimport java.util.*//scalaimport java.util._1.2 类成员默认值 Java中类成员可以不赋初始值,编译器会自动帮你设置一个合适的初始值class test{ String s;}而在scala中必须...
2018-07-16 20:02:02
729
转载 CART分类与回归树与GBDT(Gradient Boost Decision Tree)
CART分类与回归树与GBDT(Gradient Boost Decision Tree)
2017-08-05 21:51:17
7325
转载 梯度提升树(GBDT)原理
在集成学习之Adaboost算法原理小结中,我们对Boosting家族的Adaboost算法做了总结,本文就对Boosting家族中另一个重要的算法梯度提升树(Gradient Boosting Decison Tree, 以下简称GBDT)做一个总结。GBDT有很多简称,有GBT(Gradient Boosting Tree), GTB(Gradient Tree Boosting ), GBRT
2017-06-23 18:19:15
1039
原创 vector--resize()
std::vector::resize void resize (size_type n, value_type val = value_type());Change size Resizes the Container so that it contains n elements.If n is smaller than the current container size, the cont
2017-02-28 10:46:29
594
原创 评价分类器的性能
1、准确率–0/1损失 对于一个特定的测试点,损失或者为0或者为1,取决于预测是正确还是错误的。显然,这个值越低越好。 不足: (1)、如何评价这个量不容易,如0.2怎么样? (2)、对于类别数据不平衡的数据,如80%是类别一,20%是类别2,如果我们总 是将对象归为类别1,却也能得到0.2的平均损失。下面介绍一个克服这个问题的方法。2、
2017-02-26 12:06:45
3755
转载 先验概率,后验概率,似然概率,条件概率,贝叶斯,最大似然
先验概率,后验概率,似然概率,条件概率,贝叶斯,最大似然 总是搞混,这里总结一下常规的叫法:先验概率:事件发生前的预判概率。可以是基于历史数据的统计,可以由背景常识得出,也可以是人的主观观点给出。一般都是单独事件概率,如P(x),P(y)。后验概率:事件发生后求的反向条件概率;或者说,基于先验概率求得的反向条件概率。概率形式与条件概率相同。条件概率:一个事件发生后另一个事件发生的概率。一般的形式为
2016-12-25 17:37:14
885
转载 python2.7--字符串和编码
字符编码 我们已经讲过了,字符串也是一种数据类型,但是,字符串比较特殊的是还有一个编码问题。因为计算机只能处理数字,如果要处理文本,就必须先把文本转换为数字才能处理。最早的计算机在设计时采用8个比特(bit)作为一个字节(byte),所以,一个字节能表示的最大的整数就是255(二进制11111111=十进制255),如果要表示更大的整数,就必须用更多的字节。比如两个字节可以表示的最大整数是6553
2016-12-16 20:36:44
941
转载 python中的import,reload,以及__import__
import 作用: 导入/引入一个python标准模块,其中包括.py文件、带有init.py文件的目录。 e.g:import module_name[,module1,...] from module import *|child[,child1,...]说明: 多次重复使用import语句时,不会重新加载被指定的模块,只是把对该模块的内存地址给引用到本地变量环境。 测试:a.p
2016-12-08 16:10:48
598
转载 c++--模板编译
如何组织编写模板程序 前言 常遇到询问使用模板到底是否容易的问题,我的回答是:“模板的使用是容易的,但组织编写却不容易”。看看我们几乎每天都能遇到的模板类吧,如STL, ATL, WTL, 以及Boost的模板类,都能体会到这样的滋味:接口简单,操作复杂。我在5年前开始使用模板,那时我看到了MFC的容器类。直到去年我还没有必要自己编写模板类。可是在我需要自己编写模板类时,我首先遇到的事实却是 “传
2016-09-25 23:05:11
482
原创 leetcode-349. Intersection of Two Arrays
Given two arrays, write a function to compute their intersection.Example: Given nums1 = [1, 2, 2, 1], nums2 = [2, 2], return [2].Note: Each element in the result must be unique. The result can be in
2016-09-01 10:14:49
325
转载 Python IDLE reload(sys)后print无法正常执行命令的原因
python IDLE reload(sys)后print无法正常执行命令的原因
2016-07-05 20:42:02
4036
原创 最短路径问题--Floyd多源最短路径算法
Dijkstra和Bellman_Ford都是从一个起点出发,计算到各顶点的距离。不过有时候需要求对所有成对定点的最短距离。引入了Floyd算法。Floyd算法考虑的是一条最短路径上的中间结点。假设图中有一个定点x,对于u到v的最短路径,该路径可能经过x,也可能不经过x。
2016-06-30 16:45:55
1513
Kmeans算法,C++实现,但是有点问题,想请大家帮忙解决一下,谢谢
2015-12-01
SIFT算法,中有关于去除边缘响应点的问题
2015-11-26
adaboost算法 中权值的问题
2015-11-21
opencv 摄像头读取视频保存
2015-10-18
关于Halcon算子的问题
2015-08-17
用JAVA将彩色图像变为灰度图像
2015-05-17
ImageIo.write()保存图片,保存后的图片是漆黑的
2015-04-16
新手下载了Genymotion,是和VirtualBox一起的,
2015-04-06
spring @resource @Component @Autowired
2015-03-24
双向关系中mappedBy应该放在哪一边
2015-03-19
Hibernate 有关get和load的差别
2015-03-18
Tomcat在运行DRP项目文件上传出现空指针错
2015-01-28
myeclipse运行项目时总会弹出ThreadPoolExecutor
2015-01-25
TA创建的收藏夹 TA关注的收藏夹
TA关注的人