- 博客(21)
- 资源 (7)
- 问答 (1)
- 收藏
- 关注
原创 flink设置historyserver
可以参考下官网https://ci.apache.org/projects/flink/flink-docs-release-1.8/monitoring/historyserver.html1:配置conf/flink-conf.yaml文件,修改参数如下:flink job运行完成后的日志存放目录jobmanager.archive.fs.dir: hdfs://nameservi...
2019-12-06 14:04:31
1223
原创 在spark,MapReduce 或 Flink 程序里面制定环境变量
以jdk来举例,当我们需要 更高版本的jdk时,而默认的环境引用的是低版本的jdk,会引发如下错误: Exception in thread "main" java.lang.UnsupportedClassVersionError: com/iteblog/mobile/UserMobileInfo : Unsupported major.minor version 52.0 ...
2019-12-06 10:24:48
483
原创 hive使用tez环境配置
Tez引擎包下载:https://mirrors.tuna.tsinghua.edu.cn/apache/tez/0.8.4/apache-tez-0.8.4-bin.tar.gz1:将下载的安装包解压$ pwd/opt/ubd/core$tar -zxvf apache-tez-0.8.4-bin.tar.gz重命令tez 文件夹$mv apache-tez-0.8....
2019-12-05 16:47:24
931
原创 spark日常报错问题-持续性更新
1:spark运行过程中出现与driver链接异常,并存在磁盘读写一场:java.io.IOException: Failed to delete: /mnt/sd04/yarn/nm/usercache/hdfs/appcache/application_1570683010624_24827/blockmgr-24356fee-b578-49a1-8e97-9588d2d1180e...
2019-11-22 10:49:34
4972
1
原创 机器学习(十二):深度神经网络浅析
先阐述一些概念性的东西(也是对之前的东西的回顾,记性不好,老忘):回归问题与分类问题:回归:计算圆形面积的例子就属于回归问题,即我们的目的是对于一个输入x,预测其输出值y,且这个y值是根据x连续变化的值。分类:分类问题则是事先给定若干个类别,对于一个输入x,判断其属于哪个类别,即输出一般是离散的监督学习和无监督学习:监督学习:通过训练让机器自己找到特征和标签之间的联系(注:也就...
2019-04-23 17:42:57
645
原创 机器学习(十一):新闻摘要提取小案例
注:基于现有案例教程完成一个相对简单的 “关键字提取” 算法,来达到最自然语言处理的一个初步的理解。词汇数据下载:http://labfile.oss.aliyuncs.com/courses/741/nltk_data.tar.gz也可以用下面的下载import nltknltk.download('stopwords')nltk.download('punkt')...
2019-04-22 18:59:11
1261
原创 机器学习(十):自然语言处理初级理解
什么是自然语言处理:NLP(Natural Language Processing,自然语言处理)当中所谓的「自然」是为了与人造的语言(比如 C 语言, JAVA 等)区分开来,指自然形成的语言,即平时人们日常使用的交流的语言。「语言」则是人类区别其他动物的本质特性。在所有生物中,只有人类才具有语言能力。人类的多种智能都与语言有着密切的关系。人类的逻辑思维以语言为形式,人类的绝大部分知识也是以...
2019-04-22 16:40:28
493
原创 机器学习(九):鸢尾花-逻辑回归
注:基于现有案例教程鸢尾花数据来源于seaborn中自带的数据集,很多类似的都会自带这个数据集代码如下:import pymc3 as pmimport pandas as pdimport scipy.stats as statsimport theano.tensor as ttimport seaborn as snsimport matplotlib.pyplot ...
2019-04-22 15:55:09
1469
原创 机器学习(八):nba数据分析小案例
注:基于实验楼一个小项目数据下载地址:http://labfile.oss.aliyuncs.com/courses/782/data.zip代码如下:import pandas as pdimport mathimport csvimport randomimport numpy as npfrom sklearn import linear_modelfrom s...
2019-04-21 22:31:22
2411
1
原创 机器学习(七):k邻近算法初级浅析案例
注:基于现有小案例攥写K 近邻算法采用测量不同特征值之间的距离方法进行分类:优点:精度高、对异常值不敏感、无数据输入假定。缺点:计算复杂度高、空间复杂度高。K 近邻算法适用数据范围为:数值型和标称型标称型:标称型目标变量的结果只在有限目标集中取值,如真与假数值型:数值型目标变量则可以从无限的数值集合中取值,如0.100,42.001等工作原理:存在一个样本数据集合,也...
2019-04-19 16:08:17
202
原创 机器学习(六):初级matplitlib绘图-之前的微补充
将一张图绘制在另一张图的内部:fig = plt.figure() # 新建画板axes1 = fig.add_axes([0.1, 0.1, 0.8, 0.8]) # 大画布axes2 = fig.add_axes([0.2, 0.5, 0.4, 0.3]) # 小画布# 大画布axes1.plot(x, y, 'r')# 小画布axes2.plot(y, x, 'g')...
2019-04-18 19:01:33
436
原创 机器学习(五):初级matplitlib绘图-其他绘图样式和3维绘图
注(百度百科案例)使用二维数据集和其他一些数据:散点图:import numpy as npimport matplotlib as mplimport matplotlib.pyplot as pltnp.random.seed(2000)y = np.random.standard_normal((1000,2))plt.figure(figsize=(7,5))pl...
2019-04-18 18:43:02
503
原创 机器学习(四):初级matplitlib绘图-2维绘图
注:百度百科案例首先,我们必须导入对应的库。主要的绘图函数在子库matplotlib.pyplotimport numpy as npimport matplitlib as nmlimport matplotlib.pyplot as plt%matplotlib inline注:%matplotlib inline是再使用jupyter notebook或者jupyter...
2019-04-18 17:42:50
627
原创 机器学习(三):决策树,随机森林
树形模型是机器学习中最为常用的模型之一,其同KNN算法一样,也是弱假设型模型。而树形模型里面的决策树是bagging、随机森林以及boosting的基础,因此想要了解随机森林,首先要了解决策树:决策树是一种树形结构,其中每个内部节点表示一个属性上的测试,每个分支代表一个测试输出,每个叶节点代表一种类别。常见的决策树算法有C4.5、ID3和CART。而一个树形模型经常包含以下定义:根节点...
2019-04-18 10:13:09
766
原创 机器学习(二):线性回归浅谈
定义:线性回归:用一条直线较为准备的描述数据 之间的关系(注:通过属性的线性组合来进行预测的线性模型,找到一条直线或者一个 平面,使得预测值与真实值之间的误差最小,常见于房价的预测)特点:计算熵不复杂,但是对非线性的拟合并不好注:(建模速度快,不需要很复杂的计算,在数据量大的情况下依然运行速度很快。可以根据系数给出每个变量的理解和解释。对异常值很敏感。)问题:假定现有一个房价数...
2019-04-17 10:59:19
291
原创 机器学习(一):监督学习与非监督学习
首先来一个大概的定义:监督学习:通过训练让机器自己找到特征和标签之间的联系(注:也就是学习的训练集包含输入和输出,得到了最优参数模型之后 ,新来的数据集在面对只有特征没有标签的情况下时,可以判断出标签)无监督学习:训练数据中只有特征没有标签,输入数据没有被标记,也没有确定的结果。样本数据类别未知,需要根据样本间的相似性对样本集进行分类。(注:不一定"分类",没有训练集,旨在寻找规律性,不予...
2019-04-13 11:21:39
702
原创 The maximum path component name limit
今日同事一个测试的任务经常异常退出查看相关job日志:org.apache.hadoop.yarn.exceptions.YarnRuntimeException: org.apache.hadoop.ipc.RemoteException(org.apache.hadoop.hdfs.protocol.FSLimitException$PathComponentTooLongExce...
2019-03-06 10:34:45
1842
原创 hive小文件造成map多
问题现象:hive查询时生成了大量的map,损耗了过多的cpu资源,参数调配没有生效问题分析:hive的map数 是由设定的inputsplit size来决定,hive封装了hadoop给出了inputformat的接口,用于描述输入数据的格式,并交由hive.input.format参数所决定,其中包含了两种主要使用类型:1:HiveInputFormat 2:CombineH...
2018-12-21 10:32:22
1393
原创 kafka参数整理
首先感谢很多先辈们的总结,让我省去了很多思考的功夫,更快的整理出这些从0.10.0 kafka官网中查询到的参数,但是感觉官网列出的这些参数不是很全,后续发现新参数会逐步添加到这个里面。如果有同事发现错误的地方或者有个人见解的地方也请留言,我会感谢并进行整合修改。Listeners默认值:null描述:例如PLAINTEXT://172.16.49.173:9093 advertised.host...
2018-03-14 18:03:21
2077
原创 关于xlearning的安装使用初步简介
最近发现了一个做事很认真的做算法同事,身上很多优点值得我学习,推荐使用了一种360的开源工具,可以将tensoeflow提交至yarn里面。这个工具感觉解决了很多问题。我这个人比较懒,大部分工作都是我那个同事研究成功的,然后我坐享其成,等着验证结果。特此在这里将他的成果记录下来:参考网址:https://github.com/Qihoo360/XLearning/blob/master/R
2017-12-22 14:44:56
5304
1
原创 关于pyspark 使用过程中需要python版本不同的需求
最近碰到了一个问题,挺有意思,是在使用spark过程中需要用到pyspark,而本地接口机的python版本太低,只有python 2.6版本,需求需要python 2.7版本甚至python 3版本。但是在使用过程中不允许修改主机自带的python。怎么办呢。只能手动下载指定。其中又分为 anaconda 版本的python,还有直接python官网下载python包安装。其中ana
2017-12-20 10:37:58
16059
2
关于pl/sql编程的问题
2014-05-31
TA创建的收藏夹 TA关注的收藏夹
TA关注的人