- 博客(39)
- 资源 (13)
- 收藏
- 关注
原创 ES常用命令
Elasticsearch中信息很多,同时ES也有很多信息查看命令,可以帮助开发者快速查询Elasticsearch的相关信息。_cat$ curl localhost:9200/_cat=^.^=/_cat/allocation/_cat/shards/_cat/shards/{index}/_cat/master/_cat/nodes/_cat/indices/_cat/...
2020-01-15 12:53:03
479
转载 FTRL算法详解
一、算法原理二、算法逻辑三、个人理解从loss function的形式来看:FTRL就是将RDA-L1的“梯度累加”思想应用在FOBOS-L1上,并施加一个L2正则项。【PS:paper上是没有加L2正则项的】 这样达到的效果是: 累积加和限定了新的迭代结果W**不要离“已迭代过的解”太远**; 因为调整后的解不会离迭代过的解太远,所以保证了每次找到让之前所有...
2019-07-23 15:48:17
1587
转载 IntelliJ IDEA 快捷键终极大全
常用的有fori/sout/psvm+Tab即可生成循环、System.out、main方法等boilerplate样板代码 。例如要输入for(User user : users)只需输入user.for+Tab ;再比如,要输入Date birthday = user.getBirthday()只需输入user.getBirthday().var+Tab即可。代码...
2019-07-09 18:34:28
201
转载 FP-Growth算法详解
转载https://www.cnblogs.com/pinard/p/6307064.htmlFP Tree算法原理总结 在Apriori算法原理总结中,我们对Apriori算法的原理做了总结。作为一个挖掘频繁项集的算法,Apriori算法需要多次扫描数据,I/O是很大的瓶颈。为了解决这个问题,FP Tree算法(也称FP Growth算法)采用了一些技巧,无论多少数据,只需要扫描两...
2019-07-02 11:21:31
7771
8
转载 FP-Growth 算法
博客园|首页|新随笔|联系|订阅|管理 java实现fp-growth算法 本文參考韩家炜《数据挖掘-概念与技术》一书第六章,前提条件要理解 apriori算法。 另外一篇写得较好的文章在此推荐: http://hi.baidu.com/nefzpoht...
2019-07-02 10:33:17
223
转载 Airflow调度系统
Airflow能做什么Airflow是一个工作流分配管理系统,通过有向非循环图的方式管理任务流程,设置任务依赖关系和时间调度。Airflow独立于我们要运行的任务,只需要把任务的名字和运行方式提供给Airflow作为一个task就可以。安装和使用最简单安装在Linux终端运行如下命令 (需要已安装好python2.x和pip):pip install airflowpi...
2019-04-19 14:43:29
1146
转载 RabbitMq常用命令
RabbitMq常用命令一、消息对列常用命令1、启插件rabbitmq-plugins enable rabbitmq_management2、移除服务rabbitmq-service remove3、安装服务rabbitmq-service install4、重启服务rabbitmq-server restart5、启用RabbitMq服务rabbitmq-se...
2019-04-15 14:43:50
348
转载 ALS交替最小二乘法
ALS交替最小二乘法第一部分 算法原理及推导1.1 算法原理介绍背景介绍:ALS是交替最小二乘的简称,在机器学习上下文中,ALS特指使用交替最小二乘求解的一个协同过滤推荐算法。它通过观察到的所有用户给物品的打分,来推断每个用户的喜好并向用户推荐合适的物品。核心假设:打分矩阵是近似低秩的,也就是说一个mn阶的打分矩阵 Rmn 可以用两个小矩阵Xkm和 Ykn的乘积来近似,即:...
2019-04-02 16:02:55
1375
转载 Spark机器学习实战(三)电影评分数据处理与特征提取
Spark机器学习实战(三)电影评分数据处理与特征提取这部分主要讲了进行数据可视化之后如何进行必要的数据处理,原因是原始数据并非完整。随后,我们要从数据中提取出我们需要的特征。使用的数据集依然是MovieLens 100k数据集,平台为Python Spark。文章中列出了关键代码,完整代码见我的github repository,这篇文章的代码在chapter03/mo...
2019-04-01 15:02:16
2084
转载 机器学习中的数学(4)-线性判别分析(LDA), 主成分分析(PCA)
机器学习中的数学(4)-线性判别分析(LDA), 主成分分析(PCA)版权声明: 本文由LeftNotEasy发布于http://leftnoteasy.cnblogs.com, 本文可以被全部的转载或者部分使用,但请注明出处,如果有问题,请联系wheeleast@gmail.com前言:第二篇的文章中谈到,和部门老大一宁出去outing的时候,他给了我相当多的机器学...
2019-03-13 15:35:30
221
转载 使用Spark DataFrame实现基于物品的协同过滤算法(ItemCF)
简书不支持Markdown Math语法,请移步https://glassywing.github.io/2018/04/10/spark-itemcf/简介当前spark支持的协同过滤算法只有ALS(基于模型的协同过滤算法),但ALS算法对于某些特定的问题,效果并不理想,不像mahout提供了各种推荐算法。为了享受到spark在速度上带来的提升同时为满足一些业务需求,遂使用spark构建...
2019-01-25 16:27:30
1910
转载 基于领域的协同过滤算法 : UserCF and ItemCF
推荐系统 1 基于用户的协同过滤算法(UserCF)1.1 基本思想该算法要计算两个用户之间的相似度,这里的相似度指的是两个用户的兴趣相似度。假设对于用户u和用户v,N(u)和N(v)分别是他们曾经有过正反馈的物品的集合,那么可以通过Jaccard公式来计算u和v的相似度: 或者通过余弦相似度来计算他们的相似度: 举例假设用户A对物品 {a, ...
2019-01-25 16:26:03
857
转载 Cloudera-server迁移
公司集群cloudera-scm-server所在的主机发生了故障,一直重启,需要拿去重做系统,但整个cloudera manager集群不想动,服务也不能停止,需要将cloudera-scm-server迁移到别的主机上面,网上没有找到有关的资料,就记录一下迁移过程。迁移步骤: 准备工作: 1.备份原cloudera-scm-server所在主机上的mysql数据库 2.在新的主节点安...
2019-01-17 18:41:51
425
转载 奇异值分解(SVD)原理与在降维中的应用
奇异值分解(Singular Value Decomposition,以下简称SVD)是在机器学习领域广泛应用的算法,它不光可以用于降维算法中的特征分解,还可以用于推荐系统,以及自然语言处理等领域。是很多机器学习算法的基石。本文就对SVD的原理做一个总结,并讨论在在PCA降维算法中是如何运用运用SVD的。1. 回顾特征值和特征向量 我们首先回顾下特征值和特征向量的定义如下:Ax...
2019-01-16 17:34:44
376
转载 idea打包jar的多种方式
这里总结出用IDEA打包jar包的多种方式,以后的项目打包Jar包可以参考如下形式:用IDEA自带的打包形式 用Maven插件maven-shade-plugin打包 用Maven插件maven-assembly-plugin打包用IDEA自带的打包方式:打开IDEA的file -> Project Structure,进入项目配置页面。如下图:点击Artifac...
2019-01-07 15:28:20
599
转载 Hive元数据在MySQL的存储逻辑及关系
2017年11月01日 10:51:51 A_ChunUnique 阅读数:1037收起个人分类: HiveMySQL在大数据中,很多情况下是将hive的元数据存放在mysql数据库中,通过hive配置的连接字符串: <property> <name>javax.jdo.option.ConnectionURL&...
2018-12-18 14:28:33
1006
转载 MySQL忘记root密码解决方法
今天重新装了一遍MySQL,因为用的是免安装的,所以需要重新设置密码,然后一通设置,结果搞得自己也忘了,没办法,只能重新搞一下,这是网上的方法。亲测可用!一.windows下 1.以系统管理员身份运行cmd. 2.查看mysql是否已经启动,如果已经启动,就停止:net stop mysql. 3.切换到MySQL安装路径下:D:\WAMP\MySQL-5.6.36...
2018-12-13 10:54:05
135
转载 如何用cloudera manager接管已有hadoop的cdh版本集群
本文介绍如何搭建cloudera manager去接入已有hadoop组件(cdh),搜索国内资料并无整体介绍,没有任何参考文章可以借鉴;通过大数据qq交流群当中某老师提供的国外某篇cloudera cto的文章得到解决思路,经实验调试可以实现此功能。下面进入本文主题。一、下载必备文件:1.cloudera manager:大部分公司内大数据集群环境都无公网访问权限,针对当前集...
2018-11-28 16:53:16
1575
1
转载 编译安装rsyslog
安装gcc-c++ 615 yum -y install gcc c++ 616 yum -y install gcc-c++安装libestr、libeewget http://libestr.adiscon.com/files/download/libestr-0.1.10.tar.gz 621 tar xvf libestr-0.1.10.tar.gz ...
2018-09-28 10:01:51
1288
转载 CDH5.X完全卸载步骤
1. 关闭集群中的所有服务。 这个可以通过clouder manger 主页关闭集群。2. 卸载[root@master ~]# /usr/share/cmf/uninstall-cloudera-manager.sh [root@slave1 ~]# service cloudera-scm-agent stop[root@slave1 ~]# service c...
2018-09-17 13:13:10
992
转载 性能测试工具--SIEGE安装及使用简介
官方网站http://www.joedog.org/ 概述 Siege是一个多线程http负载测试和基准测试工具。它有3种操作模式: 1) Regression (when invoked by bombardment)Siege从配置文件中读取URLs,按递归方式,逐个发送请求 2) Internet simulation (Siege从配置文件中读取URLs,随机选取URL发送请求) 3) B...
2018-03-12 10:44:59
630
转载 TensorFlow之Mac安装TensorFlow
TensorFlow 底层的图模型结构清晰,容易改造;支持分布式训练;可视化效果好。如果做长期项目,接触较大数据集的话,TensorFlow很适用,而且谷歌也在不断优化完备它,对于使用深度学习朋友,TensorFlow是一个很好的工具。一、 安装TensorFlow谷歌的官网和开源项目都有介绍各个系统的安装和使用(官网:https://www.tensorflow.org/installgit: ...
2018-02-26 18:51:21
328
转载 50道java面试题
不管你是新程序员还是老手,你一定在面试中遇到过有关线程的问题。Java语言一个重要的特点就是内置了对并发的支持,让Java大受企业和程序员的欢迎。大多数待遇丰厚的Java开发职位都要求开发者精通多线程技术并且有丰富的Java程序开发、调试、优化经验,所以线程相关的问题在面试中经常会被提到。在典型的Java面试中, 面试官会从线程的基本概念问起, 如:为什么你需要使用线程, 如何创建线程,用
2018-01-17 15:46:20
651
1
转载 nginx基本操作
nginx 服务器重启命令,关闭nginx -s reload :修改配置后重新加载生效nginx -s reopen :重新打开日志文件nginx -t -c /path/to/nginx.conf 测试nginx配置文件是否正确关闭nginx:nginx -s stop :快速停止nginx quit :完整有序的停止ng
2017-12-25 17:41:50
188
转载 Flum+hdfs
关键字:flume、hdfs、sink、配置参数Flume中的HDFS Sink应该是非常常用的,其中的配置参数也比较多,在这里记录备忘一下。channeltypehdfspath写入hdfs的路径,需要包含文件系统标识,比如:hdfs://namenode/flume/webdata/可以使用flume提供的日期及%{host}表达式。fi
2017-09-12 15:35:39
458
转载 zookeeper kafka基本配置
1.安装Zookeeper下载: wget http://mirrors.cnnic.cn/apache/zookeeper/zookeeper-3.4.6/zookeeper-3.4.6.tar.gz 解压文件到/Usr/local下: tar zxvf zookeeper-3.4.6.tar.gz -C /usr/local 配置文件加入dataDir,文件须自己创
2017-09-04 14:31:58
315
原创 rsyslog omkafka集群配置 后感
这几天为了rsyslog日志检测搞得痛苦难言,将文档中的内容导入kafka中,听起来简单,过程却是十分复杂,走的弯路多,所以就把这几天的辛苦历程记录下来,给需要的同学们。 kafka+zookeeper集群的配置我就不想多说了,配通知后自己新建topic,启动producter输入数据查看consumer有没有数据到处即可; 具体的kafka那几条命令:
2017-08-29 14:10:37
4127
转载 rsyslog基本介绍
rsyslog 配置简介rsyslog 配置简介2013-12-30Dec 31 22:02:36 linux-64 rsyslogd-2039: imuxsock begins to drop messages from pid 6927 due to rate-limiting Dec 31 22:02:39 linux-64 rsyslogd-2039: imuxso
2017-08-28 11:22:53
2941
转载 rsyslog配置(亲测成功)
rsyslog是一个开源工具,被广泛用于Linux系统以通过TCP/UDP协议转发或接收日志消息。rsyslog守护进程可以被配置成两种环境,一种是配置成日志收集服务器,rsyslog进程可以从网络中收集其它主机上的日志数据,这些主机会将日志配置为发送到另外的远程服务器。rsyslog的另外一个用法,就是可以配置为客户端,用来过滤和发送内部日志消息到本地文件夹(如/var/log)或一台可以路由到
2017-08-24 10:27:58
2879
转载 技术分享
2014-10-20每日一读每天进步一点云架构和openstack的思考http://www.aboutyun.com/thread-9579-1-1.html1、怎么才能够把云架构设计得好一些呢?2、云建设要解决的问题是什么?3、建设云需要从哪方面来看待?面试题、经验分享及新手问答整理http://www.aboutyun.com/thread-9
2017-07-19 18:06:39
6314
转载 Cloudera的目录配置
1. 相关目录/var/log/cloudera-scm-installer : 安装日志目录。/var/log/* : 相关日志文件(相关服务的及CM的)。/usr/share/cmf/ : 程序安装目录。/usr/lib64/cmf/ : Agent程序代码。/var/lib/cloudera-scm-server-db/data : 内嵌数据库目录。/usr/
2017-07-19 11:15:56
601
转载 CDH5.X完全卸载步骤
//CDH5.X完全卸载步骤# by coco# 2015-01-141. 关闭集群中的所有服务。 这个可以通过clouder manger 主页关闭集群。2. 卸载[root@master ~]# /usr/share/cmf/uninstall-cloudera-manager.sh [root@slave1 ~]# service cloude
2017-07-18 11:18:01
303
ClouderaImpala_JDBC-2.6.15.1017.zip
2019-12-18
kafka2.12安装程序
2017-09-18
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人