- 博客(12)
- 收藏
- 关注
转载 CTR模型方案
1. Abstract最近小弟参加了腾讯广告算法竞赛,虽然之前做了一次总结。但我觉得之前那个可能有点泛泛而谈,因此本次想仔细的讲讲关于CTR推荐算法常用的一些模型。对于CTR预测或者推荐算法,数据大多主要是用户数据和推荐的商品,广告数据。这些数据都有一个很大的特点:稀疏。在机器学习上面。我们通常把这些问题使用有监督学习算法做二分类预测,我们将其看作一个概率模型P(click| product ...
2018-11-10 20:26:01
1716
转载 特征提取方法 one-hot和TF-IDF
one-hot 和 TF-IDF是目前最为常见的用于提取文本特征的方法,本文主要介绍两种方法的思想以及优缺点。1. one-hot1.1 one-hot编码 什么是one-hot编码?one-hot编码,又称独热编码、一位有效编码。其方法是使用N位状态寄存器来对N个状态进行编码,每个状态都有它独立的寄存器位,并且在任意时候,其中只有一位有效。举个例子,假设我们有四个样本(行),每个样...
2018-11-10 15:19:07
418
原创 HBase过滤器
过滤器就是对数据库获取的数据进行过滤,将符合条件的数据返回客户端,从而减少从region服务器向客户端发送的数据,从而减少数据传输,提高效率。所有的过滤器都要实现Filter接口。HBase同时还提供了FilterBase抽象类,它提供了Filter接口的默认实现。而在HBase提供的过滤器中,也主要分为几种过滤器:比较过滤器、专用过滤器和扩展过滤器。过滤器的组成:主要有过滤器本身、比较器和比较运...
2018-06-29 11:04:32
447
原创 HBase的Region定位
Region定位:系统如何找到某个row key (或者某个 row key range)所在的region关于Region的查找,早期的设计(0.96.0)之前是被称之为三层查询架构,如下图所示:Region:就是要查找的数据所在的Region.META.:是一张元数据表,记录了用户表的Region信息以及RegionServer的服务器地址,.META.可以有多个regoin。.META.表中...
2018-06-28 16:20:57
15507
3
原创 B+和LSM的区别
B+树(主要点)非叶子结点的子树指针与关键字个数相同; 非叶子结点的子树指针P[i],指向关键字值属于[K[i], K[i+1])的子树 ;为所有叶子结点增加一个链指针; 所有关键字都在叶子结点出现;b+树在查询过程中应该是不会慢的,但如果数据插入比较无序的时候,比如先插入5 ,然后10000,然后3,然后800, 这样跨度很大的数据的时候,就需要先“找到这个数据应该被插入的位置”,然后插入数据。...
2018-06-28 11:12:10
9958
原创 安装与配置Apache服务器
Apache下载压缩包http://mirrors.hust.edu.cn/apache/httpd/httpd-2.4.10.tar.bz2解压tar xvf httpd-2.4.10.tar.bz2编译./configure --prefix=/usr/local/apache2 make make install注意prefix= 后面的的目录是我的安装目录,可以随意指定修改配置进入ap...
2018-06-12 14:40:32
617
原创 Eclipse 远程连接 服务器上的HBase
前提:我们的HADOOP和HBase实在远程服务器上搭建的,各个子节点是不能被远程访问,只有一个外网IP。所以, 只能将Java程序导出jar包在服务器主节点运行。Eclipse:将HBase的lib所有jar包导入该工程下并新建lib文件夹,最后全部Bulid Path-->Add To Build Path实例代码:import org.apache.hadoop.conf.Config...
2018-04-19 19:32:37
1425
原创 Linux查看物理CPU个数、核数、逻辑CPU个数
经常使用的命令总结:Linux查看物理CPU个数、核数、逻辑CPU个数# 总核数 = 物理CPU个数 X 每颗物理CPU的核数 # 总逻辑CPU数 = 物理CPU个数 X 每颗物理CPU的核数 X 超线程数# 查看物理CPU个数cat /proc/cpuinfo| grep "physical id"| sort| uniq| wc -l# 查看每个物理CPU中core的个数(即核数)cat /p...
2018-04-02 18:54:42
194
原创 Windows登录Linux服务器免密码
windows登录Linux服务器免密码:putty:http://jingyan.baidu.com/article/17bd8e5259dab585aa2bb853.html1、生成公钥和私钥先要下载一个叫puttygen的软件,在Windows端生成公钥和私钥。https://www.chiark.greenend.org.uk/~sgtatham/putty/latest.html点击Ge...
2018-04-02 18:53:11
1017
原创 Spark基础概念(2)
val sc=new SparkContext("spark://localhost:7077","ApplicationName","SPARK_HOME","Your_APP_Jar") //创建操作:SparkContext负责创建Spark上下文环境val file=sc.textFile("hdfs://localhost:9000/.../Log") //从HDFS中读取文件v...
2018-04-01 20:19:55
201
原创 Spark基础概念(1)
Google的MapReduce,展示了一个简单通用和自动容错的批处理计算模型。但是对于其他类型的计算,比如交互式计算和流式计算,他不适合。统一大数据处理框架Spark,提出了RDD概念(一种新的抽象的弹性数据集),某种程度是MapReduce的一种拓展。MapReduce缺乏一种特性:即在并行计算的各个阶段进行有效的数据共享,这就是RDD的本质。容错方式:MapReduce是将计算构建成为一个有...
2018-03-31 22:05:55
248
原创 Ubuntu系统维护细节总结
问题:SSH服务端坏掉了,但是客户端好着。(客户端是登录别的机器,服务端是别人登录自己)因为ssh-sshd进程没有开启。但是使用命令无法开启sshd服务。解决:用root用户, 在下边的文件路径手动开启# /usr/sbin/sshd如果出现以下错误:Missing privilege separation directory: /var/run/sshd那就以下操作:# mkdir /var/...
2018-03-31 15:14:13
1083
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人