修鹏李-优快云博客

原创对比了下的spark mllib和 Liblinear 的LR的实现

对比了下的spark mllib和 Liblinear 的LR的实现： liblinear 是基于TRON的求解方式，Mllib的LR是基于LBFGS和SGD两种实现方式都有。 http://spark.apache.org/docs/latest/mllib-linear-methods.htmlhttps://www.csie.ntu.edu.tw/

2016-07-03 13:09:07 4511

原创个性化推荐系统方向简单介绍

先介绍下的咱们目前推荐系统的做的两个大方向： 1、基于自然语言处理的用户短期和长期兴趣+rank 排序。推荐方法：a)、基于topic&keywrods等信息构建的video profile+用户行为+rank 排序构建的online or offline推荐. 目前我们的方向是构建：基于topic+

2016-04-11 17:40:31 4166 1

转载 Google第二代深度学习系统TensorFlow开源（PPT下载）

Google Research宣布推出第二代深度学习系统TensorFlow。TensorFlow针对先前的DistBelief的短板有了各方面的加强。任何能够用计算流图形来表达的计算，都可以使用TensorFlow。任何基于梯度的机器学习算法都能够受益于TensorFlow的自动分化（auto-differentiation）。通过灵活的Python接口，要在TensorFlow中表达想法也会很

2015-11-10 10:20:20 8819

原创个性化push推荐系统架构和经验分享（三）

这里简单个性化push推荐系统架构：这个架构大家一定见过挺多的了。这里我重点说下混合模型推荐系统这块，上个图吧：多模型融合和模型基于预发送更新都是基于队列的message来进行update。系统间得调度和流程都是基于message 协议。简单介绍其中两个简单得协议： 1、push message 发送消息，即发送消息。格式如下：、kafka 发送通知

2015-10-25 22:15:27 7617 1

原创个性化push推荐系统架构和经验分享（二）

这篇文章主要说下我们在个性化推荐策略的选择、实践和总结，没有太多机器学习方面的东西，就是简简单单说说大概的做法。推荐系统主要方法：协同过滤(Collaborative Filtering) User based collaborative filtering &item based collaborative filtering基于人口统计学得过滤(Demographic Filtering

2015-10-25 18:47:46 5745

原创个性化push推荐系统架构和经验分享（一）

从负责做个性化push推荐系统已经快一年了。开始做个性化push推荐系统，开始收集了各方面数据，通过各方面的数据表现和经验，来制定我们战略，然后好制定我们战术的打法。下面我从以下三方面介绍push思考过程和做法： 1、业务分析 2、个性化推荐策略实践和总结 3、个性化push推荐系统架构推荐系统我认为如果要做好，必须要把业务分析清楚，影响因素的排序和

2015-10-25 18:18:38 10926

原创修改hive表location

两种方式：一、通过修改表DDL：alter table t_m_cc set location 'hdfs://heracles/user/video-mvc/hive/warehouse/t_m_cc'二、直接修改hive 的meta info:update `DBS` set `DB_LOCATION_URI` = replace(DB_LOCATION_URI,"oldp

2015-05-20 14:42:20 35263

原创 kafka queue full解决办法

(kafka.producer.async.AsyncProducer:109) - Event queue is full of unsent messages, could not send event: queue.enqueueTimeout.ms, if set to -1 will lead to blocking behaviourinstead of the pr

2015-01-27 23:19:23 10700

原创最近看看git有哪些新见的比较好的项目

2015-01-13 11:41:19 2095

翻译 Lambda架构简介

原网址：http://www.ymc.ch/en/lambda-architecture-part-1Hadoop框架带来了批量数据处理，但是网络规模大数据的实时处理仍然是一个挑战。有很多技术可以用来建立这样一个完整的数据处理系统 - 但要选择合适的工具并且编排使用它们却是复杂和艰巨的。Nathan Marz将任何数据系统都可定义为：“query =

2015-01-06 09:25:44 4481

原创避免regionServer宕机

因为regionserver 的管理信息主要记录在zookeeper，regionserver的宕机判断依据是session expired。ok那么regionserver 和Zookeeper的session expired原因有哪些尼？1. 网络不好。2. Java full GC，这会block所有的线程。如果时间比较长，也会导致session expired

2015-01-05 12:05:18 4850

原创 2014年总结之dm组数据仓库设计总结

来搜狐移动视频dm组已经快一年半了，今天是2014年12月31号，是2014的最后一天，想想写点东西。写点什么尼，咱们就说说数据仓库dm组设计的一些实践把。我这里也感谢我得领导给我的机会和舞台。ok，进入正题。简单聊聊数据仓库设计在我们这边的思考方式，存在不足，还望见谅。数据仓库之前的文章也说过已经从支持战略决策到支持战略决策和战术决策。对应战术是基本是现在企业对应数据价值的最

2014-12-31 16:03:07 4748 1

原创数据仓库架构发展

一、什么是数据仓库传统数据仓库的概念是数据仓库是决策支持系统（dss）和联机分析应用数据源的结构化数据环境。是为企业所有级别的决策制定过程提供支持的所有类型数据的战略集合。简单来说之前的数据仓库只能支持战略决策到支持战略决策和战术决策（ tactica decision ）转变，如实时营销、个性化服务等。这种既服务于战略决策又服务于战术决策的数据

2014-12-31 10:49:36 5791

原创 Hbase架构简介、实践

Hbase架构简介、实践

2014-12-21 20:50:24 7990

原创 spark中RDD的transformation&action

简介：1，transformation是得到一个新的RDD，方式很多，比如从数据源生成一个新的RDD，从RDD生成一个新的RDD2，action是得到一个值，或者一个结果（直接将RDDcache到内存中）所有的transformation都是采用的懒策略，就是如果只是将transformation提交是不会执行计算的，计算只有在action被提交的时候才被触发。

2014-12-16 12:07:15 18934

原创 IntelliJ IDEA 快捷键大全和使用技巧

————————————————实用快捷键:Ctrl+/ 或 Ctrl+Shift+/ 注释（// 或者/*…*/ ）Ctrl+D 复制行Ctrl+X 删除行快速修复 alt+enter (modify/cast)代码提示 alt+/ctr+G 定位某一行Shift+F6 重构-重命名Ctrl+R 替换文本Ctrl+F 查找文本Ctrl+E 最近

2014-12-10 17:44:24 14626

原创 Socket常用几种类型

Socket是一组编程接口（API）, 是对TCP/IP协议的封装和应用。介于传输层和应用层,大致驻留在 OSI 模型的会话层，向应用层提供统一的编程接口。应用层不必了解TCP/IP协议细节。直接通过对Socket接口函数的调用完成数据在IP网络的传输。基于传输层差异，4种类型的Socket: (1)基于TCP的Socket:提供给应用层可靠的流式数据服务，使用T

2014-12-03 14:27:50 31475

原创 storm 进程消失

用daemontools监控zookeeper和storm参考官网网址：http://storm.apache.org/documentation/Tutorial.html一、用daemontools监控storm1、主要目录和run脚本在/service下，新建文件夹storm，新建run文件cd /servicemkdir storm

2014-11-27 18:06:23 32581

原创 Redis常用命令

Redis常用命令集1）连接操作命令quit：关闭连接（connection）auth：简单密码认证help cmd：查看cmd帮助，例如：help quit2）持久化save：将数据同步保存到磁盘bgsave：将数据异步保存到磁盘lastsave：返回上次成功将数据保存到磁盘的Unix时戳shundown：将数据同步保存到磁盘，然后关闭服务3）远

2014-11-18 17:57:46 31837

转载数据仓库和数据集市的区别

数据仓库与数据集市看了很多数据仓库方面的资料，都涉及到了“数据集市”这一说法，刚开始对数据仓库和数据集市的区别也理解得比较肤浅，现在做个深入的归纳和总结，主要从如下几个方面进行阐述：（1）基本概念（2）为什么提出数据集市（3）数据仓库设计方法论（4）数据集市和数据仓库的区别（5）仓库建模与集市建模（6）案例分析：电信CRM数据仓库Bill Inmon

2014-11-15 00:16:57 85342 1

原创 greenplum交互分区用于数据增量和数据压缩变更

greenplum属于MPP数据库的一种，也是建立数据仓库的常用MPP database。greenplum 对于分区表的数据是采用单个表，即分区表是独立的一个逻辑表和物理表，则每个分区有单独的自己的索引等信息，非常适合大数据增量流程的构建。

2014-11-13 23:37:34 36086

原创 Hadoop 调试利器

export HADOOP_ROOT_LOGGER=DEBUG,console调试利器

2014-11-11 18:49:33 30860

原创 hbase维护操作命令

1、基本命令：建表：

2014-11-10 15:41:50 40134

转载文档型数据库CouchBase应用实践

在移动互联网时代，我们面对的是更多的客户端，更低的请求延迟，这当然需要对数据做大量的 Cache 以提高读写速度。现有 Cache 系统的特点目前业界使用得最多的 Cache 系统主要是 memcached 和 redis。这两个 Cache 系统都有都有很大的用户群，可以说是比较成熟的解决方案，也是很多系统当然的选择。不过，在使用 memcached 和 redis 过程

2014-11-08 23:10:28 30451

转载开源项目Marathon：让你的数据中心像谷歌一样运行

Marathon的项目进行了开源，它的设计宗旨就是让用户在同一组服务器之上，更智能地运行多种应用程序和服务——Hadoop、Storm，甚至一个标准的Web应用。Marathon出自于一家初创公司 Mesosphere之手，这家公司主要就是想构建一个数据中心操作系统，不过这个系统是运行在 Mesos集群管理软件之上，这也是 Twitter基础设施的重要组成部分。该公司的联合创始人是前Airbnb的

2014-11-08 23:08:52 30377

原创 MemStoreChunkPool&MSLAB提升HBASE GC性能

MemStore-Local Allocation Buffers通过预先分配内存块的方式解决了因为内存碎片造成的Full GC问题，但是对于频繁更新操作的时候，MemStore被flush到文件系统时没有reference的chunk还是会触发很多的Young GC。所以HBase-8163提出了MemStoreChunkPool的概念，也就是由HBase来管理一个ChunkPool用来存放

2014-11-08 02:52:21 27850

原创基本存储引擎比较

三种基本的存储引擎比较 ----哈希存储引擎、B树存储引擎、LSM树（Log-Structured Merge Tree）存储引擎

2014-11-07 19:11:00 34013

原创 Hbase schema&table 设计实践

Hbase schema&table 设计实践

2014-11-07 17:26:11 38026 4

原创 hbase 协处理器

HBase协处理器受到Google BigTable协处理器的启发，并在设计上支持高效的并行计算——超越Hadoop MapReduce可以提供的性能。此外，可以将协处理器用于实现新特性，例如二级索引、复杂过滤(下推谓词)和访问控制。尽管是受BigTable的启发，但HBase协处理器在实现细节上与之存在差别。开发者们实现了一个框架，提供库和运行时环境，用于在HBase域服务器(即相同的J

2014-11-06 16:47:18 26501

原创 HFile V2介绍[0.92到0.98之前的版本]

在hbase 0.92版本中，为了改进在大数据存储下的效率，HFile做了改变。HFile V1的主要问题是，你需要加载(load)所有的单片索引和BloomFilter到内存中。为了解决这个问题，v2引入了多级索引和分块BloomFilter。HFile v2改进了速度，内存和缓存利用率。 HFile V2的wen格式如下：

2014-11-06 15:19:01 30271

原创 hbase HFile V3介绍

hbase HFile V3介绍

2014-11-06 15:05:52 35400 1

原创 Hbase 查询过程详解(基于hbase0.98版本后分析的)

1、hbase0.96版本后删除了

2014-11-06 11:04:52 12316 8

转载大数据时代下的个性化服务

身处大数据时代，礼品企业有更多的机会去了解消费者，甚至会比消费者自己还要了解自己的需求。但事实上鲜有客户真正获得精准、贴心的个性化服务，是礼品企业不够用心还是客户太挑剔？个性化服务落地难的个中缘由到底是什么？身处在数据时代，礼品企业如何快速把握消费者的个性化需求和心理预期？有了庞大数据的支撑，礼品企业的个性化服务会变得更加靠谱、更接地气吗？　　据有关机构预测，2015年，90%以上的企业主

2014-11-06 10:19:00 9683

原创大数据时代的解析

大数据时代的到来，数据仓库日显重要，如何建立好的数据部门，其实是每个公司都应该重视的问题。第一、数据是分为处理、规范存储、建模分析的三个过程。 “大数据”所处理的数据，还包含半结构化或者非结构化的，甚至是图片、音频、视频等非文本的。这也就是相对于传统技术而言，大数据技术的一个飞跃性的提升。规范存储，其中最主要是建立数据仓库。建模分析，主要体现在离线数据分析和实

2014-11-05 23:00:05 7089

原创 Hbase 查询为什么快

1、数据分区存储（region）2、各种过滤器

2014-11-05 21:16:24 16007 1

翻译 No FileSystem for scheme: hdfs,No FileSystem for scheme: file

原文：http://blog.newitfarmer.com/tags/hadoop

2014-06-18 18:28:20 6948 1

原创 hadoop append 追加文件错误

Exception in thread "main" java.io.IOException: Failed to replace a bad datanode on the existing pipeline due to no more good datanodes being available to try. (Nodes: current=[10.10.22.17:50010, 10.1

2014-06-18 18:21:55 8533

原创 hadoop 2.4.0 使用distcp有关问题解决

hadoop distcp hftp://nn.tvhadoop.xx.com:50070/user/nlp/warehouse/t_m_user_key_action /user/nlp/warehouse/dw1

2014-05-29 16:32:19 5001

hbase bucket cache

移动视频数据仓库建设实践

Hbase架构简介、实践

空空如也