- 博客(147)
- 资源 (59)
- 问答 (1)
- 收藏
- 关注
原创 保证分布式系统数据一致性
问题的起源在电商等业务中,系统一般由多个独立的服务组成,如何解决分布式调用时候数据的一致性?具体业务场景如下,比如一个业务操作,如果同时调用服务 A、B、C,需要满足要么同时成功;要么同时失败。A、B、C 可能是多个不同部门开发、部署在不同服务器上的远程服务。在分布式系统来说,如果不想牺牲一致性,CAP 理论告诉我们只能放弃可用性,这显然不能接受。为了便于讨论问题,先简单介绍下数据一致...
2020-03-10 12:21:21
293
原创 主题:Django资源大全
最近经常在这个版面看到Django相关扩展的介绍,而其一个扩展写一个帖子,觉得没太必要吧。以前整理的django资源列表,从我的wiki上转过来的。要找django资源,官网的wiki也是一个不错的地方。http://code.djangoproject.com/wiki/DjangoResources资源django官网django文档Django Ste
2013-05-25 08:53:00
2011
原创 kerberos安装配置
安装步骤: 1.下载krb5-1.9 http://web.mit.edu/kerberos/dist/krb5/1.9/krb5-1.9-signed.tar 2.解压 tar -xvf krb5-1.9.signed.tar 生成krb5-1.9.tar.gz 和krb5-1.9.tar.gz.asc 继续解压tar zxvf krb5-1.9.tar.gz
2012-09-05 18:20:11
5751
原创 Hadoop 的HA高可集群用性
一、 Hadoop 的高可用性1. 概论本指南提供了一个HDFS 的高可用性(HA )功能的概述,以及如何配置和管理HDFS 高可用性(HA) 集群。本文档假定读者具有对HDFS 集群的组件和节点类型具有一定理解。有关详情,请参阅Apache 的HDFS 的架构指南。http://hadoop.apache.org/common/docs/current/hdfs_design.htm
2012-09-05 17:25:54
16605
原创 CDH4 高可用集群指南
一、 Hadoop 的高可用性1. 概论本指南提供了一个HDFS 的高可用性(HA )功能的概述,以及如何配置和管理HDFS 高可用性(HA) 集群。本文档假定读者具有对HDFS 集群的组件和节点类型具有一定理解。有关详情,请参阅Apache 的HDFS 的架构指南。http://hadoop.apache.org/common/docs/current/hdfs_design.h
2012-09-05 17:20:52
4655
原创 Hadoop0.23.0初探4---让你的第一个YARN MapReduce跑起来
前言klose的Hadoop0.23.0初探的系列文章的前三篇分别介绍了:Hadoop的变迁的前因后果、HDFS Federation的配置、以及HDFS的NN、SNN、BN和HA之间的关系。第四篇为文章稍微减负以下,主要介绍Yarn的部署,以及跑第一个HelloWorld(MapReduce wordcount)。YARN框架介绍MapReduce跑起来" title="Hadoop
2012-08-30 13:07:13
1715
原创 Hadoop0.23.0初探3---HDFS NN,SNN,BN和HA
前言保证HDFS高可用是Hadoop被推广以来很多技术人员一直关心的问题,通过搜索引擎搜索也可以得到很多的方案。恰逢HDFS Federation出炉,本文将一些涉及到有关NameNode、SecondaryNameNode、BackupNode的含义与区别,以及HDFS HA框架做一个总结。除此之外,文章的最后,将介绍Hadoop-0.23.0如何配置NameNode、SecondaryNa
2012-08-30 13:04:51
1657
原创 Hadoop0.23.0初探2---HDFS Federation部署
Hadoop的目录文件结构:.|-- LICENSE.txt|-- NOTICE.txt|-- README.txt|-- bin|-- conf|-- etc|-- export_hadoop.sh|-- hadoop-0.23.0-gridmix.jar|-- hadoop-0.23.0-streaming.jar|-- hadoop-mapredu
2012-08-30 12:58:34
1298
原创 Hadoop0.23.0初探1---前因后果
最近Hadoop社区最火热的事情莫过于Hortonworks公布了Hadoop最新版本(0.23.0),它标志着Hadoop新时代的到来。本文作为系列文章的第一篇,将结合Hadoop-0.20.*的特点,以及Hadoop核心理念,分析Hadoop新版本的特征。1、Hadoop 0.20.*的局限性HDFS单NameNode的不足 1)扩展性问题。可以随着数据量进行
2012-08-30 12:31:23
1410
原创 Apache Commons Configuration笔记
Apache Commons Configuration 很多人都应该熟悉吧,操作配置文件的工具包。Configuration可以操作如下类型的文件:Properties filesXML documentsWindows INI filesProperty list files (plist)JNDIJDBC DatasourceSystem proper...
2012-06-18 17:37:54
199
原创 Hadoop权限管理
1. 介绍本文介绍的Hadoop权限管理包括以下几个模块:(1) 用户分组管理。用于按组为单位组织管理,某个用户只能向固定分组中提交作业,只能使用固定分组中配置的资源;同时可以限制每个用户提交的作业数,使用的资源量等(2) 作业管理。包括作业提交权限控制,作业运行状态查看权限控制等。如:可限定可提交作业的用户;可限定可查看作业运行状态的用户;可限定普通用户只能修改自己作业的
2012-04-17 09:57:04
3465
原创 天之虹:浅谈游戏数据的积累、挖掘与分析
编者按:游戏数据整理和分析是一项繁琐而枯燥的工作,急性子很难处理好这样的事情。而本文作者以“挖矿”主线向大家生动而形象地介绍了数据的获取、积累、整理、分析等数据处理的全过程。文中时不时会有一些形象而生动的例子,相信你会觉得这一篇让人感觉轻松愉快而又十分有价值的文章。欢迎更多的游戏人就相关问题和小编一起讨论。比如道具种类分布和相关数值设定,游戏规则的修改等。 摘要 本文从数据出发
2012-04-07 15:32:14
2663
原创 网游商业智能系统数据采集内容设计
【此版本为联众版,系统是韩国人设计的;与盛大等公司不同之处在于,盛大BI系统是以PRAPA模型为指导思想为基础建立的。目前国内网游公司商业智能体系比较完善的当属腾讯和盛大,完美和畅游的不曾有深度了解,联众版可以满足一般性公司使用了,在数据可视化方面还需要你们自己探索了。】 【每日】【用户数量描述】1、在线人数:(取当日某个时刻最高在线,一般在9:30左右)2、新进
2012-04-06 16:13:53
1243
原创 Hive导出数据到MYSQL . 笔记
1. vim export.sql:SELECTIF(player_id is not NULL,player_id,' '),IF(regist_time is not NULL,regist_time,0),IF(online_time_num is not NULL,online_time_num,0),IF(last_login_time is not N
2012-03-27 21:07:10
3000
原创 MAPREDUCE面试题
Map/Reduce功能很强大,只要设定合理Key、Value,我们经常碰到的算法大部分都可以实现。假如能把下面几个算法问题,用Map/Reduce方式实现,那么Map/Reduce编程可以说已经运用很纯熟了。 初级篇 0. 实现Word Count 中级篇 1. Map/Reduce方式实现矩阵相乘 2. Map/Reduce方式实现PageRank算法 ...
2012-02-15 14:17:02
170
原创 wait notify 都是Object的方法
注:wait notify 都是Object的方法同步(阻塞) :是一种防止对共享资源访问导致的数据不一致的一种模式。详细请参看操作系统。在Java中,由于对多线程的支持,对同步的控制主要通过以下几个方法,synchronized,和wait(),notify()和notifyAll(),下面进行一一的讲解:A关键字synchronized每个jav
2012-02-02 16:15:56
2860
原创 Twitter Storm的一些关键概念
[size=large]Twitter Storm的一些关键概念[/size] 这篇文章翻译自storm官方wiki: https://github.com/nathanmarz/storm/wiki/Concepts, 主要介绍storm的一些关键概念。storm的一些关键概念如下:TopologiesStreamsSpoutsBoltsStre...
2012-01-14 23:44:27
121
原创 Twitter Storm简介
Twitter Storm简介from: http://xumingming.sinaapp.com/109/twitter-storm简介/ 本文翻译自storm官方wiki: https://github.com/nathanmarz/storm/wiki/Rationale背景过去的十年是数据处理变革的十年, MapReduce, Hadoop以及一些相关的技...
2012-01-14 23:39:14
214
原创 3.2 内存中的DataModel
3.2 内存中的DataModel这是个抽象概念,在Mahout中,recommender的输入数据是DataModel。DataModel的实现为各种推荐器算法需要的数据提供了有效的使用。例如,一个DataModel可以在输入数据中,提供一个包括所有user IDs的列表,或提供与一个item相关联的所有分值,或者提供一个为一系列item IDs打分的所有用户的列表。我们将会集中研究一些hi
2012-01-11 18:13:17
985
原创 3 推荐数据的呈现
这章主要讲述: 。Mahout如何展现推荐器的数据。DataModel 的实现及其用法 。没有评分数据 Recommendations的质量主要是由数据的数量和质量决定的。“无用输出,无用输入” 在这里是最真实的。同样,推荐器算法都是集中数据,运行的性能主要受数据的数量和展现的影响。这一章介绍Mahout的一些关键class,和访问推荐器相关的数据。3.1
2012-01-11 16:01:50
1138
原创 2.6 推荐器介绍-小结
在这章里,我们介绍了推荐引擎的概念。通过一个少量输入,创建一个简单的Mahout recommender,通过一个简单的计算来运行并解释了这个结果。
2011-12-23 14:54:32
740
原创 2.5 评估 GroupLens数据集
用这些在进行中的工具,我们将可能不仅讨论速度,也讨论我们创造和修改的推荐引擎的质量。虽然大量真实数据的例子仍然要过几章才能讲到,我们将花一些时间在一个小型数据集合上去快速评估性能。2.5.1 提取推荐器输入数据 GroupLens (http://grouplens.org/)是一个研究项目,它提供几个不同型号的数据集合,每一个都来自于真实的用户对电影的评分。这是几个有效的大型
2011-12-23 14:52:32
3353
原创 2.4 推荐器评估的精度和调用
我们也可以得到一个关于recommender问题的更宽广的看法:对生产recommendations我们不用必须估计首选项值。没必要总是对用户提供估计的首选项值。在很多情况下,我们所想要的是一个recommendations的从最好到最差的排序列表。事实上,在有些情况下,我们不是很关心列表的精确排序:一组有点好的recommendations是好的。用更一般的看法,我们也可以把经典
2011-12-23 14:45:54
1342
原创 2.3 推荐器的评估
差值的平均值这是一个推荐引擎的工作,用来解释下面的问题:“对用户来说,怎么的推荐数据才是最好的”。在搞清楚这个的答案之前,我们首先应该解决这个问题。一个好的推荐数据精度指的是什么?我们需要知道产出一个怎么样的推荐器来产生他们?本节的下面部分将会探讨对一个推荐器的考核。因为它是一个工具,当我们开始思考特殊的推荐系统时,它将会是很有用的。最优秀的推荐器,能够感知你的心灵。它以某种方式知道你可能
2011-12-23 14:34:14
1342
原创 2.2 运行第一个推荐引擎
Mahout包含一个推荐引擎的几种类型,事实上包含传统的基于用户(user-based),基于项目(item-based)推荐算法,也包括基于“slope-one”技术的实现(这一个新的有效的方法)。你将根据实验,基于单机版的(SVD)初步实现。在下面的章节里,我们将会在Mahout的背景下和一些现实生活中的例子,来回顾上面的观察结果。我们将会考虑如何代表数据,如何进行有效的推荐算法,
2011-10-19 19:09:27
1114
原创 Linux下的各种压缩文件:tar gz bz2 tgz zip等
对于刚刚接触Linux的人来说,一定会给Linux下一大堆各式各样的文件名给搞晕。别个不说,单单就压缩文件为例,我们知道在Windows下最常见的压缩文件就只有两种,一是,zip,另一个是.rar。可是Linux就不同了,它有.gz、.tar.gz、tgz、bz2、.Z、.tar等众多的压缩文件名,此外windows下的.zip和.rar也可以在Linux下使用,不过在Linux...
2011-10-19 12:20:09
144
原创 2 推荐器
2 推荐器 本章的主要内容:* 在Mahout中推荐器Recommender是什么样的* 运行第一个推荐器Recommender* 评估推荐引擎的准确和质量* 用GroupLens网站的真实的数据来评估推荐器每天我们都会有对周围的东西有一些看法和观点,这些东西可能是我们喜欢的,不喜欢的,还有莫不关心的东西 ,这些通常发生在不知不觉中。
2011-10-18 21:21:41
706
原创 1. Mahout 若只如初见
1. Mahout 若只如初见本章组要内容有: * Mahout 是什么,她从哪里来 * 真实世界中的 推荐引擎、聚集、分类 的花容月貌 * 安顿好我们的大象夫 Mahout
2011-10-18 20:28:34
578
原创 Mahout in action 目录
1. 初识Mahout对应英文版:1. Meet Apache Mahout Part 1 Recommendations2. Introducing recommenders3. Representing da
2011-10-18 20:22:26
665
原创 CentOS6 安装及笔记
Centos 桌面/命令行 启动vi /etc/inittab找到id:x:initdefault: 桌面系统是id:5:initdefault:,即默认以X11(即图形界面)模式启动。设置成id:3:initdefault: reboot重新启动命令行下,要想在进入图形界面:startx,就行了。CentOS 安装及笔记vi /etc/yum.repos...
2011-10-12 10:36:53
90
原创 经典项目
中小规模即时统计分析分布式框架[url]http://code.google.com/p/cheep-worker/[/url]搜索/推荐引擎技术 (17)[url]http://backsnow.iteye.com/category/120832[/url]Mahout in action (21)[url]http://running.iteye.com/categ...
2011-10-02 19:03:33
105
原创 Linux MySql
安装:yum install mysql-server ; mysql-develshow databases;权限具体操作步骤:关闭mysql:# service mysqld stop然后:# mysqld_safe --skip-grant-tables启动mysql:# service mysqld startmysql -u roo...
2011-10-02 09:35:12
84
原创 SSh Agent admitted failure to sign using the key
现有2台机器1、服务器192.168.1.1122、个人机192.168.1.110要使110无需密码通过ssh登入112步骤1、创建密钥Java代码 收藏代码 1. miao@u32-192-168-1-110:~/.ssh$ ssh-keygen -t rsa 2. 3. Generating publ...
2011-10-02 09:03:56
157
原创 Hadoop 、HBase 网页收藏
Hadoop 数据类型与文件结构剖析 Sequence, Map, Set, Array, BloomMap Files[url]http://blog.nosqlfan.com/html/1217.html[/url]HBase 文件结构图[url]http://blog.nosqlfan.com/html/1135.html[/url]Avro入门1–序列化...
2011-09-27 17:02:09
121
原创 C.C++ 中 size_t
size_t在C语言中就有了。它是一种“整型”类型,里面保存的是一个整数,就像int, long那样。这种整数用来记录一个大小(size)。size_t的全称应该是size type,就是说“一种用来记录大小的数据类型”。通常我们用sizeof(XXX)操作,这个操作所得
2011-08-27 08:52:48
3855
原创 C/C++ 学习资料
Boost学习:中文经典入门: [url]http://zh.highscore.de/cpp/boost/[/url]官方文档: [url]http://www.boost.org/doc/libs/1_47_0/[/url]Nginx学习:Nginx中文网[url]http://www.nginx.com.cn/[/url][url]http://www.ng...
2011-08-24 22:41:44
212
原创 经典开源C/C++项目
C/C++ SOAP工具包 gSOAPgSOAP一种跨平台的C和 C++软件开发工具包。生成C/C++的RPC代码,XML数据绑定,对SOAP Web服务和其他应用形成高效的具体架构解析器,它们都受益于一个XML接口。 这个工具包提供了一个全面和透明的XML数
2011-08-08 00:25:20
7858
原创 决策树之分类回归树(C&RT)
分类回归树 Classification and RegressionTree(C&RT) 优点(1)可自动忽略对目标变量没有贡献的属性变量,也为判断属性变量的重要性,减少变量数据提供参考;(2)在面对诸如存在缺失值、变量数多等问题时C&RT 显得非常稳健(robust);(
2011-07-15 23:16:28
18835
2
原创 Clementine算法-------------决策树 C&RT、CHAID、QUEST、C5.0的区别
决策树(Decisiontree)一般都是自上而下的来生成的。每个决策或事件(即自然状态)都可能引出两个或多个事件,导致不同的结果,把这种决策分支画成图形很像一棵树的枝干,故称决策树。优点: 1) 可以生成可以理解的规则; 2) 计算量相对来说不是很大; 3) 可以
2011-07-15 23:11:48
5854
iReport 用户手册 中文 教程
2009-10-17
ext blog 案例
2009-09-25
Lucene2.0+Heritrix搜索引擎(完整光盘).part2.rar
2009-09-21
Lucene2.0+Heritrix搜索引擎(完整光盘) 重新发.rar.part1
2009-09-21
struts2 标签 api chm
2009-09-19
搜索引擎sphider1.3.3
2009-09-19
Flex+SSH在线换物网站
2009-09-18
R语言学习资料,中文,英文
2012-01-31
Linux网络编程 宋敬彬 孙海滨 书源代码
2011-02-21
cygwin setup 离线 1.7.5
2010-04-15
数据结构教程(第3版) 李春葆等 课后源代码、ppt和上机指导源程序 清华出版社
2009-12-29
仿qq中国象棋(web版)
2009-11-15
PowerDesigner教程.chm
2009-11-08
JavaScript最短路算法
2009-10-28
51地图Api 加 例子 可以看源代码
2009-10-26
UML基础及Visio建模+ pdg 阅读器
2009-10-24
【完整光盘24.5M】开发自己的搜索引擎-Lucene 2.0+Heritrix.zip
2009-10-20
关于Lucene分词,我想过做一个小的Lucene分词...结合paoding分词
2009-08-22
TA创建的收藏夹 TA关注的收藏夹
TA关注的人