- 博客(63)
- 资源 (22)
- 收藏
- 关注
原创 信息检索——向量空间模型(Vector Space Model)
TF:tf 即 term frequency, 表示一个 term t 出现在 document d 中的次数,这是文档中一个很重要的概念。出现次数更多意味着重要程度越高,但是需要注意的是,相关度的提高并不是和次数的提高成同比的。因此通常tf需要做如下的处理w1= log10(tf+1)这样做就是要弱化次数对于相关度的影响DF/IDF:df 即 do
2014-03-25 15:22:28
4432
原创 omitNorms for field in solr schema
1. 首先看一下官方的介绍:http://wiki.apache.org/solr/SchemaXmlomitNorms=true|falseThis is arguably an advanced option.Set to true to omit the norms associated with this field (this disables length normal
2014-03-25 14:14:54
2631
原创 常见 SEC 文件
1. Securities Exchange Commision (美国证券交易委员会网站)http://www.sec.gov/2. Search Company Filings(进入搜索页)http://www.sec.gov/edgar/searchedgar/companysearch.html3. Entry Company Name: facebook(搜索上市公司
2014-01-11 21:03:08
3565
原创 SogoTrade 美股开户指南
1. 选择券商可选的券商主要有几家:SogoTrade,史考特,E-Trade,第一理财,IB 等,这几家中我只介绍 SogoTrade 开户流程。之所以选择 SogoTrade 有几个原因: 1.1 SogoTrade 对普通用户完全够用; 1.2 提供中文客户支持,邮件和电话支持都有,但邮件通常比较慢,基本上要隔天才会回复; 1.3 交
2013-12-31 14:26:07
4439
原创 Flume OG Bug 引发大量重复数据
环境:agent: default-flow tail("/storage/log/pcclient/action/action1x/action1x.log") agentDFOSink("collector-host", 35853)collector: default-flow collectorSource(35853) col
2012-03-31 14:54:06
2369
原创 Flume OG 编译
1. git clone https://github.com/cloudera/flume.git2. git checkout 0.9.4-branch 0.9.4 是目前的稳定版本3. 修改flume/pom.xml /usr/local/bin/thrift 注:thrift 必須是0.6.0版本,否则编译通不过4. 执行 mvn
2012-03-26 19:32:45
1037
原创 Flume OG & Flume NG
前话Flume OG 也就是 Flume original generation 由 Cloudera公司开发,最新版本是0.9.4。而Flume NG 就是 Flume next generation, 大概在2011年6月份由 Cloudera贡献给开源社区,目前属于Apache的一个incubator project。为什么要命名为Flume NG ?Flume NG的J
2012-03-24 17:21:47
2088
转载 Web服务请求异步化介绍(概念篇)
Author:放翁(文初)Date: 2010/6/28Email:fangweng@taobao.com围脖: http://t.sina.com.cn/fangweng 前话 在前面的文章中,先给出了Web服务请求异步处理的压力测试报告,从数据角度描述了支持Web请求异步化的容器在不同并发用户下的处理能力及性能消耗。本文从概念的角度对于应用系统异步化,W
2012-03-23 10:30:51
614
翻译 Apache Flume – Architecture of Flume NG
This blog was originally posted on the Apache Blog:https://blogs.apache.org/flume/entry/flume_ng_architectureApache Flume is a distributed, reliable, and available system for efficiently collectin
2012-03-22 18:37:33
1630
转载 中国古代音律常识
中国古代音律常识 【钟】 古代乐器,属八音之一金类。青铜制,悬挂在架上,用槌击而鸣。西周中期开始有用十几个大小不等的钟组成的编钟。也有单一的,称为“特钟”。有的口缘平,有悬纽,又叫“鎛”,盛行于东周时代,是从钟发展来的形式。《石钟山记》:“微风鼓浪,水石相搏,声如洪钟。”又:“余方心动欲还,而大声发于水上,噌吰如磬磬钟鼓不绝。”《庄暴见孟子》:“百姓闻王钟鼓之声,管龠之音。”苏轼《日喻》:“他
2012-03-15 12:58:39
3958
转载 爵士、古典、摇滚、流行音乐
是音乐风格区分。摇滚和爵士,都属于流行音乐类。大的分类应是:古典、流行、民族、等。古典简单分类为:如交响乐等。民族:各国的民族音乐。流行音乐大致分类:摇滚、雷鬼、R\B、流行音乐、说唱、电子乐、布鲁斯、爵士等。摇滚音乐大致又分类:流行摇滚、金属摇滚、硬摇滚、死亡金属摇滚、另类摇滚、艺术摇滚、布鲁斯摇滚、旁客、fangke、等等。爵士音乐大致分类:流行爵士、融合爵士、摇滚爵士、传统爵士、电子乐爵士、
2012-03-11 22:37:30
2431
原创 乐理基础-和弦学习笔记
大调小调?我们这样来区分大调小调, 前三个音是大三度音程的为大调音阶,前三个音是小三度音程的为小调音阶。也可以这么认为:以1 (Do) 为主音的调式叫做大调,以6(La)为主音的调式叫做小调。关系大小调? 所谓关系大小调,或称“平行大小调”,是指调号相同的一对大小调,它们互相为对方的关系大调或关系小调 例如C大调和a小调互为关系大小调:C自然大调和a
2012-03-11 19:33:22
1995
转载 和弦知识详解(关于和弦组成、编配、即兴)
和弦的构成!献给初学者和进阶的吉他手们!吉他上的和弦有九千多个,我们怎么记亿这么多的和弦呢?先来看看C系列的和弦。和弦名称 组成音 记法 C大三和弦 1 3 5 C C小三和弦 1 b3 5 Cm C增和弦 1 3 #5 Caug C减和弦 1 b3 b5
2012-03-11 19:02:31
7934
转载 Django自动生成Admin后台管理页面
Django自动生成Admin后台管理页面 参考资料:https://docs.djangoproject.com/en/1.3/intro/tutorial02/#activate-the-admin-site其它说明:1. 有时候想根据己有数据库生成Model,Django也是可以做到的:python manage.py inspectdb >models.py
2012-01-17 17:36:36
1591
转载 Kerberos 原理
博客分类: LinuxKerberos是一个重要的认证协议,它为互不相识的通信双方做安全的认证工作。Kerberos这个名字的原义是希腊神话中守卫冥王大门的长有三头的看门狗。这是MIT(Massachusetts Institute of Technology)为了帮助人们理解Kerberos的原理而写的一篇对话集。里面有两个虚构的人物:Athena和Eurip
2011-12-09 20:07:55
1130
转载 Building an Hadoop 0.20.x version for HBase 0.90.2
As of today, Hadoop 0.20.2 is the latest stable release of Apache Hadoop that is marked as ready for production (neither 0.21 nor 0.22 are). Unfortunately, Hadoop 0.20.2 release is not compatible wi
2011-12-07 14:56:54
1081
原创 Hadoop如何使用Lzo压缩
http://wiki.apache.org/hadoop/UsingLzoCompressionhttp://hadoop.apache.org/common/docs/current/native_libraries.html编译native:ant -Dcompile.native=true
2011-12-07 14:46:20
498
原创 hadoop-0.20.205.0 编译并导入到eclipse
尝试编译hadoop-0.20.205这个版本,编译过程出现了如下小错误:/home/user/github/hadoop-common/build.xml:1611: /home/user/github/hadoop-common/build/hadoop-0.20.205.1/native not found.以上提示是在说native目录没有找到,hadoop引入了本地库的概念,通过本地
2011-12-06 20:09:01
1422
转载 lanmp v2.0一键安装包发布(包括lamp,lnmp,lnamp)
感谢wdlinux的投递lanmp一键安装包是wdlinux官网2010年开始推出的apache,nginx,php,mysql,zend,eAccelerator,vsftp应用环境的快速简易安装包,执行一个脚本,整个环境安就完成就可使用,方便易用,安全稳定。此次2.0版本的更新发布1 增加了nginx+apache组合环境的应用,也即是nginx前端处理静态,图片等,apc
2011-11-21 17:20:42
674
转载 Lucene学习总结之二:Lucene的总体架构
Lucene总的来说是:一个高效的,可扩展的,全文检索库。全部用Java实现,无须配置。仅支持纯文本文件的索引(Indexing)和搜索(Search)。不负责由其他格式的文件抽取纯文本文件,或从网络中抓取文件的过程。在Lucene in action中,Lucene 的构架和过程如下图,说明Lucene 是有索引和搜索的两个过程,包含索引创建,索引,搜索三个要点。
2011-11-10 15:56:01
486
转载 Lucene学习总结之一:全文检索的基本原理
一、总论根据http://lucene.apache.org/java/docs/index.html 定义:Lucene 是一个高效的,基于Java 的全文检索库。所以在了解Lucene之前要费一番工夫了解一下全文检索。那么什么叫做全文检索呢?这要从我们生活中的数据说起。我们生活中的数据总体分为两种:结构化数据 和非结构化数据 。结构化数据: 指具有固定格式或有限长度
2011-11-10 15:55:25
501
转载 puppet
什么是puppet puppet是一种Linux、Unix平台的集中配置管理系统,使用自有的puppet描述语言,可管理配置文件、用户、cron任务、软件包、系统服务等。puppet把这些系统实体称之为资源,puppet的设计目标是简化对这些资源的管理以及妥善处理资源间的依
2011-10-15 13:32:55
1381
转载 Xmemcached的FAQ和性能调整建议
一些常见的关于xmemcached的问题,收集整理,集中解答在此。事实上这里的大部分问题都可以在用户指南里找到。一、XMemcached是什么?经常碰到的一个问题是很多朋友对memcached不了解,误以为xmemcached本身是一个缓存系统。Memcached是一
2011-09-25 12:47:04
1100
转载 我的Java学习推荐书目
一直有这么个想法,列一下我个人认为在学习和使用Java过程中可以推荐一读的书籍,给初学者或者想深入的朋友一些建议,帮助成长。推荐的的都是我自己读过,也会推荐一些朋友读过并且口碑不错的书籍。一、基础类1、《Thinking in java》,入门第一位是建立正确的概念。
2011-09-25 12:33:31
730
转载 对云计算中几种基础设施(Dynamo,Bigtable,Map/Reduce等)的朴素看法
前言 云计算的概念近期可谓如火如荼,备受关注。我先前听到“云”这个名词时,很是觉得太过玄乎——也不知道它用在哪里,更不了解它如何实现,总有雾里看花的感觉! 好在近期工作需要的缘故,学习和开发过类似于“云计算”基础设施的内部系统,之后再回过头来看看业界两大寡
2011-09-24 14:19:29
649
转载 解读NoSQL代表Dynamo
NoSQL在过去的一年里,逐渐已经成为了家喻户晓的东西,我(54chen)自从去年开始人人网的NoSQL系统Nuclear的研发以来,一直 看着NoSQL越来越热,越来越引来大家的围观。受infoQ霍师傅之托,特作此文,一来作过去一年的总结,二来希望以平白的话语对NoSQL系统在
2011-09-22 10:12:51
648
转载 海纳百川——人人网海量存储系统Nuclear开发手记
此文为《程序员》杂志约稿,发表在2010年9月刊。怀念过去美好的时光和所有的UGC兄弟真挚友谊,谨以此文为个人职业发展阶段作一个美好的终结。以下是全文原稿。2009年8月左右,由于业务扩展的需要,我们的团队开始了一个新项目的研发,其中需要完成一个存储系统,把评论数据聚合到
2011-09-22 10:11:54
901
转载 存储云结构比较——Dynamo VS Bigtable
存储云结构比较——Dynamo VS Bigtable 比较典型的存储云基础系统有Amazon公司的Dynamo系统与Google公司的Bigtable系统,这两种系统不但已经开始是商用(参见S3服务和 Google App Engine服务),而且都公开了比较详细的
2011-09-20 19:02:43
1145
转载 Cassandra 卓越点 写操作 单点故障 读操作缓慢
http://hi.baidu.com/yandavid/blog/item/f5f72d9bcc93c1a4c8eaf41a.html Cassandra的写性能表现卓越这一点众所周知,Cassandra最好运行在多台机器上.据知,Twitter使用了一个45台机器组成
2011-09-20 16:48:28
1422
转载 memcache一致性 hash 算法(consistent hashing)
consistent hashing 算法早在 1997 年就在论文 Consistent hashing and random trees 中被提出,目前在 cache 系统中应用越来越广泛;1 基本场景比如你有 N 个 cache 服务器(后面简称 cache ),那
2011-09-14 17:10:36
693
原创 优酷网架构学习笔记
记得以前给大家介绍过视频网站龙头老大YouTube的技术架构,相信大家看了都会有不少的感触,互联网就是这么一个神奇的东西。今天我突然想到,优酷网在国内也算是视频网站的老大了,不知道他的架构相对于YouTube是怎么样的,于是带着这个好奇心去网上找了优酷网架构的各方面资料,虽然谈得
2011-09-10 11:45:09
684
转载 HBase随机写以及随机读性能测试
http://feed.feedsky.com/bluedavy根据最近生产环境使用的经验,更多的项目的采用,以及采用了更加自动的测试平台,对HBase做了更多的场景的测试,在这篇blog中来分享下纯粹的随机写和随机读的性能数据,同时也分享下我们调整过后的参数。
2011-08-27 12:59:48
1394
原创 hbase replication
hbase-0.90.0的一个重要改进是引入了replication机制,使它的数据完整性得到了进一步的保障。虽然这一功能还不太完善,但是今后必然会变得更加重要。 hbase的replication机制很像mysql statement-based replication
2011-08-24 17:35:23
917
原创 hadoop-vfs(fuse_dfs)线上问题定位
问题现象:hadoop-vfs挂载目录显示乱码,且list目录时出现input/output error.-rw-r--r-- 1 ***** ***** 13366 2010-02-19 08:55 ********.txt drwxr-xr-x 3 ***
2011-08-23 15:32:32
1419
原创 natch常用的几个类
抓取目录分析一共生成5个文件夹,分别是:l crawldb目录存放下载的URL,以及下载的日期,用来页面更新检查时间.l linkdb目录存放URL的互联关系,是下载完成后分析得到的.l segmen
2011-08-21 19:42:06
471
原创 Nutch Crawler工作流程及文件格式详细分析
Crawler和Searcher两部分被尽是分开,其主要目的是为了使两个部分可以布地配置在硬件平台上,例如Crawler和Searcher分别被放置在两个主机上,这样可以极大的提高灵活性和性能。一、总体介绍:1、先注入种子urls到crawldb2、循环: * generate 从crawldb中生成一个url的子集用于抓取 * fetch 抓取上一小的ur
2011-08-21 19:41:24
458
转载 Nutch搜索引擎系统架构
下面分析一下Nutch搜索引擎系统的特点。一、系统架构 总体上Nutch可以分为2个部分:抓取部分和搜索部分。抓取程序抓取页面并把抓取回来的数据做成反向索引,搜索程序则对反向索引搜索回答用户的请求。抓 取程序和搜索程序的接口是索引,两者都使用索引中的字段。抓取程
2011-08-21 19:40:01
669
原创 nutch1.3+hadoop0.20.2+solr3.2搭建
一 简介1 Nutch 是一个开源Java 实现的搜索引擎。它提供了我们运行自己的搜索引擎所需的全部工具。包括全文搜索和Web爬虫。Nutch 致力于让每个人能很容易, 同时花费很少就可以配置世界一流的Web搜索引擎. Nutch必须能够做到: * 每个月取几十亿网
2011-08-20 21:20:23
995
原创 Subversion 用户眼中的 Git (10): Git 命令行的人性化设计
Git 命令行的人性化设计?刚刚接触 Git 的 SVN 用户一定不予认同。 因为在 SVN 用户看来,co 必须严格写成 checkout, ci 必须严格写成 checkin,st 必须严格写成 status 的版本控制系统,怎么能说成人性化? 容我慢慢道来。Git 命令
2011-08-16 11:43:51
692
原创 Subversion 用户眼中的 Git (9): 单亲 VS 多亲
SVN 和 GIT 对比的系列博文尚有几篇一直放在草稿中,处于构思阶段,今天从故纸堆里检出来(checkout?) 我们在《Subversion 用户眼中的 Git (7): 完全不同的分支和里程碑的实现》中介绍过,Git 和 Svn 的分支实现机制完全的不同,这也直接导致了
2011-08-16 11:43:31
509
利用Visual C++制作应用程序启动画面
2008-11-24
WinSock异步事件
2008-11-24
商品进销存管理系统
2008-01-23
VC++ MIS员工管理系统
2008-01-15
VC++ ADO SQL Server
2008-01-15
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人