- 博客(20)
- 收藏
- 关注
原创 CIC的私有云计算架构
原文链接 对很多人来说,云计算已经不是一个陌生的概念,只是好像它都是跟诸如Google、 IBM、微软这样的业界大腕相联系,与中小企业无缘。而实际上呢,得益于诸如Hadoop这样的开源软件,广大中小企业也可以搭建自己的私有云,相当程度的满足自身需求。我们这篇文章会从我们的实践出发,谈一谈为什么CIC的业务也要求类似云计算的IT基础架构,我们的施行效果又是如何。在CIC技术系统内部
2009-09-15 21:38:00
3161
原创 社会网络分析方法和IWOM研究的结合初探
原文链接 美剧“数字追凶”(Numb3rs) 是一个描写将数学方法用于侦破的系列电视剧,其中有几集都用到了同一种数学方法,即将组织(譬如黑社会,反战组织),人物,或者事件间的联系描绘成图形,探索其中的特征,最终发现重大线索。这类方法便是Social Network Analysis, 即“社会网络分析”,以下简称SNA.这样的情节设置并非毫无根据,在真实世界里,SNA确
2009-07-28 14:18:00
4501
原创 对大量转载贴识别算法的研究
要识别论坛中被大量转载的同一篇文章,初看起来不是一个很难的技术问题,只要生成所有文章的信息指纹,再将相同指纹分组就可以了。至于产生信息指纹的方式,最简单的是用MD5或者SHA等单向Hash函数,如果为了减少存储以及提高性能,同时可以容许一定误差,可以再利用BloomFilter。 但是结合实际情况看一下,就能发现产生这种类别文章的指纹不能简单的用MD5产生,因为当一篇文章被大量复
2009-02-12 11:06:00
3852
原创 第四届中文网志年会参会感想
非常高兴能够代表CIC公司参加了在广州举办的第四届中文网志年会,并通过题为《博客内容挖掘与分析》的演讲和与会者分享了CIC在博客分析方面的心得。CIC在近几年的网络口碑研究和咨询时间中总结出一些关于博客内容挖掘和分析技术上的挑战和解决方案,正如演讲中所提到的,博客内容的分析牵涉到一系列的技术问题,其中包含数据采集,自然语言分析,数据汇总统计,数据展现等。其中某些技术已经比较成熟(例如数据采
2008-12-02 23:37:00
3281
原创 Joomla!的插件系统
Joomla!的插件系统 <!-- @page { margin: 2cm } P { margin-bottom: 0.21cm } -- 为了将公司日渐增多的内部信息平台集成到一起,解放大家浏览器的收藏夹以及相互询问的时间,我们搭建了InternalPortal作为内部门户。 InternalPortal最初的版
2008-11-14 10:22:00
7033
原创 mysql优化: 内存表和临时表
CIC有着非常庞大的数据,对这些数据进行拆分就涉及到OLAP的知识。需要创建很多个中间临时表用来进行切分操作。 由于直接使用临时表来创建中间表,其速度不如人意,因而就有了把临时表建成内存表的想法。但内存表和临时表的区别且并不熟悉,需要查找资料了。 一开始以为临时表是创建后存在,当连接断开时临时表就会被删除,即临时表是存在于磁盘上的。而实际操作中发现临时表创建后去目录下
2008-10-06 18:12:00
7366
原创 GroboUtils之多线程测试
Junit作为java自动化测试利器,在java软件开发方面有着强大的功能和便利。通过大量的单元测试,可以方便的定位错位,而且可以提高自己对代码的信心。单元的颗粒度可以小到是一个函数,也是大到是一个类,甚至更大,但是,在单元测试时,由于junit的设计,它对于runnable的对象是忽略的,所以,在我们的测试过程中,对于多线程的测试就变得困难和不可行。但是,在有些项目中,对多线程的测试
2008-09-28 09:07:00
5255
原创 博客增量抓取系统的难点之RSS增量抓取策略
博客增量抓取系统的难点之RSS增量抓取策略 公司内部开发了一个博客抓取系统,可是当feed数量增多时,系统面临着一个问题:有的博客很少更新,但系统却很频繁地去抓;有的博客作者手笔很勤,一天更新10多篇,但系统一个月才去抓一次。feed的有效更新效率的低下直接导致带宽和硬件的浪费。如果能够利用技术手段,采用一个智能的抓取策略,那么最直接的效果是节省了公司的资源,同时也减轻了对BSP(博客服务托管商
2008-09-10 23:46:00
5332
原创 为Nagios编写自己的插件
Nagios(http://www.nagios.org/)是一个开放源代码的主机、服务和网络的监控平台。它被广泛使用在企业的IT部门中,负责企业核心系统营运情况的监控工作。 CIC对网络口碑的研究涉及了部分类似“云运算”的技术,需要有大量机器不间断的在进行工作.因而需要搭建一套能够24小时监控机器上运行的服务和其性能情况的平台,来帮助我们记录并分析机器运行状态,以及提前预警。这次
2008-07-30 15:06:00
7741
原创 jXLS:基于java的精美Excel报表的终极武器
报表,各种管理系统最基本的功能之一。Excel,当今世界最流行的电子表格软件。通过集成Excel来制作报表,便成了很多程序员的首选方案之一。 网上搜索一下java excel,解决方案令人眼花缭乱。但当看看jxl、POI的例子时,报表的格式都得通过代码来一一设定,绝对的苦力活。不禁怀念起当年Delphi/VB等实现的一些成熟方案,对java社区产生了些许的失望。
2008-07-07 10:24:00
9159
原创 第二届中国网络工程师侠客行大会参会感想
<!-- @page { size: 21cm 29.7cm; margin: 2cm } P { margin-bottom: 0.21cm } --> 上周末我们技术部门组织去浙江杭州参加了第二届中国网络工程师侠客行 大会。 马云先生在会中提到: 互联网技术的精髓在于开放和分享,要让技术真正发挥出其价值, 需要通过把技术运用到具体的应用中去。
2008-06-05 11:03:00
4526
原创 Python字符串处理算法 (三)
<!-- @page { size: 21cm 29.7cm; margin: 2cm } P { margin-bottom: 0.21cm } --> 有限状态机一个有限状态机(FSM) M 是一个 5-tuple,包括Q: 有限的状态集合q0: 初始状态A: 可接受状态SIGMA: 有限的输入字符delta: 状态转移函数用于字符串匹配的有
2008-05-13 10:36:00
2930
原创 Python字符串处理算法 (二)
<!-- @page { size: 21cm 29.7cm; margin: 2cm } P { margin-bottom: 0.21cm } --> 首先实现的算法是32.1的 NAIVE-STRING-MATCHER。它的实现很简单,可谓很黄很暴力,总之就是逐字匹配,复杂度为O(nm)def naiveStringMatch(t, p):
2008-05-13 10:29:00
2747
原创 数据之美
<!-- @page { size: 21cm 29.7cm; margin: 2cm } P { margin-bottom: 0.21cm } A:link { color: #0000ff } --> 数据, 在一般人的眼里,可能都是一些密密麻麻的数字, 最常见的就是excel里面那一张张复杂的表格, 举个列子: 但是你也可以
2008-05-06 13:43:00
3717
原创 Lucene的原理和应用
<!-- @page { size: 21cm 29.7cm; margin: 2cm } P { margin-bottom: 0.21cm } --> 随着互联网的迅速普及与发展,网络舆论对社会生活的影响力越来越大, 网络口碑研究也逐渐形成一个新兴行业。有效的网络口碑研究,需要全方位地倾听网民的声音。 信息检索技术的应用,有效地提高了网络口
2008-05-06 10:56:00
13188
1
原创 Python字符串处理算法 (一)
CIC内部的核心软件系统都是搭建在linux上的,为了方便程序间的协同操作,我们还编写了很多shell script,尽管类似grep, sort, cut之类的工具用起来很爽很强大,但是shell 脚本并不适于描述稍微复杂些的逻辑跟算法,譬如我曾经写过这样的代码,猜猜它是做什么的 text=abcde echo $text|sed -r s/(.)//1 /g|cut -d" " -f1,
2008-04-30 08:45:00
5212
原创 Google的免费午餐
06年时孟严写过一篇很有意思的"MapReduce, the free lunch is not over ?", 其中提到了C++大师Herb Sutter的文章,因为CPU主频的进一步发展受到制约,我们已经不能像从前几个时代那样期待软件性能可以随着CPU的性能水涨船高,从而,"The free lunch is over" 我们将不得不基于有限的CPU主频来应对日趋复杂的应用,唯一解决之道就是
2008-04-29 17:15:00
2916
原创 文本挖掘技术在CIC的应用
数据挖掘(Data Mining)已经不是一个新鲜的概念,“尿布和啤酒” 这一经典案例也被很多人津津乐道: 美国一家大型超市利用数据挖掘技术来分析他们的销售纪录,居然发现尿布和啤酒的销售量之间存在相当大的关联性。经过进一步的调查,找到了产生这个现象的原 因,原来在美国,负责为孩子购买尿布的年轻父亲们,很多时候会顺带着给自己买些啤酒。沃尔马随后采取的措施是,将尿布和啤酒并排放在一起,结果两种产品
2008-04-16 11:41:00
6472
1
原创 情感分析(Sentiment Analysis)的难题
我们对在线文本进行文本挖掘的任务之一,就是进 行情感分析(SentimentAnalysis),即分析发贴人对某个对象的态度是正面还是负面。这个过程当然不是仅仅查找"好","坏"这些关键字那 么简单,有时候相似度很高的句子,却反映了截然不同的态度,譬如下面这两句话 "这瓶洗发水,适合头发很干的人用" "用了这瓶洗发水,头发变得很干"两个句子中的主要成分都差不多,"洗发水","头发",
2008-04-15 16:05:00
15519
2
原创 关于CICTech 的博客
CIC 是中国第一家网络口碑(IWOM)研究和咨询公司。从2004年开始,我们一直致力于帮助我们的客户了解博客、网络论坛和其它网络口碑平台,并从中发现价值。在过去的三年中,我们开发了一套结合相关语言分析技术和网络口碑专业知识的研究方法。CICTech是CIC的核心技术团队,CIC技术部门所从事的是一项充满挑战的工作,每天都需要面对各种新的技术,解决各种难题。从海量数据存储,自然语言分析,数据仓库,
2008-04-03 15:34:00
2642
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人