
云计算/大数据
葑岚
网络广告的精准推荐,海量数据的分布式计算http://weibo.com/larryspace
展开
-
社会化推荐系统浅析-概述
对于每个人来说现实生活中充满了各种选择,买什么样的牙刷,中午吃什么,买一件什么样的衣服等等,当然你也会收到各种各样的推荐,甚至是垃圾信息的轰炸,所以在这种环境下你一定想要一个智能的贴合你的喜好的推荐。除了你自己还有一些人对你的选择同样充满兴趣,那就是广告商。传统的广告:希望通过不断重复广播的形式来改变你的喜好。基于网络的智能广告:更友好,更有效,通过定位你的喜好,来推荐一些你希望的东西原创 2012-03-12 15:04:54 · 1656 阅读 · 0 评论 -
社会化搜索与推荐浅析-小例子说明什么是贝叶斯及证明过程
本文由larrylgq编写,转载请注明出处:http://blog.youkuaiyun.com/larrylgq/article/details/7395261作者:吕桂强邮箱:larry.lv.word@gmail.com贝叶斯:突破在于将先验概率转换成后验概率,但是原理很简单经典例子一:一座别墅在过去的 20 年里一共发生过 2 次被盗,别墅的主人有一条狗,狗平均每周晚上叫 3 次,原创 2012-03-23 11:51:43 · 2262 阅读 · 0 评论 -
社会化搜索与推荐浅析-大数据下的实时搜索
本文由larrylgq编写,转载请注明出处:http://blog.youkuaiyun.com/larrylgq/article/details/7399237作者:吕桂强邮箱:larry.lv.word@gmail.com 当我们的数据大到一定的程度,无法通过RDBMS来处理时一般的做法是使用RPC/http+索引服务器+数据库来实现通常的做法是:使用cron等定期到数据库原创 2012-04-09 16:29:42 · 1857 阅读 · 1 评论 -
高并发除了java还可以用什么-clojure,go,rust
java的锁和CAS都是开销惊人的(锁会调用本地系统进行线程阻塞和唤醒开销巨大).Actor的消息队列也会有自己的严重问题(使用Actor又会使得编程复杂度大大提高).所以分布式开发其实是按照业务特性,妥协出最优方案. 在写少读多的并发场景下:clojure的STM,通过多版本控制以空间换时间,提供了类似MVCC的内存事务回滚, ,简单高效到了极致.大量写的情况下go/原创 2012-03-09 15:38:21 · 3699 阅读 · 1 评论 -
深入理解云存储和云计算-理论基础
引言:在各种各样的硬件设备上运行着N多的worker,而任意一个worker都能够独立解决一个问题。每一个集群有这样的设备成千上百个,而同时又有一打这样的集群互相连接交互,于是,这么一个总的集合称为“云”,而其提供的服务称为“云计算”。 在“云中”的任一设备或集群都可以做到"进出自由"、任何崩溃的worker都能被检测和重启,那么,基本上就可以称为靠谱的云计算了。 对于理解云存原创 2012-02-21 13:59:27 · 1564 阅读 · 0 评论 -
hadoop与storm的一点区别
本文由larrylgq编写,转载请注明出处:http://blog.youkuaiyun.com/larrylgq/article/details/7326058作者:吕桂强邮箱:larry.lv.word@gmail.comhadoop是实现了mapreduce的思想,将数据切片计算来处理大量的离线数据数据。hadoop处理的数据必须是已经存放在hdfs上或者类似hbase的数据库中原创 2012-03-06 19:26:55 · 10584 阅读 · 2 评论 -
社会化搜索与推荐浅析-常见推荐算法的比较和浅析
collective filtering(协同过滤)Item based:适用与用户数量远大与条目数量,电商用的比较多优点是:相较与基于用户来说速度快,找到的商品相似度高缺点是:也是找到的商品相似度高,很难发现用户潜在喜欢的东西User based:适用与条目不断更新的,比如链接推荐,社交类网站也经常用次方法找到用户的相似用户优点:能够找到用户可能喜欢的条目,且多样化缺点:原创 2012-03-16 17:59:41 · 3726 阅读 · 0 评论 -
cloudera impala 源码编译
cloudera impala 是一个运行在HDFS 和 HBase 上的执行分布式查询的引擎。该源是我们内部开发版本的一个快照,我们会定期进行版本更新。这个README文档描述了怎样利用该源来构建Cloudera impala,更多的文档请看这里:https://ccp.cloudera.com/display/IMPALA10BETADOC/Cloudera+Impala+1.0+翻译 2012-11-13 19:51:35 · 5647 阅读 · 1 评论 -
海量数据下的分布式存储与计算
亲,转载请保留以下信息@from : http://blog.youkuaiyun.com/larrylgq/article/details/7851207@author :吕桂强@email; larry.lv.word@gmail.com存储从理论角度提到大数据存储nosql是不得不提的一个部分,CAP,BASE,ACID这些原理在过去的一些年对其有着一定的指导作用(原创 2012-08-10 14:27:56 · 9586 阅读 · 1 评论 -
深入理解云存储和云计算-虚拟化
使用虚拟化会有如下好处:1,扩展性可以动态的迁移和复制,使得服务器增加变得更简单2,提高资源利用率3,降低运维成本(远程管理,环境更单一)异常行为局部化,使得主机控制更简单4,提高可用性(抽象硬件差异)5, 调整负载(软件层面对负载进行控制,当监测到负载消耗异常可重启进程或者虚拟机)为了提高硬件的利用率,应当合理分配服务,cpu密集型的服务和I/O密集原创 2012-04-09 17:10:10 · 1282 阅读 · 0 评论 -
深入理解云存储和云计算-I/O负载导致的分布式面临的问题
分布式是为了通过横向扩展来提高性能,扩展的原因一般有2个:CPU负载和I/O负载(计算密集型和io密集型)所谓CPU负载就是通常的web服务等,这些服务基本上只消耗cpu,所以只要增加安装相同服务的服务器,然后就可已通过负载均衡器工作了,但是i/o负载因为需要进行数据分割,所以会远比cpu负载来的复杂大多的i/o分布式框架都在解决下面几个问题:1.数据的切割和在机器间的分配策略原创 2012-02-21 14:53:11 · 1374 阅读 · 0 评论 -
深入理解云存储和云计算-数据模型及实现方式
常见的数据模型有key/value和Schema Free(自由列表模式)两种,key/value,每条记录由2个域组成,一个作为主键,一个存储记录的数据Schema Free, 每条记录有一个主键,若干条列组成,有点类似关系型数据库在实现这些模型的时候基本使用2种实现方式:哈希加链表,或者B+树的方式哈希加链表:通过将key进行哈希来确定存储位置,相同哈希值的数据原创 2012-02-21 14:35:45 · 1240 阅读 · 1 评论 -
社会化搜索与推荐浅析-智能web浅析
web的现状:大多数的传统web应用是不智能的,特点就是对所有用户的输入的反馈是相同的。所需要做的是:系统在反馈之前先考虑用户的所有行为,和所有用户在不同时间的行为,及其它各种可能有用的信息进行分析。web智能的基本要素:内容聚合:即与具体应用相关的大量的数据参考结构:内容的结构化和语义解释算法:获得数据中隐藏的信息智能推荐所要注意的地方:1:数据是否可信规范不原创 2012-03-15 22:22:22 · 1656 阅读 · 2 评论 -
深入理解云存储和云计算-hdfs设计原则
在hadoop整个框架中hdfs是基础,hdfs提供海量的非结构化的数据存储,并提供了文件的创建删除读取和写入等API,对开发者而言只需操作一个目录构成的树形结构。hdfs在设计之初考虑到了以下几个方面:1,hdfs将采用大量稳定性差的廉价pc来做为文件存储设备,所以pc发生死机或硬盘故障的几率极高,应看作是常态,所以hdfs应该提供数据多备份,自动检测节点存活,和故障机器的自动修复2原创 2012-02-21 15:31:34 · 1870 阅读 · 0 评论 -
理解lucene内几个核心概念
核心索引类:IndexWriter创建一个新的索引并且添加文档到一个已有的索引中,可以对索引进行增删改操作,但是不能查找。Directory:Lucene 索引的存放位置,是一个抽象类实现类: FSDirectory:在文件系统的目录中创建索引 RAMDirectory:在内存中创建索引Analyzer:分词器,在 IndexWr原创 2012-03-19 16:00:52 · 1438 阅读 · 0 评论 -
8 个基于 Lucene 的开源搜索引擎
转载自http://www.oschina.net/news/25408/searchengines-built-on-luceneLucene是一种功能强大且被广泛使用的搜索引擎,以下列出8种基于Lucene的搜索引擎,你可以想象他们有多么强大...Apache SolrSolr是一个高性能,采用Java5开发,基于Lucene的全文搜索服务器。文档通过Http利用XML加到一个转载 2012-02-07 12:14:23 · 1344 阅读 · 0 评论 -
深入理解云存储和云计算-内存和磁盘
大规模的数据处理最大的难点就是:无法全内存计算因为处理的数据大,所以必须对磁盘进行处理,但是磁盘计算是非常低效的,所以处理的时候就要仔细的考虑算法寻址内存是通过电子工作的,所以搜索速度和物理结构无关,进行寻址时只需要微秒级别既可以磁盘在寻址时需要1,移动磁头2,旋转磁盘 因为磁盘旋转的速度有限,所以寻址消耗毫秒别时间*操作系统会将一个连续的数据存放在一起(win一般是4K原创 2012-04-09 14:40:45 · 1179 阅读 · 0 评论 -
深入理解云存储和云计算-网络
我们平常使用的路由器一般pps(每秒转发数为几十万左右),所以一般的千兆以太网的极限就在几十万/秒除此之外由于正常的路由器的ARP表上限为900左右两个原因导致一个子网中机器不能过多,当集群中机器过多时就需要进行网络的层次话原创 2012-04-09 17:28:37 · 1000 阅读 · 0 评论 -
数据挖掘的一些基本概念
建模方法:1:数据汇总: eg:pagerank 通过数据来反映网页的重要性,即随机一个用户处于该页的概率2:聚类3:特征抽取 1:频繁项集 frequent itemset: eg:大多数用户买A的同时也购买了B,则当有用户买A的时候给他推荐B 2:相似项 similar item原创 2013-01-05 10:31:25 · 2760 阅读 · 0 评论