易趣接触概念和知识点

最新推荐文章于 2024-06-27 10:32:52 发布

原创最新推荐文章于 2024-06-27 10:32:52 发布 · 738 阅读

0 ·

CC 4.0 BY-SA版权

其他专栏收录该内容

15 篇文章

订阅专栏

(1) Ngix

Nginx ("engine x") 是一个高性能的 HTTP 和反向代理服务器，也是一个 IMAP/POP3/

SMTP 代理服务器。 Nginx 是由 Igor Sysoev 为俄罗斯访问量第二的 Rambler.ru 站点开发的，它已经在该站点运行超过两年半了。Igor 将源代码以类BSD许可证的形式发布。尽管还是测试版，但是，Nginx 已经因为它的稳定性、丰富的功能集、示例配置文件和低系统资源的消耗而闻名了。

(2) AJP

AJP 是定向包协议。因为性能原因，使用二进制格式来传输可读性文本。 WEB 服务器通过 TCP 连接和 SERVLET 容器连接。为了减少进程生成 socket 的花费， WEB 服务器和 SERVLET 容器之间尝试保持持久性的 TCP 连接，对多个请求 / 回复循环重用一个连接。一旦连接分配给一个特定的请求，在请求处理

(3) MemCache

　　　　memcache是一个高性能的分布式的内存对象缓存系统，通过在内存里维护一个统一的巨大的hash表，它能够用来存储各种格式的数据，包括图像、视频、文件以及数据库检索的结果等。Memcache是danga.com的一个项目，最早是为 LiveJournal 服务的，最初为了加速 LiveJournal 访问速度而开发的，后来被很多大型的网站采用。目前全世界不少人使用这个缓存项目来构建自己大负载的网站，来分担数据库的压力。起初作者编写它可能是为了提高动态网页应用，为了减轻数据库检索的压力，来做的这个缓存系统。它的缓存是一种分布式的，也就是可以允许不同主机上的多个用户同时访问这个缓存系统，这种方法不仅解决了共享内存只能是单机的弊端，同时也解决了数据库检索的压力，最大的优点是提高了访问获取数据的速度！基于memcache作者对分布式cache的理解和解决方案。 memcache完全可以用到其他地方比如分布式数据库，分布式计算等领域。

(4) Junit

JUnit是一个开放源代码的Java测试框架，用于编写和运行可重复的测试。他是用于单元测试框架体系xUnit的一个实例（用于java语言）。它包括以下特性：

　　1、用于测试期望结果的断言（Assertion）

　　2、用于共享共同测试数据的测试工具

　　3、用于方便的组织和运行测试的测试套件

4、图形和文本的测试运行器

(5) MongoDB

MongoDB是一个基于分布式文件存储的数据库。

它的特点是高性能、易部署、易使用，存储数据非常方便。主要功能特性有：

　　*面向集合存储，易存储对象类型的数据。

　　*模式自由。

　　*支持动态查询。

　　*支持完全索引，包含内部对象。

　　*支持查询。

　　*支持复制和故障恢复。

　　*使用高效的二进制数据存储，包括大型对象（如视频等）。

　　*自动处理碎片，以支持云计算层次的扩展性

　　*支持RUBY，PYTHON，JAVA，C++，PHP等多种语言。

　　*文件存储格式为BSON（一种JSON的扩展）

*可通过网络访问

(6) Nutch

　　　　Nutch是一个刚刚诞生开放源代码(open-source)的web搜索引擎。

　　尽管Web搜索是漫游Internet的基本要求, 但是现有web搜索引擎的数目却在下降. 并且这很有可能进一步演变成为一个公司垄断了几乎所有的web搜索为其谋取商业利益.这显然不利于广大Internet用户. 　　Nutch为我们提供了这样一个不同的选择. 相对于那些商用的搜索引擎, Nutch作为开放源代码搜索引擎将会更加透明, 从而更值得大家信赖. 现在所有主要的搜索引擎都采用私有的排序算法, 而不会解释为什么一个网页会排在一个特定的位置. 除此之外, 有的搜索引擎依照网站所付的费用, 而不是根据它们本身的价值进行排序. 与它们不同, Nucth没有什么需要隐瞒, 也没有动机去扭曲搜索的结果. Nutch将尽自己最大的努力为用户提供最好的搜索结果.
　　　Nutch主要分为两个部分:

　爬虫crawler和查询searcher。Crawler主要用于从网络上抓取网页并为这些网页建立索引。Searcher主要利用这些索引检索用户的查找关键词来产生查找结果。两者之间的接口是索引，所以除去索引部分，两者之间的耦合度很低。

　　Crawler和Searcher两部分尽量分开的目的主要是为了使两部分可以分布式配置在硬件平台上，例如将Crawler和Searcher分别放在两个主机上，这样可以提升性能。

(7) HBase

　　HBase是一个分布式的、面向列的开源数据库，该技术来源于Chang et al所撰写的Google论文“Bigtable：一个结构化数据的分布式存储系统”。就像Bigtable利用了Googl文件系统（File System）所提供的分布式数据存储一样，HBase在Hadoop之上提供了类似于Bigtable的能力。HBase是Apache的Hadoop 项目的子项目。HBase不同于一般的关系数据库,它是一个适合于非结构化数据存储的数据库.另一个不同的是HBase基于列的而不是基于行的模式。 HBase使用和Bigtable非常相同的数据模型。用户存储数据行在一个表里。一个数据行拥有一个可选择的键和任意数量的列。表是疏松的存储的，因此用户可以给行定义各种不同的列。HBase主要用于需要随机访问，实时读写你的大数据（Big Data）。

( 8) Hadoop

Hadoop示意图

       一个分布式系统基础架构，由Apache基金会开发。用户可以在不了解分布式底层细节的情况下，开发分布式程序。充分利用集群的威力高速运算和存储。Hadoop实现了一个分布式文件系统（Hadoop Distributed File System），简称HDFS。HDFS有着高容错性的特点，并且设计用来部署在低廉的（low-cost）硬件上。而且它提供高传输率（high throughput）来访问应用程序的数据，适合那些有着超大数据集（large data set）的应用程序。HDFS放宽了（relax）POSIX的要求（requirements）这样可以流的形式访问（streaming access）文件系统中的.
[Hadoop的Logo]

   Hadoop的Logo
   项目主页： http://hadoop.apache.org 　　
      一个分布式系统基础架构，由Apache基金会开发。用户可以在不了解分布式底层细节的情况下，开发分布式程序。充分利用集群的威力高速运算和存储。　　简单地说来，Hadoop是一个可以更容易开发和运行处理大规模数据的软件平台。　　Hadoop实现了一个分布式文件系统（Hadoop Distributed File System），简称HDFS。HDFS有着高容错性（fault-tolerent）的特点，并且设计用来部署在低廉的（low-cost）硬件上。而且它提供高传输率（high throughput）来访问应用程序的数据，适合那些有着超大数据集（large data set）的应用程序。HDFS放宽了（relax）POSIX的要求（requirements）这样可以流的形式访问（streaming access）文件系统中的数据。

(9)cache
cache n. 高速缓冲存储器一种特殊的存储器子系统，其中复制了频繁使用的数据以利于快速访问。存储器的高速缓冲存储器存储了频繁访问的 RAM 位置的内容及这些数据项的存储地址。当处理器引用存储器中的某地址时，高速缓冲存储器便检查是否存有该地址。如果存有该地址，则将数据返回处理器；如果没有保存该地址，则进行常规的存储器访问。因为高速缓冲存储器总是比主RAM 存储器速度快，所以当 RAM 的访问速度低于微处理器的速度时，常使用高速缓冲存储器。
      Cache中的内容随命中率的降低需要经常替换新的内容。替换算法有多种，例如，先入后出(FILO)算法、随机替换(RAND)算法、先入先出(FIFO)算法、近期最少使用(LRU)算法等。这些替换算法各有优缺点，就以命中率而言，近期最少使用(LRU)算法的命中率最高。

简单理解

　　cache是一个高速小容量的临时存储器，可以用高速的静态存储器芯片实现，或者集成到CPU芯片内部，存储CPU最经常访问的指令或者操作数据。　　cache的基本原理　　CPU与cache之间的数据交换是以字为单位，而cache与主存之间的数据交换是以块为单位。一个块由若干定长字组成的。当CPU读取主存中一个字时，便发出此字的内存地址到cache和主存。此时cache控制逻辑依据地址判断此字当前是否在 cache中：若是，此字立即传送给CPU；若非，则用主存读周期把此字从主存读出送到CPU，与此同时，把含有这个字的整个数据块从主存读出送到cache中。由始终管理cache使用情况的硬件逻辑电路来实现LRU替换算法