- 博客(19)
- 资源 (1)
- 收藏
- 关注
原创 文档过滤
1、早期的过滤器早期的都是基于规则的分类器,使用事先设计好的一组规则,用于指明某条信息属于垃圾信息。典型的规则有: -英文大写字母的过度使用 -与医药学相关的单词 -过于花哨的HTML用色等2、智能分类器a. 特征提取将单词作为文档的特征,其假设:某些单词相对而言更会出现在垃圾信息中。不过特征未必是一个个单词,他们也可以是词组或者短语,或者任何可以归为文档中缺失或者不存在的其他东西。 如何选
2017-11-25 19:52:40
363
原创 优化
1、成本函数 成本函数是用优化算法解决问题的关键它通常最难确定。任何优化算法的目标就是要寻找一组能够使成本函数的返回结果达到最小化的输入,,因此成本函数需要返回一个值用以表示方案的好坏。 2、随机搜索 从 输入集中随机选取一部分,然后确定成本最小的输入,得到的可能是较小值,不是最小值,该算法不是一种非常好的优化算法,但简单容易,可以作为评估其他算法优劣的基线。 3、爬山法 较低成本值所对应
2017-11-22 18:06:45
458
原创 YARN
Apache YARN(Yet Another Resource Negotiator)是Hadoop的集群资源管理系统,YARN提供请求和使用集群资源的API。 1、YARN运行机制 YARN通过两类长期运行的守护进程提供自己的核心服务:管理集群上资源使用的资源管理器(resource manager)、运行在集群中所有节点上且能够启动和监控容器的节点管理器(node manager)。容
2017-11-21 15:20:12
391
原创 MapReduce
Hadoop MapReduce is a software framework for easily writing applications which process vast amounts of data (multi-terabyte data-sets) in-parallel on large clusters (thousands of nodes) of commodity ha
2017-11-17 21:56:06
205
原创 搜索与排名
一、搜索 1、爬虫 一般爬虫将网络视为一张图,对于图而言,常见的算法有两种:深度优先和广度优先 2、分词与索引 爬虫获取的一般都是文档,我们需要进行分词处理,处理之后,搜索引擎要完成从单词到文档的映射,一般采取倒排索引的方法。 二、排名 在获得了与查询条件相匹配的网页之后,排名是不可缺少的。 1、基于内容的排名 单词频度:一般而言,目标单词在文档中出现的次数越多,则相关性越高。 文
2017-11-09 16:10:29
726
原创 聚类
一、分级聚类 Hierarchical Cluster 分级聚类通过连续不断的将最为相似的群组两两合并,来构造一个群组的层次结构。其中的每个群组都是从单一元素开始,在每次迭代的过程中,都会计算两个群体之间的距离,并将距离最近的两个群组合并。并重复这一过程,直到只剩一个群组。 代表算法有:BIRCH算法、CURE算法、CHAMELEON算法等; 二、划分法 使用这个基本思想的算
2017-11-06 17:42:50
620
原创 推荐
一、推荐算法的分类二、协同过滤以用户为基础(User-based)的协同过滤 用相似统计的方法得到具有相似爱好或者兴趣的相邻用户,所以称之为以用户为基础(User-based)的协同过滤或基于邻居的协同过滤(Neighbor-based Collaborative Filtering)。 方法步骤: 1.收集用户信息 收集可以代表用户兴趣的信息。一般的网站系统使用评分的方式或是给予评价,这种方
2017-11-05 20:19:59
476
转载 java内部类
1.为什么使用内部类? 使用内部类最吸引人的原因是:每个内部类都能独立地继承一个(接口的)实现,所以无论外围类是否已经继承了某个(接口的)实现, 对于内部类都没有影响 1.1.使用内部类最大的优点就在于它能够非常好的解决多重继承的问题,使用内部类还能够为我们带来如下特性: (1)、内部类可以用多个实例,每个实例都有自己的状态信息,并且与其他外围对象的信息相互独。 (2)、在单个外围类中,可
2017-05-08 16:59:45
349
原创 java io流基础
个人感悟: 1、流是具有在端与端之间传输数据能力的一类类 2、根据传输数据种类的不同可以分为字节流和字符流,根据传输方向的不同可以分为输入流和输出流,上图 3、转换流可以实现字节流到字符流的转换//字节输出流转为字符输出流Write out = new OutputStreamWrite(new FileOutputStream(file));//字节输入流转为字符输入流Read i
2017-05-06 22:58:29
348
转载 synchronize的使用
1、synchronize可以修饰限定方法或者代码块 2、 (1)当两个并发线程访问同一个对象object中的这个synchronized(this)同步代码块时,一个时间内只能有一个线程得到执行。另一个线程必须等待当前线程执行完这个代码块以后才能执行该代码块。 (2)然而,当一个线程访问object的一个synchronized(this)同步代码块时,另一个线程仍然可以访问该object中
2017-05-06 17:02:18
673
转载 Java进程间通信
进程间通信的方式有: (1)管道(Pipe):管道可用于具有亲缘关系进程间的通信,允许一个进程和另一个与它有共同祖先的进程之间进行通信。 (2)命名管道(named pipe):命名管道克服了管道没有名字的限制,因此,除具有管道所具有的功能外,它还允许无亲缘关 系 进程间的通信。命名管道在文件系统中有对应的文件名。命名管道通过命令mkfifo或系统调用mkfifo来创建。 (3)信号(Sign
2017-05-06 16:56:13
512
原创 Java的多线程
一、创建 1、新建一个类,实现Runnable接口,重写run方法,在run方法内写要完成的任务,在main函数中,使用该类的对象 .run(),此时是使用main方法的线程,并非新建一个线程。class Task implements Runnable{ @override public void run(){ //.....................
2017-05-06 15:41:57
240
转载 抽象类和接口
抽象类和接口的区别 抽象类里面可以有非抽象的方法,接口里只能有抽象方法。 抽象类中的抽象方法声明时不能有大括号,而接口中的所有方法都没有大括号。抽象类(abstract class): a.抽象类是仅供派生的类,无法实例化一个抽象类,只能实例化从它派生的类。 b.抽象类的主要特征在于它包含抽象成员(abstract member),抽象成员是不具有实现的一个方法或属性,其作用是强制所有派生类
2017-05-04 18:24:40
199
原创 快排的实现(Java)
1、partition函数用于返回主元在排序后所在的索引 2、quickSort函数递归调用,分别对主元两侧的子数组排序public static void quickSort(arr,p,r){ if(p<r){ q = partition(arr,p,r); //下标q是作为分区的基准使用 quickSort(arr,p,q-1);
2017-04-29 17:27:23
297
原创 常见排序算法(js实现)
交换两个元素的值unction swap(i,j){ var tmp; tmp = i; i = j; j = tem;}一、冒泡排序 不断比较相邻两个元素的值,遍历一次,将最大(小)值冒泡到序列尾部(开头)//冒泡排序fucntion bubbleSort(arr){ var len = arr.length; for(var i = 0; i
2017-04-29 16:22:23
405
原创 基于Lucene的搜索引擎的建立
一、基础知识 1、索引概念 索引建立:数据——>分词——>索引创建 搜索过程:获取关键字——>分词——>检索索引——>返回结果 2、索引数学模型 词元的权重计算:文档中的每个词元都对应一个权重 空间向量模型:将每个词元可以对应为空间中的一个向量 检索:将关键字依旧放入空间中,相当于求与目的词元之间的夹角 3、Lucene的索引文件结构 二、Lucene的使用 1、创建索引
2017-04-28 22:53:08
1183
原创 ES6-函数的扩展
1、参数默认值function log(x, y ='world'){ console.log(x,y);}log('hello'); // hello worldlog('hello','china'); //hello china --默认值可以覆盖function foo(x = 5){ let x = 1; //error const x =2; //error
2017-04-27 19:58:34
267
原创 泛型
面对不同的类型,如果具有相同的解决逻辑,我们就用同一套东西去解决,只不过在真正用的时候指定一下它要面对的类型1、参数化类型机制:即将类型参数化,类似方法中的变量参数。 容器类可以算是最具重用性的类库,包含了泛型的定义List<String> list = new ArrayList<String>();//此处就是讲String类型作为一个参数list.add("jdhk");//list.
2017-04-27 17:00:37
248
原创 类型信息
1.RTTI(Run-time Type Identify)运行时类型识别,基于class对象实现。 这个类型必须在编译之前已知,这样才能使用RTTI来识别它。 编译器在编译期间打开和检查 .class文件2反射Class 类与java.lang.reflect类库实现。 当通过反射与一个未知类型的对象打交道是,JVM只是简单的检查这个对象,看他属于哪个特定的类(和RTTI相同)。只不过这个检
2017-04-27 16:16:41
267
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人