
Data Mining
文章平均质量分 74
uestcfrog
这个作者很懒,什么都没留下…
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
基于密度的聚类
基于密度的聚类 定义: 1. 对于空间中的一个对象,如果它在给定半径e的邻域中的对象个数大于密度阀值MinPts,则该对象被称为核心对象,否则称为边界对象。 2. 如果p是一个核心对象,q属于p的邻域,那么称p直接密度可达q。 3.转载 2011-10-15 16:35:07 · 8782 阅读 · 5 评论 -
文本聚类算法简要
文本聚类算法分析 1. 传统的文本聚类算法 传统的文本聚类算法分为以下几种 1.1 分割方法(partitioning methods) 1.1.1 K-MEANS算法: 工作原理: 首先从n个数据对象任意选择 k 个对象作为初始聚类中心;而对于所剩下其它对象原创 2011-10-15 14:45:16 · 11057 阅读 · 1 评论 -
信息采集及开源Boilerpipe简介
信息采集及开源Boilerpipe简介 敖立翔 信息采集 信息采集部分是與情分析系统的先导部分,负责抓取各个网站的與情信息,并进行初步的分析处理,去除网页中无关信息,提取标题、来源、作者、发布时间、正文等有用信息,作为之后與情分析的基础。由于信息原创 2011-10-16 14:58:53 · 8878 阅读 · 5 评论 -
文本聚类简介
一.简介 文本聚类是数据挖掘中数据挖掘技术中的一种,是把文本文档资源按照指定的相似性标准划分为若干类别,使得每一类文档相似性达到指定标准,并且为每一类别给出容易让人理解的具体描述,是一个发现文本集包含内容的方法。 二.文本聚类流程: 1.将原始文原创 2011-10-15 09:52:45 · 3689 阅读 · 4 评论