
电信运营商日志挖掘
文章平均质量分 55
柱子89
在读学生
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
汉字unicode编码范围
GB2312编码:1981年5月1日发布的简体中文汉字编码国家标准。GB2312对汉字采用双字节编码,收录7445个图形字符,其中包括6763个汉字。BIG5编码:台湾地区繁体中文标准字符集,采用双字节编码,共收录13053个中文字,1984年实施。GBK编码:1995年12月发布的汉字编码国家标准,是对GB2312编码的扩充,对汉字采用双字节编码。GBK字符集共收录21003个汉转载 2017-05-02 16:58:07 · 40888 阅读 · 4 评论 -
Nutch 快速入门(Nutch 2.2.1)
Nutch 2.x 与 Nutch 1.x 相比,剥离出了存储层,放到了gora中,可以使用多种数据库,例如Hbase, Cassandra, MySQL来存储数据了。Nutch 1.7 则是把数据直接存储在HDFS上。1. 安装并运行HBase为了简单起见,使用Standalone模式,参考 HBase Quick start1.1 下载,解压wget htt转载 2017-03-03 13:36:09 · 873 阅读 · 0 评论 -
solr unknown field报错
Solr 中添加fieldType出错在schema.xml中,我添加了一个 然后我创建了一个field,使用该fieldType。 然后我写了一个my.xml,内容: lawrenst lawrenst(256 MB) wang wu 执行 ja转载 2017-03-03 12:42:12 · 6464 阅读 · 1 评论 -
Nutch 2.3.1+ Hbase + Hadoop + Solr 单机指南(一)
这是本熊转业的第一篇,本来从事绘画的工作的本熊为什么来搞搜索引擎呢。这要说起前些日子小Y的委托,靠脸吃饭能饿死自己几辈子的本熊。出于这是单身熊的寂寞 ,哪能错过这个刷刷小Y的好感度的机会,于是跳了这个大坑里。注:本熊搜索引擎新手一枚,本着连初学者都能看懂的想法写的本文,对专业的描述可能还不充分,还请多多指教纯初学者说明模式本章节主讲实现本地模式最低需要哪些软件版本问转载 2017-03-02 10:59:33 · 803 阅读 · 0 评论 -
在ubuntu上安装mongodb
1.安装 MongoDB。1.为软件包管理系统导入公钥。Ubuntu 软件包管理工具为了保证软件包的一致性和可靠性需要用 GPG 密钥检验软件包。使用下列命令导入 MongoDB 的 GPG 密钥 ( MongoDB public GPG Key http://docs.mongodb.org/10gen-gpg-key.asc)_:sudo apt-key adv --k转载 2017-03-01 19:02:34 · 332 阅读 · 0 评论 -
在Ubuntu服务器上mongodb添加账号密码
MongoDB在默认情况下是没有帐密的,为了数据的安全性,需要向mongo添加账号密码。步骤如下: 1.关闭mongo的服务进程。sudo service mongod stop 2.修改mongo的配置文件。/ect/mongod.conf,添加如下代码:security: authorization: "enabled"转载 2017-02-28 19:53:23 · 1167 阅读 · 0 评论 -
Ubuntu下开启MongoDB用户权限
本教程详细指导大家如何开启并设置用户权限。MongoDB默认是没有开启用户权限的,如果直接在公网服务器上如此搭建MongoDB,那么所有人都可以直接访问并修改数据库数据了。 其实MongoDB本身有非常详细的安全配置准则,显然开发者也是想到了,然而他是将安全的任务推给用户去解决,这本身的策略就是偏向易用性的,对于安全性,则得靠边站了。 MongoDB有两种用户,一种是admin用户(这转载 2017-02-28 21:12:22 · 1231 阅读 · 0 评论 -
mongodb lock 出毛病时解决方法
错误信息:Error: couldn't connect to server 127.0.0.1:27017 at src/mongo/shell/mongo.js:145 解决办法:sudo rm /var/lib/mongodb/mongod.locksudo service mongodb restart可以等一会以后在重复输入 service restar转载 2017-02-28 20:19:06 · 2874 阅读 · 0 评论 -
Linux下Mongodb安装和启动配置
1.下载安装包wget http://fastdl.mongodb.org/linux/mongodb-linux-i686-1.8.2.tgz下载完成后解压缩压缩包tar zxf mongodb-linux-i686-1.8.2.tgz2. 安装准备将mongodb移动到/usr/local/server/mongdb文件夹mv mon转载 2017-02-28 18:14:09 · 327 阅读 · 0 评论 -
Nutch抓取流程
nutch抓取流程注入起始url(inject)、生成爬取列表(generate)、爬取(fetch)、解析网页内容(parse)、更新url数据库(updatedb)1:注入起始url(inject)org.apache.nutch.crawl.Injector注入待抓取URL,因为Nutch的抓取程序要抓取网页,肯定需要有一个或者多个入口url。nutch会按照广度优先策略转载 2017-03-03 17:52:01 · 694 阅读 · 0 评论 -
nutch 抓取流程解析
本次笔记主要对抓取的过程进行说明。 首先这里简要列下抓取命令常用参数:参数:-dir dir 指定用于存放抓取文件的目录名称。-threads threads 决定将会在获取是并行的线程数。-depth depth 表明从根网页开始那应该被抓取的链接深度。-topN N 决定在每一深度将会被取回的网页的最大数目。 我们之前的抓取命令中:nohup ./bin/nutch转载 2017-03-03 18:20:08 · 1027 阅读 · 0 评论 -
MongoDB数据表基本操作
查看全部数据表> use ChatRoomswitched to db ChatRoom> show collectionsAccountChatsystem.indexessystem.users 创建数据表> db.createCollection("Account"){"ok":1} > db转载 2017-03-06 17:46:57 · 350 阅读 · 0 评论 -
全文检索引擎Solr系列—–全文检索基本原理
场景:小时候我们都使用过新华字典,妈妈叫你翻开第38页,找到“坑爹”所在的位置,此时你会怎么查呢?毫无疑问,你的眼睛会从38页的第一个字开始从头至尾地扫描,直到找到“坑爹”二字为止。这种搜索方法叫做顺序扫描法。对于少量的数据,使用顺序扫描是够用的。但是妈妈叫你查出坑爹的“坑”字在哪一页时,你要是从第一页的第一个字逐个的扫描下去,那你真的是被坑了。此时你就需要用到索引。索引记录了“坑”字在哪一页,你转载 2017-03-16 12:15:18 · 316 阅读 · 0 评论 -
hadoop中reduce input records不为0,而reduce output records却为0
可能由于在执行reducer之前,执行力combinie,combine的本质就是reduce。原创 2017-03-15 20:21:19 · 2159 阅读 · 0 评论 -
hadoop读取hdfs文件中的中文乱码解决办法
FileSystem fs = FileSystem.get(conf);Path file = new Path("hdfs://localhost:9000/wordcount/data/word.txt");FSDataInputStream inStream = fs.open(file);BufferedReader bf=new BufferedReader(new Inp原创 2017-03-15 20:19:35 · 15508 阅读 · 0 评论 -
hadoop中在map和reduce方法中调试代码
Counter countPrint = context.getCounter("map方法--------------------------------------",str_name);原创 2017-03-15 20:14:26 · 661 阅读 · 0 评论 -
mahout vector 的产生方式
根据wiki mahout 产生 vector 的方式有2种: #1 from lucene index to vector Java代码 $MAHOUT_HOME/bin/mahout lucene.vector \ --output --field --dictOut > = 0}> > #2 from转载 2017-03-24 18:39:43 · 661 阅读 · 0 评论 -
一个基于Mahout与hadoop的聚类搭建
mahout是基于hadoop的数据挖掘工具,因为有了hadoop,所以进行海量数据的挖掘工作显得更为简单。但是因为算法需要支持M/R,所以不是所有常用的数据挖掘算法都会支持。这篇文章会告诉你,如何使用hadoop + mahout搭出一个简易的聚类工具。 第一步:搭建hadoop平台。 我使用的是ubuntu 11.04,如果没有ubuntu的开发环境,就参考我的帖子《U转载 2017-03-24 18:38:34 · 511 阅读 · 0 评论 -
最最最简单的URL聚类
我们要发现一个富文本中的http链接,发现一些群体行为,获取URL 第一步:提取http链接 使用 Jsoup 来做 Java代码 Document doc = Jsoup.parse(stream.getText()) Elements links = doc.select("a[href]") for (Element element:转载 2017-03-24 18:33:59 · 1273 阅读 · 0 评论 -
Hive基于搜狗搜索的用户日志行为分析
问题导读1.本文是如何学习大数据的?2.用户查询中包含的中文、英文字数的平均个数,本文提出哪两个思路?3.用户访问应用的时间特点如何使用hive实现统计的?前言”大数据时代“,“大数据/云计算”,“大数据平台”,每天听到太多的大数据相关的词语,好像现在说一句话不跟大数据沾边都不好意思说自己是做IT的。可能这与整个IT圈子的炒作也有关联,某一个方面来看其实就是一营销术语。很多转载 2017-03-21 16:35:29 · 3739 阅读 · 1 评论 -
Nutch 2.2+MySQL+Solr4.2实现网站内容的抓取和索引
Nutch 2.2.1发布快两月了,该版本与Nutch之前版本相比,有较大变化,特别是与MySQL联合应用的安装和配置过程有不少地方容易出错。本人在安装过程中也遇到了不少麻烦,大多问题通过baidu和google也没有找到解决方法,自己只能通过看代码和分析日志并试错,最终搞定了所遇到的各种问题,现将重要安装和配置过程整理如下。1. MySQL数据库配置l my.ini配置转载 2017-02-28 16:47:31 · 338 阅读 · 0 评论 -
Nutch的local和deploy模式
local模式:1.将hbase安装目录下lib 下面的所有*.jar 复制到nutch/runtime/local/lib下2.nutch/runtime/local/下先创建urls目录mkdir urls,目录下创建seed.txt touch seed.txt,cd /usr/local/apache-nutch-2.3.1/runtime/local原创 2017-01-10 10:23:29 · 543 阅读 · 0 评论 -
Nutch 2.3.1和hbase-0.98.8启动时候报错
InjectorJob: Injecting urlDir: /usr/local/apache-nutch-2.3.1/runtime/local/urlsException in thread "main" java.lang.NoSuchMethodError: org.apache.hadoop.hbase.util.EnvironmentEdgeManager.currentTime原创 2017-01-06 18:25:26 · 853 阅读 · 0 评论 -
【Nutch】InjectorJob
源码分析package org.apache.nutch.crawl;首先呢,InjectorJob类存在于包org.apache.nutch.crawl内。public class InjectorJob extends NutchTool implements Tool它扩展了NutchTool类并实现了Tool类。并实现了NutchTool类的转载 2016-12-02 16:56:22 · 422 阅读 · 0 评论 -
nutch 在hadoop环境下过滤抓取url的设置
摘要: 有个网站有问题,导致nutch 抓取超过24小时,故修改 master主机的nutch conf下regex-urlfiter.txt,发现没有效果。nutch在Hadoop环境下运行,master 和 slave 主机 都要读取regex-urlfilter.txt, 这个文件应该放在哪儿?分析:nutch在单机和hadoop环境下运行不一样, nutch目录下有一个runtime子转载 2016-12-02 16:44:31 · 582 阅读 · 0 评论 -
Java实现布隆过滤器(已爬URL过滤)
最近写爬虫需要降低内存的占用,现在用的是HashSet进行已爬URL的过滤,所以想到用布隆过滤器(Bloom Filter)来替换,从而减少内存的开销。因为HashSet内部是由HashMap处理的,HashMap则通过计算一个int型的hash值得出信息指纹,所以一个信息指纹占4字节,但是由于哈希的存储效率一般只有一半,所有说一条URL就需要8字节的信息指纹,而Bloom Filter 则只需要转载 2016-12-02 16:31:00 · 525 阅读 · 0 评论 -
分析用户的访问偏好
本文主要介绍了在Hadoop平台下统计分析Web用户的访问偏好,项目流程如下图所示:数据采集 项目流程中,提取用户访问页面的URL和URL对应的正文内容,由本人在公司参与一起开发的爬虫系统爬取相应门户网站(新浪)上的数据。爬虫核心代码见我的另一篇文章:httpclient使用详解(爬虫) 爬虫的框架使用的是Java多线程开发,由于数据时效性不是很强,转载 2016-12-01 19:44:48 · 500 阅读 · 0 评论 -
基于hadoop的分词程序(ICTCLAS分词器)
0、【前言】今天下午坑了我一下午,总算在Hadoop上把ICTCLAS分词器跑起来了,其实不是mapreduce化困难,而是一个很小的问题,我是很早就完过ICTCLAS分词器的,因为现在需要分词的内容太多,所以才想这把Java程序mapreduce化的,但是这就意味着要在Linux下的eclipse跑ICTCLAS分词系统,我一直没发现在windows下和linux下用的包不一样,就这样坑了我一下转载 2016-12-01 16:14:36 · 740 阅读 · 0 评论 -
基于hadoop的分布式分词程序(庖丁分词)
一、使用的分词包——庖丁分词器介绍1.1、简介:庖丁系统是个完全基于lucene的中文分词系统,它就是重新建了一个analyzer,叫做PaodingAnalyzer,这个analyer的核心任务就是生成一个可以切词TokenStream。1.2、优点:这里之所以使用庖丁主要考虑到庖丁的分词效率比其他的分词器要高,1.3、缺点:其分词有一转载 2016-12-01 16:12:04 · 1760 阅读 · 0 评论 -
基于Hadoop2.6.0 + ICTCLAS2015的并行化中文分词
1、在Linux下安装ICTCLAS2015 •1) 环境 Eclipse、Linux、ICTCLAS2015、jna-platform-4.1.0.jar( JNA类库)•2) 安装ICTCLAS2015 在Linux下的 Eclipse中新建MapReduce Project,假设工程名为RF; 下载并解压ICTCLAS2015,将ICT转载 2016-12-01 16:01:07 · 693 阅读 · 0 评论 -
基于svm的中文文本自动分类系统
今天刚改完成了软件工程的大作业展示,即:基于内容的文本分类系统,使用libsvm 进行分类。在百度谷歌了很久之后,发现很少有这样的源码可以下载,本人便想着写完之后上传上去。 首先介绍一下流程: 1.先使用中科院的分词器ICTLAS对训练集进行分词 2.将所有的词构建成一个字典,以label item的形式,后面svm要用到。如:1 中国3转载 2016-12-01 15:45:22 · 426 阅读 · 0 评论 -
开源爬虫框架各有什么优缺点?
开发网络爬虫应该选择Nutch、Crawler4j、WebMagic、scrapy、WebCollector还是其他的?这里按照我的经验随便扯淡一下:上面说的爬虫,基本可以分3类:1.分布式爬虫:Nutch2.JAVA单机爬虫:Crawler4j、WebMagic、WebCollector3. 非JAVA单机爬虫:scrapyPython 爬虫的工具列表 附Github代码下载链接转载 2016-12-02 17:37:31 · 472 阅读 · 0 评论 -
使用libsvm实现文本分类
文本分类,首先它是分类问题,应该对应着分类过程的两个重要的步骤,一个是使用训练数据集训练分类器,另一个就是使用测试数据集来评价分类器的分类精度。然而,作为文本分类,它还具有文本这样的约束,所以对于文本来说,需要额外的处理过程,我们结合使用libsvm从宏观上总结一下,基于libsvm实现文本分类实现的基本过程,如下所示:选择文本训练数据集和测试数据集:训练集和测试集都是类标签已知的;转载 2016-12-02 19:21:19 · 878 阅读 · 0 评论 -
Nutch2.3.1 新闻分类爬虫(借鉴)
Contents项目介绍配置文件本地抓取分布式环境配置开发环境配置solr 4.10.3配置hadoop2.5.2安装部署项目下载地址联系作者项目介绍本项目基于https://github.com/xautlx/nutch-ajax.Git,xautlx的nutch-ajax项目功能很强大,本项目在此基础上,对nutch-ajax项目做了一些精简和优化,对Nutch版本进行转载 2017-01-05 16:17:35 · 4148 阅读 · 1 评论 -
聚类算法实践(一)——层次聚类、K-means聚类
转自http://blog.youkuaiyun.com/sky88088/article/category/6245491因为百度云的文章里面有些图片丢失了,想起这篇东西之前被一个中国统计网转发过,所以自己搜了一下想直接把图搞回来,结果发现到处转载的也有不少,自己现在发倒好像是抄袭似的。其实这篇文章里面特别有价值的东西不算太多,PCCA算是一个知道的人不多而且也挺有意义的算法,谱聚类的物理解释也转载 2016-12-05 11:15:19 · 1285 阅读 · 0 评论 -
【机器学习】K-means聚类算法初探
算法代码 Github传送门:K-MeansCluster@skyline0623数据聚类是对于静态数据分析的一门技术,在许多领域内都被广泛地应用,包括机器学习、数据挖掘、模式识别、图像分析、信息检索以及生物信息等。聚类是把相似的对象通过静态分类的方法分成不同的组别或者更多的子集,这样让在同一个子集中的成员对象都有相似的一些属性,常见的包括在坐标系中更加短的空间距离等。我们拿2转载 2016-12-05 11:04:05 · 627 阅读 · 0 评论 -
【hadoop】大规模中文网站聚类kmeans的mapreduce实现(下)
接上一篇,上一篇主要是计算tfidf,下篇主要是文档向量的建立以及kmeas的实现。四 网页向量以及初始中心点选取 网页向量以及初始中心点的选取在 DocumentVetorBuid 中的一个 Mapreduce 中完成,中间过程如下表所示。 输出类似如下:16 26272:0.00587873/22456:0.00264058/22502:0.0转载 2016-12-05 10:46:18 · 504 阅读 · 0 评论 -
利用Hadoop平台进行大规模(百万以上)中文网页聚类
这是我本学期课程《高级数据库》的一个作业,目的是让熟悉一下Hadoop平台,发出来希望对需要的人有点帮助。一、题目要求大规模(百万以上)中文网页聚类分布式计算平台:Hadoop数据输入:未经处理的原始网页数据输出:对每一个网页进行聚类标注输入数据说明:每一行为一个网页。Key (LongWritable) 每一个网页的全局ID号Value (Text) 网页内容转载 2016-12-02 19:28:18 · 891 阅读 · 0 评论 -
Hadoop学习之网络爬虫+分词+倒排索引实现搜索引擎案例
本项目实现的是:自己写一个网络爬虫,对搜狐(或者csdn)爬取新闻(博客)标题,然后把这些新闻标题和它的链接地址上传到hdfs多个文件上,一个文件对应一个标题和链接地址,然后通过分词技术对每个文件中的标题进行分词,分词后建立倒排索引以此来实现搜索引擎的功能,建立倒排索引不熟悉的朋友可以看看我上篇博客 Hadoop–倒排索引过程详解首先 要自己写一个网络爬虫由于我开始写爬虫的时候转载 2016-12-01 15:25:41 · 813 阅读 · 0 评论