
项目总结
文章平均质量分 79
Claire_Bear7
这个作者很懒,什么都没留下…
展开
-
微博舆情分析
微博是从13年暑假做的,前前后后经历了3个月,从需求分析到最终在学校上线,算是数据挖掘和大数据的启蒙项目了。记得当时Team所有人都处于理论学习刚出师的阶段,所以就选择了当时研究微博比较火的几个方向:热点话题发现、特定话题情感分析,社交网络发现 这几个功能,由于时间的问题,最终只完成了前面两个,但是其中在NLP、特征提取、数据挖掘算法和数据分析流程等方面确实学到了很多。原创 2015-06-18 15:24:42 · 10598 阅读 · 2 评论 -
360方案 相关技术(推荐、排序、点击率预估)
这篇主要总结一下做的方案用到的推荐系统、排序学习和点击率预估的相关技术。个性化推荐算法和模型推荐方法是整个推荐系统中最为核心的部分,推荐方法的好坏在很大程度上决定了推荐系统性能的优劣。因此,国内外对于推荐算法的研究都较为深入,常用的推荐算法主要有以下几种:协同过滤推荐、基于内容的推荐和基于知识的推荐。协同过滤协同过滤推荐(Collaborative Filtering Recommendation)原创 2015-07-16 10:19:07 · 4141 阅读 · 0 评论 -
大数据环境下集成R语言的数据挖掘系统 之 数据分析
这一篇主要介绍数据分析模块实现的算法。分类模块流程图功能本模块实现了数据分类功能,系统提供了SVM,KNN,决策树,随机森林等分类算法。首先通过对测试集的数据进行模型构建,在构建模型过程中我们可以对模型进行参数设置,模型构建完成之后,我们对预测集进行预测,最后将分类的结果导出。实现原理聚类模块流程图功能本模块实现了数据聚类功能,系统提供了kmeans,clara,PAM,Agnes,Diana算法。原创 2015-07-05 17:47:57 · 1386 阅读 · 0 评论 -
大数据环境下基于R语言的数据挖掘平台 之 大数据处理与导出模块
这篇文章总结一下大数据处理模块与导出模块:大数据处理功能这个模块实现了对大数据的处理,用户选择处理方法并上传需要处理的数据集,系统将利用Hadoop集群与R对数据进行分析处理,并将结果显示给用户。实现原理模块使用Hadoop框架搭建了一个分布式集群,用于大数据的并行处理。并将Kmeans聚类算法与朴素贝叶斯分类算法用MapReduce编程框架实现。Kmeans聚类算法的MapReduce化 该过原创 2015-07-05 18:01:16 · 1585 阅读 · 0 评论 -
大数据环境下基于R语言的数据挖掘平台 之 环境配置
为了用Hadoop集群,我们选用了Ubuntu作为开发的平台,相应的就有一堆在Windows上不会出现的问题需要解决。印象最深刻的就是由于X11的问题,在Windows上用R画图是没问题的,但是换到了Ubuntu上就显示不出来,这个问题直到比赛当天都一直存在,Team Member一直为了这个问题在改,最终还是成功的解决了,在此也对他们表示感谢。这篇文章就列一下当时配环境时候的一些步骤,方便后人在U原创 2015-07-05 18:47:11 · 1854 阅读 · 0 评论 -
大数据环境下集成R语言的数据挖掘平台 之介绍、数据上传与数据预处理
这个集成R语言的数据挖掘平台是当时为中国软件杯比赛做的一个系统,由于时间太紧,当时开发只用了一周的时间,不过前前后后用了大半年来学习和熟悉R语言,深深感觉到R语言真的是数据分析的一个利器,内置的各种分析包大大简化了数据分析的过程,只需要传参调用即可,再也不需要读懂算法才能完成分析了。但是,R语言当前还是需要以命令行的形式使用的,RStudio也只是优化了应用程序的界面,没有方便的针对业务人员的一个应原创 2015-07-05 17:19:28 · 2443 阅读 · 0 评论 -
微博舆情 之 特定话题情感分析
本文介绍一下在做微博特定话题情感分析中的做法,核心就是判断文本的情感极性,再根据这个极性来进行情感判定。原创 2015-06-30 22:22:43 · 6523 阅读 · 0 评论 -
微博舆情 之 热点话题分析
主要流程在热点话题发现中,主要的流程如下: 在微博流中加入一个时间窗,从时间窗开始处累计微博,直到时间窗的结尾,然后对这个时间窗内的微博进行特征抽取,得到能表示微博的词语,并转化为特征空间中的特征向量;然后利用凝聚式层次聚类算法对文档集合聚类,得到候选话题簇,然后利用 SinglePass 算法判断每个候选话题和历史话题的相似度,如果最大相似度小于阈值,则认为候选话题是一个新话题并把这个候选话题转原创 2015-06-25 16:08:48 · 13266 阅读 · 2 评论 -
微博舆情 之 自然语言处理
这篇主要讲一下如何将微博转化成一个个特征向量。原创 2015-06-23 20:45:55 · 8013 阅读 · 0 评论 -
微博舆情 之 数据获取
这篇主要讲一下当时获取微博内容时所采用的方法。原创 2015-06-20 10:59:53 · 5440 阅读 · 0 评论 -
360方案 技术解决方案
之前有做过一个360的个性化推荐排序与点击率预估方案。很遗憾,方案最终落选于一堆清华北大的队伍中。记得当时评估人(一个很资深的大牛)问我:如果把用户分组了,不是会抹杀掉用户的一些特征吗?我当时完全答不上来。但是能够在一周内快速的做出一个方案来,这段黑暗的岁月还是值得铭记在心的。下面,就把这个方案分享一下:点击率预估 点击率预估现在普遍应用在广告投放中,因为直接与用户和利益相关,是各个企业非常重视的原创 2015-07-16 11:38:35 · 1077 阅读 · 0 评论