自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(8)
  • 收藏
  • 关注

转载 简单模拟社交网络分析

之前的文章中介绍了社交网络常用的一些分析指标,这里Tatsumi将自己编写Scrapy爬虫获取简书用户的关注与被关注行为信息,模拟一个真实的小社交网络群体。 打开简书的网站,随便找到一个用户然后点击关注或粉丝,便可获取该用户对应的粉丝和它关注的用户ID。 由于简书里这种用户ID信息列表...

2018-08-08 20:39:00 885

转载 文本挖掘的那些事

文本挖掘,相信很多同学在数据科学领域或多或少都会有接触到,它跟传统的结构化数据有点不一样,需要我们对文本数据做一定的预处理才能正常使用,今天Tatsumi打算给大家讲讲一般文本挖掘的完整流程,包括分词、词型的归一化(一般针对英文文本)、去停用词、生成高质量的词字典、词列表的特征化、模型构建、可...

2018-08-08 20:39:00 395

转载 “网络爬虫”哩啲鬼鼠贼好玩

最近Tatsumi在整理之前的爬虫笔记,发现网络爬虫的话还是比较大的一块领域,涉及到的东西也比较多。之前Tatsumi都是比较的零散的实现一些简单的爬虫小项目,并没有比较系统的整理整个知识架构,所以打算在这里完整的梳理一版爬虫的整体流程与解决思路。 所谓的爬虫,简单的来说这里就是使用编程语言...

2018-08-08 20:39:00 274

转载 有监督の拿Kobe数据搞搞事情

今天Tatsumi带大家用科比的数据做一个相对完整的数据挖掘项目的小案例,涉及到数据预处理、数据可视化、常用分类模型的构建及相关调参的操作。 (为什么要拿我科的数据集来玩?因为不想用鸢尾花啊,Tatsumi也很想知道究竟能不能很好地预测科比每一次的投篮是否能命中) 首先是从NBA的统计网站...

2018-08-08 20:39:00 481

转载 社交网络分析-中心性指标

分析社交网络的首要方法是衡量网络中各节点的影响力和重要性。换句话说,我们要求的是,在社会网络中,谁是中心角色(具有影响力的用户) 在社会网络拓扑图中一般认为节点中连接边的数目(入度或出度)越多,该点在网络中便占据重要地位,当然这只是最简单的一种度量情况 下面简单的介绍下几种中心性的度量...

2018-08-08 20:37:00 10065

转载 Flask搭建个人博客

国庆回来后整个人都不是很在状态,总想找点乐子自己玩玩,于是就萌发了搭建个人博客的小想法,这里Tatsumi个人博客主要使用Python作为开发语言,框架使用了比较轻量级的Flask(实现了登录、评论、排序、搜索、分页和富文本功能)。 其实很早之前Tatsumi就想做一个小项目把前后端的流程过...

2018-08-08 20:36:00 695

转载 无监督の图像压缩(SVD与K-means)

Tatsumi这次带大家玩玩无监督,无监督方法更多的使用场景还是在数据分析挖掘的预处理或异常点检测中,但Tatsumi觉得通过图像处理来展示无监督的威力能更好地达到可视化的效果,因此这里选了图像压缩的小案例。 无监督在数据科学领域用的比较多的算法有聚类(如kmeans)、PCA还有SVD。由...

2018-08-08 19:22:00 489

转载 文本挖掘の玩转IphoneX评论数据

这次Tatsumi带来的是一个文本挖掘的小项目,项目的数据的是爬取京东里IphoneX的评论文本,由于京东评论里好中坏每个等级的评论条数最多只显示最近的1000条数据,如果想要获取更多的数据只能每天不断地进行定时爬取,作为一个个人小项目,Tatsumi这里就简单粗暴了爬取多家店的IphoneX...

2018-08-08 12:47:00 249

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除