- 博客(8)
- 资源 (1)
- 收藏
- 关注
原创 graphviz画决策树图中文乱码问题解决
1、修改graphviz配置文件C:\Program Files\Graphviz2.38\fonts <dir>C:\WINDOWS\Fonts</dir> 更改为 <dir>~/.fonts</dir>2、将决策树dot_data文件保存下来def save_dot_data(model): from s...
2018-07-02 12:53:24
9902
3
原创 Spark快速大数据分析之RDD基础
RDD基础Spark 中的RDD 就是一个不可变的分布式对象集合。每个RDD 都被分为多个分区,这些分区运行在集群中的不同节点上。RDD 可以包含Python、Java、Scala中任意类型的对象,甚至可以包含用户自定义的对象。 用户可以使用两种方法创建RDD:读取一个外部数据集,或在驱动器程序里分发驱动器程序中的对象集合(比如list 和set)。RDD支持两种类型的操作:转化操作和行动操
2017-08-04 17:09:36
1987
转载 Python3.x和Python2.x的区别以及不同版本共存方法
Python官方网站对于Python3.x的新增的内容有详细的描述,详细可以参考网站: What’s New In Python 3.0 — Python 3.6.1 documentation https://docs.python.org/3/whatsnew/3.0.html关于应该使用Python3.x还是Python2.x的问题,官方文档的介绍详见:、 Python2orPython
2017-05-12 11:28:47
971
转载 对自己的上网搜索记录进行爬虫是怎样一种体验
前言国外习惯用 Google 进行搜索,可以毫不夸张的说 Google 已经彻底地融入了日常生活。如今人们一有什么问题都习惯谷歌一下,敲敲键盘,你就能找到想要的答案。与此同时,你的 Google 搜索记录也反映了某段时间你的心态,好奇心,追求甚至是担忧。如果你已注册了 Google 帐户(通常是 Gmail ),根据你对隐私项的设置, Google 能够记录并提供你的搜索历史。下面我将告诉大家如何获
2017-05-11 15:19:20
945
1
原创 R语言文本挖掘tm包详解(附代码实现)
文本挖掘相关介绍1什么是文本挖掘2NLP3 分词4 OCR5 常用算法6 文本挖掘处理流程7 相应R包简介8 文本处理词干化stemming snowball包记号化Tokenization RWeka包中文分词 Rwordseg包9 tm包常用操作介绍tm包具体操作建立语料库导出语料库语料库检索和查看元数据
2017-05-06 23:00:34
27050
1
原创 超全整理!Python数据分析知识体系
自从1991年诞生以来,Python现在已经成为最受欢迎的动态编程语言之一,Python最大的特点是拥有一个巨大而活跃的科学计算社区。进入21世纪以来,在行业应用和学术研究中采用Python进行科学计算的势头越来越猛。 在数据分析和交互、探索性计算以及数据可视化方面,Python将不可避免地接近于其他开源和商业领域的特定编程语言/工具,如R、matlab、SAS、stata等。 下面是笔者在学习
2017-05-06 19:16:43
4841
原创 Python数据分析:pandas包知识结构树
Python Data Analysis Library 或 pandas 是基于NumPy 的一种工具,该工具是为了解决数据分析任务而创建的。Pandas 纳入了大量库和一些标准的数据模型,提供了高效地操作大型数据集所需的工具。pandas提供了大量能使我们快速便捷地处理数据的函数和方法。你很快就会发现,它是使Python成为强大而高效的数据分析环境的重要因素之一。笔者在学习《用Python进行数
2017-05-06 16:41:04
2027
原创 python数据分析之pandas包
pandas知识体系图Pandas是一个开源的Python数据分析库。pandas具有强大的数据分析功能,这不仅体现在其数据分析功能的完备性,更体现在其对于大数据运算的速度,它可以将几百MB数据以高效的向量化格式加
2017-05-06 15:47:52
3650
1
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人