数据科学家
TNGAI
Team never give up.AI
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
DataScientist— 须知知识(1)
年初的早些时候,偶然在网上,看到一篇关于“20个数据科学家必知的面试题”。这篇帖子中,例举了20个面试问题,有很多问题,一时也无法给出一个自己觉得可说的所以然。所以回去翻了翻书籍和网上的一些理解,重新去回顾和整理了这些相关的基础知识。 这篇日志总结的是第一个问题基本认识:“解释什么是正则化,以及有哪些用途?” 参考来源:(1)维基百科;(2)Coursera公开课笔记;(3)原创 2016-07-25 15:36:12 · 464 阅读 · 0 评论 -
数据湖架构—读书笔记[1]
“数据仓库”之父Bill Lnmon最新力作,设计数据湖以避免垃圾存储最近剁手选购了一篇新书,大都是之前未接触过得,有些纯技术,有些也纯是扫盲的概念书,为了不浪费,通过每天写笔记的形式读完:原创 2017-10-27 09:20:32 · 2756 阅读 · 2 评论 -
参数与非参的机器学习算法
原文:http://machinelearningmastery.com/parametric-and-nonparametric-machine-learning-algorithms/ 作者:Jason Brownlee 翻译:AI梦蝶 译者注:这篇文章中主要介绍了参数和非参的一些机器学习模型的区别。 一个参数机器学习算法是什么,与非参的机器学习算法又有什么不同呢? 在这篇文章中翻译 2017-05-26 18:34:07 · 6794 阅读 · 2 评论 -
数据预处理:AMiner to JSON
1、处理需求 主要处理的数据来自己Extraction and Mining of Academic Social Networks官网链接的数据集,本文以“AMiner-Paper.txt”为例。原始数据如下: 处理之后的结果如下:2、处理代码如下#AMiner数据转换成JSON数据格式#待处理和处理后数据的文件路径 inputPath = u"D:/DataSets/AMiner/AMine原创 2017-05-16 17:47:12 · 2122 阅读 · 0 评论 -
R:Shiny-优雅的数据分析交互Web框架
漫不经心,发现了R语言中的RStudio IDE中可以创建一个优雅的Web数据分析简单框架,这就是Shiny package。原创 2017-04-25 17:15:07 · 3568 阅读 · 0 评论 -
Tableau10.0学习笔记—入门[1]
Tableau-初始1、Tableau介绍 Tableau集数据导入、分析和发布一体的数据可视化分析平台,目前提供了Tableau 公共版、专业版和服务器版。除了公用版,其他版本是收费。不过对于一个数据分析师解放很多苦力工作,能有更多的时间放在业务分析上。目前版本到了tableau10.0,如下图: 1、Tableau初次使用 (1)怎样下载和安转之类的就不累原创 2016-08-23 11:59:36 · 1057 阅读 · 0 评论 -
Hive性能与调优—学习笔记[4]
1、Hive SQL的基本实现(Join、Group by、Distinct) (1)Join实现:Hive不支持关联字查询。例如: select t1.name,t2.name from t1 join t2 on t1.id=t2.id; (2)Group by实现: select tab.feature1,tab.feature2,count(*) from tab group by原创 2016-08-18 17:29:36 · 439 阅读 · 0 评论 -
Hive与ETL基础—学习笔记[3]
Hive与ETL基础1、日志收集 2、Hive数据类型 3、Hive表与分区 4、Hive基本操作 5、Hive常用函数 6、HDFS文件格式 7、Hive表压缩存储 8、ORCFile 9、Hive SerDe1、Flume:日志收集 常见的收集日志的工具有两种:(1)最早收集日志的是Facebook开发的 Scribe。开源。(2)Flume更加完善如上图所示。HDFS批处原创 2016-08-18 11:43:03 · 7488 阅读 · 0 评论 -
MapReduce编程基础—学习笔记[2]
1、MapReduce编程模型 (1)Record reader:读取hdfs文件; (2)Map:把hdfs的结果映射成另一种结果,比如WordCount这个例子而言,就是把读进来的文本,映射成一个这样逻辑; (3)Combiner:很重要的一个功能,很多MR可以没有,但是性能会下降。实现数据减少的操作,在MAP端做一个局部的Reduce; (4)Par原创 2016-08-17 14:29:16 · 466 阅读 · 0 评论 -
DataWarehouseBasedOnSQLHadoop—学习笔记[1]
1、Hadoop Ecosystem (1)结构化、非结构化数据统一存储平台:结构化数据是通常所说的行数据(如数字、符号等信息),存储在关系数据库中,可用二维表来表示。半结构化数据通常指的是一个实例的字段(特征/属性)数目是不固定。比如HTML文档,比如树、图数据。非结构数据是指其字段长度可变,并且每个字段的记录又可以由可重复或不可重复的子字段构成的数据(全文文本、图象、声音、影视、超媒体原创 2016-08-16 14:24:12 · 365 阅读 · 0 评论 -
数据湖架构—读书笔记[2]--数据的生命周期
今天的学习主要内容是关于数据湖想要具备分析操作的能力,还需要把数据分解为几个数据池:原创 2017-10-31 08:32:18 · 1136 阅读 · 1 评论
分享