
大数据分析
Shadow_mi
数据挖掘、机器学习
展开
-
超越“大数据”:运用商业分析和数据科学为企业实现商业价值 (培训笔记)
内容简介:商业模式和大数据分析关联 硅谷顶级公司大数据BI商业价值实际案例 大数据团队建立和管理经验 总结及大数据行业前瞻 海外讲师:李玥 高级数据分析专家 数据科学业界领军人物 曾担任多家初创公司的数据顾问,例如Coursera原创 2016-07-01 15:31:03 · 1985 阅读 · 0 评论 -
Scala 访问修饰符
Scala 访问修饰符基本和Java的一样,分别有:private,protected,public。如果没有指定访问修饰符符,默认情况下,Scala对象的访问级别都是 public。Scala 中的 private 限定符,比 Java 更严格,在嵌套类情况下,外层类甚至不能访问被嵌套类的私有成员。用private关键字修饰,带有此标记的成员仅在包含了成员定义的类或对象内部可见,同样的规则还适用内原创 2016-09-21 18:30:27 · 913 阅读 · 0 评论 -
聚类分析中几种算法的比较
将数据库中的对象进行聚类是聚类分析的基本操作,其准则是使属于同一类的个体间距离尽可能小,而不同类个体间距离尽可能大,为了找到效率高、通用性强的聚 类方法人们从不同角度提出了近百种聚类方法,典型的有K-means方法、K-medoids方法、CLARANS方法,BIRCH方法等,这些算法适用 于特定的问题及用户。本文综合提出了评价聚类算法好坏的5个标准,基于这5个标准,对数据挖掘中常用聚类方转载 2016-11-03 16:48:48 · 6424 阅读 · 0 评论 -
训练神经网络的五大算法
神经网络模型的每一类学习过程通常被归纳为一种训练算法。训练的算法有很多,它们的特点和性能各不相同。问题的抽象人们把神经网络的学习过程转化为求损失函数f的最小值问题。一般来说,损失函数包括误差项和正则项两部分。误差项衡量神经网络模型在训练数据集上的拟合程度,而正则项则是控制模型的复杂程度,防止出现过拟合现象。损失函数的函数值由模型的参数(权重值和偏置值)所决定。我们可转载 2016-10-27 11:10:09 · 1022 阅读 · 0 评论 -
特征工程分析
1 特征工程是什么? 有这么一句话在业界广泛流传:数据和特征决定了机器学习的上限,而模型和算法只是逼近这个上限而已。那特征工程到底是什么呢?顾名思义,其本质是一项工程活动,目的是最大限度地从原始数据中提取特征以供算法和模型使用。 特征处理是特征工程的核心部分,sklearn提供了较为完整的特征处理方法,包括数据预处理,特征选择,降维等。首次接触到sklearn,通常会被其丰富且方原创 2016-10-27 11:20:50 · 1024 阅读 · 0 评论 -
工程师的五个等级--《硅谷之谜》读书笔记
工程师的五个等级第五等工程师:能够独立设计和实现一项功能的人。第四等工程师:具备产品头脑,具备产品设计方面的基本知识,具备一定的领导才能,能够在整个产品的生命周期从头到尾将一个产品负责到底。第三等工程师:可以做出行业里最好的产品。对客户心理了解,组织能力突出,悟性好。需要潜心五到八年才能达到。第二等工程师:能够给世界带来惊喜的人。例如第一台使用化个人电脑的沃兹尼亚克。第一等原创 2016-10-27 16:05:35 · 973 阅读 · 0 评论 -
tensorflow 学习笔记1
1、tf.ones(shape,type=tf.float32,name=None) tf.ones([2, 3], int32) ==> [[1, 1, 1], [1, 1, 1]]2、tf.zeros(shape,type=tf.float32,name=None) tf.zeros([2, 3], int32) ==> [[0, 0, 0], [0, 0,转载 2016-11-19 20:13:03 · 743 阅读 · 0 评论 -
数据挖掘、机器学习领域有哪些知名的期刊或会议?
机器学习常见会议和期刊如下:机器学习领域会议:COLT、NIPS、ICML、AISTATS、UAI机器学习领域期刊:JMLR、PAMI、ML机器学习的工作也常常发表在人工智能相关会议上,比如:人工智能会议:IJCAI、AAAI人工智能期刊:AI除了机器学习和人工智能的会议,CV和NLP方面也有大量机器学习相关的工作,因此不少与机器学习相关的工作也会发在CV和原创 2016-11-23 14:26:43 · 5325 阅读 · 0 评论 -
Scala 异常处理
异常捕捉的机制与其他语言中一样,如果有异常发生,catch字句是按次序捕捉的。因此,在catch字句中,越具体的异常越要靠前,越普遍的异常越靠后。 如果抛出的异常不在catch字句中,该异常则无法处理,会被升级到调用者处。 捕捉异常的catch子句,语法与其他语言中不太一样。在Scala里,借用了模式匹配的思想来做异常的匹配,因此,在catch的代码里,是一系列case字句,如下例所示:impor转载 2016-09-07 14:13:57 · 2152 阅读 · 0 评论 -
HIVE 中内连接(JOIN ON) 与 LEFT SEMI JOIN 分析
由于HIVE中都是等值连接,在JOIN使用的时候,有两种写法在理论上是可以达到相同的效果的。由于HIVE中都是等值连接,在JOIN使用的时候,有两种写法在理论上是可以达到相同的效果的,但是由于实际情况的不一样,子表中数据的差异导致结果也不太一样。 写法一: select a.bucket_id, a.search转载 2016-10-09 08:47:13 · 3141 阅读 · 0 评论 -
scala 函数闭包
闭包是一个函数,返回值依赖于声明在函数外部的一个或多个变量。原创 2016-09-06 15:31:17 · 465 阅读 · 0 评论 -
白话scala系列三 Scala编程难点解析
一直想找一篇关于scala和其他语言相比难点分析的文章,今天终于找到一篇,虽然有点啰嗦,但仔细阅读后还是会有所体会。 原文链接:http://www.blogjava.net/hechi158/archive/2012/02/28/370902.html Scala难在哪里?下面是我能想出的最主要的几条: ◆ Scala想要的东西太多。 你可以拿Scala像Java那样编程。这是一种福气,也是原创 2016-07-04 10:01:58 · 1381 阅读 · 0 评论 -
如何成为一名数据科学家
摘自知乎一位大牛的推荐 作者:谢科 链接:https://www.zhihu.com/question/21592677/answer/24663656 来源:知乎“Data Science = statistics who uses python and lives in San Francisco”恰好我马上启程到Twitter的data science team,而且恰巧懂一点点统计和住转载 2016-07-05 10:55:50 · 1293 阅读 · 0 评论 -
Kaggle 手写识别题
原文链接:http://blog.youkuaiyun.com/wiking__acm/article/details/43491611 手写体数字的识别,一个比较简单的问题。主要是特征太多,所以用PCA降维处理,然后用knn就可以得到一个准确率相当不错的结果了。ipython notebook 下根据测试数据生成数字图案的代码:%pylab import pandas as pd img = pd.r转载 2016-07-08 11:32:36 · 505 阅读 · 0 评论 -
scala高阶函数
1.scala中,接受函数参数,或者是返回函数的函数,被称为高阶函数。 1.1接受函数作为参数的示例:object test{ def main(args: Array[String]){ def valueAtOneQuarter(f:(Double)=>Double)=f(0.25) //该函数类型为:(Double=>Double)=>Dobule def f原创 2016-09-13 19:08:49 · 502 阅读 · 0 评论 -
hive bucket 分析
hive bucket转载 2016-08-23 13:37:22 · 735 阅读 · 0 评论 -
scala控制抽象
Scala程序员可以构建控制抽象:看上去像是编程语言关键字的函数。 object test{ def until(condition: => Boolean)(block: =>Unit){ if(!condition){ block until(condition)(block) } }def main(args: Array[Stri原创 2016-09-14 14:20:45 · 758 阅读 · 0 评论 -
Xms Xmx PermSize MaxPermSize 区别
1.参数的含义 -vmargs -Xms128M -Xmx512M -XX:PermSize=64M -XX:MaxPermSize=128M -vmargs 说明后面是VM的参数,所以后面的其实都是JVM的参数了 -Xms128m JVM初始分配的堆内存 -Xmx512m JVM最大允许分配的堆内存,按需分配 -XX:PermSize=64M JVM初始分配的非堆内存 -XX:MaxP转载 2016-09-18 17:00:07 · 600 阅读 · 0 评论 -
白话scala系列五 匿名函数分析
匿名函数在函数式编程中经常用到,语法轻量,使用灵活。不带参数的匿名函数var noparam = () => { println("hello world unit") println("hello unit")}var func0 = new Function0[Unit]{ def apply():Unit={ println("hello world原创 2016-09-06 14:25:28 · 628 阅读 · 0 评论 -
python 画图、简单报表制作
代码部分# -*- coding:utf-8 -*- #统计#运行环境python2.7#需要安装python,numpy,pandas,matplotlib等import sysreload(sys)sys.setdefaultencoding('gb18030')#sys.setdefaultencoding('utf8')import numpy原创 2018-01-25 16:52:47 · 1219 阅读 · 0 评论