
数理统计
文章平均质量分 61
大鱼-瓶邪
工作已签,base杭州,专注毕业,后期更新可能会稍微少一点,还是会和大家一起探讨。
华中科技大学在读研究生。主要做核聚变模拟计算,管理着82个节点的集群,做大数据和机器学习,利用10多个老节点搭建各种环境钻研大数据知识,主要是Hadoop生态圈(HDFS+Spark+Sqoop+HIve+Hbase+Pig+Zookeeper)。<br>也用python做科研数据分析,机器学习。<br>熟悉scala开发<br>本科期间跟随导师做了两年的java web开发,熟悉ssh框架,mysql,oracle数据库
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
聚类--K-Means(python代码案例+图展示)
人类天生具备这种归纳和总结的能力,具备 一种主观的认知能力,以特征形态的相同或者近似将他们划分在一个概念下,以特征形态的不同划分在不同概念下,这就是聚类的思维方式。 聚类算法:K-Means算法(基于向量距离来做聚类):采用距离作为相似性的评价指标,即认为两个对象的距离越近,其相似度就越大。该算法认为类簇是由距离靠近的对象组成的,因此把得到紧凑且独立的簇作为最终目标。k...原创 2018-08-14 14:28:18 · 39275 阅读 · 21 评论 -
Spark accumulator累加器
accumulator累加器使用规则:(1)accumulator累加器可以使用SparkContext.accumulator([初始值])来创建(2)使用.add()累加(3)在task中,例如foreach循环中,不能读取累加器的值(4)只有驱动程序,也就是循环外,才可以使用.value读取累加器的值例子:累加器求和、计数>>> intRDD = s...原创 2018-08-21 21:41:19 · 322 阅读 · 0 评论 -
Spark Broadcast广播变量
Broadcast广播变量使用规则如下:(1)可以使用SparkContext.broadcast([初始值])创建(2)使用.valuse来读取广播变量的值(3)Broadcast广播变量被创建后不能修改例子:创建kvFruit:>>> kvFruit = sc.parallelize([(1,"apple"),(2,"orange"),(3,"bana...原创 2018-08-21 20:59:19 · 911 阅读 · 0 评论 -
Spark RDD Key-Value基本转换和动作运算实例
创建Key-Value RDD kvRDD1 = sc.parallelize([(3,6),(6,9),(3,4),(5,6),(1,2)])转换:取key和value>>> kvRDD1.collect()[(3, 6), (6, 9), (3, 4), (5, 6), (1, 2)]>>> kvRDD1.keys().collect()[...原创 2018-08-21 20:31:38 · 3732 阅读 · 0 评论 -
超级详细的协同过滤推荐系统+完整Python实现及结果
协同过滤推荐系统在我们的日常生活之中无处不在,例如,在电子商城购物,系统会根据用户的记录或者其他的信息来推荐相应的产品给客户,是一种智能的生活方式。之所以交协同过滤,是因为在实现过滤推荐的时候是根据其他人的行为来做预测的,基于相似用户的喜好来实现用户的喜好预测。简要介绍: 通过找到兴趣相投,或者有共同经验的群体,来向用户推荐感兴趣的信息。举例,如何协同过滤,来对...原创 2018-08-19 20:00:55 · 62496 阅读 · 65 评论 -
Spark下的WordCount案列演示
安装教程见我其他博客https://blog.youkuaiyun.com/qq_25948717/article/details/80758713,在终端输入pyspark进入spark环境:test.txt进入:读取文本文件:>>> textFile = sc.textFile("test.txt")使用flatMap空格分隔单词,并读取每个单词注...原创 2018-08-22 12:27:41 · 618 阅读 · 0 评论 -
贝叶斯分类器(Python实现+详细完整源码和原理)
在概率和统计学领域,贝叶斯理论基于对某一事件证据的认识来预测该事件的发生概率,由结果推测原因的概率大小首先,理解这个公式的前提是理解条件概率,因此先复习条件概率。P(A|B)=P(AB)/P(B)贝叶斯公式: 在机器学习领域,贝叶斯分类器是基于贝叶斯理论并假设各特征相互独立的分类方法,基本方法是:使用特征向量来表征某个实体,并在该实体上绑定一个标签来代表其所属的类别...原创 2018-08-16 17:20:20 · 84036 阅读 · 50 评论 -
回归(python代码案例+图展示)
回归:从大量的结果和自变量反推函数表达式的过程就是回归而回归的过程通常采用拟合的方法(找函数)来实现。拟合可能出现过拟合和欠拟合:过拟合的危害:(1)描述复杂 (2)泛化能力差 原因: (1)训练样本少 (2)力求完美欠拟和的原因:(1)参数过少导致模型不准确 (2)拟合方法不当导致模型太差...原创 2018-08-13 20:54:17 · 3181 阅读 · 0 评论 -
同比和环比的理解
同比:与相邻时段的同一时期相比(比如今年7月份和去年7月份的比较)环比:直接和上一个报告期比较(比如今年7月份和6月份的比较)同比和环比的周期要根据需求选取适当。...原创 2018-08-13 18:22:10 · 6920 阅读 · 0 评论 -
Python分析数据【利用DataFame】--帮一个武大同学分析excel表格数据【记】
Excel数据格式截图:主要分析cog数据在不同指标下随时间的变化,有2005 2008 2011 2014四个年度。prov是不同省份等等。代码如下:# -*- coding: utf-8 -*-"""Created on Fri May 24 09:56:04 2019@author: YEXIN@Company:华中科技大学"""import pandas...原创 2019-05-25 14:45:49 · 606 阅读 · 0 评论