
机器学习
文章平均质量分 51
大鱼-瓶邪
工作已签,base杭州,专注毕业,后期更新可能会稍微少一点,还是会和大家一起探讨。
华中科技大学在读研究生。主要做核聚变模拟计算,管理着82个节点的集群,做大数据和机器学习,利用10多个老节点搭建各种环境钻研大数据知识,主要是Hadoop生态圈(HDFS+Spark+Sqoop+HIve+Hbase+Pig+Zookeeper)。<br>也用python做科研数据分析,机器学习。<br>熟悉scala开发<br>本科期间跟随导师做了两年的java web开发,熟悉ssh框架,mysql,oracle数据库
展开
-
协同过滤算法
所谓的协同过滤算法就是:通过找到兴趣相投,或者有共同经验的群体,来向用户推荐感兴趣的信息。所以说,当一个用户 A 需要个性化推荐时,可以先找到和他兴趣相似的用户群体 G,然后把 G 喜欢的、并且 A 没有听说过的物品推荐给 A,这就是基于用户的系统过滤算法。例如:利用协同过滤向用户A推荐他喜欢的电影。Process:找到用户A(user_id_1)的兴趣爱好 找到与用...原创 2018-05-14 15:09:51 · 505 阅读 · 0 评论 -
用贝叶斯实现拼写检查器(Python3详细源码可运行)
用贝叶斯实现拼写检查器:依据文档总的词的概率计算当前错误输入单词情况下应该正确输入的词。对于贝叶斯的原理,再次不做过多介绍,建议原理自己推到一遍,根本在于:由果索因。相关博客:https://blog.youkuaiyun.com/qq_25948717/article/details/81744277Python3源码:代码中好多注释已经非常完善,自己找一篇英文文献txt即可。#!/usr...原创 2018-11-25 19:01:55 · 3434 阅读 · 1 评论 -
利用Python sklearn库里的决策树模型生成决策树图片以及测试分类的准确度
本案例利用sklearn自带的数据集,选取房子经纬度作为特征参数来对标签进行分类。也用切分的数据训练模型来进行特征参数的选择得到最好的测试准确度。Python源码:#!/usr/bin/env python# encoding: utf-8"""@Company:华中科技大学电气学院聚变与等离子研究所@version: V1.0@author: Victor@contac...原创 2018-11-17 20:59:34 · 9643 阅读 · 2 评论 -
实战:利用Python sklearn库里的逻辑回归模型训练数据---建立模型
本案例主要是通过对不均衡的28万组数据建立模型,分析预测欺诈用户,采用sigmod函数作为损失函数,采用交叉验证的方法和l1正交法则,比对了不同惩罚函数下的模型的召回率,也通过预测值和实际值做出混淆矩阵更加直观看到各种预测结果。也比较了sigmod函数下的不同阈值下的模型预测的精度和召回率。以下是部分数据格式,代码中对每一步如何做以及为什么做了详细的说明。可能有某些库的版本不同会出现错...原创 2018-11-16 20:12:34 · 4555 阅读 · 1 评论 -
通过使用各种算法(线性回归,逻辑回归,随机森林,继承算法)预测泰坦尼克号上的某个人是否获救
Python源码:#!/usr/bin/env python# encoding: utf-8"""@Company:华中科技大学电气学院聚变与等离子研究所@version: V1.0@author: Victor@contact: 1650996069@qq.com@software: PyCharm@file: Taitannic.py@time: 2018/11/20...原创 2018-11-20 19:40:51 · 1728 阅读 · 0 评论 -
利用python实现梯度下降和逻辑回归原理(Python详细源码:预测学生是否被录取)
本案例主要是:建立逻辑回归模型预测一个学生是否被大学录取,没有详细介绍算法推到,读者可查阅其他博客理解梯度下降算法的实现:https://blog.youkuaiyun.com/wangliang0633/article/details/79082901数据格式如下:第三列表示录取状态,0---未录取,1---已录取,前两列是成绩源码:#!/usr/bin/env python# en...原创 2018-11-12 18:57:25 · 3304 阅读 · 0 评论 -
Python3分析处理声音数据
将音频文件拷贝到程序所在目录即可。#!/usr/bin/env python# encoding: utf-8"""@Company:华中科技大学电气学院聚变与等离子研究所@version: V1.0@author: Victor@contact: 1650996069@qq.com or yexin@hust.edu.cn 2018--2020@software: PyCha...原创 2018-09-08 13:08:13 · 6110 阅读 · 1 评论 -
Spark RDD Key-Value基本转换和动作运算实例
创建Key-Value RDD kvRDD1 = sc.parallelize([(3,6),(6,9),(3,4),(5,6),(1,2)])转换:取key和value>>> kvRDD1.collect()[(3, 6), (6, 9), (3, 4), (5, 6), (1, 2)]>>> kvRDD1.keys().collect()[...原创 2018-08-21 20:31:38 · 3720 阅读 · 0 评论 -
超级详细的协同过滤推荐系统+完整Python实现及结果
协同过滤推荐系统在我们的日常生活之中无处不在,例如,在电子商城购物,系统会根据用户的记录或者其他的信息来推荐相应的产品给客户,是一种智能的生活方式。之所以交协同过滤,是因为在实现过滤推荐的时候是根据其他人的行为来做预测的,基于相似用户的喜好来实现用户的喜好预测。简要介绍: 通过找到兴趣相投,或者有共同经验的群体,来向用户推荐感兴趣的信息。举例,如何协同过滤,来对...原创 2018-08-19 20:00:55 · 62432 阅读 · 65 评论 -
贝叶斯分类器(Python实现+详细完整源码和原理)
在概率和统计学领域,贝叶斯理论基于对某一事件证据的认识来预测该事件的发生概率,由结果推测原因的概率大小首先,理解这个公式的前提是理解条件概率,因此先复习条件概率。P(A|B)=P(AB)/P(B)贝叶斯公式: 在机器学习领域,贝叶斯分类器是基于贝叶斯理论并假设各特征相互独立的分类方法,基本方法是:使用特征向量来表征某个实体,并在该实体上绑定一个标签来代表其所属的类别...原创 2018-08-16 17:20:20 · 83653 阅读 · 50 评论 -
回归(python代码案例+图展示)
回归:从大量的结果和自变量反推函数表达式的过程就是回归而回归的过程通常采用拟合的方法(找函数)来实现。拟合可能出现过拟合和欠拟合:过拟合的危害:(1)描述复杂 (2)泛化能力差 原因: (1)训练样本少 (2)力求完美欠拟和的原因:(1)参数过少导致模型不准确 (2)拟合方法不当导致模型太差...原创 2018-08-13 20:54:17 · 3155 阅读 · 0 评论 -
同比和环比的理解
同比:与相邻时段的同一时期相比(比如今年7月份和去年7月份的比较)环比:直接和上一个报告期比较(比如今年7月份和6月份的比较)同比和环比的周期要根据需求选取适当。...原创 2018-08-13 18:22:10 · 6883 阅读 · 0 评论 -
欧式距离与曼哈顿距离
欧式距离,其实就是应用勾股定理计算两个点的直线距离二维空间的公式其中,为点与点之间的欧氏距离;为点到原点的欧氏距离。 三维空间的公式 n维空间的公式 曼哈顿距离,就是表示两个点在标准坐标系上的绝对轴距之和:图中红线代表曼哈顿距离,绿色代表欧氏距离,也就是直线距离,而蓝色和黄色代表等价的曼哈顿距离。曼哈顿距离——两点在南北方向上...原创 2018-08-13 15:28:13 · 41907 阅读 · 3 评论 -
聚类--K-Means(python代码案例+图展示)
人类天生具备这种归纳和总结的能力,具备 一种主观的认知能力,以特征形态的相同或者近似将他们划分在一个概念下,以特征形态的不同划分在不同概念下,这就是聚类的思维方式。 聚类算法:K-Means算法(基于向量距离来做聚类):采用距离作为相似性的评价指标,即认为两个对象的距离越近,其相似度就越大。该算法认为类簇是由距离靠近的对象组成的,因此把得到紧凑且独立的簇作为最终目标。k...原创 2018-08-14 14:28:18 · 39206 阅读 · 21 评论 -
支持向量机算法的实现和应用(Python3超详细的源码实现+图介绍)
支持向量机算法的实现和应用,因为自己推到过SVM,建议自己推到一遍, 这里不对SVM原理做详细的说明。原理公式推到推荐看:https://blog.youkuaiyun.com/jcjx0315/article/details/61929439#!/usr/bin/env python# encoding: utf-8"""@Company:华中科技大学电气学院聚变与等离子研究所@versi...原创 2018-11-25 15:39:33 · 5381 阅读 · 1 评论