
数据科学与机器学习算法学习笔记
文章平均质量分 59
数据科学与机器学习算法系列学习笔记,1.【不调库】纯Python实现数据科学与机器学习常见经典算法,2.手推各类经典算法与底层数学原理,3.利用自己构建的算法实战Kaggle项目。系统化的学习,一站式搞定数据科学与机器学戏
gemoumou
hello word
展开
-
机器学习从零开始-Kaggle数据用PurePython实战
一,红酒质量分析#1.加载csv#2.将字符串转换为浮点#3.规范化#4.交叉验证#5.评估我们的算法(RMSE)# 1 . 导入标准库from csv import readerfrom math import sqrtfrom random import randrangefrom random import seed# 2. 加载我们的csv文件def csv_loader(filename): dataset = list() with open(fil原创 2021-04-26 23:00:37 · 553 阅读 · 1 评论 -
机器学习从零开始-常见算法手推pure python
简单线性回归代码# 平均值函数def calculate_mean(a_list_of_values): mean=sum(a_list_of_values)/float(len(a_list_of_values)) return mean# 计算方差函数def calculate_variance(a_list_of_values,mean): variance_sum=sum((x-mean)**2 for x in a_list_of_values原创 2021-03-28 22:30:22 · 661 阅读 · 1 评论 -
从零开始数据科学与机器学习算法-集成算法-10
概述把各种model综合起来——让预测更准确、更加稳定(做平均)在随机森林里面的超参数(hyper-parameter):1.对于每一棵树,要选取特性(features),假设总共有n个feature,你需要确定选取个m作为参数2.每一个node的最低size(每个棵树的每一片叶子的最小值)3.每一个树的深度(maximum depth of one tree) 4.选择森林里面有多少棵树一、baggingfrom random import seedfrom random impor原创 2021-03-15 22:13:11 · 184 阅读 · 0 评论 -
从零开始数据科学与机器学习算法-人工神经网络与反向传播-09
概述rectifier其实就是一种模仿生物的激活机制的函数 (activation function)常见的激活函数https://en.wikipedia.org/wiki/Rectifier_(neural_networks)#Gaussian_Error_Linear_Unit_(GELU)import math #math库是python提供的内置数学类函数库softplus = math.log(1+math.exp(2.14))print(softplus)sigm原创 2021-03-11 22:27:19 · 213 阅读 · 0 评论 -
从零开始数据科学与机器学习算法-学习向量量化(Learning_Vector_Quantization)-08
LVQ概述通常,我们使用LVQ方法用在分类问题上。codebook vector(是一系列数字,与你训练数据里的input与output相关的特征一样)例:1.class 0,12.width3.height4.lengthcodebook vector(neuron):1.class 0,12.width3.height4.lengthLVQ跟KNN通过在codebook vector里面进行寻找,通过Euclidean距离进行判断,找到BMU(Best Matching Un原创 2021-03-10 22:27:15 · 434 阅读 · 0 评论 -
从零开始数据科学与机器学习算法-KNN分类算法-07
1.k——超参数(hyper-parameter) 2.k最好为奇数(no even number , better be odd) 3.k大小有学问: k太小:outliers 对判断的影像加大 k太大:会"冲淡"周边neighbor(高质量、高权重的数据)对最终判断的影像# Euclidean Distancedef calculate_euclidean_distance(row1,row2): # 累计的计数器 distance = 0.0 for i in rang.原创 2021-03-08 21:55:24 · 503 阅读 · 0 评论 -
从零开始数据科学与机器学习算法-朴素贝叶斯-07
朴素贝叶斯概念例子:邮件分类问题:N = (12/17)*(5/11)*(3/11)S = (5/17)*(2/7)*(1/7)print(N)print(S)# N>S 我们可以判断这是一封正常邮件常见问题1因为图2中 吗出现的次数是0 那么这封邮件就会被误判为正常邮件解决如果遇到样本里面有0的情况,可以通过添加alpha进行解决。alpha=1 统一增加1 确保不会出现无0的情况N = (12/17)*((1/15)**4)*(3/15)S = (5/1原创 2021-03-07 21:55:09 · 258 阅读 · 0 评论 -
从零开始数据科学与机器学习算法-分类与决策树-06
。。。。。。。。。。。。。原创 2021-03-07 13:47:27 · 162 阅读 · 0 评论 -
从零开始数据科学与机器学习算法-简单感知器-05
如下图给定的一组数据可以通过一条线分割成两个不同的类别称之为Linearly_Separable原创 2021-03-01 21:48:42 · 174 阅读 · 0 评论 -
从零开始数据科学与机器学习算法-逻辑回归-04
Logistic Regression 更多的是从概率的层面进行建模,但是我们实际应用中,更多的是用在二元分类型的问题案例:列子:如上图所示:有两类数据 方形=0 圆形=1坐标轴 类型: X1 ,X2 ,0/12 ,2 , 02 ,4 , 03 ,3 , 04 ,5 , 08 ,1 , 18.5,3.5 , 19 ,1 , 110 ,4 , 1# prediction functionfrom math import expdef prediction(row, coeffic原创 2021-02-28 22:16:55 · 145 阅读 · 0 评论 -
从零开始数据科学与机器学习算法-梯度下降-03
#make predictiondef make_prediction(input_row,coefficients): out_put_y_hat = coefficients[0] for i in range(len(input_row)-1): out_put_y_hat += coefficients[i+1] * input_row[i] return out_put_y_hattest_dataset = [[1,1], .原创 2021-02-27 22:13:17 · 111 阅读 · 0 评论 -
从零开始数据科学与机器学习算法-线性回归-02
简单线性回归import numpy as npimport pandas as pdimport matplotlib.pyplot as pltimport seaborn as sns问题1. The relationship between working experience and salary? 工作经验和工资之间的关系?# 数据experience=[1,2,3,4,5,6,7,8,9,10,2,2,3,3,3,2,4,5,5,2]salary =[5000,7000原创 2021-02-25 13:23:46 · 216 阅读 · 1 评论 -
从零开始数据科学与机器学习算法-知识点补充-00
1,Descriptive statistics2,Inferential statisticssample(sample statistic) – sampling(estimate)–population(parameter)1)sampling2)estimate3)Hypothesis test原创 2021-02-24 21:59:27 · 182 阅读 · 0 评论 -
从零开始数据科学与机器学习算法-数据预处理与基准模型-01
读取数据函数from csv import reader # 导入库def read_csv(the_name_of_file_to_be_read): # 定义数据读取函数 file = open(the_name_of_file_to_be_read,"r")#要读取的文件的名称 every_line_of_the_data = reader(file) # 读取每一行数据 the_dataseet = list(every_line_of_the_data) # 把每原创 2021-02-20 22:33:49 · 319 阅读 · 1 评论