
机器学习实战
jassy_shan
一名SJTU小硕编程菜鸟的逆袭
展开
-
机器学习实战专题(一)KNN
KNN算法 一、使用 k 近邻算法改进网站的配对效果 数据上传百度网盘 https://pan.baidu.com/s/1Jj2WwyD25yhgAaVJw5KSgg 提取码:eihp 环境:python3 (jupyter) #导入库 import numpy as np import pandas as pd import matplotlib.pyplot as plt %matplot...原创 2019-05-07 16:41:26 · 341 阅读 · 0 评论 -
机器学习实战专题(三)LogisticRegression
1.理论快速回顾 1.1 模型 当y>0.5时,z为TRUE,else 为False 模型输出时,根据以上:1--TRUE,0--FALSE 1.2 损失函数 1.3 优化:梯度下降法 求导: 向量化 2.实战 2.1 实现逻辑回归类 import numpy as np from sklearn.metrics import accu...原创 2019-05-15 10:42:38 · 326 阅读 · 0 评论 -
机器学习实战专题 (二)续 Decision Tree
Gini Index 基尼系数代表了模型的纯度,基尼系数越小,则纯度越高,特征越好。 具体的,在分类问题中,假设有K个类别,第k个类别的概率为, 则基尼系数的表达式为: 1.1代码实现 def gini(y): counter = Counter(y) res = 1.0 for num in counter.values(): p = n...原创 2019-05-15 11:35:40 · 150 阅读 · 0 评论 -
机器学习实战专题(四)Naive Bayes
使用朴素贝叶斯过滤垃圾邮件 说明: 将 `email` 文件夹放在当前目录下。 1.词集模型 ## 1 词集模型 import numpy as np import pandas as pd import re # 1.1文件解析及完整的垃圾邮件测试 def textParse(text): listofTokens=re.split(r'\w...原创 2019-05-16 16:16:54 · 252 阅读 · 0 评论 -
机器学习实战专题二(Decision Tree)
决策树 说明: 将数据集文件 ‘lenses.txt’ 放在当前文件夹 from math import log2 from collections import Counter import numpy as np 1.1 构建决策树 1.1.1信息增益 def ent(dataset): dataset=np.array(dataset) ...原创 2019-05-12 20:30:23 · 233 阅读 · 0 评论