
推荐系统
推荐系统
LiuDi1999
啦啦啦
展开
-
机器学习模型的分类、模型输出结果、模型的保存、模型加载
机器学习模型的分类机器学习模型有两种形式:参数模型和无参数模型。它们的本质区 别是:参数模型假设函数f(x)有特定的形式,例如线性表达式,而无参 数模型则没有这个要求。两者各有利弊:参数模型的精度略差但可解释性强。很多情况下,由于限制了f(x)的 表达形式,所以参数模型的精确性可能会略差一些,但是好处是简单,可解释性强,例如逻辑回归模型。无参数模型可解释性差但更精确。相反,无参数模型可解释性差一 些,但是大多数情况下可能模型会更精确。参数模型:最简单的参数模型就是线性回归,在回归模型中,假定原创 2020-08-08 13:44:47 · 8323 阅读 · 0 评论 -
以泰坦尼克号为例构建第一个预测模型
如果把机器学习的最终成果比做为做一道菜的话,那么数 据准备和处理,就相当于买食材并 挑选、洗清、处理食材的过程。一 导包#逻辑回归算法from sklearn.linear_model import LogisticRegression #随机分割数据集from sklearn.model_selection import train_test_split#输出模型评估报告 from sklearn.metrics import classification_report#相当于把“泰坦尼原创 2020-08-07 20:04:01 · 850 阅读 · 0 评论 -
以泰坦尼克号为例的数据预处理与完整特征工程
我们主要要搞清楚数据处理 的常见处理方法:数据读取单变量探索分析多变量探索分析数据预处理缺失值处理独热编码(针对类别型变量)为什么要对类别变量重新编码?一个最简单的理解就是:机器学习算法要求输入的变量值必须是数值。针对类别型变量,我们必须重新编码,把它们转换为数值型变量,但是信息量还不会丢失。最常用的一种类别变量在机器学习界喜欢叫独热编码(one-hot encoding) 。 独热编码就是把 1 个类别型变量转化为 N 个 0/1 标识变量。类别型变量有多原创 2020-08-07 13:56:27 · 4315 阅读 · 0 评论 -
基于泰坦尼克号生还遇难案例进行的数据探索和分析
以泰坦尼克号为例:#解决中文乱码问题plt.rcParams['font.sans-serif'] = 'Microsoft YaHei'plt.rcParams['axes.unicode_minus'] = Falseimport matplotlib.pyplot as plt一 加载训练数据titanic_df =pd.read_csv("data/train.csv")titanic_df.head()训练数据及特征说明PassengerId:乘客 IDSurviv原创 2020-08-06 21:19:51 · 1459 阅读 · 0 评论 -
机器学习相关概念、分类、要解决的任务
一 机器学习相关概念在谈及机器学习的前面,我们先来看一个现实生活中的小实例。比如,先从第一步 “挑芒果”说起。一开始妈妈告诉你: “ 金黄色的要比浅黄的更甜些!”后来你发现:“那些大个儿的、金黄色的芒果一定是甜的,而那些小个儿 的、金黄的就只有一半是甜的了”后来你又发现:“那些小个的、浅黄的芒果是当中最甜的”有一天你去了其他国家,然后你发现:“ 绿色的竟然要比黄色的味道更棒 ”就以上实例,我们可以尝试了解下面相关概念。你在市场上随机选择了一些 不同品种的芒果(我们称之为 训练样本原创 2020-08-06 20:25:58 · 1301 阅读 · 0 评论 -
matplotlib 03-常见图表
import matplotlib.pyplot as plt一 折线图x=[1,2,3,4,5,6,7,8]y=[5,2,4,2,1,4,5,2]#解决中文乱码问题plt.rcParams['font.sans-serif'] = 'Microsoft YaHei'plt.rcParams['axes.unicode_minus'] = Falseplt.plot(x,y,label="折线图")plt.xlabel("x轴")plt.ylabel("y轴")plt.title(原创 2020-07-21 20:04:00 · 171 阅读 · 0 评论 -
matplotlib 02-绘制高级柱状图、多个图
import matplotlib.pyplot as pltimport numpy as np#解决中文乱码问题plt.rcParams['font.sans-serif'] = 'Microsoft YaHei'plt.rcParams['axes.unicode_minus'] = False一绘制高级柱状图fig =plt.figure(1)#1行1列第一个绘图区域ax1 = plt.subplot(111)#柱状图数值data = np.array([15,20,18原创 2020-07-21 19:49:49 · 1674 阅读 · 0 评论 -
matplotlib 01-基础篇 基本标签 简单折线图
import matplotlib.pyplot as plt一 简单折线图#创建画板plt.figure(figsize=(8,4))#绘制折线图plt.plot([1,2,3],[5,7,4]) #(1,5),(2,7),(3,4)#展示plt.show()x = [1,2,3]y = [5,7,4]x2 = [1,2,3]y2 = [10,14,12]#解决中文乱码问题plt.rcParams['font.sans-serif'] = 'Microsoft...原创 2020-07-21 19:45:07 · 649 阅读 · 0 评论 -
Pandas数据分析工具 03-高级篇
from pandas import Series,DataFrameimport pandas as pdimport numpy as np一、索引和切片索引obj=Series([2,4,6,8],index=["a","b","c","d"])obj切片二、运算df1=DataFrame(np.arange(12).reshape((3,4)),columns=list("abcd"))df1df2=DataFrame(np.arange(20).resh原创 2020-07-20 20:03:25 · 173 阅读 · 0 评论 -
Pandas数据分析工具 02-进阶篇
import numpy as npnp.arange(16)np.arange(16).reshape((4,4))#快速创建DataFramedata=DataFrame(np.arange(16).reshape((4,4)), index=["Ohio","Colorado","Utah","New York"], columns=["one","two","three","four"])data#删除行数据dat.原创 2020-07-20 18:38:47 · 125 阅读 · 0 评论 -
Pandas数据分析工具 01-基础篇
一 Pandas简介二 开发环境准备三 Pandas 快速入门Pandas 基本数据结构-SeriesSeries是一种类似于一维数组的对象,它由一组数据(各种 Numpy数据类型)以及 一组与之相关的数据标签(即索引1)组成。仅由一组数据即可产生最简单的 Seriesfrom pandas import Series,DataFrameimport pandas as pd#获取索引(行号)obj.index#获取值obj.values#通过索引获取valueobj[.原创 2020-07-20 18:29:52 · 141 阅读 · 0 评论