
数据分析+机器学习
学习学习学习学习学习学习学习学习学习学习学习学习学习学习学习学习学习学习学习学习学习学习学习学习学习学习学习学习学习学习学习学习学习学习学习学习学习学习学习学习
gemoumou
hello word
展开
-
深度学习-线性回归基础-02
线性回归:w12+w22+w33+w44+…w“n”*n算法:线性回归策略:均方误差优化:梯度下降api(学习率)import osos.environ['TF_CPP_MIN_LOG_LEVEL'] = '2' # 修改警告级别,不显示警告import tensorflow as tfdef myregression(): """ 自实现一个线性回归预测 :return: """ # 1,准备数据,x特征值[100,1] y目标值[10原创 2020-10-22 23:28:12 · 282 阅读 · 0 评论 -
深度学习-Tensorflow基本介绍01
安装Tensorflowpip install --upgrade --ignore-installed tensorflow -i https://pypi.tuna.tsinghua.edu.cn/simple原创 2020-10-19 22:54:53 · 225 阅读 · 0 评论 -
机器学习-k均值聚类算法-k_means原理14
非监督学习原创 2020-10-13 22:24:44 · 124 阅读 · 0 评论 -
机器学习-分类算法-逻辑回归13
逻辑回归是解决二分类问题的利器数据来源:https://archive.ics.uci.edu/ml/machine-learning-databases/breast-cancer-wisconsin/逻辑回归在算法实现的时候有个判定是某个类别的概率,我们一般是根据样本数量的大小去判定。...原创 2020-10-13 20:57:21 · 350 阅读 · 0 评论 -
机器学习-分类算法-模型的保存和加载12
保存模型from sklearn.datasets import load_bostonfrom sklearn.linear_model import LinearRegression,SGDRegressor,Ridgefrom sklearn.model_selection import train_test_splitfrom sklearn.preprocessing import StandardScalerfrom sklearn.metrics import mean_squa..原创 2020-10-12 23:03:17 · 589 阅读 · 0 评论 -
机器学习-分类算法-线性回归、梯度下降,过拟合欠拟合,岭回归11
梯度下降重点正规方程求解预测结果from sklearn.datasets import load_bostonfrom sklearn.linear_model import LinearRegression,SGDRegressorfrom sklearn.model_selection import train_test_splitfrom sklearn.preprocessing import StandardScalerdef mylinear():...原创 2020-10-12 00:56:19 · 140 阅读 · 0 评论 -
机器学习-分类算法-决策树,随机森林10
决策树:决策树的思想来源非常朴素,程序设计中的条件分支机构就是if-then结构,最早的决策树就是利用这类结构分割数据的一种分类学习方法。信息和消除不确定性是相联系的信息增益:当得知一个特征后,减少的信息熵的大小决策树的分类依据之一:信息增益泰坦里克号数据来源:http://biostat.mc.vanderbilt.edu/wiki/pub/Main/DataSets/titanic.txt...原创 2020-10-08 23:14:28 · 383 阅读 · 0 评论 -
机器学习-分类算法-模型选择与调优09
模型选择与调优交叉验证:为了让被评估的模型更加准确可信网格搜索from sklearn.neighbors import KNeighborsClassifierfrom sklearn.model_selection import train_test_split,GridSearchCVfrom sklearn.preprocessing import StandardScalerimport pandas as pddef knncls(): # k-近邻预测用户签原创 2020-10-07 22:09:53 · 242 阅读 · 0 评论 -
机器学习-分类算法-精确率和召回率08
from sklearn.datasets import fetch_20newsgroupsfrom sklearn.model_selection import train_test_splitfrom sklearn.feature_extraction.text import TfidfVectorizerfrom sklearn.naive_bayes import MultinomialNBfrom sklearn.metrics import classification_re...原创 2020-10-07 20:59:15 · 446 阅读 · 0 评论 -
机器学习-分类算法-朴素贝叶斯算法07
概率:概率定义为一件事情发生的可能性如:扔硬币某一面朝上有50%概率“朴素”贝叶斯:所有特征之间条件独立朴素贝叶斯-文档分类原创 2020-10-07 20:16:47 · 112 阅读 · 0 评论 -
机器学习-分类算法-K-近邻算法06
K最近邻(k-Nearest Neighbor,KNN)分类算法,是一个理论上比较成熟的方法,也是最简单的机器学习算法之一。该方法的思路是:在特征空间中,如果一个样本附近的k个最近(即特征空间中最邻近)样本的大多数属于某一个类别,则该样本也属于这个类别。我们对应上面的流程来说1.给定了红色和蓝色的训练样本,绿色为测试样本2.计算绿色点到其他点的距离3.选取离绿点最近的k个点4.选取k个点中,同种颜色最多的类。例如:k=1时,k个点全是蓝色,那预测结果就是Class 1;k=3时,k个点中两个红原创 2020-10-01 02:07:30 · 427 阅读 · 1 评论 -
机器学习-转换器与估计器05
转换器# -*- coding: utf-8 -*-from sklearn.preprocessing import StandardScalers = StandardScaler()s1 = s.fit_transform([[1,2,3],[4,5,6]])print(s1)print("-"*50)ss = StandardScaler()ss1 = ss.fit([[1,2,3],[4,5,6]])# 计算当前数据的标准差或平均值print(ss1)print("-".原创 2020-10-01 01:33:47 · 115 阅读 · 0 评论 -
机器学习-数据集类型04
大萨达所多原创 2020-10-01 00:56:07 · 296 阅读 · 0 评论 -
机器学习-特征处理/归一化/标准化/降维03
归一化from sklearn.preprocessing import MinMaxScalerdef mm(): # 归一化处理 mm = MinMaxScaler() data = mm.fit_transform([[90,2,10,40],[60,4,15,45],[75,3,13,46]]) print(data)if __name__=='__main__': mm()标准化from sklearn.preprocessing i原创 2020-09-30 00:41:02 · 875 阅读 · 0 评论 -
机器学习-特征抽取02
特征抽取是对文本等数据进行值化,特征值化是为了让计算机能够更好的去理解数据。sklearn特征抽取apisklearn.feature_extraction字典特征抽取(对字典数据进行特征值化)from sklearn.feature_extraction import DictVectorizer# 字典特征抽取from sklearn.feature_extraction import DictVectorizerdict = DictVectorizer(sparse=Fal原创 2020-09-27 23:42:54 · 164 阅读 · 0 评论 -
机器学习-概述01
机器学习的概述什么是机器学习机器学习是从数据中自动分析获得规律(模型),并利用规律对未知数据进行预测。为什么需要机器学习解放生产力: 智能客户 — 不知疲倦进行24小时作业解决专业问题: ET医疗 ---- 帮助看病提供社会便利 : 如杭州的城市大脑机器学习在各领域的价值领域:医疗,航空,教育,物流,电商…目的: 让机器学习程序替换手动的步骤,减少企业的成本也提高企业的效率例子: 汽车零售商将客户按照对汽车的喜好划分成不同的类,这样营销人员就可以将新型汽车的广告手册...原创 2020-09-26 01:46:29 · 189 阅读 · 0 评论 -
数据分析学习03-pandas
简介Pandas 是 Python 的外部模块,它非常像 Excel,提供了分析数据的功能。它提供了两个数据类型 Series 和 DataFrame。什么是 Series?Series 是 Pandas 提供的一种数据类型,你可以把它想象成 Excel 的一行或一列。(一维,带标签数组)Series对象本质上由两个数组组成(index索引,value值)什么是 DataFrame?DataFrame 是 Pandas 提供的一种数据类型,你可以把它想象成 Excel 的表格。(二维原创 2020-09-18 00:20:30 · 266 阅读 · 0 评论 -
数据分析学习02-numpy
简介NumPy是Python中科学计算的基础包。它是一个Python库,提供多维数组对象,各种派生对象(如掩码数组和矩阵),以及用于数组快速操作的各种API,有包括数学、逻辑、形状操作、排序、选择、输入输出、离散傅立叶变换、基本线性代数,基本统计运算和随机模拟等等。使用我们仅需要简单的通过import numpy as np就可以使用numpy了。为什么要用numpy?如果我们希望两个列表对应项相加,则我们需要这样做,使用Python列表这样的代码是冗余的,而使用numpy则大大减少了代码的冗余。原创 2020-09-11 03:01:02 · 190 阅读 · 0 评论 -
数据分析学习01-matplotlib绘图工具基本操作
什么是数据分析:- 数据分析是用适当的方法对收集来的大量数据进行分析,帮助人们作出判断,以便采取适当行动。- 将数据进行可视化,更直观的呈现- 使数据更加客观,更具说服力matplotlib学习1,什么是matplotlibMatolotlib是最流行的python底层绘图库,主要是做数据可视化图表。它可以让数据更加直观的呈现,让数据更加客观,具有说服力。学习爬虫后,可能会遇到对大量的数据的处理,于是学习数据分析是必不可少的。http://www.360doc.com/content/20/0原创 2020-08-17 22:56:05 · 335 阅读 · 0 评论