- 博客(17)
- 资源 (1)
- 收藏
- 关注
原创 6 对分类器的提升
1.GDBT 对决策树加权 其实就是每次计算下一步的时候,挑选那个让损失函数最小的f(x)来对决策树进行优化 1.1基本原理和目标函数 一个决策树的核心是树的结构和叶的权值 1.2 正则项的定义 让叶子节点的个数,和权值进入,可以在一定程度上防止过拟合 1.3 对目标函数的简化(拿到目标函数的最小值) 1.4 自己的一点理解 关于XGBoost是对一个决策树进行提升,但由于目标韩...
2020-03-30 18:55:58
315
原创 决策树决策森林2
1 Bagging策略 用同一组数据做好几次试验 2.随机森林 3.Bagging解决回归问题 (取均值降噪声) 4.样本不均衡的解决方案 5.一个最基本的决策树算法 #!/usr/bin/python # -*- coding:utf-8 -*- import numpy as np import pandas as pd import matplotlib.pyplot as ...
2020-03-27 18:59:45
318
原创 5 cifar-10分类实战
1.主要思想 下载解析数据,以及定义数据结构 定义自己的网络结构 定义损失函数loss 根据loss以及实际值对参数进行优化 2.主要代码 train.py import tensorflow as tf import readcifar10 #slime 是对tf的高层封装 slim = tf.contrib.slim import os import resnet #输入是imgae,输...
2020-03-15 19:25:24
260
原创 2 tensorflow中读取数据
关于环境 python 3.6.5 tensorflow 1.14.0 numpy 1.16.0 1.通过文件名读取数据的小demo import tensorflow as tf # print(tf.__version__) images = ['image1.jpg', 'image2.jpg', 'image3.jpg', 'image4.jpg'] labels = [1, 2, 3...
2020-03-13 19:50:05
268
原创 1 cifar_10图片文件的读取和写入以及安装tensorflow踩的坑
1 读取文件 import urllib import os import sys import tarfile import glob import pickle import numpy as np import cv2 def download_and_uncompress_tarball(tarball_url, dataset_dir): """Downloads the `tar...
2020-03-12 22:55:11
255
原创 3 回归实战
1.关于损失的计算 R^2越大拟合效率越好 2 logistic回归 非常重要的概念 假设一个函数好h(x)(与线性分布相比x) 假设是二项分布(线性分布是假设会高斯分布)求似然函数 求似然函数, 取对数, 求偏导数 这里的参数迭代和线性回归很像,以为同是指数族,有相似性质 3.对数线性模型的反推 4.ROC曲线和AUC面积 我个人理解就是衡量在,二项分布是的拟合程度 5.差分...
2020-03-05 19:22:21
201
原创 2 回归问题
1.用极大似然估计解释最小二乘 由中心极限定理知道,当随机现象可以看做众多因素的独立影响的综合反映,往往服从正态分布 于是得到每个x(i)对应的概率密度函数,有因为每个x(i)独立同分布,所有由极大似然估计知道,似然函数是每个x(i)对应密度的乘积 于是由似然函数的求参数的方法,取对数,求导,取极值 - 然后求导 导数为0,求解参数 但考虑到XT * X未必为可以求逆的,于是加上扰动因子 ,...
2020-03-04 17:14:39
278
原创 1 数据处理
1.数据抽取有用特征值 在鸾尾花的数据中,共有四个特征值,150条数据 将X^T * X 形成4*4的对称矩阵 求4个特征值,以及对应的四个正交特征向量 取两个特征值最大的特征对应的特征向量,作为标准方向 将剩余的两列特征值投影 原理:其实特征值最大的就是离散程度最高的,用这两个做标注方向,特征值不至于损失太多 2.车辆数据描述 用0, 1, 2, 3表示特征值在参数前方加入参数还是挺麻烦的,...
2020-03-03 18:28:25
182
原创 pandas实战进阶
1.读取文件和查看数据 df = pd.read_csv("DataAnalyst.csv", encoding="gb2312") df.info() 2.清洗数据 len(df.positionId.unique()) #以positionId为唯一值去重,保留第一个 df_duplicates = df.drop_duplicates(subset="positionId", keep="...
2020-02-10 23:27:18
337
原创 pandas练题
1.读取excel pd.read_excel('animal.xlsx', 'Sheet1', index_col=None, na_values=['NA']) 2.Series 赋值多重索引 pd.read_excel('animal.xlsx', 'Sheet1', index_col=None, na_values=['NA']) # 查询索引为 1,3,6 的值 s.loc[:, ...
2020-02-08 22:13:12
291
原创 机器学习之数据处理 学习笔记
1.什么样的数据需要删除 很多条数据,删除这个无所谓 这一列的数据缺失的太多导致,没有办法使用 比如邮编等不可填充 2.pandas常用的数据删除处理的方法 删除 //删除行 df.dropna(axis=0) //删除列 df.dropna(axis=1) 简单填充 //用前面的填充 df.fillna(method='pad') //用用后边的填充 df.fillna(method='b...
2020-02-05 16:42:49
247
原创 pandas实战教程1_热门电影
1 简介 刚学完pandas基础后跟着老师写的一个热门电影数据分析,电影分析数据集地址 2 过程 1. 导入数据 unames = ["user_id", "gender", "age", "occupation", "zip"] users = pd.read_table("ml-1m/users.dat", sep="::", header=None, names=unames) rati...
2020-02-01 17:56:07
323
原创 pandas入门 基于莫烦python
# coding: utf-8 # In[2]: import pandas as pd import numpy as np # In[3]: #numpy基础 s = pd.Series([1,3,6,np.nan,44,1]) # In[4]: s # In[5]: #dataFrame创建的方式 # 1 指定index clumn dates = pd.da...
2020-01-31 20:13:49
169
原创 numpy基础学习 参考莫烦python
import numpy as np #创建 a = np.array([1, 3, 3]) a = np.array([2,23,4],dtype=np.int) a = np.array([2,23,4],dtype=np.float)#指定类型 a = np.zeros((3,4)) # 数据全为0,3行4列 a = np.ones((3,4),dtype = np.int) # 数据为...
2020-01-29 20:01:09
151
原创 数据结构的基本实现
1. python中内置计算算法效率的类 class timeit.Timer(stmt=‘pass’, setup=‘pass’, timer=) Timer是测量小段代码执行速度的类。 stmt参数是要测试的代码语句(statment); setup参数是运行代码时需要的设置; timer参数是一个定时器函数,与平台有关。 timeit.Timer.timeit(number=1000000)...
2020-01-28 17:35:18
325
原创 python基础知识回顾
python知识回顾 参考廖雪峰的python教程 1. 函数默认传参 def add_end(L=[]): L.append('END') return L >>> add_end() ['END', 'END'] >>> add_end() ['END', 'END', 'END'] 由于L指向的是一个可变对象,每次指向的会发生改变 def...
2020-01-22 13:30:53
201
热门电影筛选源码.ipynb
2020-02-01
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人