DropJing-优快云博客

原创 6 对分类器的提升

1.GDBT 对决策树加权其实就是每次计算下一步的时候，挑选那个让损失函数最小的f(x)来对决策树进行优化1.1基本原理和目标函数一个决策树的核心是树的结构和叶的权值1.2 正则项的定义让叶子节点的个数，和权值进入，可以在一定程度上防止过拟合1.3 对目标函数的简化（拿到目标函数的最小值）1.4 自己的一点理解关于XGBoost是对一个决策树进行提升，但由于目标韩...

2020-03-30 18:55:58 325

原创决策树决策森林2

1 Bagging策略用同一组数据做好几次试验2.随机森林3.Bagging解决回归问题（取均值降噪声）4.样本不均衡的解决方案5.一个最基本的决策树算法#!/usr/bin/python# -*- coding:utf-8 -*-import numpy as npimport pandas as pdimport matplotlib.pyplot as ...

2020-03-27 18:59:45 331

原创 4 随机森林和随机树

1.随机森林2.条件熵3.4.基尼系数

2020-03-23 18:38:18 617

原创 5 cifar-10分类实战

1.主要思想下载解析数据，以及定义数据结构定义自己的网络结构定义损失函数loss根据loss以及实际值对参数进行优化2.主要代码train.pyimport tensorflow as tfimport readcifar10#slime 是对tf的高层封装slim = tf.contrib.slimimport osimport resnet#输入是imgae，输...

2020-03-15 19:25:24 276

原创 2 tensorflow中读取数据

关于环境python 3.6.5tensorflow 1.14.0numpy 1.16.01.通过文件名读取数据的小demoimport tensorflow as tf# print(tf.__version__)images = ['image1.jpg', 'image2.jpg', 'image3.jpg', 'image4.jpg']labels = [1, 2, 3...

2020-03-13 19:50:05 285

原创 1 cifar_10图片文件的读取和写入以及安装tensorflow踩的坑

1 读取文件import urllibimport osimport sysimport tarfileimport globimport pickleimport numpy as npimport cv2def download_and_uncompress_tarball(tarball_url, dataset_dir): """Downloads the `tar...

2020-03-12 22:55:11 264

原创 3 回归实战

1.关于损失的计算R^2越大拟合效率越好2 logistic回归非常重要的概念假设一个函数好h（x）（与线性分布相比x）假设是二项分布（线性分布是假设会高斯分布）求似然函数求似然函数，取对数，求偏导数这里的参数迭代和线性回归很像，以为同是指数族，有相似性质3.对数线性模型的反推4.ROC曲线和AUC面积我个人理解就是衡量在，二项分布是的拟合程度5.差分...

2020-03-05 19:22:21 212

原创 2 回归问题

1.用极大似然估计解释最小二乘由中心极限定理知道，当随机现象可以看做众多因素的独立影响的综合反映，往往服从正态分布于是得到每个x（i）对应的概率密度函数，有因为每个x（i）独立同分布，所有由极大似然估计知道，似然函数是每个x（i）对应密度的乘积于是由似然函数的求参数的方法，取对数，求导，取极值-然后求导导数为0，求解参数但考虑到XT * X未必为可以求逆的，于是加上扰动因子，...

2020-03-04 17:14:39 287

原创 1 数据处理

1.数据抽取有用特征值在鸾尾花的数据中，共有四个特征值，150条数据将X^T * X 形成4*4的对称矩阵求4个特征值，以及对应的四个正交特征向量取两个特征值最大的特征对应的特征向量，作为标准方向将剩余的两列特征值投影原理：其实特征值最大的就是离散程度最高的，用这两个做标注方向，特征值不至于损失太多2.车辆数据描述用0, 1, 2, 3表示特征值在参数前方加入参数还是挺麻烦的，...

2020-03-03 18:28:25 201

原创 pandas实战进阶

1.读取文件和查看数据df = pd.read_csv("DataAnalyst.csv", encoding="gb2312")df.info()2.清洗数据len(df.positionId.unique())#以positionId为唯一值去重，保留第一个df_duplicates = df.drop_duplicates(subset="positionId", keep="...

2020-02-10 23:27:18 350

原创 pandas练题

1.读取excelpd.read_excel('animal.xlsx', 'Sheet1', index_col=None, na_values=['NA'])2.Series 赋值多重索引pd.read_excel('animal.xlsx', 'Sheet1', index_col=None, na_values=['NA'])# 查询索引为 1，3，6 的值s.loc[:, ...

2020-02-08 22:13:12 302

原创机器学习之数据处理学习笔记

1.什么样的数据需要删除很多条数据，删除这个无所谓这一列的数据缺失的太多导致，没有办法使用比如邮编等不可填充2.pandas常用的数据删除处理的方法删除//删除行df.dropna(axis=0)//删除列df.dropna(axis=1)简单填充//用前面的填充df.fillna(method='pad')//用用后边的填充df.fillna(method='b...

2020-02-05 16:42:49 259

原创 pandas实战教程1_热门电影

1 简介刚学完pandas基础后跟着老师写的一个热门电影数据分析，电影分析数据集地址2 过程1. 导入数据unames = ["user_id", "gender", "age", "occupation", "zip"]users = pd.read_table("ml-1m/users.dat", sep="::", header=None, names=unames)rati...

2020-02-01 17:56:07 337

原创 pandas入门基于莫烦python

# coding: utf-8# In[2]:import pandas as pdimport numpy as np# In[3]:#numpy基础s = pd.Series([1,3,6,np.nan,44,1])# In[4]:s# In[5]:#dataFrame创建的方式# 1 指定index clumndates = pd.da...

2020-01-31 20:13:49 179

原创 numpy基础学习参考莫烦python

import numpy as np#创建a = np.array([1, 3, 3])a = np.array([2,23,4],dtype=np.int)a = np.array([2,23,4],dtype=np.float)#指定类型a = np.zeros((3,4)) # 数据全为0，3行4列a = np.ones((3,4),dtype = np.int) # 数据为...

2020-01-29 20:01:09 165

原创数据结构的基本实现

1. python中内置计算算法效率的类class timeit.Timer(stmt=‘pass’, setup=‘pass’, timer=)Timer是测量小段代码执行速度的类。stmt参数是要测试的代码语句（statment）；setup参数是运行代码时需要的设置；timer参数是一个定时器函数，与平台有关。timeit.Timer.timeit(number=1000000)...

2020-01-28 17:35:18 338

原创 python基础知识回顾

python知识回顾参考廖雪峰的python教程1. 函数默认传参def add_end(L=[]): L.append('END') return L>>> add_end()['END', 'END']>>> add_end()['END', 'END', 'END']由于L指向的是一个可变对象，每次指向的会发生改变def...

2020-01-22 13:30:53 212

DropJing的博客