jran_ml-优快云博客

原创机器学习里的 kernel 是指什么？

转自我的知乎回答：机器学习里的 kernel 是指什么？我换个角度来解释这个问题。机器学习在做回归或者分类时有一个很朴实的想法：预测 x 的值，那就在训练集 X 中寻找那些与 x 相似的样本，再把这些样本的值加权作为预测值。这里有两个问题：如何度量样本之间的相似性？如何加权？下面先看三个例子：k近邻。这个很熟悉，一般用欧式距离寻找离 x 最近的 k 个点，然后把对应的 y 等权...

2019-03-17 09:46:03 1550

目录什么是AB测试？什么叫相似?为什么要相似？怎么实现相似？随机化（Rerandomization）再随机化[^2]协方差适应的再随机化（Covariance-Adaptive Rerandomization）[^3]什么是AB测试？AB测试现在大规模出现在互联网产品迭代更新中。为Web或App界面或流程制作两个（A/B）或多个（A/B/n）版本，在同一时间维度，分别让组成成分相同（相似）的访...

2019-03-11 18:26:36 8502

原创机器学习中的变量选择——进阶篇

机器学习中的变量选择变量选择回顾单变量筛选通过模型选择变量变量选择进阶只用模型就能选好变量么数据处理模型介绍实验结果认识伪相关两步法估计变量选择回顾符号说明：p:p:p: 特征数量n:n:n: 样本数量变量选择在机器学习中扮演着重要的角色，无论是对于构建一个可解释的模型，还是提升模型的预测能力。单变量筛选在高维情况下，有时候我们需要预先筛选部分变量，然后再训练模型。筛选过程需要做到...

2019-03-03 13:42:17 22853 2

原创 Python 在 MySQL 中读取、写入数据

Python 在 MySQL 中读取、写入数据写入数据：import pandas as pd from sqlalchemy import create_engine import pymysql#准备一个示例数据df = ts.get_hist_data('000875')#读取数据，格式为DataFrame #创建一个engineengine = create_engine(

2017-07-07 16:09:14 9929

原创 MongoDB服务配置系列问题

MongoDB服务配置系列问题通过配置文件配置服务：dbpath=F:\Program\DATA\Mongo\db #数据存储路径logpath=F:\Program\DATA\Mongo\logs\mongo.log #日志存储路劲logappend=true #日志写入方式：追加port=27017 #端口#auth=true #是否认证bind_ip=0.0.0.0 service

2017-07-04 20:05:08 626

原创用itchat爬取朋友圈好友信息

用itchat爬取微信好友基本信息Python有一个好玩的软件包itchat，提供了一个微信api接口，借此可以爬取朋友圈的一些基本信息，下面我们一起来玩玩吧。import itchatimport numpy as npimport pandas as pdfrom collections import defaultdictimport reimport jiebaimport os

2017-07-03 00:25:17 29389 2

原创 pandas 中 stack 和 unstack的用法

import numpy as npimport pandas as pddata=pd.DataFrame(np.arange(6).reshape((3,2)),index=pd.Index(['a','b','c'],name='state'),columns=pd.Index(['I','II'],name='number'))dataOut[627]: number I IIsta

2017-06-19 09:11:03 16874

原创数据重塑，以及长宽数据的相互转化

数据重塑，以及长宽数据的相互转化stack 和 unstack方法二重MultiIndex的Series可以unstack()成DataFrame。长数据变宽。DataFrame可以stack成拥有二重MultiIndex的Series。如果是普通的多列 DataFrame ，调用一次 stack 后就会变成 Series 了。宽数据变长。good_data_4.stack().unstack

2017-06-18 22:32:11 2051

原创 dataframe中更改列属性的方法

在读取文件时将整数变量读成了字符串, 或者需要转换列属性时，通过方法astypePython中举例：dataframe.numbers=dataframe.numbers.astype(float)province.id=province.id.astype(str)R中举例：data<-read.csv('data.csv',col.names = c

2017-06-18 22:25:02 10141

原创 pandas修改DataFrame的列名

方法一：通过columns属性good_frame.columns=['Na','F','M','N'] #暴力修改方法二：通过rename方法good_frame.rename(columns={' ': 'Na'},inplace=True)#传入字典，只修改需要修改的地方。inplace=True，原数据被修改；inplace=False 原数据不

2017-06-18 13:52:09 3924

原创关于读取文件遇到UnicodeDecodeError

更改文件编码或更改译码方式问题：pandas在读取含有中文字符的csv文件时报错，因为python默认的编码方式是‘ utf-8’，而这个文件的编码是‘gbk’。UnicodeDecodeError: 'utf-8' codec can't decode byte 0xb1 in position 0: invalid start byte解决办法：data=p

2017-06-17 19:50:59 1865

原创 numpy和pandas中数组的合并、拉直和重塑

numpy和pandas中数组的合并和拆分合并numpy中numpy中可以通过concatenate，指定参数axis=0 或者 axis=1，在纵轴和横轴上合并两个数组。import numpy as npimport pandas as pdarr1=np.ones((3,5))arr1Out[5]: array([[ 1., 1., 1., 1., 1.], [

2017-06-15 20:43:52 15535

原创 Git_init

本地仓库管理：使用 git init初始化一个Git仓库。添加文件到 Git 仓库：使用git add <file>，把工作区的文件修改添加到暂存区。使用git commit -m '...'，把暂存区的所有内容提交到当前分支。需要提交的文件修改通通放到暂存区，然后，一次性提交暂存区的所有修改。查看工作区状态：git status命令。如果git stat...

2017-06-13 21:55:18 392

管他叫大靖