- 博客(6)
- 收藏
- 关注
原创 Python学习-线性回归和逻辑回归应用
线性回归原理:线性回归实际上是寻找一组好的权重(向量W)用来与观测向量相成并获得近似目标值。线性回归是利用误差平方和作为代价函数,最后求解出误差最小的W权重向量。首先利用线性回归对波士顿房价数据进行预测Boston.data数据中为各房子的基本信息,target为房子价格from sklearn .datasets import load_bostonbos...
2018-08-07 15:00:13
3367
原创 Python学习-正则表达式
正则表达式可用于字符串处理,用于抓取有用信息。在Python中需要引入re模块import re正则的三种用法:1. re.match 尝试从字符串的起始位置匹配一个模式,如果不是起始位置匹配成功的话,match()就返回nonestr="Hello World"pattern="^[\sa-zA-Z]+$"print(re.match(pattern,str)...
2018-07-17 16:05:21
345
原创 Python学习-数据异常检测
数据科学中,在对数据分析前,必须要多数据进行处理。将非正常的、错误的数据输入到算法中会导致不好的结果。所以异常的检测及处理为非常重要的一环。1.1 单变量异常检测 from sklearn.datasets import load_boston import numpy as npimport pandas as pdfrom sklearn import prepro...
2018-06-28 10:16:22
6521
原创 python学习-PCA简介
PCA是主要成分分析,principal componetn analysis的缩写。它是一种帮助定义更小、更相关特征集合的技术。新的特征是现有特征的线性组合(即旋转)。输入空间经过旋转后,输出集合的第一个向量包含信号的大部分能量(即方差)。第二个向量与第一个向量正交,它包含剩余能量的大部分;第三个向量又与前两个向量正交,并包含剩余能量的大部分。(摘自《数据科学导论》)例如将100个特征降维成10...
2018-06-20 10:21:11
1535
原创 Python学习-KNN预测加尼福尼亚房价
加尼福尼亚房价数据集与KNN需要的几个Python库import matplotlib.pyplot as plt from sklearn import datasetsfrom sklearn.cross_validation import train_test_splitfrom sklearn.metrics import mean_squared_errorimport num...
2018-06-19 14:04:39
2483
原创 Python学习-泰坦尼克号
泰坦尼克号的名单包括统计到的人员名单,包括人员的ID,是否幸存,仓位(1,2,3以及无座),姓名,性别,年龄等信息,截图如下:本文将用Python对此样本数据进行一些简单的处理及应用。首先用Spyder载入了泰坦尼克号的CSV数据文件,并打印了一下列名与样本个体数train = pd.read_csv('D:/PythonPractice/titanic/train.csv')print(tra...
2018-06-11 17:26:26
2095
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人