自定义博客皮肤VIP专享

*博客头图：

点击选择上传的图片

格式为PNG、JPG，宽度*高度大于1920*100像素，不超过2MB，主视觉建议放在右侧，请参照线上博客头图

请上传大于1920*100像素的图片！

博客底图：

点击选择上传的图片

图片格式为PNG、JPG，不超过1MB，可上下左右平铺至整个背景

栏目图：

点击选择上传的图片

图片格式为PNG、JPG，图片宽度*高度为300*38像素，不超过0.5MB

主标题颜色：

RGB颜色，例如：#AFAFAF

Hover：

RGB颜色，例如：#AFAFAF

副标题颜色：

RGB颜色，例如：#AFAFAF

预览取消提交

自定义博客皮肤

-+

上一步保存

weixin_44965848的博客

原创数据挖掘|异常检测01|概述

1.概念理解异常的类别理解点异常正常人vs.病人上下文异常某件事物，在某个时间段的异常，可能由于突发状况群体异常网络上的“水军”2.异常检测常用方法2.1 传统方法传统方法特点基于统计学方法假定数据集符合某个统计模型的分布，再去验证线性模型数据降维基于相似度的方法聚类算法、k近邻算法集成方法孤立森林最早被孤立出来的就是异常点...

2021-05-11 22:43:19 201

原创机器学习 | 模型评估与优化

交叉验证法1.K折叠交叉验证法（k_fold cross validation）在scikit-learn中，默认使用的交叉验证法是K折叠交叉验证法（k_fold cross validation）：将数据集拆分成k个部分，再用k个数据集对模型进行训练和评分。cross_val_scoresklearn.model_selection.cross_val_score(estimator, X, y=None, groups=None, scoring=None, cv=’warn’, n_jobs

2021-04-21 18:55:25 696

原创机器学习算法 | 随机森林

1.简介随机森林的基本原理决策树算法很容易出现过拟合的现象，随机森林是把不同的几棵树打包到一起，每个数的参数都不同。在随机森林构建完成之后，每棵决策树都会单独进行预测。如果是用来进行回归分析的话，随机森林会把所有决策树预测的值取平均数。如果是用来进行分类的话，在森林内部会进行“投票”，每棵树预测出数据类别的概率，比如其中一个树认为“这瓶酒80%属于class_1”,另外一棵树认为“这瓶酒60%属于class_2”，随机森林会把这些概率取平均值，然后把样本放入概率最高的分类中。随机森林的优点1.

2021-04-20 15:49:03 3081

原创腾讯数据分析面试SQL题

1.行转列select Name,sum(case Item when ‘数学’ then score else null end) Math, sum(case Item when ‘英语’ then score else null end) english from table group by name参考：sql语句实现行转列的3种方法https://chengbo.blog.youkuaiyun.com/article/details/904049862.排名select Item,

2021-04-19 16:55:27 563

原创 Python机器学习|广义线性模型（4) | 套索回归

"""套索回归（lasso）l1正则化的线性模型L1正则化会导致在使用套索回归的时候，有一部分特征的系数会正好等于0，即有些特征会被彻底忽略掉可以突出体现模型中最重要的那些特征"""# 导入套索回归from sklearn.datasets import load_diabetesfrom sklearn.linear_model import Lasso# 载入糖尿病数据集from sklearn.model_selection import train_test_splitimpo

2021-02-17 21:41:13 1214 2

原创 Python机器学习|广义线性模型（3) | 岭回归

from sklearn.datasets import load_diabetes# 载入糖尿病数据集from sklearn.model_selection import train_test_splitimport matplotlib.pyplot as pltX, y = load_diabetes().data, load_diabetes().targetX_train, X_test, y_train, y_test = train_test_split(X, y, random

2021-02-17 20:32:16 564

原创 Python机器学习|广义线性模型（2) | 最小二乘法

"""线性回归，又称普通最小二乘法"""# 导入数据集拆分工具from sklearn.datasets import make_regressionfrom sklearn.model_selection import train_test_splitfrom sklearn.linear_model import LinearRegressionX, y = make_regression(n_samples=100, n_features=2, n_informative=2, rand

2021-02-15 21:34:50 786

原创 Python机器学习|广义线性模型（1) | 基本概念

"""y = 0.5x+3"""import numpy as npimport matplotlib.pyplot as plt# 令x为-5到5之间，元素数为100的等差数列x = np.linspace(-5, 5, 100)# 输入直线方程y = 0.5 * x + 3plt.plot(x, y, c='orange')# 图题设为"straight line"plt.title("Straight line")plt.show()"""线性模型的图形表示"""

2021-02-15 20:44:17 729

原创 Python机器学习|K最近邻算法（4）| 酒的分类

"""酒的分类"""from sklearn.datasets import load_wineimport numpy as np# 从sklearn的datasets模块载入数据集wine_dataset = load_wine()"""使用load_wine函数载入的酒数据集，是一种bunch对象 key：value"""# 打印酒数据集中的键print("红酒数据集中的键：\n{}".format(wine_dataset.keys()))# 使用.shape打印数据的概况

2021-02-14 16:53:31 1344

原创 Python机器学习|K最近邻算法（3）| 回归分析

import matplotlib.pyplot as plt# 导入make_regression数据集生成器from sklearn.datasets import make_regression# 导入用于回归分析的KNN模型from sklearn.neighbors import KNeighborsRegressorimport numpy as np# 生成特征数量为1，噪音为50的数据集"""n_features：特征数(自变量个数)n_informative：参与建模特

2021-02-14 15:31:06 624

原创 Python机器学习|K最近邻算法（2）| 多元分类任务

# 生成样本数为500，分类数为5的数据集data2 = make_blobs(n_samples=500, centers=5, random_state=8)X2, y2 = data2# 将生成的数据进行可视化plt.scatter(X2[:, 0], X2[:, 1], c=y2, cmap=plt.cm.spring, edgecolor='k')plt.show()clf = KNeighborsClassifier()clf.fit(X2, y2)# 下面的代码用于画图

2021-02-13 21:40:49 391

原创 Python机器学习|K最近邻算法（1）| 分类任务的应用

from sklearn.datasets import make_blobs# 导入KNN分类器from sklearn.neighbors import KNeighborsClassifier# 导入画图工具import matplotlib.pyplot as plt# 导入数据集拆分工具from sklearn.model_selection import train_test_split# 生成样本数为200，分类为2的数据集"""random_state：是随机数的种子。

2021-02-10 22:19:57 417

原创大数据技术03|NoSQL数据库

1.NoSQL简介Not only SQL, 表示关系和非关系型数据库各有优缺点，彼此都无法互相取代。通常，NoSQL数据库具有以下几个特点：灵活的可扩展性灵活的数据模型与云计算紧密融合2.NoSQL兴起的原因关系数据库已经无法满足Web2.0的需求。主要表现在以下几个方面：无法满足海量数据的管理需求无法满足数据高并发的需求无法满足高可扩展性和高可用性的需求关系数据库中完善的事务机制和高效的查询机制的两个关键特性，到了Web2.0时代却成了鸡肋，主要表现在以下几个方面：We

2021-01-21 20:03:00 801

原创大数据技术02|HBase运行机制

1.HBase系统架构1.客户端客户端包含访问HBase的接口，同时在缓存中维护着已经访问过的Region位置信息，用来加快后续数据访问过程2.Zookeeper服务器Zookeeper是一个很好的集群管理工具，被大量用于分布式计算，提供配置维护、域名服务、分布式同步、组服务等。Zookeeper可以帮助选举出一个Master作为集群的总管，并保证在任何时刻总有唯一一个Master在运行，这就避免了Master的“单点失效”问题。3.Master主服务器Master主要负责表和Regio

2021-01-21 16:57:17 669

原创大数据技术01|HBase数据模型

1.HBase数据模型概述HBase是一个稀疏、多维度、排序的映射表，这张表的索引是行键、列族、列限定符和时间戳。每个值是一个未经解释的字符串，没有数据类型表在水平方向由一个或者多个列族组成，一个列族中可以包含任意多个列，同一个列族里面的数据存储在一起HBase中执行更新操作时，并不会删除数据旧的版本，而是生成一个新的版本，旧有的版本仍然保留（这是和HDFS只允许追加不允许修改的特性相关的）表：HBase采用表来组织数据，表由行和列组成，列划分为若干个列族行：每个HBase表都由若

2021-01-20 17:26:44 1463 2

原创数据分析基础02|数据集成

1.数据集成是什么？数据集成就是将多个数据源合并存放在一个数据存储中，方便后续的数据挖掘工作。广义的数据集成通常还包括数据清洗、数据抽取、数据集成和数据变换等操作。2.数据集成的两种架构1.ETLExtract（抽取）-Transform（转换）-Load（加载）的缩写。抽取：将数据从已有的数据源中提取出来转换：对原始数据进行处理，例如将两张表连接形成一张新的表。加载：将转换的结果写入目的地2.ELTExtract（抽取）-Load（加载）-Transform（转换）的缩写。在抽取后先将

2021-01-12 16:20:35 525

原创数据分析基础01|数据清洗问题

本文以此图为例列坐标中，第 0 列代表的是序号，第 1 列代表的会员的姓名，第 2 列代表年龄，第 3 列代表体重，第 4~6 列代表男性会员的三围尺寸，第 7~9 列代表女性会员的三围尺寸。1.缺失值在数据中有NaN和“-”，代表缺失值，如何补足缺失值呢？删除数据缺失的记录使用当前列的均值使用当前列出现频率最高的数据2.空行一整行都为空：直接删除全空的行df.dropna(how="all",inplace=True)3.列数据单位不统一在体重一列，出现的单位有：kg、lbs

2021-01-09 19:28:05 2067 9

原创 Python3基础语法04|用Pandas来数据处理（2）

我们接上篇继续讲Pandas~1.数据表合并我们在操作数据库使用SQL语言时，会使用连接（JOIN）操作把两个表或多个表连接起来，其中还分为左连接、右连接、内连接、外连接等等。那我们如何使用Dataframe来进行数据库表的合并呢!这就引出merge（）函数啦~import pandas as pdfrom pandas import DataFramedf1 = DataFrame({'name': ['Alice', 'Bob', 'a', 'b', 'c'], 'data1': ran

2021-01-07 20:56:32 163

原创 Python3基础语法03|用Pandas来数据处理（1）

1.Pandas是什么Pandas是Python核心的数据分析库，如果你需要操作数据库，处理数据库表或者excel表，那必然会接触到Pandas这个好帮手啦~Pandas是NumPy的一个进阶库，具有Series和DataFrame两个核心数据结构。Series定长的字典序列。Series含有两个基本属性：index（索引）和values。index默认是0，1，2…也可以自定义索引。from pandas import Seriesx1 = Series([1, 2, 3, 4]) #

2021-01-05 18:20:40 710 6

原创 Python3基础语法02|用NumPy代替list

1.NumPy是什么是Python中超级有名的第三方库，更是其他有名的库的基础库（如Scipy、Pandas）。主要用NumPy来定义数组，快速进行数组操作。2.为什么要使用NumPy而不是list1.虽然Python数组结构中的列表list实际上就是数组，但是列表list保存的是对象的指针，list中的元素在系统内存中是分散存储的，例如[0,1,2]需要3个指针和3个整数对象，浪费内存和计算时间。2.NumPy数组存储在一个均匀连续的内存块中，访问更快；NumPy中的矩阵计算可以采用多线程的

2021-01-04 12:14:19 1047 2

原创 Python3基础语法01|四大基本数据类型

Python四大数据类型：列表、元组、字典、集合列表[list]相当于数组，具有增删改查的功能有索引，从头部开始第一个索引是1，从尾部开始最后一个索引是-1截取字符，可指定访问某部分字符lists = ['a','b','c'] # 创建一个列表print( lists[2], lists[-1] ) # 访问同一个元素print(lists[1:2]) # 指定访问某部分字符lists.append('d') # 使用 append() 在尾部添加元素print (lists

2021-01-02 20:02:15 248 1

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示

确定要删除当前文章？

取消删除