- 博客(19)
- 收藏
- 关注
原创 数据理解与数据准备
数据的基本类型,质量处理;不同对象之间的相似度、相异度(距离);数据的预处理:缺失值、重复值、标准化、离散化,数据规约(变量筛选、数据降维)。
2023-05-07 15:58:55
486
原创 9.异常检测,高斯分布,极大似然估计
异常是相对于其他观测数据而言有明显偏离的,以至于怀疑它与正常点不属于同一个数据分布。异常检测是一种用于识别不符合预期行为的异常模式的技术,又称之为异常值检测。
2022-10-27 20:58:39
671
原创 8.主成分分析(PCA),算法思想与流程,思考与建议
主成分分析,又称主分量分析、K-L变换,堪称特征抽取方法中的经典。主成分分析作为一种数学方法和有力的数据分析工具,几乎在所有学科中都有它的身影。
2022-10-27 00:39:41
1460
原创 7.聚类分析,相似度度量,模型评估
聚类算法又叫做“无监督分类”,试图将数据集中的样本划分成若干个通常是不相交的子集,称之为“簇cluster”。聚类可以作为一个单独过程,用于寻找数据内部的分布结构,也能够作为其他学习任务的前驱过程。聚类算法涉及到的两个问题:性能度量和距离计算。
2022-10-26 20:03:30
3045
原创 6.支持向量机(SVM),推理与思考,Lagrange,核函数
支持向量机(Support Vector Machine)于1995年首先提出,基本模型是的定义在特征空间上的间隔最大的线性分类器,SVM的学习策略就是间隔最大化。它在解决小样本、非线性及高维模式识别中表现出许多特有的优势,并能够推广应用到函数拟合等其他机器学习问题中。
2022-10-15 12:19:02
725
原创 【request】使用request库,实现更加方便的爬取网页
了解了 urllib 的基本用法,但是其中确实有不方便的地方,比如处理网页验证和 Cookie 时,需要写 Opener 和 Handler 来处理。另外我们要实现 POST、PUT 等请求时写法也不太方便。为了更加方便地实现这些操作,就有了更为强大的库 requests,有了它,Cookie、登录验证、代理设置等操作都更加简单。
2022-10-10 21:11:05
3868
原创 【urllib】介绍python的urllib,实现网页爬取
urllib,利用它我们可以实现 HTTP 请求的发送,而不用去关心 HTTP 协议本身甚至更低层的实现。它是 Python 内置的 HTTP 请求库,也就是说不需要额外安装即可使用。
2022-10-09 22:44:31
2698
原创 5.模型建议,交叉验证,偏差与误差,二分类问题模型评估
本文主要介绍了对于机器学习模型评估的一些方法,测试集、验证集的处理,高偏差与高误差问题,着重分析了二分类问题的评估指标。
2022-10-08 23:28:33
1905
原创 4.神经网络基础,损失函数,反向传播
神经网络是一种很古老的算法,它最初产生的目的是制造能模拟大脑的机器。神经网络是计算量有些偏大的算法。然而大概由于近些年计算机的运行速度变快,才足以真正运行起大规模的神经网络。本文对神经网络的基础概念进行介绍。
2022-10-07 21:31:24
936
1
原创 Python打开文件并进行处理,txt、excel、pdf、word!
在办公处理中,我们常常要打开一些文件,面临大量的数据时,传统的人工方法耗时耗力。在python中,有一系列包装好的库,让我们能够很方便的操作各种类型的文件。当然,python的内置函数也能够很好的打开一些文件。本文主要探讨python打开各类文件的方式。
2022-10-04 16:41:08
10968
3
原创 【神经网络】从0至1构建神经网络,进行手写数字的识别
通过原生的python代码,不适用任何包装好的神经网络包,构建出一个二层的神经网络,对手机数字图片进行识别。
2022-10-01 11:55:10
834
原创 2.线性回归,梯度下降与正规方程
线性回归,其实我们在高中时期就已经学习过——最小二乘法,这也正是本文中提到的正规方程。本文从单变量、多变量两个方面介绍线性回归,并指出模型评估的标准——损失函数,以及如何求出损失函数最小时的解——梯度下降、正规方程。
2022-09-30 00:48:50
598
原创 【word2vec】python读取pdf文件,通过词向量寻找相关词语
通过python,读取一组pdf文件的文本,并根据已有关键词以及每个词语的词向量,寻找与这些关键词比较相关的词语。
2022-09-25 13:16:45
2030
1
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人