自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(19)
  • 收藏
  • 关注

原创 数据理解与数据准备

数据的基本类型,质量处理;不同对象之间的相似度、相异度(距离);数据的预处理:缺失值、重复值、标准化、离散化,数据规约(变量筛选、数据降维)。

2023-05-07 15:58:55 486

原创 3. 传输层

计算机网络-传输层

2023-02-09 23:15:12 406

原创 2. 应用层

计算机网络--应用层

2023-02-07 13:24:16 502

原创 1. 计算机网络和因特网

计算机网络和因特网,进行较为广义宽泛的介绍。包括网络协议、网络边缘与核心、接入网、分层协议等

2022-12-02 16:17:49 1032

原创 9.异常检测,高斯分布,极大似然估计

异常是相对于其他观测数据而言有明显偏离的,以至于怀疑它与正常点不属于同一个数据分布。异常检测是一种用于识别不符合预期行为的异常模式的技术,又称之为异常值检测。

2022-10-27 20:58:39 671

原创 8.主成分分析(PCA),算法思想与流程,思考与建议

主成分分析,又称主分量分析、K-L变换,堪称特征抽取方法中的经典。主成分分析作为一种数学方法和有力的数据分析工具,几乎在所有学科中都有它的身影。

2022-10-27 00:39:41 1460

原创 7.聚类分析,相似度度量,模型评估

聚类算法又叫做“无监督分类”,试图将数据集中的样本划分成若干个通常是不相交的子集,称之为“簇cluster”。聚类可以作为一个单独过程,用于寻找数据内部的分布结构,也能够作为其他学习任务的前驱过程。聚类算法涉及到的两个问题:性能度量和距离计算。

2022-10-26 20:03:30 3045

原创 6.支持向量机(SVM),推理与思考,Lagrange,核函数

支持向量机(Support Vector Machine)于1995年首先提出,基本模型是的定义在特征空间上的间隔最大的线性分类器,SVM的学习策略就是间隔最大化。它在解决小样本、非线性及高维模式识别中表现出许多特有的优势,并能够推广应用到函数拟合等其他机器学习问题中。

2022-10-15 12:19:02 725

原创 【request】使用request库,实现更加方便的爬取网页

了解了 urllib 的基本用法,但是其中确实有不方便的地方,比如处理网页验证和 Cookie 时,需要写 Opener 和 Handler 来处理。另外我们要实现 POST、PUT 等请求时写法也不太方便。为了更加方便地实现这些操作,就有了更为强大的库 requests,有了它,Cookie、登录验证、代理设置等操作都更加简单。

2022-10-10 21:11:05 3868

原创 【urllib】介绍python的urllib,实现网页爬取

urllib,利用它我们可以实现 HTTP 请求的发送,而不用去关心 HTTP 协议本身甚至更低层的实现。它是 Python 内置的 HTTP 请求库,也就是说不需要额外安装即可使用。

2022-10-09 22:44:31 2698

原创 5.模型建议,交叉验证,偏差与误差,二分类问题模型评估

本文主要介绍了对于机器学习模型评估的一些方法,测试集、验证集的处理,高偏差与高误差问题,着重分析了二分类问题的评估指标。

2022-10-08 23:28:33 1905

原创 4.神经网络基础,损失函数,反向传播

神经网络是一种很古老的算法,它最初产生的目的是制造能模拟大脑的机器。神经网络是计算量有些偏大的算法。然而大概由于近些年计算机的运行速度变快,才足以真正运行起大规模的神经网络。本文对神经网络的基础概念进行介绍。

2022-10-07 21:31:24 936 1

原创 【python】正则表达式,介绍 re 的常见用法

怎么才能从一段文本中获取我们想要的信息呢?正则表达式就是其中一个有效的方法。

2022-10-06 01:00:50 461 3

原创 Python打开文件并进行处理,txt、excel、pdf、word!

在办公处理中,我们常常要打开一些文件,面临大量的数据时,传统的人工方法耗时耗力。在python中,有一系列包装好的库,让我们能够很方便的操作各种类型的文件。当然,python的内置函数也能够很好的打开一些文件。本文主要探讨python打开各类文件的方式。

2022-10-04 16:41:08 10968 3

原创 3.逻辑回归,损失函数,以及正则化处理

本文主要介绍了逻辑回归和其能解决的问题。而后引出过拟合现象,并给出一种解决过拟合的方法--正则化。

2022-10-02 01:03:05 996

原创 【神经网络】从0至1构建神经网络,进行手写数字的识别

通过原生的python代码,不适用任何包装好的神经网络包,构建出一个二层的神经网络,对手机数字图片进行识别。

2022-10-01 11:55:10 834

原创 2.线性回归,梯度下降与正规方程

线性回归,其实我们在高中时期就已经学习过——最小二乘法,这也正是本文中提到的正规方程。本文从单变量、多变量两个方面介绍线性回归,并指出模型评估的标准——损失函数,以及如何求出损失函数最小时的解——梯度下降、正规方程。

2022-09-30 00:48:50 598

原创 1.监督学习与无监督学习

机器学习,看似遥远深奥,其实在生活中随处可见,本文主要依据数据及特征,对机器学习的监督学习、无监督学习进行简单的介绍。

2022-09-29 21:40:52 334

原创 【word2vec】python读取pdf文件,通过词向量寻找相关词语

通过python,读取一组pdf文件的文本,并根据已有关键词以及每个词语的词向量,寻找与这些关键词比较相关的词语。

2022-09-25 13:16:45 2030 1

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除