
机器学习与数据分析
文章平均质量分 82
矩阵科学
计算机视觉图像分类在读研究生,研究方向:知识迁移、持续学习、知识蒸馏、域外数据检测。
梦想:苦练内功,成为架构师!
展开
-
吃西瓜—先磨刀之概率论
一、什么是数据挖掘?基于对大量的数据进行深度分析,发现其有价值的信息!利用这些信息提高企业预测分析与推断决策能力。针对不同用户进行个性化推荐,优化用户体验。我个人理解是,在大量数据中发现模式与规律,也就是咱们人类所说的知识,所以为什么叫机器学习?让机器像人类一样从一堆数据中学到知识!数据挖掘所使用的方法论是什么?包括统计学、机器学习、数据库、云计算等等。所以在研究生生活开始之前我应该学习完李航老师的《统计学方法》、周志华老师的西瓜书《机器学习》,为以后研究打下深厚的基础。数据挖掘包括四大基本模型,.原创 2021-04-02 22:30:41 · 232 阅读 · 0 评论 -
吃西瓜--爬虫系列之Request使用方法
网络爬虫网络爬虫就是模拟用户请求网络的行为,可以自动请求网络爬取数据,然后使用一定的规则提取有价值的信息。鉴于本科期间学过http、https、url、get、post等等知识,所以只需要学习Python相关的一些爬虫知识!常见反爬虫机制:get请求写成post、post请求写成get,需要确定请求方式;判断User-Agent是否是浏览器,程序默认Python,爬虫程序需要定制伪装;Referer机制,表明这个请求是从哪个url过来的,如果是直接请求过来了的则认为是爬虫,所以Referer一般翻译 2021-04-06 22:09:46 · 6341 阅读 · 0 评论 -
吃西瓜--爬虫系列之数据解析
XPath语法xpath(XML Path Language)是一门在XML和HTML文档中查找信息的语言,可用来在XML和HTML文档中对元素和属性进行遍历。开发工具Chrome插件XPath Helper。选取节点:XPath 使用路径表达式来选取 XML 文档中的节点或者节点集。这些路径表达式和我们在常规的电脑文件系统中看到的表达式非常相似。表达式 描述 示例 结果 nodename 选取此节点的所有子节点 bookstore 选取book原创 2021-04-08 18:21:48 · 350 阅读 · 0 评论 -
谷歌Colab pro
一、简介 Colab 是谷歌推出的一款在线深度学习工具,提供Tesla V100 、T100等GPU,现在国内大量人使用,已经被玩坏了。今年四月份的时候,使用Colab还不用开Pro,就能使用十几个小时的GPU,现在只能使用cpu了。而且经常分不到资源,经常会断开。目前可能由于显卡短缺的原因,不容易预约到Tesla V100,经常是Tesla P100 (16GB),而且有时候不能多开3个GPU窗口了。训练网络时候,Tesla V100速度是P100的近3倍。 今天开了P...原创 2021-07-18 22:18:59 · 7086 阅读 · 13 评论 -
Pytorch 实现线性回归
import torch# -----------准备数据-----------# y=2*x+1#下面注释中的是错误数据# x = torch.Tensor([1, 2, 3])# y = torch.Tensor([3, 5, 7])#数据必须是按照列算,一个样本一行,数据维度(3*1) ,特征维度(1维特征)x = torch.Tensor([[1],[2],[3]])y = torch.Tensor([[3], [5], [7]])# ---------.原创 2021-05-29 11:13:47 · 454 阅读 · 1 评论 -
吴恩达机器学习作业 2 - 线性回归
机器学习作业 1 - 线性回归1.单变量线性回归导包import numpy as npimport pandas as pdimport matplotlib.pyplot as plt导入数据集。提醒大家:一定要把数据文件ex1data1.txt放在和程序同一个文件夹里,否则需要使用绝对路径访问文件path = 'ex1data1.txt'data = pd.read_csv(path, header=None, names=['Population', 'Profit'])dat原创 2021-05-22 14:15:05 · 280 阅读 · 0 评论 -
吴恩达线性回归模型_作业1
<p> 线性模型就是使用一条曲线模拟样本分布,例如 $y=ax+b$、$y=ax^{3}+bx^{2}+cx+d$ 等等,甚至可以使用更高维的模型,但是需要防止过拟合问题。确定好了模型,唯一需要做的事情就是求出参数abcd,即解模型参数。那么如何求出参数呢?</p> <p> 我们把各种模型分为有监督与无监督模型,有监督模型即要求样本有真实标签,我们需要使用真实标签指导完成求参工作。而无监督模型不要求样本带有真实标签。有监督模型又可以分为分类模型与回归模型,其原创 2021-05-10 11:43:55 · 397 阅读 · 0 评论 -
极大似然估计直观理解
一、公式1、离散型2、连续型二、如何理解直观意义:刻画参数与数据的匹配程度。极大似然估计法原理就是固定样本观测值,选择参数,使最大。通俗来说,就是已知观测值请你解释这个样本空间为什么会是这样子的。那怎么解释呢?使用极大似然估计就能解释。举个栗子:暗箱中放有n个黑白小球,我们不知道黑球白球各为多少。那在不能打开的情况下如何估计黑球多少个呢?抽样!!!,我们随机有放回抽样n次,得到n1个黑球,n2个白球。当然我们立即可以得出比较科学的结论,黑球大概n1个,白球n2个。那理论支撑在..原创 2021-02-06 14:32:13 · 429 阅读 · 0 评论 -
准确率、精确率、召回率、F值
准确率:正确的数量除以总数量准确率(accuracy),是一个用来衡量分类器预测结果与真实结果差异的一个指标,越接近于1说明分类结果越准确。举个例子,比如现在有一个猫狗图片分类器对100张图片进行分类,分类结果显示有38张图片是猫,62张图片是狗,经与真实标签对比后发现,38张猫的图片中有20张是分类正确的,62张狗的图片中有57张是分类正确的,那么准确率是多少呢?显然就应该是 (20+57)/100=0.77,即分对的数量除以总的数量就这么简单,这也是准确率好理解的原因之一。同时可以发现,对于这.转载 2021-01-22 14:21:34 · 8462 阅读 · 1 评论 -
描述长度增益(Description length gain)
描述长度增益在这个网站有篇详细的论文介绍:Improving Chinese word segmentation with description length gain./Kit, Chunyu; Zhao, Hai.地址:https://citeseerx.ist.psu.edu/viewdoc/download?doi=10.1.1.298.3906&rep=rep1&type=pdf相关介绍如下:翻译过来就是:无监督分词策略必...原创 2021-01-21 14:23:43 · 479 阅读 · 0 评论 -
邻接熵(Branch Entropy)
邻接熵论文:Huang J H, Powers D. Chinese Word Segmentation Based on Contextual Entropy[C].Proceedings of the 17th Asian Pacific Conference on Language Information and Computation,2003:152-158本篇博客邻接熵概念引自:王欣. 一种基于多字互信息与邻接熵的改进新词合成算法[J]. 现代计算机:专业版, 2018.两个汉字是否翻译 2021-01-21 11:39:46 · 1619 阅读 · 0 评论 -
SCP(Symmetrical Conditional Probability)
对称条件概率这个概念百度和谷歌都查了,单独的解释寥寥无几,在知网查也没找到可能是我方法不对,知道的朋友可以告诉我一下,谢谢!最后在一篇韩国人的论文中找到了一些解释,欧巴给力思密达!如下图:其实我们高中就知道条件概率:,我们知道条件概率是不对称的, 这两个条件概率不相等,既然如此那何来对称?见下面论文解释:大概意思就是解释了和他论文相关的一些东西,然后最后一句话就是说“对称条件概率为(3)”,我们只需要知道最后一句,因为这里他也没有详细解释对称条件概率,因此得到的对称条件概率公式为:.原创 2021-01-19 17:06:22 · 846 阅读 · 0 评论 -
PMI(Pointwise Mutual Information)
公式 几句废话先来一两句废话,要想解释好点互信息必须学会科学上网,当然如果没有条件本篇博客会具体介绍。上网百度得到的搜索结果如下图1-1所示,事实证明百度不够自信,这么重要的概念百度学术里面没有?淦!居然都是来自优快云,然而优快云有个致命的缺点,就是对于某个问题的讲解原创比较少,后面的人基本就是copy了。当然优快云大牛依旧非常多,向原创致敬,向大佬看齐!接着跑去了维基百科搜索了一番,结果如图1-2所示。没有对比就没有伤害,不是为了黑而黑,实事求是的讲百度在相关学术方面做的真的不咋地...原创 2021-01-19 14:28:54 · 6307 阅读 · 1 评论 -
信息熵、自信息与互信息
信息熵对某件事件的不确定性叫做熵,熵值单位为byte,计算公式为:。它是统计平均意义下的不确定性,包括熵,条件熵,联合熵。例如对于一道选择题A、B、C、D四个选项,后面的百分数为选该选项的概率,假设如下我们来分析熵值:A:25% B:25% C:25% D:25%四种等可能,log4=2bit,可以理解为需要两个比特位来表示ABCD分别为00、01、10、11;当然也可以理解为要选出任意一个选项,需要抛两次硬币来确定,先后顺序为:正反、正正、反正,反反;A:100% B:0%...原创 2021-01-12 21:09:15 · 6224 阅读 · 0 评论 -
线性回归
一、什么是线性回归线性回归是利用线性的方法,模拟因变量与一个或多个自变量之间的关系。对于模型而言,自变量是输入值,因变量是模型基于自变量的输出值,适用于x和y满足线性关系的数据类型的应用场景。线性回归应用于数据分析的场景主要有两种: 驱动力分析:某个因变量指标受多个因素所影响,分析不同因素对因变量驱动力的强弱(驱动力指相关性,不是因果性); 预测:自变量与因变量呈线性关系的预测; 模型数学形式:????=????0+????1????1+????2????2+⋯+????????原创 2020-12-08 22:14:38 · 1787 阅读 · 0 评论 -
DBSCAN算法原理
在前面的文章中,我们讲了KNN算法的原理与简单应用,KNN一种有监督学习的分类算法,也就是说该算法首先需要训练数据来进行学习之后才能对数据进行分类。在本文中我们讲到的DBSCAN聚类算法,也属于一种数据分类算法,只不过该算法不需要任何训练数据就能对数据进行分类,因此该算法属于无监督的数据分类算法。本文中我们首先讲一下该算法的原理,然后举一个例子来说明该算法的应用。1. DBSCAN算法原理首先介绍该算法的主要概念与参数:(1) ε值:样本与样本之间的距离阈值,如果样本A与样本B的距离小于该阈值,转载 2020-12-08 22:09:37 · 2009 阅读 · 1 评论 -
基于Opencv的口罩佩戴识别系统
疫情之下,有人选择负重前行,有人在年假与工作中毅然选择后者。感谢“疫”路有你,祝愿祖国繁荣昌盛,国泰民安!人脸识别技术以及非常普及啦,现在的支付宝戴口罩也可以识别,据报道阿里现在正在尝试主导人脸识别技术某些标准。在商业上大多数公司会选择国内AI大咖,比如百度智能云、阿里智慧云、华为云、腾讯云等等。这些平台的AI解决方案可以说代表了中国AI的最高水平。那么不适用他们提供的技术我们能不能做相关方面...原创 2020-03-20 19:52:11 · 63934 阅读 · 186 评论 -
特征选择
1、子集搜素与评价在实际生活中一个样本或许有很多属性,例如一个西瓜样本,有色泽、敲声、纹理、触感等等。但有经验的人往往只看敲声或者纹理。其实并不是所有的特征都是有用的,大多数情况下是一部分有用,这一部分称为“”相关特征”,另外一部分没什么用的称为“无关特征”。从给定集合中选择出相关特征子集的过程称为特征选择。用个图(图片来自wiki)来形象的说明维数灾难,下图可以看到,随着选择的特征...原创 2019-09-24 22:17:55 · 1028 阅读 · 0 评论 -
机器学习1-基本概念
本次学习主要学习监督式机器学习即:机器学习系统通过学习如何组合输入信息来对从未见过的数据做出有用的预测。一、什么是样本,标签,模型?标签标签是我们要预测的事物,即简单线性回归中的y变量。标签可以是小麦未来的价格、图片中显示的动物品种、音频剪辑的含义或任何事物。特征特征是输入变量,即简单线性回归中的x变量。简单的机器学习项目可能会使用单个特征,而比较复...转载 2019-08-26 12:56:34 · 608 阅读 · 0 评论