
AI
文章平均质量分 73
风情客家__
简述需要300字以内_(¦3」∠)_
展开
-
过拟合和欠拟合 全面总结
在机器学习中,有一项很重要的概念,那就是:过拟合(Overfitting)和欠拟合(Underfitting)。很长一段时间,和不少同学私信聊到过拟合和欠拟合的问题。尤其是对于初学者来说,这个有时候感觉很难把握。过拟合和欠拟合,涉及到机器学习中常见的两种模型性能问题,下面咱们先来简单聊聊关于过拟合和欠拟合的特征,以及防止性能问题的方法。过拟合(Overfitting)转载 2024-06-11 09:43:30 · 393 阅读 · 0 评论 -
【机器学习】有监督、无监督、自监督、半监督、弱监督的区别
利用大量的标注数据来训练模型,模型最终学习到输入和输出标签之间的相关性;用有标签的数据训练;监督学习需要每一个数据都有标签。一般来说这些标签都是人工设计的标签,通常标注需要花费大量的人力物力。监督学习更像学习一种映射关系,大多数的训练数据都带有标签。输入数据是x,标签是y,学习f函数的映射关系。监督学习的特征通常是具体的特征抽取。不依赖任何标签值,通过对数据内在特征的挖掘,找到样本间的关系,比如聚类;用无标签的数据训练;训练数据不要求有标签,没有显示的。转载 2023-05-16 16:23:52 · 12623 阅读 · 0 评论 -
NLTK简介及使用示例
参考文章:自然语言处理库——NLTK_满腹的小不甘-优快云博客NLP 自然语言处理的开发环境搭建_村雨遥-优快云博客_nlp开发nlp---Nltk 常用方法_飘过的春风-优快云博客NLTK 基础知识总结_村雨遥-优快云博客_nltkNLTK :: Natural Language Toolkit(官网)NLTK :: Sample usage for stemNLTK_百度百科GitHub - nltk/nltk_data: NLTK Data1.简介Natu原创 2021-12-03 21:26:31 · 34917 阅读 · 1 评论 -
手动下载并安装nltk_data
参考文章:手动下载并安装nltk_data_ybdesire的专栏-优快云博客_手动安装nltk1. 引入使用nltk的tokenizer、模型、语料之前,都要先运行如下代码进行下载:import nltknltk.download()但网络原因,笔者从未成功下载过。2. 离线安装步骤2.1 下载nltk_data下载链接: https://github.com/nltk/nltk_data/tree/gh-pages注意下载branch为gh-pages,下载后得到:转载 2021-12-03 21:17:33 · 5298 阅读 · 1 评论 -
NLP Lemmatisation(词性还原) 和 Stemming(词干提取) NLTK pos_tag word_tokenize
参考文章:NLP Lemmatisation(词性还原) 和 Stemming(词干提取) NLTK pos_tag word_tokenize_心之所向-优快云博客_nltk 词形还原词形还原(lemmatization),是把一个词汇还原为一般形式(能表达完整语义),方法较为复杂;而词干提取(stemming)是抽取词的词干或词根形式(不一定能够表达完整语义),方法较为简单。Stemming(词干提取):基于语言的规则。如英语中名词变复数形式规则。由于基于规则,可能出现规则外的情况。.转载 2021-12-06 09:03:57 · 1797 阅读 · 0 评论 -
Tess4J 安装及使用介绍
支持中文识别,并且开源和提供全套的训练工具,是快速低成本开发的首选。而Tess4J则是Tesseract在Java PC上的应用。在英文和数字识别中性能还是不错的,但是在中文识别中,无论速度还是识别率还是较弱,建议有条件的话,针对场景进行训练,会获得较好结果,本文仅对目前Tess4J的用法进行介绍。这里要把dist下的jar包和lib下的jar包都要导入Java项目中。2.2 创建Java项目并配置Tess4J。2.1 Tess4J官网下载最新的源码包。我们现在最新的是3.4.8。原创 2022-11-17 11:18:35 · 9462 阅读 · 0 评论 -
Python OCR工具pytesseract详解
最初由惠普开发,后来Google赞助的开源OCR引擎 tesseract 提供了比较精确的文字识别API,本文将要介绍的Python库Pytesseract就是基于Tesseract-OCR 引擎。安装完成后,添加到环境变量PATH中,我的安装路径是:C:\Program Files\Tesseract-OCR。OCR技术可以将图片,纸质文档中的文本转换为数字形式的文本。图片中可能包含了多种语言,比如在上面的例子中,图片包含了中文和英文,,已经添加到了环境变量,直接写字体名称就可以了,转载 2022-11-14 18:17:37 · 3318 阅读 · 0 评论 -
Paddle-OCR简介
参考[3]文字识别训练和评估流程,使用MJSynth和SynthText两个文字识别数据集训练,在IIIT, SVT, IC03, IC13, IC15, SVTP, CUTE数据集上进行评估,算法效果如下:原创 2022-11-08 14:28:48 · 753 阅读 · 0 评论 -
OCR文字识别技术总结(一)
参考:OCR文字识别技术总结(一)_GoAI的博客-优快云博客_ocr文字识别 ✨写在前面:强烈推荐给大家一个优秀的人工智能学习网站,内容包括人工智能基础、机器学习、深度学习神经网络等,详细介绍各部分概念及实战教程,通俗易懂,非常适合人工智能领域初学者及研究者学习。➡️点击跳转到网站。1️⃣OCR系列第一章:OCR文字识别技术总结(一)2️⃣OCR系列第二章:OCR文字识别技术总结(二)3️⃣OCR系列第三章:OCR文字识别技术总结(三)4️⃣OCR系列第四章:OCR文字识别技术总结(四)5️⃣O转载 2022-11-07 16:26:11 · 5470 阅读 · 0 评论 -
tesseract-ocr使用流程
得到训练好的字库,normal.traineddata,复制到Tesseract-OCRt程序目录下的“tessdata”目录即可,使用时可以多个字库并用。新建一个font_properties.txt文件,里面内容写入 normal 0 0 0 0 0 表示默认普通字体。当文字内容比较模糊不清时,按行模式来识别能够大大提高识别率和准确率,如使用默认参数,下图基本识别不出来。支持windows、linux,注意要安装4.0版,准确率有较大提升,安装后需要添加中文词库。训练,生成.tr文件。转载 2022-11-07 15:36:14 · 208 阅读 · 0 评论 -
OCR工具对比
经过预处理后,tesseract识别率达到100%,tesseract-fast错误均为人名,tesseract-best/tesseract-fast仅用LSTM。CLSTM已经年久失修,docker镜像都404了。tesseract对清晰度不高的图片识别出现很多拒识,百度OCR-API准确率还在95%以上。:tesseract较多人使用,有比较多资料可查,目前由google提供支持,暂定它了,优化方向:通过训练微调、想办法提速。转载 2022-11-07 15:31:05 · 374 阅读 · 0 评论 -
超强免费OCR文字识别工具推荐
截图之后松开左键即可识别。今天呢给大家分享几款珍藏已久的OCR文字识别工具,PandaOCR|天若OCR|转转大师OCR,都是非常实用并且功能特别强大的ocr文字识别工具,支持图片转文字、网页转文字、截图转文字、语音生成文字、PDF转文字及文档批量生成文字等常用功能。天若OCR批量文字识别是一款基于天若OCR加入批量识别功能重新制作而成的OCR批量识别工具,该软件占用内存小,拥有多个可选的接口,为用户提供了相对固定的功能,还能够帮助用户朋友进行本地ocr截图文字识别。转载 2022-11-07 15:03:57 · 3095 阅读 · 0 评论 -
Tesseract OCR简介(三)--安装及参数使用
一般游戏字体文件分两种,一种是直接加载ttf等标准字体文件,另一种是使用bmfont,也就是图片(一般是png)加额外的配置文件来加载字体。是一个基本成型的三方样本训练工具,它的功能就是自动执行上述脚本命令,但是在实际使用中,还存在不够完善的地方,譬如不能加psm参数,生成shape时经常程序异常崩溃。第一步是先生成box文件,为了统一起见,将上面得到的tif文件,命名为。一个重要原则是,尽量使用分辨率较高的tif图片制作字库,同时保证tif图片里字体展示清晰,这样生成的字库识别率会更高。转载 2022-11-07 14:28:56 · 8861 阅读 · 0 评论 -
Tesseract OCR简介(二)
Tesseract是一个 由HP实验室开发 由Google维护的 开源的(OCR)引擎,可以在下获得。它可以直接使用,或者(对于程序员)使用 API 从图像中提取输入,包括手写的或打印的文本。与Microsoft Office Document Imaging(MODI)相比,我们可以不断的训练的库,使图像转换文本的能力不断增强;如果团队深度需要,还可以以它为模板,开发出符合自身需求的OCR引擎。;转载 2022-11-07 11:28:10 · 565 阅读 · 0 评论 -
Tesseract OCR简介(一)
Tesseract(/'tesərækt/) 这个词的意思是"超立方体",指的是几何学里的四维标准方体,又称"正八胞体"。右图是一个正八胞体绕着两个四维空间中互相正交的平面进行双旋转时的透视投影。不过这里要讲的,是一款以其命名的开源 OCR(Optical Character Recognition, 光学字符识别) 软件。所谓 OCR 是图像识别领域中的一个子领域,该领域专注于对图片中的文字信息进行识别并转换成能被常规文本编辑器编辑的文本。转载 2022-11-07 11:22:30 · 5749 阅读 · 0 评论 -
OCR基础篇
在一些简单环境下OCR的准确度已经比较高了(比如电子文档),但是在一些复杂环境下的字符识别,在当今还没有人敢说自己能做的很好。现在大家都很少会把目光还放在如何对电子文档的文字识别该怎么进一步提高准确率了,因为他们把目光放在更有挑战性的领域。OCR传统方法在应对复杂图文场景的文字识别显得力不从心,越来越多人把精力都放在研究如何把文字在复杂场景读出来,并且读得准确作为研究课题,用学界术语来说,就是场景文本识别(文字检测+文字识别)。参考文献。转载 2022-11-07 11:13:35 · 160 阅读 · 0 评论 -
中文停用词表和英文停用词表
参考文章:中文停用词表和英文停用词表_tszupup的博客-优快云博客_英文停用词表中文分词列表链接:百度网盘 请输入提取码提取码:dno0英文分词列表链接:百度网盘 请输入提取码提取码:a4l7目录中文停用词表(1893个特殊字符/词)英文停用词表(891个特殊字符/词)中文停用词表(1893个特殊字符/词)!"#$%&'()*+,---................................/.一.数.日/...转载 2021-12-02 21:44:26 · 1735 阅读 · 0 评论 -
一致性算法 - Raft
参考文章:一致性算法 - Raft浅谈分布式一致性算法raft一致性协议(一)、Raft算法1. 一致性算法 - Raft1.1 Raft 状态一个 Raft 集群包含若干个服务器节点;通常是 5 个,这允许整个系统容忍 2 个节点的失效,每个节点处于以下三种状态之一:follower(跟随者):所有结点都以follower的状态开始。如果没收到leader消息则会变成candidate状态。 candidate(候选人):会向其他结点“拉选票”,如果得到大部分的票则成...转载 2021-04-30 11:09:12 · 255 阅读 · 0 评论 -
MD5算法原理
MD5(单向散列算法)的全称是Message-Digest Algorithm 5(信息-摘要算法),经MD2、MD3和MD4发展而来。MD5算法的使用不需要支付任何版权费用。 MD5功能: 输入任意长度的信息,经过处理,输出为128位的信息(数字指纹); 不同的输入得到的不同的结果(唯一性); 根据128位的输出结果不可能反推出输入的信息(不可逆); MD5属不...转载 2018-03-07 11:10:38 · 325 阅读 · 0 评论 -
机器学习--正则化(Regularization)
参考文章:机器学习--正则化(Regularization)过拟合问题:下图是一个回归问题第一个模型是一个线性模型,欠拟合,不能很好地适应我们的训练集;我们看看这些数据,很明显,随着房子面积增大,住房价格的变化趋于稳定或者说越往右越平缓。因此线性回归并没有很好拟合训练数据。没有很好地拟合训练数据,我们称之为欠拟合,或者叫做高偏差第三个模型是一个四次方的模型,过于强调拟合原始数据,而丢失了算法的本质:预测新数据。我们可以看出,若给出一个新的值使之预测,它将表现的很差,是过拟合,虽转载 2021-02-05 15:39:06 · 409 阅读 · 0 评论 -
关于两种限流模式
参考文章:关于两种限流模式流量预警和限流方案中,比较常用的有两种。第一种滑窗模式,通过统计一段时间内的访问次数来进行控制,访问次数达到的某个峰值时进行限流。第二种为并发用户数模式,通过控制最大并发用户数,来达到流量控制的目的。下面来简单分析下两种的优缺点。1、滑窗模式1.1 模式分析在每次有访问进来时,我们判断前N个单位时间内的总访问量是否超过了设置的阈值,并对当前时间片上的请求数+1。上图每一个格式表示一个固定的时间(比如1s),每个格子一个计数器,我们要获取前5s的请求量,就转载 2020-08-18 09:58:36 · 874 阅读 · 0 评论 -
浅谈LDA
参考文章:浅谈LDALDA是导师10月初布置的内容,每次拿起来《LDA数学八卦》看前面的公式推导都觉得这是个很难的问题,一直拖到10月末。这周末用了两天时间终于把LDA弄懂了,其实LDA是一个很简单的模型,不要被前面的数学公式吓到。当然,作为一个初学者,如果有什么理解不对的,欢迎大家批评指正。 和《LDA数学八卦》不同,我想先从这个模型说起。 现在我有M篇文章,这些文章由V个单词...转载 2019-06-20 21:46:14 · 651 阅读 · 0 评论 -
算法文章--总参
浅谈LDAlabeled LDA,Hierarchically Supervised LDA原创 2019-06-20 21:47:27 · 290 阅读 · 0 评论 -
NLTK自然语言处理--生成特征向量与文本相似度
参考文章:NLTK自然语言处理(四)生成特征向量与文本相似度 - 程序员大本营几种文本特征向量化方法词集模型:one-hot编码向量化文本(统计各词在文本中是否出现) 词袋模型:文档中出现的词对应的one-hot向量相加(统计各词在文本中出现次数,在词集模型的基础上。) 词袋模型+IDF:TFIDF向量化文本(词袋模型+IDF值,考虑了词的重要性) N-gram模型:考虑了词的顺序 word2vec模型:使用文章中所有词的平均词向量作为文章的向量...转载 2021-12-04 18:34:42 · 618 阅读 · 0 评论 -
TF-IDF算法介绍及实现
参考文章:TF-IDF算法介绍及实现_Asia-Lee-优快云博客_tf-idfPython 使用nltk获取TF-IDF_计算机视觉-优快云博客Python自然语言处理---TF-IDF模型 - 寒若雪 - 博客园目录1、TF-IDF算法介绍(1)TF是词频(Term Frequency)(2)IDF是逆向文件频率(Inverse Document Frequency)(3)TF-IDF实际上是:TF * IDF2、TF-IDF应用3、Python3实现TF-I..转载 2021-12-07 09:12:05 · 9987 阅读 · 2 评论 -
Spark ML 协同过滤算法
参考文章:Spark ML 协同过滤算法1 什么是协同过滤协同过滤是利用集体智慧的一个典型方法。要理解什么是协同过滤 (Collaborative Filtering, 简称 CF),首先想一个简单的问题,如果你现在想看个电影,但你不知道具体看哪部,你会怎么做?大部分的人会问问周围的朋友,看看最近有什么好看的电影推荐, 而我们一般更倾向于从口味比较类似的朋友那里得到推荐。这就是协同过滤的核心思想。换句话说,就是借鉴和你相关人群的观点来进行推荐,很好理解。2 协同过滤的实现要实现协同过滤的转载 2020-12-15 15:20:39 · 498 阅读 · 0 评论 -
有监督学习与无监督学习的几大区别
参考文章:有监督学习与无监督学习的几大区别当下无监督作为一种热门的机器学习技术,网上有不少关于无监督与有监督差异讨论的文章。DataVisor作为率先将无监督技术运用在反欺诈行业的娇娇领先者,我们在本文中,将深入浅出的讲解无监督机器学习技术与有监督技术在不同方面的区别,通过对比这两种技术,让大家对无监督反欺诈技术有更好的了解。对比一 : 有标签 vs 无标签有监督机器学习又被称为“有老师的学习”,所谓的老师就是标签。有监督的过程为先通过已知的训练样本(如已知输入和对应的输出)来训练,从而得到一个转载 2021-10-08 20:28:41 · 395 阅读 · 0 评论 -
AI训练数据集网址
https://www.datasetlist.com/原创 2021-08-05 14:04:33 · 551 阅读 · 0 评论 -
AI面试题
参数 说明 召回率 被用户标注为某个分类的所有样本中,模型正确预测为该分类的样本比率,反映模型对正样本的识别能力。 精确率 被模型预测为某个分类的所有样本中,模型正确预测的样本比率,反映模型对负样本的区分能力。 准确率 所有样本中,模型正确预测的样本比率,反映模型对样本整体的识别能力。 F1值 F1值是模型精确率...原创 2021-08-04 16:03:57 · 268 阅读 · 0 评论 -
AI语音识别常见算法简介--目录参考
参考文章:随笔分类 - AI大语音(ASR)AI大语音(一)——语音识别基础AI大语音(二)——语音预处理AI大语音(三)—傅里叶变换家族AI大语音(四)——MFCC特征提取语音识别算法的现状AI智能语音识别算法原理 三AI智能语音识别算法原理 一声学基础知识...原创 2021-07-06 13:53:31 · 1444 阅读 · 0 评论