
python
Hi丶ImViper
这个作者很懒,什么都没留下…
展开
-
测试假数据构造一键构造方法,Python Faker包使用手册
前言当我们开发完成之后,需要一些假数据来支持我们的系统。如果自己构造的话,费时费力,还不一定能够构造合适的数据。而用python的faker包,构造假数据非常简单!安装工具pip install faker创建 Faker安装完成后,使用时需要先创建一个 Faker 对象,创建方法有两种,一种是直接通过构造函数来创建,另一种是通过工厂函数来创建。>>> from faker import Faker, Factory>>> fake1 = Factory.原创 2022-02-12 19:23:21 · 1991 阅读 · 0 评论 -
自然语言处理系列之: NLP中用到的机器学习算法
大纲机器学习的一些基本概念:有/无监督学习、半监督学习、回归、降维等机器学习常用分类算法:朴素贝叶斯、支持向量机、逻辑回归等机器学习的聚类方法:k-means算法机器学习的应用9.1 简介机器学习训练的要素数据转换数据的模型衡量模型好坏的损失函数调整模型权重以最小化损失函数的算法机器学习中最重要的四类问题(按学习结果)预测(Prediction):用回归(Regression,Arima)等模型;聚类(Clustering):如K-means方法;分类(Cla原创 2020-11-06 14:35:51 · 3057 阅读 · 0 评论 -
自然语言处理系列之: 实战电影评论情感分析
大纲对舆情数据进行舆情分析分类算法应用初步了解深度学习方法RNN实战使用RNN变种-LSTM8.1 情感分析的应用电子商务舆情分析市场呼声消费者呼声8.2 情感分析的基本方法分析方法分类词法分析基于机器学习的分析混合分析词法分析运用预标记词汇组成的字典,使用词法分析器将输入文本转换为单词序列,将每个新的单词与字典中的词汇进行匹配,若有积极匹配,则对输入文本的分数总池进行加分,若是消极匹配,则输入文本总分减少。但是存在一个不足:其性能(时间复杂度和准确率原创 2020-11-06 14:35:21 · 1797 阅读 · 0 评论 -
自然语言处理系列之:文本向量化
大纲文本向量化常用算法介绍,word2vec及doc2vec向量化方法的模型训练和使用7.1 文本向量化概述即将文本表示为一系列能表达文本语义的向量;7.2 向量化算法word2vec词袋(Bag of Word)模型:最早的以词语为基本处理单元的文本向量化方法;词袋模型存在的问题:维度灾难无法保留词序信息存在语义鸿沟问题神经网络语言模型(NNLM)大致操作步骤:从语料库中收集一系列长度为nnn的文本序列wi−(n−1),…,wi−1,wiw_{i-(n-1原创 2020-11-06 14:34:57 · 2304 阅读 · 0 评论 -
自然语言处理系列之: 句法分析
大纲句法分析及其难点;句法分析相关数据和技术;基于Stanford Parser的句法分析实战6.1 句法分析概述句法分析(Parsing)定义从单词串获取句法结构的过程,实现该过程的工具或程序叫做句法分析器(Parser)。分为完全句法分析和局部句法分析,完全句法分析以获取整个句子的句法结构为目的,而局部句法分析只关注局部成分,依存句法分析即为局部分析法的一种;句法分析难点歧义搜索空间方法分类基于规则处理大规模真实文本时,存在语法规则覆盖有限、系统可迁移差原创 2020-11-06 14:34:19 · 1236 阅读 · 1 评论 -
自然语言处理系列之: 关键词提取算法
大纲关键词提取技术介绍常用的关键词提取算法详解文本关键词提取实战5.1 关键词提取技术概述有监督主要通过分类的方式进行,通过构建一个丰富和完善的词表,然后通过判断每个文档与词表中每个文档与词表中每个词的匹配程度,以类似打标签的方式,从而达到关键词提取的效果。能够获得较高精度,但是需要大批量的标注数据,人工成本较高;无监督不需人工生成、维护的词表,也不需要人工标注语料辅助进行训练,主要有TF-IDF算法、TextRank算法和主题模型算法(LSA、LSI、LDA等);5.原创 2020-11-06 14:33:44 · 1320 阅读 · 0 评论 -
自然语言处理系列之:词性标注与命名实体识别
大纲词性标注和命名实体识别的基础概念和常用方法基于条件随机场的命名实体识别原理解析日期识别和地名识别实践4.1 词性标注词性:词汇基本语法属性,也称为词类;词性标注:在给定句子中判定每个词的语法范畴,确定其词性并加以标注的过程。最简单的方法是从语料库中统计每个词对应的高频词性,并将其作为默认词性;词性标注规范北大词性标注集;宾州词性标注集;[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-YykgaAs2-1604644370579)原创 2020-11-06 14:33:16 · 1272 阅读 · 0 评论 -
自然语言处理系列之:中文分词技术
大纲中文分词的概念与分类常用分词(规则分词、统计分词、混合分词)技术介绍开源中文分词工具-Jieba实战分词之高频词提取3.1 中文分词简介规则分词最早兴起,主要通过人工设立词库,按照一定方式进行匹配切分,实现简单高效,但对新词难以处理;统计分词能较好应对新词发现场景,但是太过于依赖于语料质量;混合分词规则分词与统计分词的结合体;3.2 规则分词定义一种机械分词方法,主要通过维护词典,切分语句时,将语句中的每个字符串与词表中的词逐一匹配原创 2020-11-06 14:32:41 · 2173 阅读 · 2 评论 -
自然语言处理系列之: NLP基础
大纲NLP基础概念NLP的发展与应用NLP常用术语以及扩展介绍1.1 什么是NLP基本分类自然语言生成(Natural Language Generation,NLG)指从结构化数据中以读取的方式自动生成文本,主要包括三个阶段:文本规划:完成结构化数据中的基础内容规划;语句规划:从结构化数据中组合语句来表达信息流;实现:产生语法通顺的语句来表达文本;研究任务机器翻译情感分析智能问答文摘生成文本分类舆论分析知识图谱1.2 NL原创 2020-11-06 14:31:20 · 552 阅读 · 0 评论 -
双向最大匹配算法(含完整代码实现,ui界面)正向最大匹配算法,逆向最大匹配算法
双向最大匹配算法(含完整代码实现,ui界面)正向最大匹配算法,逆向最大匹配算法一、理论描述中文分词(Chinese Word Segmentation) 指的是将一个汉字序列切分成一个一个单独的词。分词就是将连续的字序列按照一定的规范重新组合成词序列的过程。二、算法描述本文实现双向匹配算法,具体算法描述如下:正向最大匹配算法描述:设MaxLen表示最大词长,D为分词词典(1) 从待切分语料中按正向取长度为MaxLen的字串str,令Len=MaxLen;(2) 把str与D中的词从左往右相原创 2020-09-29 13:34:00 · 3744 阅读 · 0 评论