文本处理
文章平均质量分 84
Robin_Pi
所有觉得难得东西,只是因为没有真正理解最基础的概念
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
百度翻译使用经验(Python版)
文章目录#百度翻译介绍##可选模式:通用翻译 API-标准版:完全免费,QPS=1通用翻译 API-高级版(需进行个人认证),200万字符免费/每月;超过 200 万字符,按照 49 元人民币/百万字符支付当月超出部分字符量费用 (QPS 为 10) 。通用翻译 API-尊享版:需企业认证,计费方式同上。##输入和输出(概览)输出形式:trans_resulttrans_result为一个数组,其中每一个{ }就是一个段落,其构造如下所示:trans_result: [{},{},{}原创 2021-03-01 16:18:32 · 3144 阅读 · 4 评论 -
使用 split()处理字符串出现空字符串?
1. str.split()str.split(sep=None, maxsplit=-1)返回一个由字符串内单词组成的列表,使用 sep 作为分隔字符串。参数 maxsplit:控制拆分次数如果给出了 maxsplit,则最多进行 maxsplit 次拆分(因此,列表最多会有 maxsplit+1 个元素)。 如果 maxsplit 未指定或为 -1,则不限制拆分次数(进行所有可能...原创 2019-12-29 14:10:24 · 5157 阅读 · 0 评论 -
如何去除文本数据里面所有非单词/非字母的字符?以及 list 和 string 之间的转换?
如何去除字符串中所有非字母的字符?s = '@#24A-09=wes()&8973o**_##me' # contains letters 'Awesome' 生成器表达式:joinresult = ''.join(c for c in s if c.isalpha())使用过滤器过滤:result = ''.join(filter(str.isalpha, ...原创 2019-12-29 12:01:46 · 1693 阅读 · 0 评论 -
Python文本处理(3)——文本表示之 one-hot 词向量(2)——再读 one-hot 编码
参考来源:https://www.cnblogs.com/zongfa/p/9305657.html数据预处理:独热编码(One-Hot Encoding)和 LabelEncoder标签编码一、问题由来在很多机器学习任务中,特征并不总是连续值,而有可能是分类值。离散特征的编码分为两种情况:1、离散特征的取值之间没有大小的意义,比如color:[red,blue],那么就使用one-ho...转载 2019-12-28 18:45:24 · 1434 阅读 · 0 评论 -
Python文本处理(1)——文本表示之词袋模型(BOW)(2)
上一篇总结了文本处理最基础的 one-hot 编码,这篇再来整理下基础的词袋模型(bag of word),以供复习(对应1127_文本处理之词袋模型(BOW))text = ['Today is Friday it is Sunny ', 'And yesterday is Thursday it was cloudy']相对于 one-hot 以每一个单词是否出现(分别用 ...原创 2019-12-27 23:17:23 · 1933 阅读 · 0 评论 -
Python文本处理(3)——文本表示之 one-hot 词向量(1)——纯小白都能懂!
python 文本处理小结-供自己复习使用文本表示最基础的怕是最基础的 one-hot 编码,基础的东西有利于我们从源头和本质上进行思考。比如,现在给一堆文本数据给你,你会如何思考将文本信息传递出去并让计算机识别?——单词作为文本的最小单位,我们自然而然的会想到从单词入手。的确,自然语言就是一套用来表达含义的系统,在这套系统中,词,就是表义的基本单元。词向量被用来表示词的向量或表征,也可被...原创 2019-12-27 15:48:07 · 7543 阅读 · 4 评论 -
初识 gensim 之 word2vec
主要参考:https://www.jianshu.com/p/52ee8c5739b6(Gensim Word2vec 使用指南)https://rare-technologies.com/word2vec-tutorial/ (Word2vec Tutorial)作为自己复习使用。GensimGensim是一款开源的第三方Python工具包,用于从原始的非结构化的文本中,无监督地学习到文...原创 2019-12-27 00:19:28 · 461 阅读 · 0 评论 -
关于log loss:log loss 什么范围才合理?log loss 特别大如何解决?为什么使用log loss?
问题:在使用tf-idf特征和logistic regression模型作文本分类(二分类)时,出现了下面的情况:试过相同特征下的其他模型如Naive Bayes,但是效果一样:又分别试了下word count特征,而不使用tf-idf,效果还是不行:所以,log loss 到底什么范围才合理?log loss 特别大的话该如何解决?解决:1.为什么使用 log loss?log lo...原创 2019-12-26 11:18:00 · 7251 阅读 · 1 评论 -
聚类可视化之前使用pca报错:TypeError: PCA does not support sparse input. See TruncatedSVD for a possible alterna
意思是,PCA不接受稀疏矩阵?有办法将稀疏矩阵传入PCA么?——试着转为数组形式(toarray)如不行,那应该如何操作?——使用SVD(scikit-learn中有)原创 2019-12-20 22:25:58 · 3639 阅读 · 2 评论 -
Python文本处理(2)——感悟/小结:数据处理的本质
原创 2019-12-20 13:36:06 · 304 阅读 · 0 评论 -
如何用python去除单词之间多余的空格?
re.sub(" +", " ", s)import re s = " info has been found (+/- 100 pages, and 4.5 mb of .pdf files) now i have to wait untill our team leader has processed it and learns html. "re...原创 2019-12-19 21:36:32 · 2229 阅读 · 0 评论 -
Python文本处理(1)——文本表示之词袋模型(BOW)(1)
极简理论:词袋(Bag-of-words)模型词袋(Bag-of-words)是描述文档中单词出现的文本的一种表示形式。它涉及两件方面:1.已知词汇的词汇表(构建词汇表的)模型及改进方法:1.词袋模型(bag-of-words model)2. n-gram model (n 代表组在一起单词的数量)比如有,2-gram(bigram) model、3-gram (trigram) ...原创 2019-12-19 16:20:57 · 3605 阅读 · 0 评论 -
杂思——关于操作数据的形式
(在看到《利用Python进行数据分析》的10章的最开始有了这样的思考)关于数据处理,之前有写过数据部分,以及整个数据处理的大概流程。现在,更深入地来看一些细节,比如 NumPy(Series) 和 DataFrame 的处理差别。其实对于一维数组的操作我们处理的维度相应也是一维的:比如获取某个值、某个区间的值,但是怎么都不会超过其维度(一维),顶多选择全部的数组;而对于二维数据的操作,我们处...原创 2020-02-16 09:54:52 · 177 阅读 · 0 评论 -
Python文本处理——re.sub 和 str.replace()的区别
1.str.replace()str.replace(old, new[, max])用新字符串 new 替换旧字符串 old,可以设置替换次数 maxold – 将被替换的子字符串。new – 新字符串,用于替换old子字符串。max – 可选字符串, 替换不超过 max 次text1 = ' Info has been found (+/- 100 pages,...原创 2019-12-19 00:14:45 · 1343 阅读 · 0 评论 -
Python文本处理—初识正则表达式模块(re模块)
re(Regular Expression)模块/正则表达式模块正则表达式语法:正则表达式特殊序列:(包含’ \ ’的特殊序列的意义)参考:https://www.ibm.com/developerworks/cn/opensource/os-cn-pythonre/index.html...原创 2019-12-17 23:46:43 · 478 阅读 · 0 评论
分享