
python
文章平均质量分 70
bensonrachel
这个作者很懒,什么都没留下…
展开
-
MMLSpark+Spark:pyspark+lightGBM应用实践
MMLSpark,即Microsoft Machine Learning for Apache Spark ,是微软开源的一个针对 Apache Spark 的深度学习和数据可视化的库。作为专门为大规模数据处理而设计的快速通用计算引擎,Apache Spark 为用户提供了创建可扩展 ML 的有力平台。新发布的 MMLSpark 能够将诸如深度学习等前沿机器学习技术应用于更大的数据集,并为用户提供能够应对诸如文本、分类数据等多种类型数据的 API , 大大提高数据分析师使用 Apache Spark 的..原创 2021-07-13 20:41:49 · 2664 阅读 · 2 评论 -
Kaggle首战-入门Titanic挑战的记录和相关学习(决策树、随机森林、线性回归、逻辑回归)记录
作为一名研究大数据领域的学生,最近因为有点空,想起Kaggle这个网站在收藏夹里呆了可能有3、4年,吃了这么久的尘,才注册一个账号真正去尝试一下。remember “Make your hands dirty”。看了一些对于这个kaggle的入门和操作,便开始对最基本的一个挑战下手学习。温馨提示:注册过程和上传结果(CLI方式不用,网页方式需要)的过程都是需要科学上网的。这里可以看到这是两次提交的结果。鉴于有些使用方法和介绍其他博主已经说的很详细,这里mark过来记录一下。经典博客之作、使.原创 2021-03-10 19:43:31 · 440 阅读 · 1 评论 -
python3.6-制作一个含有NLP基本功能系统(Windows exe)自然语言处理系统
系统功能:分词、词性标注、关键词提取、文本分类;系统实现:分词:使用jieba中文分词(去停用词,精确模式);词性标注:使用jieba库里的posseg包进行词性标注;关键词提取:使用tfidf的最合适前六个词;文本分类:给复旦预料数据进行分词,生成词向量,装袋(词袋模型),接着训练集训练,多次调参,具体参数注释和代码中有,然后再选择相应测试预料进行测试,用的是skleran库的多项式朴素贝叶斯算法。(有参考其他博客)图形界面:...原创 2020-08-18 21:33:16 · 811 阅读 · 0 评论 -
Python3.6-Flask:制作一个语音对话问答机器人系统(网页版)
首先,本项目分为制作语音机器人后台部分和利用flask搭建网页部分。制作语音机器人:本系统的功能有:与图灵机器人进行对话;设置闹钟(计时器);播放本地音乐:机器写古诗;(1)与图灵机器人对话的部分,参考了这篇博客,博主写得非常用心详细。需要下载安装的包有:cmd:pip install xxxx即可;(2)闹钟功能,这里使用了多线程的技术,把用户语音设定的时间转为文字且交给另一个线程去执行时间流逝,到点即响应报时。多线程的使用如上。(3)播放音乐,需要使用的包原创 2020-08-04 20:18:12 · 2506 阅读 · 1 评论 -
研读论文报告-《Word Embedding andWordNet Based Metaphor Identification and Interpretation》(2018ACL)
“论文主要研究的问题是识别并解释输入句子中的隐喻词,作者首次提出了一个支持机器翻译的无监督隐喻识别模型,无需任何预处理和标注数据即可进行训练。”本次主要根据论文实现的论文的第四部分的如下图:具体:程序步骤是给出一个英文句子,指定需要判断的目标单词,应用维基数据集训练词向量,得到所有英语单词的词向量(我写的程序可追加训练),给出一个英文句子,指定需要判断的目标单词,将句子中的单词分为上下文单词和目标单词。根据WordNet,查找目标单词的同义词和直接上位词,将这些单词以及他们的变形作...原创 2020-07-17 22:20:58 · 525 阅读 · 0 评论 -
自然语言处理(NLP)——使用NLTK包验证齐夫定律及使用wordnet
第一题,利用大文本验证“齐夫定律”的正确性,首先我们使用pycharm作为集成开发环境,python3.5+nltk来做实验。齐夫定律:齐夫定律(英语:Zipf's law)是由哈佛大学的语言学家乔治·金斯利·齐夫(George Kingsley Zipf)于1...原创 2019-05-17 23:12:44 · 2076 阅读 · 1 评论 -
语料库技术与应用—基于维基百科构建日语平行语料并爬取谷歌翻译语音(mp3)
准备:wikipedia-parallel-titles项目(老师给的) This document describes how to use these tools to build a parallel corpus (for a specific language pair) based on article titles across languages in Wik...原创 2019-03-22 21:33:46 · 2016 阅读 · 2 评论 -
python实现——Jaccard相似度(jaccard_coefficient)
Jaccard相似度的python实现;#import numpy as np#from scipy.spatial.distance import pdist#直接调包可以计算JC值 :需要两个句子长度一样;所以暂时不用import jiebadef Jaccrad(model, reference):#terms_reference为源句子,terms_model为候选句子...原创 2019-01-13 20:08:53 · 31991 阅读 · 7 评论 -
自然语言处理(NLP)- 一个英文拼写纠错系统
功能:给出拼写错误的单词,返回一个正确的单词,或者返回一个与输入单词最接近的单词;IDE:pycharm;python3.5;PYQT做界面;数据:使用big.txt作为语料库。主要算法原理: 编辑距离(这里使用的是替换操作算一次开销的版本,跟插入和删除等价):这里的东西请看我的博客算法里的编辑距离问题,这里不在详细说明。编辑距离具体处理方法:把b...原创 2018-12-20 17:42:14 · 7310 阅读 · 3 评论 -
自然语言处理(NLP)-统计句法分析(CKY算法用于PCFG下的句法分析)
1.先解释何为CFG及PCFG:一个栗子:2.CKY算法(或称CYK算法)“在计算机科学领域,CYK算法(也称为Cocke–Younger–Kasami算法)是一种用来对 上下文无关文法(CFG,Context Free Grammar)进行语法分析(parsing)的算法。该算法最早由John Cocke, Daniel Younger and Tadao Kasam...原创 2018-12-02 19:59:13 · 12317 阅读 · 0 评论 -
自然语言处理(NLP)- HMM+VITERBI算法实现词性标注(解码问题)(动态规划)(Python实现)
NLP- HMM+维特比算法进行词性标注(Python实现) 维特比算法针对HMM解码问题,即解码或者预测问题(下面的第二个问题),寻找最可能的隐藏状态序列:对于一个特殊的隐马尔可夫模型(HMM)及一个相应的观察序列,找到生成此序列最可能的隐藏状态序列。也就是说给定了HMM的模型参数和一个观测序列,计算一系列的隐状态。给定观测序列,求最可能的对应的隐状态序列。Viterbi:...原创 2018-11-18 20:42:54 · 5456 阅读 · 3 评论 -
python-Rouge_N-评估模型的实现
引用:Rouge(Recall-Oriented Understudy for Gisting Evaluation),是评估自动文摘以及机器翻译的一组指标。它通过将自动生成的摘要或翻译与一组参考摘要(通常是人工生成的)进行比较计算,得出相应的分值,以衡量自动生成的摘要或翻译与参考摘要之间的“相似度”。ROUGE准则由一系列的评价方法组成,包括ROUGE-N(N=1、2、3、4,分别代表基于1...原创 2018-11-07 21:31:32 · 5168 阅读 · 1 评论 -
python—Rouge(Recall-Oriented Understudy for Gisting Evaluation)
匹配文本评估方法。python实现准确率,召回率X表示模型生成的结果,Y表示运营编辑的结果即reference。多reference的情况,取对应每个reference中最大的rouge-l值作为单个测试数据的结果。LCS 表示最长公共子串。# coding:utf-8''''''import math#输入的两个字符串长度不应为0;def Recall_lcs_G...原创 2018-11-02 21:20:54 · 1391 阅读 · 0 评论 -
Numpy——快速入门
今天简单举例记录说一下numpy1.Numpy是python的一个矩阵类型,提供了大量矩阵处理的函数。(内部运算是由C语言实现的)2.Numpy包含两种基本的数据类型:数组和矩阵。(处理上稍有不同)3.使用python时会需要循环语句才能实现矩阵处理。而在使用Numpy时可以省去这些语句。λ pythonPython 3.5.4 (v3.5.4:3f56838, Aug ...原创 2018-09-11 23:50:27 · 308 阅读 · 3 评论 -
python—获取字符串格式的序列的中文字符,判别和提取中文字符的方法
第一步,先把字符串转为Unicode编码:file=str.decode('utf-8')#把utf-8的编码变成Unicode第二步,利用正则表达式作为匹配匹配出中文(可以用来在中文文章中去除所有标点)pattern = re.compile(u'[\u4e00-\u9fa5]+')这句最重要,注意细节。filterdata = re.findall(pattern, file)这样filte...原创 2018-05-27 17:26:04 · 2100 阅读 · 0 评论 -
python-简单爬虫及相关数据处理(统计出文章出现次数最多的50个词)
这次爬取了笑傲江湖这本小说;网站是:'http://www.jinyongwang.com/xiao/'+str(696+i)+'.html'考虑到每一章的网址如上递增,所以使用一个循环来遍历网址进行爬取。然后找出文章的标签:如图:是<p>,</p>所以:代码如下:然后爬取之后,存在文档里,进行处理。我用的是nlpir的分词系统:作了处理之后,把所有词存进一list里面。之...原创 2018-05-18 23:34:38 · 4685 阅读 · 0 评论 -
python 3.5:爬虫--爬取人民日报1946-2003年所有新闻
爬取资料库网站上的人民日报新闻(1946-2003)总网址如下:http://www.ziliaoku.org/rmrb?from=groupmessage&isappinstalled=0从此网页开始爬取,进下一层,再进入下一层,再进行爬取。由于本人还在学习过程中,有些很多其他更方便快捷的方法,以及一些爬虫功能还未用到,所以结果还是有两处需改进的地方,下面会上代码,欢迎一起讨原创 2017-10-17 22:13:30 · 13435 阅读 · 11 评论