
learning
文章平均质量分 67
macb007
这个作者很懒,什么都没留下…
展开
-
[情感分析的新方法]
转载自:http://datartisan.com/article/detail/48.html 情感分析是一种常见的自然语言处理(NLP)方法的应用,特别是在以提取文本的情感内容为目标的分类方法中。通过这种方式,情感分析可以被视为利用一些情感得分指标来量化定性数据的方法。尽管情绪在很大程度上是主观的,但是情感量化分析已经有很多有用的实践,比如企业分析消费者对产品的反馈信息,或者检测转载 2017-07-17 11:37:41 · 716 阅读 · 0 评论 -
neo4j实例教程(python版)
# coding: utf-8 -*-from py2neo import Graph,Node,Relationshipgraph = Graph("http://localhost:7474", username="neo4j", password="neo4j")test_node_1 = Node(label = "Person",name = "test_node_1")test原创 2018-01-12 15:19:40 · 8428 阅读 · 4 评论 -
【tf系列3】tfLearn案例
import numpy as npimport tflearn# Download the Titanic datasetfrom tflearn.datasets import titanicimport numpy as nptitanic.download_dataset('titanic_dataset.csv')# Load CSV file, indicate th原创 2017-12-29 14:28:15 · 636 阅读 · 1 评论 -
【tf系列4】Bi-LSTM中文分词
该项目GitHub:https://github.com/rockyzhengwu/FoolNLTK根据该项目所述,这个中文工具包的特点有如下几点:可能不是最快的开源中文分词,但很可能是最准的开源中文分词基于 BiLSTM 模型训练而成包含分词,词性标注,实体识别, 都有比较高的准确率用户自定义词典如该项目转载 2017-12-29 21:32:20 · 2303 阅读 · 1 评论 -
GBDT 分类与回归
print("====================================================")print("===============Demo1===GBDT 分类=====================")print("====================================================")from sklearn.en原创 2018-01-31 12:22:51 · 1408 阅读 · 0 评论 -
百度NLP词 语相似度接口Demo
def similirity(word1,word2): token_url = "https://openapi.baidu.com/oauth/2.0/token?grant_type=client_credentials&client_id=%s&client_secret=%s" # 1.获取token api_key='hGs3TEt3sN3XcI3VyIAyuT原创 2018-01-10 12:47:48 · 3653 阅读 · 1 评论 -
闲聊机器人API实现
基于图灵机器人实现API实现def tulingChat(self,question): KEY = '8afba6fdc75544f0bebc465615da1e0b' # change to your API KEY url = 'http://www.tuling123.com/openapi/api' req_info = question.encode(原创 2018-01-10 13:33:59 · 4698 阅读 · 0 评论 -
自编码网络实现Mnist
#!/usr/bin/python3# -*-coding:utf-8 -*-# @Time :2018/3/16 # @Author :machuanbinimport tensorflow as tffrom tensorflow.examples.tutorials.mnist import input_dataimport numpy as npimport mat...原创 2018-03-16 14:25:07 · 937 阅读 · 0 评论 -
tf实现word2Vec(skip-Gram)
#!/usr/bin/python3# -*-coding:utf-8 -*-# @Time :2018/3/16# @Author :machuanbinimport collectionsimport mathimport osimport randomimport zipfileimport numpy as npimport urllibimport tenso...原创 2018-03-20 14:47:36 · 429 阅读 · 0 评论 -
BiLSTM+CRF
import numpy as npimport os, time, sysimport tensorflow as tffrom tensorflow.contrib.rnn import LSTMCellfrom tensorflow.contrib.crf import crf_log_likelihoodfrom tensorflow.contrib.crf import vit...原创 2018-03-26 16:01:48 · 858 阅读 · 0 评论 -
关于欠拟合和过拟合问题
在我们机器学习或者训练深度神经网络的时候经常会出现欠拟合和过拟合这两个问题,但是,一开始我们的模型往往是欠拟合的,也正是因为如此才有了优化的空间,我们需要不断的调整算法来使得模型的表达能拿更强。但是优化到了一定程度就需要解决过拟合的问题了,这个问题也在学术界讨论的比较多。 首先就是我们在进行模型训练的时候会出现模型不能够很好地拟合数据的情况,这个时候就需要我们来判断究竟现...转载 2018-03-27 10:01:14 · 1653 阅读 · 0 评论 -
英文单词词干抽取算法
import sysclass PorterStemmer: def __init__(self): """The main part of the stemming algorithm starts here. b is a buffer holding a word to be stemmed. The letters are in b[k0],...转载 2018-05-26 14:58:19 · 675 阅读 · 0 评论 -
基于互信息+信息熵的新词发现
from nltk.probability import FreqDistf = open(r"C:\Users\machuanbin\Desktop\santi.txt",encoding='utf-8')text = f.read()stop_word = ['【', '】', ')', '(', '、', ',', '“', '”', '。', '\n', '《', '》', ' ...转载 2018-06-01 15:47:52 · 3014 阅读 · 0 评论 -
基于编辑距离的单词纠错算法
class Candidate(object): # WORDS_dict={word:freq} def __init__(self,WORDS_dict): self.WORDS=WORDS_dict def P(self,word): "Probability of `word`." # print(word,WORD...原创 2018-06-01 15:51:24 · 1712 阅读 · 0 评论 -
【百度语音rest API】文本转换成语音,以及语音转化成文本
通过rest API,调用百度语音接口,将其接入智能客服。百度语音:http://ai.baidu.com/docs/#/ASR-API/top#!/usr/bin/python3import urllib.requestimport urllibimport jsonimport base64class BaiduRest: def __init__(self原创 2017-12-08 08:48:37 · 5099 阅读 · 0 评论 -
【学习路线图】涵盖主要算法
原创 2017-12-07 13:11:50 · 444 阅读 · 0 评论 -
中文分词
[本文核心源于:http://www.cnblogs.com/eastmount/p/5055906.html]比较常用的中文分词工具有中科院的分词工具ICTCLAS;jiaba是Python编程重用的分词包,主要包括分词、词性标注、关键词抽取等。jiaba教程:1.安装及入门介绍 参考地址:http://www.oschina.net/p/jieba转载 2017-07-17 14:39:07 · 452 阅读 · 0 评论 -
基于VSM计算相似度(含Python代码)
【本文核心来源于:http://www.cnblogs.com/eastmount/p/5055913.html】计算相似度的基本思想:1、分别统计两个文档的关键词;2、两篇文章的关键词合并成一个集合,相同的合并,不同的添加3、计算每篇文章对这个集合的词的词频,TF-IDF计算其权重4、生成两篇文章各自的词频向量5、计算两个向量的余弦相似度,值越小越相似详细代码见上述链转载 2017-07-17 15:15:38 · 2085 阅读 · 0 评论 -
【神经网络概述】
分享链接斯坦福大学公开课:http://open.163.com/special/opencourse/machinelearning.html深度学习教程:http://deeplearning.net/tutorial/知乎专栏:无痛的机器学习====================================================================转载 2017-07-18 14:45:20 · 475 阅读 · 0 评论 -
机器学习常用的Python库
基于 Python 和 Scikit-Learn 的机器学习介绍:http://python.jobbole.com/81721/图解机器学习:神经网络和 TensorFlow 的文本分类:http://python.jobbole.com/88041/Python常用库1) numpy 2)scipy 3)matplot原创 2017-07-19 16:03:01 · 862 阅读 · 0 评论 -
【word2vec实例1】
# coding = utf8import wordcutimport create_dictimport vectorizeimport classifyimport pickleimport psutilimport parametersimport osfrom collections import dequeimport gensimimport numpy as原创 2017-09-15 09:56:16 · 772 阅读 · 0 评论 -
【word2vec实例2】加载模型
current_dir = os.path.abspath('.')w2v_file = os.path.join(current_dir, 'w2v_file_sg')self.dic = gensim.models.Word2Vec.load(w2v_file)for word in word_list: if word not in self.dic.wv.vocab原创 2017-09-15 09:57:34 · 1636 阅读 · 0 评论 -
【tf系列1】常用函数说明
发现有个写的比较好的博客,方便以后可以查阅,也没必要重新粘一次了,留个链接作为入口。初识tf:http://blog.youkuaiyun.com/u014595019/article/details/52677412tensorFlow常用函数,参考笔记:http://blog.youkuaiyun.com/u014595019/article/details/52805444;原创 2017-12-10 18:48:29 · 299 阅读 · 0 评论 -
【gensim--dictionary】使用方法
import jieba, os import codecs from gensim import corpora, models, similarities from pprint import pprint from collections import defaultdict import sys import pickle reload(sys)转载 2017-11-22 17:05:33 · 3837 阅读 · 0 评论 -
基于TextRank API写的测试
import picklefrom textrank4zh import TextRank4Keyword, TextRank4Sentenceimport osfrom snownlp import SnowNLPimport jiebaimport jieba.analysefrom bosonnlp import BosonNLP#http://www.cnblo原创 2017-12-20 10:57:44 · 322 阅读 · 0 评论 -
【keras总结】
Keras是由纯python编写的基于theano/tensorflow的深度学习框架。 Keras是一个高层神经网络API,支持快速实验,能够把你的idea迅速转换为结果,如果有如下需求,可以优先选择Keras: a)简易和快速的原型设计(keras具有高度模块化,极简,和可扩充特性) b)支持CNN和RNN,或二者的结翻译 2017-12-04 13:16:44 · 338 阅读 · 0 评论 -
【tf系列2】参数说明
参考文章:http://blog.youkuaiyun.com/u014595019/article/details/52759104init_scale =0.1# 相关参数的初始值为随机均匀分布,范围是[-init_scale,+init_scale]learning_rate =1.0# 学习速率,在文本循环次数超过max_epoch以后会逐渐降低max_grad_n转载 2017-12-21 16:09:33 · 851 阅读 · 0 评论 -
浅谈 Dropout防止过拟合
发生过拟合的主要原因可以有以下三点:(1)数据有噪声(2)训练数据不足,有限的训练数据(3)训练模型过度导致模型非常复杂Dropout是通过修改神经网络本身来实现的,它是在训练网络时用的一种技巧(trike)。它的流程如下:假设我们要训练上图这个网络,在训练开始时,我们随机地“删除”一半的隐层单元,视它们为不存在,得到如下的网络:原创 2017-11-28 08:43:17 · 1662 阅读 · 0 评论 -
智能纠错【优化版】
import jiebafrom pypinyin import pinyin, lazy_pinyinfrom common.basicInfo import BasicInfo"""纠错模块"""class ErrorRecovery(object): def __init__(self, dataSever): self.dataServer = d原创 2017-11-28 08:45:25 · 785 阅读 · 3 评论 -
SVM:如何判断线性可分
支持向量机(SVM),介绍都说了假设数据要是线性可分。如果数据不是线性可分的,我们就必须要采用一些特殊的方法,比如SVM的核技巧把数据转换到更高的维度上,在那个高维空间数据更可能是线性可分的(Cover定理)。现在的问题是,如何判断数据是线性可分的?最简单的情况是数据向量是一维二维或者三维的,我们可以把图像画出来,直观上就能看出来。比如Håvard转载 2017-12-24 20:58:52 · 4492 阅读 · 1 评论 -
【机器学习】常用算法PK
KNN算法一、KNN算法的优点 1、KNN是一种在线技术,新数据可以直接加入数据集而不必进行重新训练2、KNN理论简单,容易实现二、KNN算法的缺点1、对于样本容量大的数据集计算量比较大。2、样本不平衡时,预测偏差比较大。如:某一类的样本比较少,而其它类样本比较多。3、KNN每一次分类都会重新进行一次全局运算。4、k值大小的选转载 2017-12-07 11:08:15 · 532 阅读 · 0 评论 -
LDA
#-*- coding:utf8 -*-from nltk.tokenize import RegexpTokenizerfrom stop_words import get_stop_wordsfrom nltk.stem.porter import PorterStemmerfrom gensim.models.ldamodel import LdaModelfrom gensim ...原创 2018-07-06 10:05:32 · 1189 阅读 · 0 评论