
NLP
一个人的场域
目前主要做NLP、推荐算法相关工作
展开
-
gensim 中文语料训练 word2vec
gensim 的word2vec api参见: https://radimrehurek.com/gensim/models/word2vec.html 本文说一下中文语料的使用,很简单。1 word2vec api看下api: gensim.models.word2vec.Word2Vec(sentences=None, size=100, alpha=0.025, window=5, min原创 2017-05-23 14:54:38 · 11002 阅读 · 0 评论 -
word2vec 源码分析word2vec.c
word2vec源码断断续续看了好几遍了,基本理清了流程和一些trick,添加了注释。 具体很多细节可以参考文末的参考链接,很详细。#include <iostream>#include <stdio.h>#include <stdlib.h>#include <math.h>#include <pthread.h>#define MAX_STRING 100 //词最大长度#defin原创 2017-05-16 16:19:42 · 1710 阅读 · 0 评论 -
理顺主题模型LDA及在推荐系统中的应用
1 关于主题模型使用LDA做推荐已经有一段时间了,LDA的推导过程反复看过很多遍,今天有点理顺的感觉,就先写一版。隐含狄利克雷分布简称LDA(latent dirichlet allocation),是主题模型(topic model)的一种,由Blei, David M.、Ng, Andrew Y.、Jordan于2003年提出。 主题模型属于聚类方法,是一种无监督的学习方法。与通常的tf-原创 2017-04-03 16:09:51 · 11508 阅读 · 1 评论 -
jieba提取关键词时筛选词性时单词性选择的一点注意事项
最近又在迭代特征工程,发现jieba提取特征词有个需要注意的地方,直接看例子例子1>>> import jieba>>> import jieba.posseg as pseg>>> s = '我们喜欢支付宝, 苹果'>>> ws = pseg.cut(s)>>> for i in ws:... print i...我们/r喜欢/v支付宝/nr,/x /x苹果/n>原创 2017-03-31 17:46:23 · 10457 阅读 · 0 评论 -
哈工大ltp词性标注列表和ICTCLAS词性列表
哈工大ltp词性列表Tag Description Examplea adjective 美丽 b other noun-modifier 大型, 西式 c conjunction 和, 虽然 d adverb 很 e exclamation 哎 g morpheme 茨, 甥 h prefix 阿, 伪 i原创 2017-03-30 11:50:35 · 10577 阅读 · 0 评论 -
语素、词性列表及jieba与哈工大pyltp一个例子对比
1 关于语素百度百科的解释: 语法单位有大有小,最大的语法单位是句子,比句子小的语法单位,依次是短语、词、语素。人类的语言是有声音、有意义的,是语音和语义的结合体,这便是语法单位基本的特点。语素是最小的语法单位,也就是最小的语音、语义结合体。 所有我的理解是,分词后的各个词都是语素。语素有名词性语素、动词性语素等类别。2 ICTCLAS 词性列表注: ICTCLAS——中国科学原创 2017-03-30 11:19:30 · 4570 阅读 · 0 评论 -
tensorflow 实践(一)使用神经网络做中文情感分析
本文使用哈工大做文本预处理; 两层隐层神经网络;# -*- coding: utf-8 -*-# @bref :使用tensorflow做中文情感分析import numpy as npimport tensorflow as tfimport randomfrom sklearn.feature_extraction.text import CountVectorizerimport原创 2017-05-05 22:57:01 · 11675 阅读 · 12 评论