- 博客(45)
- 收藏
- 关注
原创 推荐系统(业务侧)小结
本文分别从一个业务人员、一个技术人员、一个普通用户的角度来聊聊推荐系统/场景,本文分为三部分来阐述一、业务人员如果看待推荐场景?如果更好地使用推荐来反哺业务?二、推荐系统的基本框架是什么?技术人员在构建推荐系统的过程中,常用的推荐算法有哪些?...
2022-07-29 10:30:25
492
原创 策略产品函数方法论——评估
在机器学习常用性能指标及sklearn中的模型评估一文中已对相对宏观的模型评价指标进行了描述,并给出了在sklearn中具体的实现方法,主要包括准确率、精确率、召回率,ROC曲线,那在策略产品工作中,如何进行业务函数的评估?1. 评估前的样本切分...
2021-03-22 21:46:05
380
原创 策略产品函数方法论——特征
题记:本文是结合个人学习工作经历对《策略产品经理——模型与方法论》一书的消化笔记,仅做记录,无其他用途,侵删。在应用机器学习算法模型解决业务问题的场景下,相较于算法工程师关注的特征处理及特征工程,策略产品工作更侧重于对有效特征的选择,以下正文内容分为两个主要部分:一是特征选择的原则,二是特征选择的方法。1. 特征选择的原则1.1 注意特征的时效性,不使用未来信息作为模型预测的特征举个栗子,对于内容风控问题,用户对于内容的投诉动作能否作为输入特征?当然不能,原因有二:一,这类特征是在业务当前场
2021-03-14 19:53:13
415
原创 人物关系抽取——基于特征工程
本文代码,不得转载。# -*- coding: utf-8 -*-# Author: lx# extract features from the textimport pandas as pdimport numpy as npfrom text1 import CountVectorizerfrom sklearn.feature_extraction.text import...
2019-07-15 10:41:36
817
原创 使用NLTK+StanfordNLP进行文本特征提取
文章为自己的实践记录及总结,多有疏忽,恐有错误......文本特征提取是基于特征向量的自然语言处理方法的基本技术,常用的提取自文本的特征主要包括词汇特征、位置特征、句法特征、语义特征。其中,词汇特征包括词性、上下文词汇、命名实体等;位置特征如命名实体之间的间隔距离;句法特征提取主要包括句法分析及依存句法分析。常用的特征获取工具有StanfordNLP和LTP(哈工大社会计算与信息检索研究中心研...
2019-01-10 22:42:52
2671
原创 用sklearn进行特征提取及数值转换
对自己目前常用的几种特征提取方法做个简要总结。1,将文本数据转化为特征向量(其中CountVectorizer只考虑词汇在文本中出现的频率)from sklearn.feature_extraction.text import CountVectorizerfrom sklearn.feature_extraction.text import TfidfTransformerwor...
2019-01-10 22:40:27
2527
原创 Neo4j(二):节点和关系文件导入
首先,在Neo4j中打开Database所在的目录文件夹,在目录下的import文件夹下存放需要载入的csv文件(因为Neo4j默认是从打开地址目录下的import中读出,所以需要在此目录下创建csv文件,否则在Neo4j中执行载入命令会出现找不到文件的情况。)csv节点文件的载入下面是结点文件中的内容,主要字段包括id,name,position在Neo4j的命令行输入并执行以下...
2018-11-26 19:47:03
9581
3
原创 TensorFlow学习(三):CNN-Relation-Extraction
cnn_relation_extraction部分记录import tensorflow as tfimport numpy as npimport osimport datetimeimport timefrom cnn_relation_extraction_master.text_cnn import TextCNNfrom cnn_relation_extraction_...
2018-11-18 18:07:59
905
原创 sklearn: OneVsRestClassifier实现多分类 + Grid_Search获取模型的最佳参数
一,sklearn分类器单一分类器 & 集成分类器 https://www.cnblogs.com/hhh5460/p/5132203.html使用sklearn https://www.jianshu.com/p/516f009c0875sklearn通过OneVsRestClassifier实现svm.SVC的多分类 https://blog.youkuaiyun.com/xiaodo...
2018-09-26 11:27:18
13032
转载 损失函数 loss function 总结(转)
目标函数,或称损失函数,是网络中的性能函数,也是编译一个模型必须的两个参数之一。由于损失函数种类众多,下面以keras官网手册的为例。在官方keras.io里面,有如下资料: mean_squared_error或mse mean_absolute_error或mae mean_absolute_percentage_error或mape mean_squa...
2018-09-26 11:06:14
4288
1
转载 机器学习常用性能指标及sklearn中的模型评估
一,机器学习常用性能指标总结(转载并稍作修改和补充)在机器学习中,性能指标(Metrics)是衡量一个模型好坏的关键,通过衡量模型输出y_predict 和 y_true之间的某种"距离"得出的。性能指标往往是我们做模型时的最终目标,如准确率,召回率,敏感度等等,但是性能指标常常因为不可微分,无法作为优化的loss函数,因此采用如cross-entropy, rmse等“距离”可微函数...
2018-09-17 12:08:00
18250
3
转载 【转载】RSS原理、创建及使用
最近需要接触RSS Feed,知其然还要知其所以然。https://www.xul.fr/en-xml-rss.html#spec本文转自RSS原理、创建及使用——Denis Sureau很郁闷的是Google Reader倒了才开始使用RSS阅读,InoReader是一个不错的替代。对于RSS的原理想要有个了解,但是网上的资料说得不是很清晰。有一篇优快云的RSS原理和实现博文也不错...
2018-08-06 17:20:52
2641
原创 分类前之数据预处理
之前在情感分析方法之nltk情感分析器和SVM分类器(二)一文中的第二部分,仅仅记录了最后一步分类器的处理,现在想要把前四步也记录下来。1. 原始语料的规整# -*- coding: utf-8 -*-# 获取正负向语料库与停用词词典# 将原始数据规整到一个txt文件中import os# 文件夹及结果文件的存储路径path = r"D:/file_download/Bai...
2018-08-05 20:13:09
2277
1
原创 知识图谱之知识表示
先上两个狠全面的综述或者叫总结:《知识表示学习研究进展》 基于翻译模型(Trans系列)的知识表示学习然后是清华大学开源OpenKE:知识表示学习平台“表示学习旨在将研究对象的语义信息表示为稠密低维实值向量,知识表示学习主要是面向知识图谱中的实体和关系进行表示学习。使用建模方法将实体和向量表示在低维稠密向量空间中,然后进行计算和推理。”知识表示的几个代表模型:距离模型、单层神经网络...
2018-08-05 19:54:14
12332
原创 知识图谱入门2
对知识图谱的知识体系做一下简单的概括,很粗略,就当大纲用好了。补充知识图谱的概述性文章:知识图谱研究进展 知识图谱中的关系推理 其他博客 语义网络,语义网,链接数据和知识图谱...
2018-08-03 20:37:07
729
转载 知识图谱入门
本文转自刘知远新浪博客2.1 什么是知识图谱在互联网时代,搜索引擎是人们在线获取信息和知识的重要工具。当用户输入一个查询词,搜索引擎会返回它认为与这个关键词最相关的网页。从诞生之日起,搜索引擎就是这样的模式。直到2012年5月,搜索引擎巨头谷歌在它的搜索页面中首次引入“知识图谱”:用户除了得到搜索网页链接外,还将看到与查询词有关的更加智能化的答案。如图2.1所示,当用户输入“Marie Curi...
2018-06-27 17:34:50
3752
1
原创 Tensorflow学习(二):文本分类
点击打开链接一点击打开链接二TensorFlow如何工作?什么是机器学习模型,什么是神经网络?,神经网络如何学习,如何处理数据并将其传递给神经网络输入,如何运行模型并获得预测结果?用神经网络和TensorFlow进行文本分类# -*- coding:utf-8 -*-# 用神经网络和TensorFlow分类文本import numpy as npimport tensorflow as t...
2018-05-10 16:44:08
689
原创 Tensorflow学习(一)
一,了解Tensorflow安装:支持python2和3,直接pip install tensorflow即可(win10)http://wiki.jikexueyuan.com/project/tensorflow-zh/tutorials/word2vec.html中文文档:http://cwiki.apachecn.org/pages/viewpage.action?pageId=10030...
2018-05-10 16:26:13
292
转载 关系抽取(分类)总结【转载】
366 次阅读关系抽取(分类)总结文章目录基本介绍Fully Supervised Learning相关文献总结1Distant Supervised Learning相关文献总结2附2018.04.04更新:z增加对NYT+Freebase数据集的两个版本的说明对近几年(到2017)一些关系抽取/分类(Relation Extraction)的部分文献的一个简单总结。基本介绍基本定义关系抽取: ...
2018-05-10 14:00:38
35042
6
原创 配色+图片+设计网址收藏
在这里记录常用设计相关网址:图标下载,ICON(PNG/ICO/ICNS)图标搜索下载 | EASYICON.NET Lato Font Free by tyPoland Lukasz Dziedzic | Font Squirrel PowerPoint | Download Categories | PPTMind 全景网_中国最大的图片库和图片素材网站 Free Stock Photos, ...
2018-05-04 15:12:23
331
原创 Neo4j(一)
Neo4j是世界排名第一的图数据库,在社交、零售、金融、征信、IT管理等各个领域有着广泛的应用前景。领英用Neo4j实现了社交关系管理及朋友推荐,沃尔玛用Neo4j实现了零售商品实施推荐。介绍来自这里,对其中内容稍作修改和补充:Neo4j安装官网可直接下载https://neo4j.com/download/安装结束后先登录,创建Database,然后在浏览器中访问http://localhost...
2018-04-25 18:28:03
617
原创 情感分析方法之基于深度学习(四)
人间四月芳菲尽,方飞尽@_@为了更完整地认识情感分析方法,接上篇“情感分析系列”,本篇主要分两个部分:一、斯坦福大学自然语言处理第七课“情感分析”点击打开链接二、最新情感分析相关论文:深度上下文、支持向量机、两级LSTM、多模态情感分析、软件工程、代码混合点击打开链接------------------------------------------------------------------...
2018-04-25 13:10:38
9983
原创 页面记录
自己手写的界面和利用框架的界面比较:框架高效,风格统一,样式单一手写费时但灵活所以说前端最大的工程不在于此,附点击打开链接另,Echarts最近更的3D图值得一试~...
2018-04-24 15:36:54
209
原创 常用文本相似度计算方法
在此记录两种常见的文本相似度计算方式:基于VSM论文和基于LDA论文;这两种方式的不同在于文本表示的不同,LDA与VSM相比,增加了概率的信息,更侧重对语义的挖掘。在进行文本建模之后,计算相似度的常用距离有:余弦距离,欧式距离,曼哈顿距离,切比雪夫距离,simhash+汉明距离...详见...
2018-04-08 22:01:38
2746
原创 关系抽取小论文小结
传统的关系抽取主要为pipeline model.深度学习方法在pipeline model 基础上,joint models 成为可能。
2018-04-02 15:42:21
1589
原创 补充关键词抽取:RAKE,LDA等
之前的《关键词抽取——结巴分词》一文仅仅利用了jiaba中的tfidf 与 textrank 进行关键词抽取,最近对以英文为主的新闻评论进行关键词提取时,这两种方法各有各的差:tfidf因为算法的限制,提取到的关键词不是很让人满意;jieba里面的textrank输出的是只针对中文语料的结果,对纯英文输入返回空值,根据源码猜测原因,可能是在处理时加入分词,将英文过滤掉了?(有待考究)。因此重新对“...
2018-03-29 23:16:24
3680
1
原创 利用Python将文本中的中英文分离
在进行文本分析、提取关键词时,新闻评论等文本通常是中英文及其他语言的混杂,若不加处理直接分析,结果往往差强人意。下面对中英文文本进行分离做一下总结:1、超短文本,ASCII识别。s = "China's Legend Holdings will split its several business arms to go public on stock markets, the group's pr...
2018-03-29 18:31:28
14362
转载 Python常见字符编码及其之间的转换
参考:Python常见字符编码 + Python常见字符编码间的转换一、Python常见字符编码字符编码的常用种类介绍第一种:ASCII码ASCII(American Standard Code for Information Interchange,美国信息交换标准代码)是基于拉丁字母的一套电脑编码系统,主要用于显示现代英语和其他西欧语言。它是现今最通用的单字节编码系统,并等同于国际标准ISO/...
2018-03-29 17:28:36
19080
1
原创 数据新闻进度安排
“仰之弥高,钻之弥坚”。第一周:写一段新闻故事的大意,简明扼要,不超过150字。解释为什么这个故事有新闻价值。(问自己以下问题:现在是否有什么正在发生的事件可以让报道有新闻由头?它是否揭示了人们不知道的东西?有没有一个议题的新角度还没被写过?读者为什么要关心这个故事?)做一下新闻检索,列出围绕该议题已经被写过的点,以及你将如何推进故事。收集资料,了解你需要什么数据,可能会在什么地方获得这些数据,以...
2018-03-23 22:05:18
266
原创 情感分析方法之snownlp和贝叶斯分类器(三)
《情感分析方法之nltk情感分析器和SVM分类器(二)》主要使用nltk处理英文语料,使用SVM分类器处理中文语料。实际的新闻评论中既包含英文,又包含中文和阿拉伯文。本次主要使用snownlp处理中文语料。一、snownlp使用from snownlp import SnowNLPview = ["谁把战争带给你们,你们就要把战争带到他们家", "这么牛叉?强", ...
2018-03-23 16:58:28
3258
1
原创 Python3操作数据库
参考:https://www.cnblogs.com/woider/p/5926744.htmlhttps://www.cnblogs.com/mooba/p/6484357.htmlhttp://www.runoob.com/python3/python3-mysql.htmlPyMySQL 是在 Python3.x 版本中用于连接 MySQL 服务器的一个库,Python2中则使用mysqld...
2018-03-22 18:22:41
1578
1
转载 情感分析语料
因为项目要求,主要先收集英文的语料库来进行模型的训练。一、英文1.(可下载) 康奈尔大学(Cornell)提供的影评数据集 - http://www.cs.cornell.edu/people/pabo/movie-review-data/由电影评论组成,其中持肯定和否定态度的各1,000 篇;另外还有标注了褒贬极性的句子各5,331 句,标注了主客观标签的句子各5,000 句.目前影评库被广泛应...
2018-03-22 17:36:27
3566
1
原创 中英文维基百科语料上的Word2Vec实验
这篇作为完整的词向量模型训练过程记录~~~一、数据获取wiki中文:wiki中文wiki英文:wiki英文中文文件大小约1.3G,英文文件大小约13.8G。二、将xml文件转换为text格式,使用gensim.corpora中的WikiCorpus函数来处理维基百科的数据,具体方法是get_texts().#!/usr/bin/env python# -*- coding: utf-8 -*-...
2018-03-21 17:50:46
4021
4
原创 情感分析方法之nltk情感分析器和SVM分类器(二)
一、使用NLTK Vader SentimentAnalyser分析NLTK附带了一个内置的情感分析器模块——nltk.sentiment.vader,参考1,参考2。它可以分析一段文字或句子下情绪的正面、负面和中性极性分类。其中,compound表示复杂程度,neu表示中性,neg表示负面情绪,pos表示正面情绪。import nltkfrom nltk.sentiment.vader imp...
2018-03-20 16:29:11
24927
3
转载 情感分析概述(一)
作者:国双商业市场链接:https://www.zhihu.com/question/31471793/answer/139282423来源:知乎著作权归作者所有,转载请联系作者获得授权。情感分析是学术领域研究多年的课题,用google学术搜索可以找到很多paper,基本的方法上有基于词典规则的方法、语言文法的方法,此外还有分类器以及近几年比较火的深度学习的方法(稍后有详细介绍)。 各类paper...
2018-03-20 16:27:45
9873
原创 Python 3 中文文档编码问题
在做中文文本情感分类预处理时,编码问题着实浪费我不少时间,总结如下:1. 文件是中文,内容是酒店评论,首先是打开文件和写入新文件。因为pickle存储默认为是二进制形式,在Python中为bytes类型,打开和写入方式需用二进制方式:# 读取文件内容def getContent(filename): with open(filename, 'rb') as f: # 打开该中文文...
2018-03-16 18:58:04
313
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人