
NLP
文章平均质量分 59
#叫啥名字呢
XX大学XX厂,打工人
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
2018年招商银行FinTech精英训练营复赛
过了初赛就可以参加复赛,我初赛200+名(及格上榜的好像就400多人,具体名次我也不记得了),招行5.20给发了99.9的红包,很大方了~~~赛题背景 财经新闻作为重要却海量的投资数据,无时无刻不在影响着投资者们的投资决策,为了更好地提示客户当下新闻事件对应的投资机会和投资风险,本课以研发“历史事件连连看”为目的,旨在根据当前新闻内容从历史事件中搜索出相似新闻报道,后期可以结合事件与...原创 2018-05-16 22:42:34 · 5492 阅读 · 3 评论 -
金融情感分析--股市预测(一)
(PS:趋势分析)我选的是周大生2018年第二季度的股市行情,在这里选择周大生直接复制粘贴得到xlsx文件(文件内容如下)(已在Win7、python3.6上运行成功)""""以周大生为例;说明会时间:2018/4/20前10天-后60天 4/10-6/20"""from pandas import DataFrame, Seriesimport pa...原创 2018-07-24 10:54:16 · 4807 阅读 · 0 评论 -
金融情感分析,股市预测(二)
"""已周大生为例;2018/4/10-2018/6/20抓取业绩说明会前后的股民评论"""#!/usr/bin/env python# -*-coding:utf-8 -*-import urllibimport urllib2import re#导入对excel文件进行操作的库import xlwt#创建表格,设置编码模式,创建新的sheetbook=xlwt....原创 2018-07-24 15:15:27 · 2579 阅读 · 0 评论 -
Doc2Vec计算句子相似度
X_train 就是自己的训练语料“”“date:2018_7_25doc2vec计算句子相似性”“”# coding:utf-8import sysimport timeimport csvimport globimport gensimimport sklearnimport numpy as npimport jieba.posseg as psegimp...原创 2018-07-25 11:29:50 · 3843 阅读 · 1 评论 -
基于同义词词林的词语间相似度计算
基于哈工大同义词词林的词语间相似度计算局限:单纯使用同义词词林来计算相似度,如果词典中没有该词,就算不出相似度。代码(在python3.6上正常运行)#!/usr/bin/env python3# -*- coding: utf-8 -*-#2018/7/25import mathclass CilinSimilarity(object): """ 基于...原创 2018-07-25 13:33:41 · 7713 阅读 · 2 评论 -
金融情感分析--基于业绩说明会的研究
额,基本工作完成了,先整理一下这个小项目。发现一个非常棒的网址:https://github.com/yaleimeng/Final_word_Similarity项目内容: 一、数据准备 项目数据来源:抓取全景网上业绩说明会文本内容 实验所用词典数据 == 基本词典 + 金融词典 1.1 基本词典: 1)大连理工情...原创 2018-07-25 17:45:11 · 2432 阅读 · 6 评论 -
ARIMA模型(股价趋势预测)
一、ARIMA模型的含义 ARIMA模型包括了三部分: AR+ I + MA ,ARIMA模型针对非平稳时间序列模型,如果非平稳时间序列要建立ARMA模型,首先必须经过差分转换为平稳时间序列,然后建立ARMA模型。 AR--auto regression 自回归模型; I --- integration 单整阶数,时间序列必须是平稳性序列才能建立计量模型 MA --mo...原创 2018-07-26 11:06:44 · 17828 阅读 · 0 评论 -
利用时间序列模型进行股价趋势分析——tushare获取股价信息
继续以周大生为例,获取2017/4/10 -- 2018/6/20 import tushare as tsimport pandas as pdimport numpy as npimport datetimefrom dateutil.parser import parseimport matplotlib.pyplot as pltimport seaborn a...原创 2018-07-26 13:29:34 · 8682 阅读 · 1 评论 -
股价预测的几点疑问
1.以“600548”为例import tushare as tsimport pandas as pdimport numpy as npimport datetimeimport globimport csvimport refrom dateutil.parser import parseimport matplotlib.pyplot as pltimport se...原创 2018-07-29 22:36:01 · 682 阅读 · 0 评论 -
在网易财经上抓取股价信息
1.在网易财经上抓取股票价格信息代码:"""date:2018-7-31function:在网易财经上抓取股价信息(仅选取2016年举办的业绩说明会信息)author:susuxuer"""import urllib.requestimport reimport csvimport timedef get_wenben(path): csvfile = ope...原创 2018-08-02 14:15:05 · 1059 阅读 · 0 评论 -
谈一下SnowNLP的情感分析
SnowNLP是一个封装好的python库,可以做情感分析,计算文本相似度(BM25方法)、提取关键词等。安装方法:pip install SnowNLP ,该库仅适用于python3版本我也是无意发现这玩意儿,听说下过不错,我实验了一下"""学习一下使用SnowNLP"""from snownlp import SnowNLPimport csvimport sysfrom sn...原创 2018-07-12 16:22:44 · 6971 阅读 · 0 评论 -
金融领域词典构建
做情感分析还是需要结合情景和业务,之前直接用词典库效果太差,准备自建金融词典构建1.tfidf提取关键词import jieba.posseg as psegimport numpy as npimport pandas as pdimport jiebaimport timeimport csvimport sysimport globimport osfrom collect...原创 2018-07-12 14:05:37 · 7421 阅读 · 4 评论 -
文本相似度(tf-idf 和 bm25的算法讲解)
1.关于tf-idf:(使用tf-idf和向量空间模型)TF: 文档 j 中的关键词 i 的归一化词频值描述某一词在一篇文档中出现的频繁程度。(为了阻止更长的文档得到更高的相关度权值,必须进行文档长度的某种归一化)TF=freq(i,j) / maxOthers(i,j) ###(maxxOthers = max(freq(z,j)) IDF : 逆文档频率。降低所有文档中几乎都会出现的...原创 2018-05-20 18:33:01 · 16831 阅读 · 0 评论 -
2018年招商银行Fintech精英训练营初赛复赛面试
该博客来自我大神,需要他微信什么什么的私聊我哈,便宜出售~ 4月中的时候招行来学校做Fintech项目的宣讲,刚好被拉去听了一下,就顺便报了个名,想着去打一下酱油。一、初赛 初赛,其实就是在线笔试,100分满分,82分选择题,18分编程。涉及面非常广,基本的数据结构和算法、分布式数据库、云计算、区块链等等。基本上除了数据结构部分其余的题目都靠百度,然而有的题目百度了也不会,感觉选择题做的非...转载 2018-06-11 13:26:05 · 993 阅读 · 1 评论 -
文本相似度计算_BM25
BM 25也是计算TF、IDF、文档权重,只不过和经典的TFIDF表达式不同,参数也更多一些。附上之前比赛的**版本代码#!/usr/bin/python#-*- coding:UTF-8-*-import jiebaimport jieba.posseg as pseg #引入结巴分词词性标注import jieba.analyseimport nu...原创 2018-05-30 09:51:12 · 1456 阅读 · 4 评论 -
2018年工商银行软件开发中心面试总结
本着水一水提前感受一下面试套路的原则,讲一下我的面试经历(还谈不上经验~):我去工行的时候差点迟到,第一次去,又有点路痴,看不懂地图=_=,所以各位小伙伴要是去自己不熟悉的地方面试的话,一定尽量给自己留有时间余地,我基本一到坐下没两分钟就被叫去面试了。中国工商银行软件开发中心面试时间:2018/6/6 9:30-11:30面试环节:(面了整整两个小时,五个环节)(群面(9...原创 2018-06-07 10:26:56 · 37763 阅读 · 32 评论 -
余弦相似度计算
业绩说明会高管与投资者"""author:suxuedate:2018/6/20version:1.0copyright:suxue3@mail2.sysu.edu.cn""""""#1.提取问题和答案#2.分词并对数据做简单清洗#3.计算tiidf,提取关键词#4.词袋向量化,对于每一对问答,计算出一个余弦相似度#5.阈值判断,归一化处理"""import p原创 2018-06-24 16:44:21 · 2163 阅读 · 0 评论 -
批量处理CSV文件
有必要介绍两个个棒棒的库1)glob #用于查找符合规定的文件路径(如果你os 模块用的6,用哪个也挺好的)def get_all_content(): all_files = glob.glob(r'D:/../../*.csv') #填写自己的文件路径 return all_files这样就搜索到了文件夹中所有的CSV文件2)re #用于匹配not...原创 2018-06-24 19:02:04 · 3214 阅读 · 0 评论 -
基于Word2Vec 的相似度计算
#coding=UTF-8import reimport timeimport csvimport sysimport osimport gensim.models.word2vec as w2vimport jiebaimport globdef loadPoorEnt(path2 = 'G:/project/sentimation_analysis/data/stopwo...原创 2018-07-16 21:52:55 · 2882 阅读 · 1 评论 -
word2vec 计算相似度(基于Wiki)
__author__ = 'su'import osimport loggingimport sysimport reimport jiebaimport multiprocessingimport gensimfrom gensim.corpora import WikiCorpusfrom gensim.models import Word2Vecfrom gens...原创 2018-07-18 09:21:43 · 1601 阅读 · 0 评论 -
腾讯微众银行(算法工程师)笔试总结
刚做完,有点懵逼(好像投了风险策略岗,风控不太熟悉=_=)一、选择题 (20*3分)1.二叉树给出后序遍历和中序遍历,求前序遍历2.概率题(队0,队1那个,我觉得考了有十遍了=_=)3.简单的算法,对,全是机器学习算法,二、问答题(4*15分)1.计算电话号码(我没做出来诶=_=)2.boosting 和bagging 的算法过程讲解 以及二者区别3.给出必胜策略...原创 2018-09-18 18:11:07 · 3810 阅读 · 0 评论