自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(63)
  • 资源 (1)
  • 收藏
  • 关注

原创 线段树和树状数组

一、线段树和树状数组的区别线段树可以在O(log(N))时间复杂度内寻找区间极值和区间和,线段树的创建时间复杂度为O(log(N)),空间复杂度为O(>=2n-1);树状数组可以在O(log(N))的时间复杂度内计算区间极值和区间和,树状数组的创建时间复杂度为O(Nlog(N)),空间复杂度为O(N)。线段树求解的区间是任意的,越界也无所谓,但是树状数组求解的区间必须是从1开始的合法区间。二、线段树  线段树是一种二叉搜索树,什么叫做二叉搜索树,首先满足二叉树,每个结点度小于等于二,即每个

2020-12-28 18:05:47 5320 1

原创 NLP情感分析技术公开课笔记

一、文本分类任务目标:在给定的分类体系中,将文本分到指定的某个或者几个类别当中。分类体系:一般由人工构造产品应用:如意图识别,根据query,确认query所属的类别,如娱乐、新闻、体育等。技术发展:(1)基于规则的方法:依赖专家设计规则,准确率不高,泛化能力弱(2)传统机器学习的方法(特征工程+算法):SVM/ Naive Bayes/LR(3)深度学习的方法(D...

2020-03-06 09:03:10 891

原创 《Deep Learning for Aspect-Based Sentiment Analysis》阅读笔记

一、Model这篇文章采用两部分进行方面级情感分析,一个部分用来寻找 EA对;一个用来进行情感极性的分析1、aspect model两层神经网络,全连接+softmax ,最后的输出是19种方面的概率分布值。在进行实验前,先做的处理是对方面个数进行降维,对于出现频率较少的实体直接标记为other。2、sentiment model使用递归神经网络进行情感分析较为合适。因为现在的...

2020-01-01 11:04:54 1069

原创 《Sentiment Analysis Based on Deep Learning Approaches》阅读笔记

2018 IEEE 参考意义不大【Lexicon is further divided into dictionary based and corpus based approach which further uses semantic and statistical methods to get the sentiment polarity of the text used in the...

2019-12-30 16:33:04 502

原创 《Deep Learning for Sentence Classification》阅读笔记

2017年IEEE的,感觉参考意义不是太大一步步介绍句子分类的所用技术和发展历史下面介绍深度学习模型A、word embedding 先把文档中的每个词利用词典顺序表示成onehot形式,并把它们进行拼接,输入嵌入层,嵌入层的作用可以看作是一个权重矩阵,得到每个【注:每个的】词的表示 e = Wx. 这样整个文档就是(e1, e2, e3 .....)的低维稠密向量了B-...

2019-12-30 15:36:54 203

原创 《Review Sentiment Analysis Based on Deep Learning》论文阅读笔记

这篇论文的本质是将多个方面的特征进行结合进行情感分析,关键点在于不同情感特征的抽取A、词频特征认为只有情感词会对文本的情感结果起作用,而不是每一个词都会有作用对于某一篇文章,计算dimension长度个词的词频,这个长度可以理解为多退少补得到了一个【1,dimension】长度的向量,利用logistic classifier作为这个层面上的激活函数B、上下文窗口特征认为每...

2019-12-30 11:28:28 657

原创 NLP的一些大杂烩

1、训练词向量的时候输入A 预测A的下一个词是什么,如果词表特别大的话,达到5000的话,那么相当于一个5万分类的任务,所以可以将其改变输入AB两个词,预测B是A词下一个词的概率。因为语料中所有的上下文中的输出标签都是1,所以要自己构造target为0 的输入样例,其实,这就是负采样的原理。word2vector是无监督的,所以也不用自己打标签times2、LSTM读数据---每个词转...

2019-12-27 19:27:13 206

原创 白话BERT

白话白话transformer1、attention的计算方法每个词去计算与其他词的关系经过attention之后每个词的向量不再是单单它本身的,还包括其上下文的。一个矩阵乘法就做完了,所以是并行的2、multi-head也就是self-attention做了多次,一组QKV是一个特征的表达,用多头提取不同的特征表达 将所有的特征表达进行拼接 ,然后用全连接矩阵进行降...

2019-12-27 14:33:30 453

原创 《Attention and Lexicon Regularized LSTM for Aspect-based Sentiment Analysis》阅读笔记

摘要:端到端的深度神经网络不能很容易地适应一些明显的问题,比如说,训练数据量少。注意力机制很可能过度关注句子的某一部分,无法适用性的改变注意力机制。本文加入词典信息使得模型更加鲁棒和灵活,同时研究了正则化注意力向量的作用。intrduction: 提出一个结合词典信息和注意力机制的LSTM的模型用来进行aspect 情感分类methodologyattention-lstm 通过...

2019-12-10 16:11:20 537 1

原创 《一种用于基于方面情感分析的深度分层网络模型》论文阅读笔记

结合区域卷积神经网络和分层LSTM网络的深度分层模型来解决基于特定方面的情感极性分析问题,挖掘特定方面在整个评论的长距离依赖关系。通过词语层和句子层的分层注意力机制,更加有效的识别出句子中不同方面的情感极性一个待分类句子在网络中的训练框架主要由以下三部分组成: (1) 区域CNN , 按目标词分割成固定长度的不同区域,一个区域对应一个区域CNN 提取不同区域的局部特征信息(...

2019-12-09 21:55:20 333

原创 《基于多注意力卷积神经网络的特定目标情感分析》论文阅读笔记

结合多注意力机制的卷积神经网络卷积神经网络能够接收平行输入的文本信息加入词性注意力机制,能从多种特征信息关注句子的目标词和其他词语之间的联系,准确表示出每一个词在句子中的重要程度。主要涉及到三种注意力机制(1)词向量注意力机制(2)词性注意力机制(3)位置注意力机制使用双向扫描算法,标识不同词语在句子中的重要程度(1)词向量注意力机制,是目标词的词向量和句子的词向量进行运算...

2019-12-09 16:18:48 661 1

原创 pycharm里面有中文注释报错的解决方式

Solution1:在文件开头加上 # -*- coding:utf-8 -*-Solution2:这是一个一劳永逸的方式settings -> editor 里面把所有的encode选项全部设置为UTF-8

2019-11-30 09:40:04 1331

原创 八皇后问题python实现

def check(x, y): # 对当前行的所有行进行 for row in range(x): column = queens[row] #不能是同一列 if y == column: return False #对角线 if abs(x-row) == abs(y-...

2019-09-22 21:16:34 1073

原创 判断是否是二叉搜索树

import sysclass Node(object): def __init__(self,val=None): self.val = val self.left = None self.right = None #非递归版本#中序遍历把打印的时机换成比较 def isBST(head): i...

2019-09-17 11:09:35 170

原创 求数组中第K小的数(利用快排思想有bug)

def findKthSmallest(self, nums, k): if nums: pos = self.partition(nums, 0, len(nums) - 1) if k > pos + 1: return self.findKthSmallest(nums[pos + 1:], k - pos - 1) elif ...

2019-09-17 10:58:26 172

原创 求一数组中元素相加为0的三元组

nums = [0, -1, 2, -3, 1]nums = sorted(nums)res = []for i in range(len(nums)): low = i+1 high = len(nums)-1 a = nums[i] while low<high: b = nums[low] c = nums[...

2019-09-17 10:18:38 595

原创 最多两次交易的情况下求股票最大利润

def dp(prices, lentgh): res = 0 dp = [[0 for i in range(lentgh)] for j in range(lentgh)] for i in range(lentgh-1): for j in range(i+1, lentgh): dp[i][j] = prices[j]-p...

2019-09-11 20:29:23 533

原创 python实现字节跳动字符编码问题

def decoding(nums, i): #print len(nums) if i >= len(nums): return if i == len(nums)-1: print chr(65+nums[i]-1) return if nums[i] == 1: if i < le...

2019-09-09 09:17:10 329

原创 动态规划之找零钱变体

有一定的钱,住宾馆,求住的最少宾馆数目,钱恰好花完import sysif __name__ == "__main__": while 1: line = sys.stdin.readline().strip() if not line: break hotel = map(int, line.split(" "...

2019-09-08 09:36:15 218

原创 手写红黑树插入各种场景

删除的细致过程后续补充。。。。有点小懒,看不进去了。。

2019-09-05 09:02:24 267

原创 python手写kmeans

from numpy import *from pandas import *def randomCenters(dataSet,k): n = shape(dataSet)[1] print "shape",shape(dataSet) centers = mat(zeros((k,n))) for j in range(n): minJ ...

2019-09-02 18:59:42 354

原创 不含有重复字符的最长子串的长度

示例1:输入: "abcabcbb"输出: 3 解释: 因为无重复字符的最长子串是 "abc",所以其长度为 3。示例 2:输入: "bbbbb"输出: 1解释: 因为无重复字符的最长子串是 "b",所以其长度为 1。示例 3:输入: "pwwkew"输出: 3解释: 因为无重复字符的最长子串是"wke",所以其长度为 3。 请注意,你...

2019-09-01 19:07:58 442

原创 动态规划之字符串通配

对于字符串A,其中绝对不含有字符’.’和’’。再给定字符串B,其中可以含有’.’或’’,’’字符不能是B的首字符,并且任意两个’’字符不相邻。exp中的’.’代表任何一个字符,B中的’’表示’’的前一个字符可以有0个或者多个。请写一个函数,判断A是否能被B匹配。给定两个字符串A和B,同时给定两个串的长度lena和lenb,请返回一个bool值代表能否匹配。保证两串的长度均小于等于300。...

2019-08-25 15:20:06 134 1

原创 递归之表达式组成方案

对于一个只由0(假)、1(真)、&(逻辑与)、|(逻辑或)和^(异或)五种字符组成的逻辑表达式,再给定一个结果值。现在可以对这个没有括号的表达式任意加合法的括号,返回得到能有多少种加括号的方式,可以达到这个结果。给定一个字符串表达式exp及它的长度len,同时给定结果值ret,请返回方案数。保证表达式长度小于等于300。为了防止溢出,请返回答案Mod 10007的值。测试样例:...

2019-08-25 14:29:33 177

原创 动态规划之判断一个字符串是否是由另2个字符串交错组成的

现在有3个字符串s1,s2,s3,我们需要判断s3是否是由s1和s2交错组成的。对于三个字符串A,B,C。我们称C由A和B交错组成当且仅当C包含且仅包含A,B中所有字符,且对应的顺序不改变。dp表代表当s1在i处是交错的同时s2在j处是交错的s3在i+j处是否是交错的。如果s1和s2在当前位置是空,s3也是空,则我们视为true;如果s1是空,s2之前的位置是交错的而且s2在当前位置和s3...

2019-08-25 13:41:01 693

原创 动态规划之最长子序列最长子串

1、最长公共子序列问题dp的规模为两个字符串长度+1,二维的 不一定连续,dp[i][j]表示第一个字符串从第一个字符到达i, 第二个字符串从第一个字符到达j最长序列的长度def solution3(a,n,b,m): if n==0 or m ==0: return 0 dp = [[0 for i in range(m+1)] for j in r...

2019-08-25 13:32:41 425

原创 动态规划之最小编辑距离

1、dp[0][0]表示str1空的子串编辑成str2空的子串的代价为02、矩阵dp第一列即dp[0:M-1][0], dp[i][0] 表示str1[0:i-1]编辑成空串的最小代价,即把str1[0:i-1]中所有字符删掉的代价,所以dp[i][0] = dc * i3、矩阵第一行即dp[0][0:N-1], dp[0][j]表示空串编辑成str2[0:j-1]的最小代价,即向空串中添...

2019-08-25 11:26:59 271

原创 动态规划之最长子序列

1.连续子序列dp 表示以该位置元素作为结尾的话,所取得的最长序列长度def solution1(a,n): dp = [0 for i in range(n)] dp[0] = 1 for i in range(len(a)): if a[i] > a[i-1]: dp[i] = dp[i-1] +1 ...

2019-08-25 09:43:40 216

原创 python画世界人口地图

1、country_codes.pyfrom pygal_maps_world.i18n import COUNTRIESdef get_country_code(country_name): for code,name in COUNTRIES.items(): if name== country_name: return code ...

2018-11-23 10:48:48 1443

原创 天气数据处理,缺失值异常处理

lows_highs.pyimport csvfrom matplotlib import pyplot as pltfrom datetime import datetimefilename='death_valley_2014.csv'with open(filename) as f: reader=csv.reader(f) header_row=next(r...

2018-11-22 21:28:09 3961

原创 随机掷骰子并将结果可视化

die.pyfrom random import randintclass Die(): def __init__(self,num_sides=6): self.num_sides=num_sides def roll(self): return randint(1,self.num_sides)diffrent_dice.py...

2018-11-22 16:33:22 466

原创 matplotlib绘制图表

Scatter()  用来画点  plot()用来画线   plt.savefig() 将图表保存random_walk.pyfrom random import choiceclass RandomWalk(): def __init__(self,num_points=5000): self.num_points=num_points sel...

2018-11-22 11:50:25 198

原创 Python基础

列表列表元素的删除  del  remove pop列表组织   1.sort()  永久性排序   2. sorted()  临时性排序  3. reverse()  翻转创建数值列表  list(range(1,4,2))   数值为1-3之间的偶数llll列表解析  ll=[value**2 for value in range(1,5)]列表复制 1,切片复制   li...

2018-11-22 10:43:04 129

原创 python_NLP实战之豆瓣读书数据聚类

用k_means对豆瓣读书数据聚类1、读取数据以及数据预处理book_data = pd.read_csv('data/data.csv') #读取文件print(book_data.head())book_titles = book_data['title'].tolist()book_content = book_data['content'].tolist()prin...

2018-10-31 11:33:00 3041 7

原创 python_NLP实战之中文垃圾邮件分类

一、机器学习训练的要素数据、转换数据的模型、衡量模型好坏的损失函数、调整模型权重以便最小化损失函数的算法二、机器学习的组成部分1、按照学习结果分类预测、聚类、分类、降维2、按照学习方法分类监督学习,无监督学习,半监督学习,增强学习补充:特征提取(BOW   TFIDF  Ngram)三、实战中文垃圾文件分类1、数据提取def get_data(): ...

2018-10-31 10:42:08 7042 10

原创 python_NLP实战之情感分析

情感分析的基本方法有:词法分析,基于机器学习的分析,混合分析词法分析运用了由预标记词汇组成的词典,使用词法分析器将输入文本转换为单词序列,将每个新的单词与字典中的词汇进行匹配。机器学习方法的关键是合适特征的选择。通常有unigram,bigrams,trigrams选为特征向量实战电影评论情感分析分为5部分1、训练或者载入一个词向量生成模型2、创建一个用于训练集的ID矩阵...

2018-10-30 21:12:40 4531

原创 python_NLP实战之文本向量化

实战:网页文本向量化1、词向量的训练1.1 中文语料预处理将xml-&gt;txt  繁-&gt;简 利用结巴进行分词# -*- coding: utf-8 -*-from gensim.corpora import WikiCorpusimport jiebafrom langconv import *def my_function(): space = ' ...

2018-10-30 11:43:41 4145

原创 python_NLP实战之关键词提取

关键词提取分为有监督和无监督两种方法。有监督通过构建一个较为丰富和完善的词表,然后通过判断每个文档中每个词的匹配程度,以类似打标签的形式,达到关键词提取的效果。无监督的方法包括TF-IDF算法、TextRank算法(不依赖语料库)和主题模型算法(LSA,LSI,LDA等)1、LSA步骤step1: 使用BOW模型将每个文档表示为向量step2: 将所有的文档词向量拼接起来构成词...

2018-10-29 22:10:57 4491 4

原创 python_NLP实战之词性标注与命名实体识别

一、词性标注jieba词性标注结合规则和统计的方法,词典匹配和HMM共同作用二、命名实体识别HMM将分词作为字标记来解决,其中有两条独立性假设 1、输出观察值之间相互独立 2、状态转移过程中,当前状态只与前一状态有关CRF也是一种用来标记和切分序列化数据的统计模型。两者不同的是:条件随机场是在给定观察的标记序列下,计算整个标记序列的联合概率,而HMM是在给定状态下,定义下一个状...

2018-10-29 21:27:14 3116

原创 python_NLP实战之中文分词技术

 一、规则分词1.1 正向最大匹配算法# 正向最大匹配算法 MM法 规则分词class MM(object): def __init__(self): self.window_size=3 def cut(self,text): result=[] index=0 text_length=len(te...

2018-10-29 20:12:17 2258

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除