- 博客(93)
- 问答 (1)
- 收藏
- 关注
原创 大模型词表注入
大模型词表注入(Vocabulary Injection)是指在预训练语言模型(如GPT、LLAMA等)的基础上,动态扩展其词表(Vocabulary)的技术,以适应特定任务或领域的需求。使用sentencepiece==4.1.0 训练词表。有两种方法:1.词表注入;2.词表训练–>添加词表。
2025-03-26 19:15:22
499
原创 web安全-跨站脚本攻击XSS
Web应用通常用Cookie来作为用户的身份凭证,如果一个用户的Cookie被攻击者获取,意味着攻击者获取了该用户的身份,即攻击者无需使用账号和密码,直接通过Cookie就可以登陆用户的账户。XSS蠕虫与传统的XSS攻击相似,但其具有自我传播的能力,可以通过感染网页中的用户,快速传播到其他页面。浏览器可以接受内联的JavaScript 代码作为URL,所以在需要指定URL的标签属性中,可以尝试构造一个JavaScript伪协议的URL来执行JavaScript代码。
2024-05-22 23:32:05
1145
2
原创 web安全暴力破解-SQL注入简介
暴力破解漏洞的产生是由于服务器端没有做限制,导致攻击者可以通过暴力的手段破解所需信息,如用户名、密码、短信验证码等。暴力破解的关键在于字典的大小及字典是否具有针对性,如登陆时,需要输入4位数字的短信验证码,那么暴力破解的范围就是0000~9999.如果对登陆失败做次数限制,如登陆失败6次,账号就会被锁定,这是攻击者可以采用的攻击方式是使用同一个密码对多个账户进行破解。如将密码设置为123456,然后对多个账户进行破解。
2024-05-09 00:34:28
1129
1
原创 pycharm 使用(jihuo)方法
2.下载ja-netfilter,并解压。3.进入pycharm安装目录,找到文件。1.安装pycharm;
2023-09-26 17:39:41
804
1
原创 NER解决方案——biaffine
双仿射注意力:引入双仿射注意力矩阵,分别与ffn输出层做矩阵计算;编码: 经过bert编码,分别送入到两个ffn层,输出:获取输出评分矩阵,loss为交叉熵损失函数。引入双仿射注意力矩阵,可以解决实体嵌套问题。
2023-04-08 19:34:57
906
原创 NER解决方案——NN-CRF
对于BIO标注,I-PER 不可能接在B-LOC之后,同样I-PER和I-LOC也不可能出现在相邻序列当中。因此需要一种方法去约束这种条件,CRF通过构造转移矩阵,学习各个标签之间的转移概率,通过这种方式可以大大减少无效标签序列的产生。目标:给每一个可能的标注序列算一个分数,通过训练,使得那个唯一的真实的标签序列得分最高。优点:1、去掉池化层;step2: 获取最后一步的最大概率值,然后反向查找当前概率下的路径。由以上公式,可以递归求出所有路径的分数,的发射概率,由NN网络提供;的转移概率,由CRF提供;
2023-03-26 00:04:36
1151
原创 NER解决方案——词典匹配
NER全称是命名实体识别(Named Entity Recognition, NER),旨在识别文本中专有名词,如位置、组织和时间。输入:小明在北京大学的燕园看了中国男篮的一场比赛输出:B-PER,E-PER,O, B-ORG,I-ORG,I-ORG,E-ORG,O,B-LOC,E-LOC,O,O,B-ORG,I-ORG,I-ORG,E-ORG,O,O,O,O其中,“小明 ”以PER,“北京大学”以ORG,“燕园”以LOC,“中国男篮”以ORG为实体类别分别挑了出来。
2023-03-12 18:22:09
1043
原创 NER常见的解决方案汇总(deep learning)
NER (Named Entity Recognition)即命名实体识别。顾名思义就是识别文本当中的实体信息。举个例子,输入:张三现在在武汉市江夏区金融港输出:B-PER,E-PER,O, O,O,B-CITY,I-CITY,E-CITY,B-DISTRICT,I-DISTRICT,E-DISTRICT,B-LOCATION,I-LOCATION,-E-LOCATION其中,“张三”以PER,“武汉市”以CITY,“江夏区”以DISTRICT,“金融港”以LOCATION为实体类别分别挑了出来。
2023-03-12 18:03:40
728
原创 typora使用(po jie)方法
typora 是一个很好的markdown编辑器,操作简单便捷,用一次爱不释手,之前限制于其强制更新,导致无法使用,在网上搜了一大圈总结出了如下方案,可以无限试用(使用):方法:目测是可以永久使用了...
2022-08-19 10:07:13
122
原创 Elatstic search 8.0 在nlp任务中的实践
文章目录NLP模块介绍支持的任务实践模型加载模型部署NLP任务创建pipline总结Elastic search 8.0 在今年2月份更新,涉及nlp方面的有两个大的功能点,分别为:向量检索提高搜索相关性NLP组件支持NLP任务向量检索已在博客Elatstic search 8.0 在knn检索中的实践 中介绍这里讨论NLP相关任务模块。NLP模块介绍elastic search8.0在NLP任务上的基本框架有了如下变化:es内置工具eland 在8.0之前支持数据统计和数据挖掘功
2022-04-16 16:08:57
2422
1
原创 Elatstic search 8.0 在knn检索中的实践
Elastic search 8.0 在今年2月份更新,涉及nlp方面的有两个大的功能点,分别为:向量检索提高搜索相关性NLP组件支持NLP任务向量检索这一部分可以参考我之前写的博客:https://blog.youkuaiyun.com/loveitlovelife/article/details/122567795其结构为HNSW索引,该类型索引在ANN索引模型当中表现最优,其他索引类型如树模型、矢量模型相关介绍和其实从7.0开始就已经对向量这一块做了一些处理和计算...
2022-04-16 13:50:58
3274
原创 向量检索的索引构建算法综述
这里写自定义目录标题VectorRetrievalgithub落地场景背景框架检索模型——暴力搜索、倒排索引检索模型——kd-Tree、AnnoyKD-Tree:Annoy:检索模型——LSH检索模型——PQ检索模型——NSW、HNSWNSW:HNSW:result:检索框架Elastic SearchFaissMilvus业界的落地情况MilvusFaissMilvusFaissVectorRetrievalgithub仿真代码:https://github.com/KATEhuang920909/
2022-01-18 20:28:51
3513
1
原创 文本匹配-bert_siamese_finetuning
文章目录github输入层bert层lstm层输出层loss &optimizerrun总结之前写了一个tensorflow1的版本,见https://github.com/KATEhuang920909/bert-siamese-matching最近摸索了一番写了一个bert-siamese的微调版本,主要是基于keras,另外借鉴了苏神的bert4keras框架,整体结构看起来比t1舒服多了。。githubhttps://github.com/KATEhuang920909/fine
2022-01-10 00:09:23
1186
2
原创 文本匹配-dssm
文章目录前言DSSM深度语义匹配模型输入层表示层匹配层训练阶段优缺点模型改进Learning Deep Structured Semantic Models for Web Search using Clickthrough Data前言传统文本相似性如BM25、tf-idf等,无法发现语义的query-doc相似对,因此DSSM为计算语义相似度提供了一种方法。DSSM深度语义匹配模型DSSM模型结构如下:输入层在输入层用到了word hashing操作,这里用了n-grams方式进行has
2021-07-19 23:17:08
434
原创 文本匹配-HIM(ESIM)
文章目录论文链接地址github前言整体模型结构输入编码层(Input Encoding)局部推理层(Local Inference Modeling)损失函数欢迎指正论文链接地址Enhanced LSTM for Natural Language Inferencegithubto be continued前言\quad本文主要介绍了一种复杂网络建立自然语言推理模型,创新点在于:基于链式的LSTM网络,进一步通过在局部推理建模和推理组合中明确考虑递归架构,同时合并了语法解析信息。整体模型结构
2021-07-19 23:11:59
322
1
原创 文本匹配-bimpm
文章目录论文链接地址github前言信息检索中的匹配问题表征式模型(representation focused model)交互式模型(interaction focused model)语义匹配和相关性匹配语义匹配相关性匹配DRMM模型结构局部交互(local interaction)匹配直方图映射(Matching Histogram Mapping)前馈神经网络门结构得分聚合损失函数欢迎指正论文链接地址Bilateral Multi-Perspective Matching for Natura
2021-07-09 01:26:43
394
1
原创 文本匹配-drmm
文章目录论文链接地址github前言信息检索中的匹配问题表征式模型(representation focused model)交互式模型(interaction focused model)语义匹配和相关性匹配模型结构输入层siamese-BiLSTM层输出层损失函数欢迎指正论文链接地址A Deep Relevance Matching Model for Ad-hoc Retrievalgithubhttps://github.com/KATEhuang920909/deep_text_match
2021-07-02 01:32:47
765
1
原创 文本匹配-siamese-bilstm
文章目录论文链接地址github前言模型结构输入层siamese-BiLSTM层输出层损失函数欢迎指正论文链接地址Learning Text Similarity with Siamese Recurrent Networksgithubhttps://github.com/KATEhuang920909/deep_text_match前言本文提出了一种文本匹配的深度神经网络结构。为有监督任务,该模型将字符级双向LSTM的堆栈与Siamese体系结构相结合。输入两个文本字符级特征,输出两段文本的
2021-06-29 01:35:58
989
1
原创 文本匹配-duet
文章目录论文链接地址提出假设模型结构local modeldistributed modeloutput layeroptimizationgithub:最近上传to be continued论文链接地址Learning to Match using Local and Distributed Representations of Text for Web Search提出假设分布式表示的匹配与传统局部表示的匹配是互补的,并且两者的结合是有利的模型结构\quad模型由两大部分组成,一部分使用lo
2021-06-22 01:45:22
432
1
原创 文本匹配相关论文
文章目录前言传统方法深度文本匹配DSSM :CDSSM:ARC II:CNTN:LSTM-RNN:MV-LSTMMatchPyramidMatch-SRNNKNRMConv-KNRMDRMMSiamese-LSTMDAMESIMDUETBiMPMDIINDRCNRE2DUABERT前言\quad 文本匹配在信息检索、自动问答、对话系统当中有广泛的应用,这些任务都可以抽象成query和候选doc之间的匹配问题。工作期间我零零碎碎的去熟悉和掌握相关模型和方法,不过我还是觉得很有必要将这些东西系统的整理一遍
2021-01-18 00:27:04
824
原创 多进程分布式爬虫与普通爬虫方法对比
python中实现多进程主要在 multiprocessing库中实现,之前利用分布式爬虫与普通爬虫做了一个对比,部分代码如下:import multiprocessing as mpclass craw_method(analysis): # 获取最近100条新闻信息 def norml(self,): # result_content.colu ...
2020-02-28 23:57:26
495
原创 同步&异步 //并发&并行 //阻塞&非阻塞 //多线程&多进程
1.同步 & 异步同步在发出一个功能调用时,在没有得到结果之前,该调用就不返回。也就是必须一件一件事做,等前一件做完了才能做下一件事。eg: 普通B/S模式(同步):提交请求-> 等待服务器处理->处理完毕返回 这个期间客户端浏览器不能干任何事。异步当一个异步过程调用发出后,调用者不能立即得到结果。实际处理这个调用的部件在完成后,通过状态、通知和回调来通知调用者。...
2020-02-28 23:39:31
315
原创 win10+cuda9.0+cuDNN7 +python3.6.1+tensorflow1.10.0
之前也装过很多遍了,记录下来以后就不用到处找了。安装tensorflow的gpu版:1.查看GPU型号,寻找对应的cuda2.下载并安装:3.配置环境:(1)CUDA_BIN_PATH%CUDA_PATH%\bin(2)CUDA_LIB_PATH%CUDA_PATH%\lib\x64(3)CUDA_SDK_PATHC:\ProgramData\NVIDIA Corpora...
2020-02-14 20:14:46
311
原创 945. Minimum Increment to Make Array Unique(python)
Given an array of integers A, a move consists of choosing any A[i], and incrementing it by 1.Return the least number of moves to make every value in A unique.Example 1:Input: [1,2,2]Output: 1E...
2019-11-14 14:57:20
202
原创 zip /enumerate
zip:将相关元素打包成元组,返回元组组成的列表>>> l = ['a', 'b', 'c', 'd', 'e','f']>>> list(zip(l[:-1],l[1:]))[('a', 'b'), ('b', 'c'), ('c', 'd'), ('d', 'e'), ('e', 'f')]>>> nums = ['flowe...
2019-11-14 12:45:31
140
原创 信息熵概念&公式总结
信息量:特征的不确定性I(x)=−logP(x)I(x) =-log P(x)I(x)=−logP(x)信息熵: 特征不确定性均值H(x)=−∑xP(x)logp(x)H(x) =-\sum_x P(x)log p(x)H(x)=−∑xP(x)logp(x)联合熵: 训练即总体的不确定性H(x,y)=−∑xP(x,y)logP(x,y)H(x,y) =-\sum_x P(x...
2019-11-14 01:35:49
3394
1
原创 相关优化方法
GD步骤:1.计算在a点的梯度u=∇aJ(θ)u=\nabla _aJ(\theta)u=∇aJ(θ)2.参数变量wiw_iwi向梯度反方向移动:θ=θ−ϵ∗u\theta=\theta -\epsilon*uθ=θ−ϵ∗u3.循环步骤1和2,直至达到最大循环次数或满足f(x)f(x)f(x)收敛条件。则返回xxx作为函数f(x)f(x)f(x)的最小值近似解。SGD梯度是期望,期...
2019-11-13 01:06:02
217
原创 83. Remove Duplicates from Sorted List(python)
Given a sorted linked list, delete all duplicates such that each element appear only once.Example 1:Input: 1->1->2Output: 1->2Example 2:Input: 1->1->2->3->3Output: 1->...
2019-11-12 12:23:57
191
原创 神经网络中的attention机制及tensorflow实现
参考文献:Hierarchical Attention Networks for Document Classification文献中主要讨论了层次的注意力机制在文本分类中的应用,这里的两层神经网络模型结构基本相同首先通过word_embedding将每一个句子的单词映射成embedding向量,输入到神经网络当中,此处为双向GRU网络,然后加入attention机制,实际上就是添加两层网...
2019-11-12 01:17:56
4426
1
原创 tensorflow基本操作
import tensorflow as tf#导包tf.name_scope:定义操作名称with tf.name_scope('Weights'): #操作名称 Weights=tf.Variable(tf.random_normal([in_size,out_size]),name='W')记录weights变化情况tf.summary.histogram(layer_name...
2019-11-11 23:10:50
148
原创 942. DI String Match(python)
Given a string S that only contains "I" (increase) or "D" (decrease), let N = S.length.Return any permutation A of [0, 1, ..., N] such that for all i = 0, ..., N-1:If S[i] == "I", then A[i] < A...
2019-11-09 21:02:04
148
原创 26. Remove Duplicates from Sorted Array (python)
Given a sorted array nums, remove the duplicates in-place such that each element appear only once and return the new length.Do not allocate extra space for another array, you must do this by modifyi...
2019-11-09 20:11:54
139
原创 61. Rotate List
Given a linked list, rotate the list to the right by k places, where k is non-negative.Example 1:Input: 1->2->3->4->5->NULL, k = 2Output: 4->5->1->2->3->NULLExplanat...
2019-11-08 02:56:40
109
原创 739. Daily Temperatures
给定每日温度列表T,请返回一个列表,以便对于输入中的每一天,告诉您要等到温度升高才需要多少天。如果没有将来的可能,请0改写。例如,给定温度列表T = [73, 74, 75, 71, 69, 72, 76, 73],您的输出应为[1, 1, 4, 2, 1, 1, 0, 0]。注意: 的长度temperatures将在范围内[1, 30000]。每个温度都是该范围内的整数[30, 100]。...
2019-11-07 16:16:48
124
1
原创 957. Prison Cells After N Days (python)
连续有8个牢房,每个牢房都被占用或空着。每天,牢房是被占用还是空置都根据以下规则进行更改:如果一个单元有两个相邻的邻居都被占用或都空着,则该单元将被占用。否则,它将变为空置。(请注意,因为监狱是一排,所以该行中的第一个和最后一个单元不能有两个相邻的邻居。)我们通过以下方式描述监狱的当前状态: cells[i] == 1如果第- i个牢房被占用,否则cells[i] == 0。给定监狱...
2019-11-06 14:25:04
194
原创 916. Word Subsets(python)
We are given two arrays A and B of words. Each word is a string of lowercase letters.Now, say that word b is a subset of word a if every letter in b occurs in a, including multiplicity. For example...
2019-11-06 13:32:31
154
原创 48. Rotate Image(python)
You are given an n x n 2D matrix representing an image.Rotate the image by 90 degrees (clockwise).Note:You have to rotate the image in-place, which means you have to modify the input 2D matrix dire...
2019-11-05 20:12:37
511
原创 46. Permutations/47. Permutations II
递归大法好:class Solution(object): def permute(self, nums): """ :type nums: List[int] :rtype: List[List[int]] """ res=[] #递归 if len(nums) >=2...
2019-11-05 18:47:59
119
1
原创 linux 安装tensorflow-gpu 出现no space left on device
在公司服务器上装tensorflow-gpu 出现如下问题:大概是tmp没有足够的空间来安装,因此可以定义临时位置,设置临时环境变量TMPDIR:可以正常安装了:...
2019-10-21 16:49:32
906
空空如也
python二叉树输出结果为什么是这样
2017-08-14
TA创建的收藏夹 TA关注的收藏夹
TA关注的人