满腹的小不甘-优快云博客

原创 Keras 之 LSTM 有状态模型（stateful LSTM）和无状态模型（stateless LSTM）

目录1. 区别2. 例子3. 疑问解答4. 实战 1. 实例1：官方的example——lstm_stateful.py 2. 实例2：用Keras实现有状态LSTM——电量消费预测 3. 实例3：用Keras实现有状态LSTM序列预测普通多层神经网络stateless LSTM单层Stateful LSTM双层stacked ...

2019-03-06 16:52:10 12971 17

转载 C++ const 修饰函数

/ 修饰返回值// 修饰形参int& fun(int& a) const{} // const成员函数。

2023-05-24 16:03:46 432

原创 Python序列化protobuf中的repeated数据

如果ids需要的数据类型是列表，用extend()方法即可。# 具体参见extend()和append()方法的区别。基本数据类型，append追加数据即可。

2023-05-22 11:36:26 694

原创碰撞检测算法—EPA算法

EPA，是扩展多边形算法(Epanding Polytop Algorithm) ，用来计算两个多边形碰撞的，可用于将两个发生碰撞的多边形分离。本文的写作目的，主要是对GJK和EPA算法的理解和应用。

2023-05-18 11:25:02 1566

原创 Git撤销本次pull rebase(变基) 回退到pull前的代码

撤销git pull --rebase 操作

2023-05-06 19:05:35 3298 1

原创 Protobuf：python版使用

protobuf是Google公司提出的一种轻便高效的结构化数据存储格式，常用于结构化数据的序列化，具有语言无关、平台无关、可扩展性特性，常用于通讯协议、服务端数据交换、**数据存储**等场景

2022-12-29 15:31:04 1961 1

原创关系抽取（三）实体关系联合抽取：TPlinker

实体关系联合抽取TPLinker

2022-12-07 15:13:12 2832

原创关系抽取（二）远程监督方法总结

关系抽取：远程监督方式介绍及三种实现方式

2022-11-29 17:06:21 2351

原创 Neo4j：入门基础（四）~ Cypher常用函数介绍

Neo4j Cypher语法

2022-11-23 15:30:05 1276 1

原创 Neo4j：入门基础—插件

Neo4j图数据库插件：APOC

2022-11-14 18:06:51 945 1

原创损失函数：交叉熵 & Label Smoothing标签平滑

参考：(23条消息) Label Smoothing标签平滑详解+Pytorch保姆级实际操作_狗狗狗大王的博客-优快云博客_标签平滑参数https://blog.youkuaiyun.com/weixin_41811314/article/details/115863126(22条消息) Pytorch：交叉熵损失(CrossEntropyLoss)以及标签平滑(LabelSmoothing)的实现_我是大黄同学呀的博客-优快云博客_标签平滑交叉熵https://blog.youkuaiyun.com/qq_3656

2022-05-03 16:44:10 2288

原创 fasttext

fastText原理和文本分类实战，看这一篇就够了_CHEONG_KG的博客-优快云博客_fasttext模型fastText原理篇一、fastText简介fastText是一个快速文本分类算法，与基于神经网络的分类算法相比有两大优点：1、fastText在保持高精度的情况下加快了训练速度和测试速度2、fastText不需要预训练好的词向量，fastText会自己训练词向量3、fastText两个重要的优化：Hierarchical Softmax、N-gram二、fastText模型架构...https

2022-03-17 11:01:09 338

原创自然语言理解难在哪儿？

原文：自然语言理解难在哪儿？ - 知乎1. 本质和关键自然语言理解任务的本质是结构预测，关键则是对语言单元的语义表示能力。1.1 自然语言理解本质是结构预测自然语言文本是典型的无结构数据，由语言符号（如汉字）序列构成。要实现对自然语言的表意的理解，需要建立对该无结构文本背后的语义结构的预测。因此，自然语言理解的众多任务，包括并不限于中文分词、词性标注、命名实体识别、共指消解、句法分析、语义角色标注等，都是在对文本序列背后特定语义结构进行预测。例如，中文分词就是在原本没有空格分...

2022-03-16 13:02:33 1317

原创 CRF++ 特征工程

Name Entity Recognition(命名实体识别) - 知乎特征除了人工的方式还可以用深度学习的方式提取可尝试的特征：1.Bag of word features--当前词:Colin--前后词:prefessor,proposed--bigram: Prefessor Colin,Colin proposed2.词性相关的--当前词:名词--前后词:名词，动词3.前缀 or 后缀当前词:Co,in前后词:pr,ed,or4.单词特点--词

2022-02-10 18:25:29 362

原创 jieba分词实现原理（C++版 + python篇）（二）

jieba分词_满腹的小不甘-优快云博客地址：https://github.com/fxsjy/jieba特点支持四种分词模式：精确模式：试图将句子最精确地切开，适合文本分析；全模式：把句子中所有的可以成词的词语都扫描出来, 速度非常快，但是不能解决歧义；搜索引擎模式：在精确模式的基础上，对长词再次切分，提高召回率，适合用于搜索引擎分词。paddle模式：利用PaddlePaddle深度学习框架，训练序列标注（双向GRU）网络模型实现分词。同时支持词性标注。paddle模式使用需安装paddlepaddl

2021-12-06 20:51:54 922

原创 UNICODE与UTF-8的转换

3.3 UTF-8的编码方式UTF-8是UNICODE的一种变长度的编码表达方式（一般UNICODE为双字节[指UCS2]），UTF-8就是以8位为单元对UCS进行编码，而UTF-8不使用大尾序和小尾序的形式，每个使用UTF-8储存的字符，除了第一个字节外，其余字节的头两个位元都是以"10"开始，使文字处理器能够较快地找出每个字符的开始位置。为了与以前的ASCII码相容（ASCII为一个字节），因此 UTF-8 选择了使用可变长度字节来储存 Unicode,具体转换关...

2021-10-15 10:06:55 14427 2

原创 NLP语料、数据集

医疗NLP领域 https://github.com/lrs1353281004/Chinese_medical_NLP 为中文自然语言处理领域发展贡献语料来自 <https://github.com/brightmart/nlp_chinese_corpus> 1.维基百科(wiki2019zh)，100万个结构良好的中文词条 2.新闻语料(news2016zh)，250万篇新闻，含关键词、描述 3.百科问答(baike2...

2021-10-12 17:20:04 1094

原创 Google开源项目风格指南-笔记

Google 开源项目风格指南——中文版Google C++ Style Guide1. 头文件前置声明：类似于函数的声明和定义，C++里类的声明和定义也是可以分开的。我们可以先声明而暂时不定义它，这种声明就称为类的前置声明。前置声明写法有一定的限制，只能定义指针或引用。#include的路径及顺序：您所依赖的符号 (symbols) 被哪些头文件所定义，您就应该包含（include）哪些头文件，前置声明(forward declarations) 情况除外。比如您要用到bar.h...

2021-10-05 21:06:43 356

原创 RE2—C++

参考：http://notes.tanchuanqi.com/tools/regex.html一、函数细节1.GlobalReplace()RE2::GlobalReplace(str, pat, new_sub_str)：将句子str中匹配到的子串替换为new_sub_strstd::string aInput = "~/Test (Folder)/";RE2::GlobalReplace( &aInput, "(<|>|\\||\\:|\\(|\\)|&a...

2021-09-29 18:25:53 1368

原创 Bazel

Introduction to Bazel: Building a C++ Project1. WORKSPACEWORKSPACE文件主要就是命名workspace以及声明外部的依赖，这就包括外部依赖的获取方式及获取方法。WORKSPACE文件告诉Bazel如何去得到其他的工程源，然后package中的BUILD文件就可以根据WORKSPACE中的外部target名字写依赖关系。WORKSPACE文件允许用户的目标依赖其他文件系统的目标或者从网上下载的目标。除了通过bazel bu...

2021-09-26 16:44:18 1589

原创 Git更新代码

第一步：如果分支(将此分支暂命名为dev)有修改，则先提交修改的内容，如果没有，直接跳到第二步git commit -m “fix bug”第二步：切换到master分支下git checkout master第三步：将远程的master代码pull到本地git pull第四步：切换到dev分支下git checkout dev第五步：合并master到dev分支git merge master如果在合并的过程中，提示Test.java文件出现冲突了，手动修

2021-09-08 14:05:09 23271

原创压测—ab

ab(apache bench)：apache下的一个工具，主要用于做web站点的压力测试1. Ubuntu安裝ab命令sudo apt-get install apache2-utils若报错：Err:1 http://security.ubuntu.com/ubuntu bionic-updates/main amd64 apache2-utils amd64 2.4.29-1ubuntu4.14 404 Not Found [IP: 91.189.88.152 80]...

2021-08-04 10:52:01 419

原创 NER数据增强、badcase处理、数据优化

如何修正NLP问题的bad case NLP.TM | 近期做NER的反思在NLP层面思考数据量不足（冷启动）的问题，数据增强其实是一个还不错的策略。调整词句顺序。短句用词维度，长句可以n-gram或者是句子级别的调换顺序。对NER，可以把特定槽位里面的词替换为其他同类型的词，当然文本分类也可以这么做。（收益大）总结规则模板，直接生成数据。（收益不小）复制粘贴。（数据量少时收益不明显，数据量大以后有少量收益）复制粘贴也是有技巧的，例如拿一些比较差的bad case的特色case生成纠

2021-07-16 17:47:54 2210

原创 CRFsuite：CRF 工具包及sklearn-crfsuite

参考CRFsuite官网地址：CRFsuite：A fast implementation of Conditional Random Fields (CRFs) CRFsuite的Github地址为：https://github.com/chokkan/crfsuite CRFsuite官网教程：CRFsuite - Tutorial on Chunking Task sklearn-crfsuite：https://zhuanlan.zhihu.com/p/74408364...

2021-07-06 14:42:04 2895

原创 CRF++：一个 CRF 工具包

训练：CRF++: Yet Another CRF Tool KitCopyright(C) 2005 Taku Kudo, All rights reserved.reading training data: 100.. 200.. 300.. 400.. 500.. 600.. 700.. 800.. Done! 1.94 sNumber of sentences: 823Number of features: 1075862Number of thread(s): 1Fre

2021-06-15 12:44:35 677

原创编程题：二维平面整数点集求最大值

题目描述：P为给定的二维平面整数点集。定义 P 中某点x，如果x满足 P 中任意点都不在 x 的右上方区域内（横纵坐标都大于x），则称其为“最大的”。求出所有“最大的”点的集合。（所有点的横坐标和纵坐标都不重复, 坐标轴范围在[0, 1e9) 内）如下图：实心点为满足条件的点的集合。请实现代码找到集合 P 中的所有 ”最大“ 点的集合并输出。def resu(datalist): result = [] # 外循环：目标点x for item1 in datalist:.

2021-05-18 10:27:54 947

原创编程题：顺时针打印矩阵（不一定是方阵）

思路：先按水平中线翻转，再按主对角线翻转def rotate(matrix): m, n = len(matrix), len(matrix[0]) dp = [[0] * m for _ in range(n)] # matrix = m*n, dp = n*m # 先按水平中线翻转 for i in range(m//2): for j in range(n): temp = matrix[i][j]

2021-05-18 10:13:39 147

原创参数初始化

1. 梯度消失与梯度爆炸的原理参考：https://www.cnblogs.com/shine-lee/p/11809979.html所以，激活函数的偏导、权重矩阵、当前层的输入（前一层的输出），这些项的取值均会对偏导数产生影响，偏导数为这些因子项共同作用的结果，特别地：梯度为偏导数构成的向量。损失函数收敛至极小值时，梯度为0（接近0），损失函数不再下降。我们不希望在抵达极小值前，梯度就为0了，也不希望下降过程过于震荡，甚至不收敛。梯度消失与梯度爆炸分别对应这2种现象，梯

2021-04-26 09:55:24 367

原创二分查找

二分搜索关键词：排序，搜索模式识别：有序或部分有序，基本使用二分搜索及其变种。原因：我们总能使用线性搜索实现复杂度为O(n)的算法，所以复杂度的上界=O(n)算法描述：“丢弃”一半的数据，使得搜索空间减半复杂度：时间复杂度：O(logn) 空间复杂度：O(1)核心思想：step1：找到有序的区间； step2：若搜索值在区间内，则搜索有序的一边；否则，搜索无序的一边编程题：Leetcode：33. 搜索旋转排序数组 34. 在排序数组中查找元素的第一个和最后一个

2021-04-15 15:39:15 135

转载 DIET：Dual Intent and Entity Transformer

学习资料:https://blog.rasa.com/introducing-dual-intent-and-entity-transformer-diet-state-of-the-art-performance-on-a-lightweight-architecture/ https://www.youtube.com/watch?v=vWStcJDuOUk&list=PL75e0qA87dlG-za8eLI6t0_Pbxafk-cxb https://www.youtube.com/w

2021-02-20 17:22:40 2107

原创 tokenizers in Transformers：BPE、WordPiece，SentencePiece

目录1. space、punctuation、rule-based tokenization2. Subword tokenization2.1 Byte-Pair Encoding (BPE)Byte-level BPE2.2 WordPiece2.3 Unigram2.4 SentencePiece：ALBERT，XLNet，Marian和T5tokenizing a text是将文本分为words或subwords，然后通过look-up table将其转换为ID。我们

2021-01-30 14:06:56 4857 2

转载句法分析：依存分析（Dependency Parsing）

句法分析（syntactic parsing）是自然语言处理中的关键技术之一，它是对输入的文本句子进行分析以得到句子的句法结构的处理过程。对句法结构进行分析，一方面是语言理解的自身需求，句法分析是语言理解的重要一环，另一方面也为其它自然语言处理任务提供支持。例如句法驱动的统计机器翻译需要对源语言或目标语言（或者同时两种语言）进行句法分析；语义分析通常以句法分析的输出结果作为输入以便获得更多的指示信息。句法分析任务分类根据句法结构的表示形式不同，最常见的句法分析任务可以分为以下三种：句法结构分

2020-12-16 10:11:05 24047