
工程小坑
花咪
实干,解决一切困难。
展开
-
maven 非法转移字符 非GBK编码解决方法
在maven的所有configuration标签下加上<encoding>utf8</encoding>再次执行mvn assembly:assembly 即可。<build> <plugins> <plugin> <groupId>org.apache.maven.plugins<...原创 2018-06-22 10:49:03 · 378 阅读 · 0 评论 -
大量字符串快速匹配-字典树匹配
说明:在本人的工作中遇到了这样的一个问题。需要用到字符串匹配的功能。一边是300字左右的句子,另一边是几个到几十个词的短语,然后过滤出包含短语的句子。数量都在千万级别,最直接的想法肯定是两层for循环两两匹配,但是有点low。在这实现了基于多叉树的树形匹配方式。(如果有问题,欢迎指正)class Trie(): def __init__(self): self...原创 2019-10-04 16:34:57 · 1428 阅读 · 0 评论 -
hnswlib库在windows系统中的安装
安装过程:先说明本人在安装该模块时遇到的问题。直接pip安装报错。在git上下载代码依然报错。缺少 h文件。原因是编译环境找不到h文件所在的路径。查看本机编译调用的命令为:所以就把缺少的h文件目录添加到了该编译环境依赖的include中接下来在去下载的git安装包中去执行,python setup.py install 便可以成功安装了。线上结果:可以看到,安装完成可以正...原创 2019-10-04 15:53:30 · 2897 阅读 · 0 评论 -
Layer concatenate_1 was called with an input that isn't a symbolic tensor
问题如题目所述,编写代码时遇到Layer concatenate_1 was called with an input that isn’t a symbolic tensor的问题,查看 concatenate的对象确实时tensor对象,为什么会有这样的问题呢?解决方法查看代码是否 concatenate的参数传错了。注意参数是放在【】里面的,不是 ()。emb_all = layer...原创 2019-06-15 22:34:33 · 8943 阅读 · 2 评论 -
Bert编码训练NER实体偏移的问题
在这里记录一下踩过的坑在训练样本中几乎没有前面一大串英文或者数字,然后后面跟实体的情况,所以训练起来还挺平稳的。但是在预测的时候遇到了这种情况,造成实体可以识别出来,但是实体的预测结果下标错了(表现为下标提前了)造成这一问题的原因是在给bert传文本得到文本特征的时候,可以穿字符串的文本,也可以自己token完成后传一个token后的list。如果传递的是字符串,默认系统的token,对于...原创 2019-05-19 23:30:32 · 1463 阅读 · 5 评论 -
keras 问题汇总
(1)cub segmented reduce errorinvalid configuration argumentLSTM——CRF 框架中,初始化crf时,检查类别是否赋值正确。(2)attributeerror ‘tensor’ object has no attribute ‘assign’Embeding层,检查输入的字符数是否正确,生成的batch数据是否正确。...原创 2019-04-08 20:35:16 · 566 阅读 · 0 评论 -
tensorflow-gpu DLL问题解决
前提:NVIDIA 驱动程序下载。CUDA下载,现在到了v10.0了。cudnn下载,并将相应文件拷贝到NVIDIA GPU Computing Toolkit\CUDA\v10.0对应目录下。环境:安装C++编译程序。05版本即可。Anaconda3 下载,最先版的即可。pip install tensorflowpip install tensorflow-gpu调整:如...原创 2019-03-01 14:36:34 · 1855 阅读 · 0 评论 -
mdb文件内容导出
使用命令(ubuntu系统):mdb-export test.mdb tablename &gt; /home/test/tablename.csv原创 2019-02-28 23:06:12 · 2117 阅读 · 0 评论 -
自定义层多输出时需要list包装
def compute_output_shape(self, input_shape): if self.data_format == 'channels_first': rows = input_shape[2] cols = input_shape[3] elif self.data_format == 'cha...原创 2019-02-28 10:58:15 · 170 阅读 · 0 评论 -
最近邻逼近搜索
说明由于业务中需要用到向量之间的相似索引,其实向量相思索引在很多的业务场景中都有非常高的应用价值。我们已经有把词、句子、图片、等信息处理成响亮的方法。这样在一些相关性检索方面就有了应用价值。本文中搭建了annoy和nmslib两种方式。下面提供了两种方式的的索引构建方式:annoy索引构建:f = 200tc_index = AnnoyIndex(f,metric='angular')...原创 2019-10-05 12:03:10 · 463 阅读 · 0 评论