- 博客(3)
- 收藏
- 关注
原创 大量文本查重相似度计算功能设计-基于simhash+相似度算法
最近在做文本查重功能,陆续遇到一些问题,做一下记录: 1、simhash分桶策略,只适合基本完全相同的文本查重,比如网页查重。64位simhash如果有3位以内的海明距离,则认为文本一致;存储使用hbase等列式存储,分4个桶,64位simhash分4个桶存储,必有一个key一致。这样性能很高,但是也只能查相似度非常高的,90+%以上的; 2、 ...
2020-12-28 17:32:01
1699
原创 发布交流主题时,如果发布内容包含一些特殊中文字或者emoji表情符号时,mysql数据库el_pc_communicate_title表utf8编码的content字段报错的问题;
发布交流主题时,如果发布内容包含一些特殊中文字或者emoji表情符号时,mysql数据库el_pc_communicate_title表utf8编码的content字段报错的问题; 报错信息:### Cause: java.sql.SQLException: Incorrect string value: '\xF0\x9F\x98\x93\xF0\x9F...' for column 'con
2015-07-08 09:39:21
597
原创 关于li标签的value属性在ie浏览器下只能保存数值型数据的解决方法
比如想要在li标签的value属性里面存储两个以上的数值,数据使用下划线分割(例如“1_37001”)。在火狐下使用value属性没有问题,在ie下则只会显示value=“1”。解决的方法是把要存储的字符串放在自定义的属性里面,比如li_value=“1_37001”,如此可完美解决。
2015-05-22 09:42:53
411
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人