46、计算q-gram过滤器的阈值

计算q-gram过滤器的阈值

1. 引言

许多过滤方法可基于共享q-gram计数的相似度度量来制定。只有当模式与子串的相似度至少达到给定阈值时,才会检查文本子串。多数方法能给出简单的阈值方程,但涉及间隔q-gram时情况会更复杂。本文将探讨阈值计算问题,给出阈值的正式定义及计算算法。

2. 阈值定义

阈值t(m, k)是长度为m的模式与距离该模式不超过k的文本子串之间匹配q-gram的最小数量。匹配q-gram的数量是字符串的相似度函数。为找到最小相似度,假设不存在“意外”匹配的q-gram,即q-gram仅在不受编辑操作影响(或影响不大)时才匹配,最小相似度由编辑操作的最坏排列决定。

编辑转录(edit transcript)是由M(匹配)、R(替换)、I(插入)和D(删除)组成的字符串,描述一个字符串到另一个字符串的逐字符转换。对于两个字符串P和S,T(P, S)表示将P转换为S的所有转录集合。对于转录τ∈T(P, S),τ的源长度slen(τ)是P的长度,即τ中非插入操作的数量。Levenshtein成本cL(τ)是非匹配的数量,Hamming成本cH(τ)在τ包含插入或删除时为无穷大,否则与Levenshtein成本相同。P和S的Levenshtein距离和Hamming距离分别为dL(P, S) = minτ∈T(P,S) cL(τ)和dH(P, S) = minτ∈T(P,S) cH(τ)。

阈值定义如下:
定义1:对于成本函数c和利润函数p,阈值tc p(m, k) = min τ {p(τ) | slen(τ) = m, c(τ) ≤ k}。

引理2:设c是编辑转录的成本函数,p是利润函数。

源码来自:https://pan.quark.cn/s/d16ee28ac6c2 ### 上线流程 Java Web平台在实施Java Web应用程序的发布过程时,通常包含以下几个关键阶段:应用程序归档、生产环境配置文件替换、系统部署(涉及原有应用备份、Tomcat服务关闭、缓存数据清除、新版本WAR包上传及服务重启测试)以及相关异常情况记录。以下将对各阶段进行深入说明。#### 一、应用程序归档1. **归档前的准备工作**: - 需要事先验证Java开发环境的变量配置是否正确。 - 一般情况下,归档操作会在项目开发工作结束后执行,此时应确认所有功能模块均已完成测试并符合发布标准。 2. **具体执行步骤**: - 采用`jar`指令执行归档操作。例如,在指定文件夹`D:\apache-tomcat-7.0.2\webapps\prsncre`下运行指令`jar –cvf prsncre.war`。 - 执行该指令后,会生成一个名为`prsncre.war`的Web应用归档文件,其中包含了项目的全部资源文件及编译后的程序代码。#### 二、生产环境配置文件调换1. **操作目标**:确保线上运行环境与开发或测试环境的参数设置存在差异,例如数据库连接参数、服务监听端口等信息。2. **执行手段**: - 将先前成功部署的WAR包中`xml-config`文件夹内的配置文件进行复制处理。 - 使用这些复制得到的配置文件对新生成的WAR包内的对应文件进行覆盖更新。 #### 三、系统部署1. **原版应用备份**: - 在发布新版本之前,必须对当前运行版本进行数据备份。例如,通过命令`cp -r prsncre ../templewebapps/`将旧版应用复...
源码地址: https://pan.quark.cn/s/a4b39357ea24 公路工程质量检验评定管理系统 软件简介:本系统是对公路工程检验及评定过程中常用到的报表、文书进行全面管理的系统。 包括 合同段管理用表(施工组织设计报审表、总体工程开工报批表、合同段质量检验评定表、标段工程检验汇总表); 单位管理用表(单位工程交工证书、单位工程检验汇总表、单位工程质量检验评定表); 分部管理用表(永久工程材料报验单、施工设备报验单、施工放样报验单、专项施工方案报审单、分部工程开工申请批复单、分部工程质量检验评定表、交工证书、分部工程检验汇总表); 分项管理用表(检验申请批复单、分项工程开工申请批复单、分项工程质量评定表、中间交工证书、专项施工方案报审单、永久工程材料报验单、施工设备报验单、分项工程质量检查表); 工程管理用表(工程汇总表、交工验收各合同段工程质量评定一览表、建设项目质量检验评定表); 质量管理用表(监理工程师通用通知、监理日报、工地会议纪要、工程暂时停工指令、复工指令、分包商资格审查申请批复表、承包单位通用申报表、承包单位每周工作计划、工程质量事故处理报告单、工程缺陷责任期终止证书); 工程表(工程变更令、工程变更申请表、工程延期索赔金额审批表、索赔申请表) 等施工过程中常用的42种表格。 使用此系统必为公路部门在施工过程中的监理带来极大的方便。 单机、网络应用方便,该系统集表格的制作、填写、存贮、查询、分析处理于一身,使表格更加规范,更加整洁。 该系统的应用必将给使用单位的工作质量和信息化管理水平得到显著提高。 如何运行本系统? 本系统基于宏达数据库信息管理开发平台开发,下载后,双击文件夹中"dbimp.exe(或Hadp.exe)"文件即可完...
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值