orange
这个作者很懒,什么都没留下…
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
38、大规模科学论文挖掘:建模、设计与实现
本文提出了一种新颖的TAIL(时间-作者-机构-文献)模型,用于大规模科学论文挖掘。该模型结合语言模型与主题模型,引入定制因子ξ实现个性化论文查询,并通过作者模型(AM)和机构模型(IM)挖掘科研人员与机构在特定研究主题上的专长。基于TAIL模型构建的大规模科学论文挖掘系统(MSPM)采用B/S架构,支持定制化搜索、作者/机构排名及主题趋势分析,在真实数据集上验证了其高效性与准确性,为科研选题、合作匹配和学术评估提供了有力支持。原创 2025-10-30 10:55:01 · 37 阅读 · 0 评论 -
37、专利机器翻译中汉语介词短语的语义分析
本文提出了一种基于语义分析的汉语介词短语识别方法,专门用于提升专利机器翻译的性能。该方法通过引入语义类别(SC0/SC1)、单词搭配、动词配价和句法级别等多维度特征,结合规则驱动的识别模型,有效解决了专利文本中长且复杂的介词短语边界识别难题。实验结果表明,该方法在准确率、召回率及F-score上均显著优于传统统计方法和Google翻译系统,BLEU-4分数提升了11.82%。文章还分析了当前系统的局限性,并提出了向其他技术领域和跨语言翻译拓展的应用前景。原创 2025-10-29 15:36:51 · 38 阅读 · 0 评论 -
36、自然语言处理中的双向序列标注与中文专利介词短语语义分析
本文探讨了自然语言处理中的双向序列标注算法及其在中文分词、英文词性标注和文本分块任务中的应用,通过结合从左到右和从右到左的单向模型,利用对偶分解方法实现双向解码,提升了标注准确率与F1分数。同时,针对中文专利文本中复杂的介词短语结构,提出基于语义分类与上下文特征的分析方法,有效支持专利机器翻译中的句法分析。实验表明,双向模型在预测差异大的情况下效果显著,且算法收敛快;介词短语识别结合语义规则有助于提升翻译质量。未来可进一步优化算法并拓展至专利摘要与信息提取等任务。原创 2025-10-28 13:12:12 · 22 阅读 · 0 评论 -
35、中文语音识别中的发音判别与语言模型评估
本文研究了中文语音识别中的两个关键问题:发音判别与语言模型评估。在发音判别方面,提出了一种针对日语学习者汉语送气齿音和卷舌音的自动判别方法,实验显示对母语者标准发音的判断准确率超过90%。在语言模型评估方面,指出传统词基困惑度(ppl)在中文等基于字符的语言中存在局限性,无法有效反映字符错误率(CER)的变化。为此提出了两种新指标——字符困惑度(cppl)和改进的字符困惑度(cppl2),它们综合考虑了词表大小和词长因素,在不同分词策略下表现出更强的鲁棒性,并与CER保持更稳定的相关性。实验通过10种不同分原创 2025-10-27 15:00:37 · 40 阅读 · 0 评论 -
34、中文卷舌音和齿音塞擦音发音的自动判别
本文介绍了一种针对中文送气卷舌音和送气齿音塞擦音发音的自动判别系统,旨在帮助日本学生等非母语学习者克服发音难点。通过分析中国母语者发音时的语音起始时间(VOT)和VOT期间的呼吸功率频谱特征,研究提取了ca[ʦ‘a]、ci[ʦ‘i]、ce[ʦ‘ɤ]与cha[tʂ‘a]、chi[tʂ‘i]、che[tʂ‘ɤ]等音节的区分标准,并设计了35通道频率滤波器组实现自动测量。系统结合VOT检测与频域功率计算,提出基于频率范围和功率阈值的判别规则,在实验中对卷舌音音节实现了90%-100%的正确判断率。该技术具有精准、原创 2025-10-26 12:52:09 · 89 阅读 · 0 评论 -
33、统计机器翻译的数据选择与错误检测策略
本文探讨了统计机器翻译中的两个关键问题:数据选择与翻译错误检测。在数据选择方面,提出并评估了混合模型iCPE,在语料库级别(iCPE-C)和模型级别(iCPE-M)均显著优于传统方法,有效提升翻译质量并平衡未登录词与噪声问题。在错误检测方面,采用最大熵与支持向量机分类器的组合策略,结合WPP和语言特征,通过概率乘积融合显著降低分类错误率。实验结果表明,所提方法在中文到英文翻译任务中表现优异,为SMT系统的优化提供了有效路径。原创 2025-10-25 12:07:56 · 27 阅读 · 0 评论 -
32、黏着语图形语言模型与SMT领域适应的混合数据选择模型
本文介绍了黏着语图形语言模型与SMT领域适应的混合数据选择模型iCPE。黏着语图形语言模型通过词干-词干和词干-词缀结构有效建模黏着语特征,实验结果显示其在BLEU得分上显著优于传统线性模型。iCPE模型结合余弦tf-idf、基于困惑度和编辑距离三种相似度指标,在语料库级别和模型级别进行组合,提升了统计机器翻译在特定领域的适应能力。实验表明,iCPE在法律文本翻译任务中性能优于基线系统和竞争方法,为大规模语料库的数据选择提供了高效解决方案。该研究为自然语言处理中的形态丰富语言处理和领域适应提供了新思路。原创 2025-10-24 12:49:21 · 16 阅读 · 0 评论 -
31、黏着语的图形语言模型:以维吾尔语为例
本文提出了一种针对黏着语的图形语言模型,以维吾尔语为例,解决传统线性语言模型在处理多词素组合和数据稀疏问题上的局限性。该模型将句子建模为以词素为基本单位的有向图,分别建模词干-词干和词干-词缀关系,在形态分析和机器翻译任务中均优于传统的n-gram模型,有效提升了处理黏着语的准确性和流畅性,且具有与经典模型相近的复杂度,具备良好的实用性与应用前景。原创 2025-10-23 13:25:49 · 39 阅读 · 0 评论 -
29、传统蒙古语依存树库的开发
本文介绍了传统蒙古语依存树库(TMDT)的开发工作,旨在填补传统蒙古语在依存句法分析资源上的空白。TMDT采用形态层和分析层的两级注释结构,涵盖词性标注、词干提取和依存关系标注,基于《内蒙古日报》语料构建,包含400个句子、13028个标注词。文章详细阐述了注释方案、工作流程、技术优势及应用前景,并探讨了当前面临的语言复杂性、数据规模和语义理解等挑战与应对策略。TMDT为传统蒙古语的自然语言处理任务如机器翻译、信息检索和智能问答提供了重要基础,未来将扩展数据规模、增加语义标注并转换为短语结构树库,推动传统蒙原创 2025-10-21 12:38:52 · 26 阅读 · 0 评论 -
28、跨文化情感表达与意见领袖发现研究
本研究围绕跨文化情感表达与意见领袖发现两个核心领域展开。在跨文化情感表达方面,通过实验对比中日听众在视听一致与冲突情境下的情绪感知模式,揭示了文化背景对情感解码的影响,特别是在高唤醒与低唤醒情绪中的通道依赖差异,以及情感麦格克效应的文化特异性表现。在日本听众中,视觉通道在中文情感解码中更具优势,且‘第三种情绪’多为愤怒或厌恶,而中国听众则倾向于将冲突刺激感知为惊讶或中性。在意见领袖发现方面,针对现有方法忽略‘害虫’用户的问题,提出一种结合内容特征与社交网络结构的两步法:首先基于用户资料与帖子内容,利用SVM原创 2025-10-20 12:41:22 · 46 阅读 · 0 评论 -
27、跨文化情感表达与感知:表情符号与情绪麦格克效应研究
本文探讨了表情符号在句子级情感分类中的作用,并通过一项跨文化的多模态情感感知实验,分析中日两国在情感表达与感知上的差异。实验揭示了文化背景和语言习惯对情绪理解的影响,验证了情绪麦格克效应在视听信息冲突时的存在。研究结果对跨文化交流培训和情感识别技术开发具有重要应用价值。原创 2025-10-19 16:05:04 · 39 阅读 · 0 评论 -
26、表情符号在句子级情感分类中的作用分析
本文系统分析了表情符号在句子级情感分类中的作用,基于大规模社交媒体语料,统计其使用分布,并评估其对情感提取系统精确率与召回率的影响。研究发现,表情符号虽可作为有效的情感线索,但单独使用可靠性有限,易受语境、文化及数据稀疏性影响。通过结合情感相关词汇、句法结构等语言因素,能显著提升分类性能。文章还展示了实际应用案例与综合分类流程,指出未来应构建多因素融合模型以优化情感分析效果。原创 2025-10-18 13:19:16 · 40 阅读 · 0 评论 -
25、隐式特征识别与表情符号在情感分类中的应用研究
本文研究了隐式特征识别与表情符号在情感分类中的应用。在隐式特征识别方面,提出一种基于分类的新方法,通过特征词权重计算和非归一化余弦度量实现高效识别,并在手机和数码相机评论数据集上验证了其优于传统规则方法的性能。在表情符号研究中,分析其在社交媒体情感分类中的作用,发现其与人类情感判断具有较高一致性,可作为重要情感线索。文章进一步探讨了两者的综合应用、实际场景及未来挑战,为情感分析提供了理论支持与实践方向。原创 2025-10-17 09:07:13 · 28 阅读 · 0 评论 -
24、基于分类的隐式特征识别方法
本文提出了一种基于分类的隐式特征识别方法,用于解决产品评论中未明确提及但可从上下文推断的隐式特征挖掘问题。通过显式特征-意见对提取、训练文档构建和主题-特征-质心分类器设计,将隐式特征识别转化为文本分类任务。实验结果表明,该方法在准确率、召回率和F1值上均优于传统的关联规则挖掘方法,有效提升了细粒度意见挖掘的性能。原创 2025-10-16 16:29:42 · 31 阅读 · 0 评论 -
23、基于成对比较的用户偏好挖掘推荐方法
本文提出了一种基于成对比较的用户偏好挖掘推荐方法,结合物品内容特征与用户评分信息,利用Bradley-Terry模型估计用户对特征的偏好,并通过KNN预测评分。该方法在MovieLens和Netflix数据集上表现出更高的准确性、更强的鲁棒性和更快的推荐速度,尤其在竞争规模较大时优势明显。相比传统CBR和CF方法,能有效减少内容相似但偏好不一致的影响,适用于电商、影视、音乐和新闻等个性化推荐场景,具有良好的应用前景和发展潜力。原创 2025-10-15 16:51:53 · 41 阅读 · 0 评论 -
22、用户特征主题模型与偏好挖掘:创新技术与应用
本文介绍了用户特征主题模型(UC-LDA 和 UC-TagLDA)及其在文本建模与推荐系统中的应用。通过引入用户特征,模型能够更好地捕捉用户差异,提升主题分离能力和推荐性能。结合吉布斯采样进行推理,在多个数据集上验证了其优于传统LDA和TagLDA的困惑度表现。同时,提出基于竞争视角的用户偏好挖掘方法,利用成对比较机制提高推荐效率与准确性。文章还探讨了技术流程、实验结果、实际应用场景及未来发展方向,为个性化推荐与文本分析提供了创新解决方案。原创 2025-10-14 09:02:44 · 26 阅读 · 0 评论 -
21、从搜索引擎少量示例中学习提取属性值及用户特征主题模型
本文介绍了一种从搜索引擎少量示例中学习提取实体属性值的算法,并提出了一种考虑用户特征的改进主题模型(UC-LDA)。属性提取算法通过候选值检测与最大熵分类器结合投票策略,实现了高精度和召回率,在中文和英文数据集上均表现良好。同时,针对传统主题模型忽略用户差异的问题,提出了用户特征LDA(UC-LDA)和UC-TagLDA,能够更好地拟合文本数据并生成更具一致性的主题。实验表明,所提方法在困惑度和主题一致性上优于传统模型,并可用于个性化推荐、信息检索等场景。未来可拓展至多模态融合与跨领域应用。原创 2025-10-13 10:04:44 · 23 阅读 · 0 评论 -
20、基于搜索引擎的少量示例属性值提取方法
本文介绍了一种基于搜索引擎的少量示例属性值提取方法,通过查询生成、候选值检测、统计分类与投票决策四个步骤,高效准确地从网络文本中提取实体属性值。该方法利用简单规则和少量标注数据训练分类器,在名人领域的中英文语料库实验中表现出高召回率和高精度,显著优于现有方法,适用于知识库构建、信息检索和智能问答系统等场景。原创 2025-10-12 11:38:22 · 18 阅读 · 0 评论 -
19、高效文本分类算法RSEB:解决时空复杂度难题
本文介绍了高效的文本分类算法RSEB,该算法针对在线多类别文本分类问题进行了优化,解决了传统算法在时空复杂度方面的难题。文章详细阐述了RSEB算法的原理、实现以及在电子邮件垃圾邮件过滤和中文网页文档分类中的应用效果。实验结果表明,RSEB算法在降低时空需求的同时,仍能保持先进的分类性能,适用于大规模实际应用。原创 2025-10-11 09:43:15 · 23 阅读 · 0 评论 -
18、结构化学习与文本分类算法的研究与实践
本文研究并实践了结构化学习中的分布式在线PA算法和文本分类中的随机抽样集成贝叶斯(RSEB)算法。分布式在线PA算法通过参数平均策略提升了测试准确率,有效避免过拟合,并在词性标注等任务中表现出高效性;RSEB算法利用词频的幂律分布特性,结合随机抽样学习,在大幅降低时空复杂度的同时保持优异的分类性能,适用于电子邮件垃圾邮件过滤、网页文档分类等在线多类别文本分类任务。实验结果验证了两种算法在准确率、效率和可扩展性方面的优势,未来可进一步扩展至更复杂的自然语言处理任务。原创 2025-10-10 16:34:35 · 22 阅读 · 0 评论 -
17、机器学习算法:从分类到结构化学习的高效解决方案
本文介绍了两种重要的机器学习算法:TPTSVM算法和在线分布式被动攻击算法。TPTSVM算法通过结合迁移学习和半监督学习,有效实现了知识从源领域到目标领域的转移,特别适合目标训练数据较少的情况。在线分布式被动攻击算法通过分布式实现,显著提升了结构化学习的训练效率,适用于大规模数据集和复杂的结构化任务。文章详细探讨了这两种算法的原理、优势、实验结果及其应用前景,并分析了面临的挑战与未来研究方向。原创 2025-10-09 11:45:36 · 18 阅读 · 0 评论 -
16、结合迁移学习的半监督学习:TPTSVM算法解析
本文提出了一种结合迁移学习与半监督学习的新型算法TPTSVM(Transfer Progressive Transductive Support Vector Machine),旨在解决训练数据稀缺及源域与目标域分布不一致的问题。该算法通过引入源域大量标注数据和目标域未标注数据,利用实例级与领域级的知识迁移机制,在迭代过程中动态调整样本权重,并选择最具置信度的未标注样本进行训练扩充。实验结果表明,TPTSVM在多种数据集上均优于传统SVM、TrAdaBoost等方法,尤其适用于小样本场景,能有效缓解负迁移并原创 2025-10-08 13:45:09 · 26 阅读 · 0 评论 -
15、屈折语共指标注研究结论与展望
本文探讨了屈折语(如波兰语)中共指标注的研究成果与未来方向。研究发现近同一概念在共指标注中不可靠,语义核心比句法核心更相关,并提出了主导表达式的新思路,同时重新审视了特定代词在共指链中的可能性。研究成果对高度屈折语言的共指标注具有重要意义,未来可在深度学习、多模态融合和跨语言处理等方向进一步拓展应用。原创 2025-10-07 15:47:55 · 22 阅读 · 0 评论 -
14、屈折语共指标注中的有趣语言特征
本文探讨了屈折语(以波兰语为例)在共指标注中的若干关键语言特征,包括语义中心词的选择、零主语现象的处理、代词共指的意外普遍性,以及标注过程中面临的挑战。研究发现,语义中心词标注具有高可靠性(97.00%),而近同一链接的标注一致性极低(κ0.222),凸显出定义模糊带来的困难。此外,原本被认为无指称性的不定代词等也频繁参与共指链,提示需重新审视其标注规则。基于对标注者间一致性的深入分析,文章提出了优化标注标准、规范输入和加强培训等改进建议,并展望了在自动共指消解、代词共指机制探索及标注方法完善方面的未来研究原创 2025-10-06 15:44:27 · 36 阅读 · 0 评论 -
13、屈折语共指标注中的有趣语言特征
本文探讨了屈折语中共指标注的多个语言特征,涵盖基础标注原则、新颖的标注维度如近同一关系与主导表达式,并对比分析二者在概念明确性、标注可靠性及实际应用价值上的差异。文章总结了不同语言(如阿拉伯语、汉语、波兰语等)在处理零主语问题上的方法,指出主导表达式具有较高标注一致性且具实用价值,而近同一关系因概念模糊导致标注困难,实用性存疑。最后提出未来在跨语言标注、人工智能辅助及知识图谱构建中的研究方向。原创 2025-10-05 09:48:35 · 29 阅读 · 0 评论 -
12、自然语言处理中的指代消解与空缺填充技术解析
本文探讨了自然语言处理中的指代消解与空缺填充技术,重点分析了确定零实例化的文档导向空缺填充方法及其在不同候选词集下的性能表现。通过实验对比,采用C1+C2+C3特征组合并在H3候选集下取得了最优F分数。同时,文章提出了针对波兰语等屈折语的共指标注模式创新,涵盖提及定义、共指簇构建及语义中心关注等方面,并与其他语言标注体系进行比较。最后,文章总结了当前系统的局限性,并提出了优化子任务流程、拓展特征信息及开发共指消解工具等未来研究方向。原创 2025-10-04 09:52:54 · 16 阅读 · 0 评论 -
11、面向文档的FrameNet确定空实例化缺口填充
本文研究了FrameNet中的确定空实例化(DNI)缺口填充问题,提出基于最大熵模型的分类方法。通过分析训练数据中DNI指称的分布与词性,构建合理的候选词集,并结合候选词、中心词及框架信息设计多类特征。实验在SemEval-2010 Task 10语料库上进行,结果表明组合所有特征可提升性能,但仍存在覆盖范围和多短语指称处理等改进空间。未来工作将聚焦于扩大上下文信息、优化特征提取与跨领域应用。原创 2025-10-03 13:15:09 · 22 阅读 · 0 评论 -
10、基于常见问题解答的交互式问答系统
本文提出了一种基于常见问题解答(FAQ)的交互式问答系统,通过排序学习方法(如Ranking SVM和SVM-MAP)对候选答案进行排序,并引入上下文特征以提升连续问答中的准确性。系统结合句法、语义和语用信息提取多维度特征,利用支持向量机判断主题连续性,并设计简单有效的用户交互模式,通过用户满意度反馈优化答案选择。实验结果表明,SVM-MAP在排序性能上优于Ranking SVM,上下文特征显著提升系统表现,70%的用户对初始答案满意,其中66.7%的不满用户在接受新答案后得到满足。该方案为交互式问答提供了原创 2025-10-02 12:34:39 · 38 阅读 · 0 评论 -
9、中文分词技术:多源双语信息融合与性能优化
本文系统探讨了多种创新的中文分词技术,重点分析了多源双语信息融合在提升分词性能中的作用。针对传统单语分词方法在未登录词识别、跨领域适应和机器翻译应用中的不足,文章介绍了基于部分标注数据、自然块挖掘、人机交互、字符抽象与聚类、无监督学习及联合双语建模等多种先进方法。通过实验数据对比,展示了各类方法在不同场景下的优势与改进效果,并深入解析了多源信息融合的联合模型与迭代优化算法。最后,结合实际应用需求,提出了方法选择的关键考量因素,为中文分词技术的发展与应用提供了全面的技术参考和未来研究方向。原创 2025-10-01 14:20:58 · 30 阅读 · 0 评论 -
8、统计机器翻译中集成多源双语信息的中文分词方法
本文提出了一种集成多源双语信息的中文分词方法,旨在解决统计机器翻译(SMT)中传统单语分词方法存在的歧义处理差、未登录词识别错误多等问题。通过结合基于CRF和N-元语言模型的候选分词生成,构建联合翻译模型,融合基于词的翻译概率、命名实体音译模型以及英-汉词典与同义词词典信息,并设计迭代算法优化分词结果。实验结果表明,该方法在分词F-score和翻译BLEU-4分数上均显著优于基线系统,有效提升了中文分词准确性和翻译质量,具有广泛的应用前景。原创 2025-09-30 15:52:28 · 19 阅读 · 0 评论 -
7、中文分词技术的优化与创新:基于HDP模型与字符聚类的方法
本文探讨了两种优化中文分词的技术:基于改进层次狄利克雷过程(HDP)模型的无监督分词方法和利用字符聚类的半监督学习方法。通过引入更优的初始分词策略,HDP模型在多个数据集上显著提升了分词性能并加快了收敛速度;而结合上下文信息的二元、三元字符聚类被证明能有效增强基于字符的分词系统。实验结果显示,融合互信息与字符聚类特征可进一步提高F1分数。文章还提出了两种方法结合使用的流程,并展望了跨领域应用、复杂语言现象处理及计算效率优化等未来研究方向。原创 2025-09-29 16:03:13 · 40 阅读 · 0 评论 -
6、中文分词:基于字符抽象与改进HDP模型的探索
本文探讨了中文分词中的字符抽象方法与基于HDP(Hierarchical Dirichlet Process)的无监督分词模型,针对传统HDP模型在分词性能上的局限,提出了两项改进:一是通过构建高频词字典来改进基测度,提升词概率估计的准确性;二是利用先进无监督模型的分词结果优化HDP的初始状态,加快收敛并提高分词质量。实验在PKU和MSRA数据集上验证了改进后模型的有效性,结果表明其在F分数上优于nVBE、互信息等基准模型。未来可进一步探索更优的抽象特征与先验知识融合方式。原创 2025-09-28 09:48:12 · 25 阅读 · 0 评论 -
5、古汉语与人机交互分词及中文分词字符抽象技术
本文探讨了古汉语人机交互分词与中文分词字符抽象技术。在古汉语分词方面,改进的统计模型和基于卡尔曼滤波的人机交互方法显著提升了分词准确率与精确率,尤其在同质语料上表现优异,并展现出良好的泛化能力。针对中文分词中的未登录词问题,提出基于半监督K-均值聚类的字符抽象技术,利用HowNet语义引导,将相似语义字符聚类,有效提升分词性能,实验显示F1值和OOV召回率均有显著提高。未来方向包括融合多维度语言信息、跨文化应用以及结合深度学习优化聚类算法。两项技术为古籍数字化、自然语言处理等领域提供了有力支持。原创 2025-09-27 09:00:46 · 27 阅读 · 0 评论 -
4、古代汉语文本的人机交互分词系统研究
本文提出了一种面向古代汉语文本的人机交互分词系统,结合改进的统计模型与卡尔曼滤波器技术,有效解决了古代汉语缺乏标准分词规范和标注语料不足的问题。系统通过引入互信息权重、二元组重复度和结构词优化策略,提升了无监督分词的准确性;利用卡尔曼滤波器建模用户干预过程,实现对用户意图的学习与自适应调整,显著减少人工干预次数。实验结果表明,该方法在《史记》和《宋史》语料上取得了良好的分词效果,具有较高的应用价值,适用于古代文献研究、文化传承教育及信息检索等领域,并为未来多语言支持与多技术融合提供了可行方向。原创 2025-09-26 10:19:40 · 23 阅读 · 0 评论 -
3、基于大规模语料自然标注的中文自然块研究
本文提出了一种基于大规模语料自然标注的中文自然块研究方法,旨在通过显式和隐式边界信息载体(BIC)挖掘语言单位的边界特征。自然块作为具有完整性、稳定性、明显边界和面向应用的语言单位,能够在统一框架下支持中文分词、韵律短语识别等多种NLP任务。实验结果表明,利用标点等显式BIC进行边界建模可显著提升分词准确率与F-0.5值,验证了该方法在跨领域语言边界识别中的有效性与潜力。原创 2025-09-25 09:10:00 · 22 阅读 · 0 评论 -
2、利用部分标注句子改进中文分词
本文提出了一种利用部分标注句子改进中文分词的方法,通过自训练与分布式学习相结合的方式,有效融合完全标注数据与来自异构语料库、维基文本等的部分标注数据。算法在迭代中逐步将高置信度的样本从部分标注集迁移到完全标注集,并限制解码搜索空间以提升模型性能。实验表明,该方法能显著提高分词F1值,尤其在处理大规模数据时表现出良好的收敛性与效率。此外,该方法具有较强的领域适应潜力,可为中文分词及其他NLP任务提供可行的半监督解决方案。原创 2025-09-24 12:10:29 · 44 阅读 · 0 评论 -
1、自然语言处理会议与中文分词技术解析
本文介绍了第12届中国计算语言学全国会议(CCL)和第一届基于自然标注大数据的自然语言处理国际研讨会(NLP-NABD)的主要内容,重点解析了利用部分标注句子改进中文分词的技术。文章阐述了会议的组织架构、论文录用情况,并详细说明了一种基于改进感知机算法的学习方法,该方法可从部分标注数据中进行监督与半监督学习,有效提升中文分词性能。实验表明,利用网民提供的自然标注数据能显著增强模型效果。研究为中文分词提供了新思路,展现了NLP领域数据驱动、跨领域融合与实际应用拓展的发展趋势。原创 2025-09-23 13:42:00 · 61 阅读 · 0 评论
分享