语料库
文章平均质量分 85
PythonFun
Python编程爱好者,专注于Python基础入门学习,程序软件设计。
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
AntConc词频统计之谜:67个the去哪了?
摘要:研究发现AntConc新旧版本在词频统计上存在差异,如3.2.4w版统计"the"为661次,而4.0版为728次。经交叉验证发现旧版本存在词形归一化缺陷,未统计"THE"和"The"变形形式。研究表明语料库分析的可靠性取决于工具版本和方法,建议使用最新版软件并采用多工具交叉验证以确保数据准确性。这一问题揭示了软件迭代中算法变更对研究结果的影响,提醒研究者需重视工具版本的选择。原创 2025-11-14 08:03:02 · 309 阅读 · 0 评论 -
双语语料格式转换:WPS表格的三种高效方法
本文介绍了在WPS表格中实现双语语料上下对照与左右对照格式转换的三种方法:1)查找替换法,通过单元格引用实现行列转换;2)公式法,利用INDEX函数精准控制数据位置;3)VBA法,编写自动化程序一键完成转换。每种方法都配有详细的操作步骤和注意事项,适用于制作翻译记忆库、适配CAT工具等场景。文章强调合理利用工具可提升语料处理效率,实现从数据处理到工具驾驭的跨越。原创 2025-11-14 07:38:09 · 747 阅读 · 0 评论 -
用AI开发HTML双语阅读工具助力英语阅读
本文介绍了一款针对大学英语教学开发的双语阅读工具。该工具通过HTML网页实现,主要功能包括:1)导入双语语料库并以不同颜色间隔显示原文和译文;2)支持一键切换双语显示位置;3)可播放配套音频;4)提供单词标注功能。开发过程涉及语料清洗、句对齐处理、API调用等技术环节,最终通过ChatGPT生成HTML代码实现可视化界面。该工具整合了文字、音频、注释等教学资源,有助于提升学生英语自主学习效率,同时也展示了人工智能技术在教育领域的应用潜力。原创 2025-09-21 12:05:01 · 591 阅读 · 0 评论 -
Python在语料库建设中的应用:文本收集、数据清理与文件名管理
本文介绍了如何利用Python自动化构建四级考试语料库。针对文本收集、格式转换、清理和命名规范等常见问题,展示了使用pathlib、正则表达式等工具实现批量处理的方法。通过具体案例演示了如何将分散的Word真题文件自动转换为规范的txt格式,清理冗余内容,统一文件名格式,最终形成结构清晰、命名规范的语料库。整个过程体现了Python在语料库建设中的高效性和专业性,帮助研究者将精力集中在语言分析而非繁琐的文件管理上。文章还强调了借助AI工具可以更轻松地生成所需代码,大大提升语料库建设效率。原创 2025-08-26 21:58:53 · 854 阅读 · 0 评论 -
备战四级,别再从abandon开始!基于词库对比的高效刷词攻略
【摘要】本文通过Python程序分析初中、高中和四六级词汇表的差异,发现四级词汇中94%与高中词汇重合,但仍有3827个新增词汇需重点攻克。文章建议:1.分层记忆核心基础词(1407个);2.分阶段学习新增词汇(3905个);3.构建词缀网络和主题词汇群;4.通过阅读强化语境记忆。数据表明,四级词汇量是初中的4.3倍,建议采用系统性学习策略,每日坚持50词,结合应用练习,以应对词汇量激增的挑战。原创 2025-08-24 17:18:42 · 978 阅读 · 0 评论 -
Python中如何利用正则检索单词、搭配和句型
正则表达式功能强大,但是需要使用支持正则表达式的工具才能检索。支持正则表达式的工具有AntConc, Emeditor, Editpad, PowerGrep,EditPlus等语料库软件和文本处理软件。我们这里在设置软件时,提前加了\b,而在其它软件中则有可能需要加\b。学习正则推荐下载EditPad。我们检索过的语料都是通过提前处理的,把所有句子都断开后,转化为json格式文件才可以供Python软件检索。原创 2024-04-03 09:07:28 · 1463 阅读 · 0 评论 -
语料库应用入门知识
主要介绍语料库的概念、功能、意义和基础的方法。5. 常用的语料库语言学研究方法有哪些?1. 什么是语料库?4. 常见的语料库工具有哪些?2. 语料库的分类有哪些?3. 语料库有什么功能?原创 2023-10-14 20:29:28 · 2834 阅读 · 0 评论
分享