26、从出版物数据中发现专业领域

tech5

于 2025-07-15 15:04:36 发布

阅读量42

点赞数

CC 4.0 BY-SA版权

分类专栏： AI讲义：知识获取与应用探索

本文链接：https://blog.youkuaiyun.com/tech5/article/details/149374873

AI讲义：知识获取与应用探索专栏收录该内容

27 篇文章 ¥499.90

订阅专栏¥69.90

会员秒杀 ¥9.9 重磅福利

超级会员免费看

从出版物数据中发现专业领域

1. 引言

在现有的系统中，用于定位专家的数据源包括电子邮件、公告板、网页、程序代码和技术报告等。目前已经开发了一个名为 “Who Knows?” 的原型系统，并对提出的解决方案的部分组件进行了实现和测试，作为初步的概念验证。后续将评估从人工制品中捕获初始数据并让专家验证结果的可行性。在更大的框架下，会采用更复杂的自动化方法，利用多种输入，如个人网页、项目/资助存储库、引文索引和出版物数据库等。从长远来看，打算创建一个类似 WEKA 的工具包或工作台，整合该领域的不同工作。短期内，为了进行概念验证，使用了简单的文本分析方法和内部数据源，即大学内所有人员的出版物、资助和影响因子的集合。

2. 评估自动专业知识获取

2.1 IRIS 系统介绍

麦考瑞大学的研究办公室（RO）运行并维护着集成研究信息系统（IRIS），要求工作人员从 2001 年（系统首次投入使用的年份）起输入所有出版物的信息。该系统还会存储每个工作人员的研究项目和资助（已接受和被拒绝的）信息。工作人员可以在其个人资料中提名与他们的专业领域相对应的 RFCD（研究领域、课程和学科）代码，以及他们在每个领域的专业程度百分比。

2.2 RFCD 代码

RFCD 代码由澳大利亚研究委员会（ARC）发布，用于统一分类高等教育领域的研究和开发活动及其他活动。这些代码分为不同的部门，例如 250000 - 化学科学、260000 - 地球科学、420000 - 语言与文化和 280000 - 信息、计算与通信科学等，每个部门又进一步细分为子部门，如 280101 - 信息系统组织和 280102 - 信息系统管理是信息、计算与通信科学的子部门。

2.3 利用出版物数据分类专家

由于很少有工作人员输入 RFCD 代码数据，无法直接从 IRIS 中获取该信息。如果能够自动为专家定位 RFCD 代码，不仅可以为原型系统中每个专家的个人资料提供有用的补充，还能让专家更真实地了解自己的专业领域。因此，选择使用 IRIS 中的出版物数据为每个出版物分配 RFCD 代码，然后根据每个工作人员的出版物的 RFCD 代码为其分配相应的代码。IRIS 中的出版物信息包括出版物名称、所属出版物名称、作者姓名、主要所属部门和出版年份等，但不包括论文摘要、相关关键词或论文的在线位置。

2.4 方法论

2.4.1 任务步骤

使用简单的字符串匹配算法，将 RFCD 代码与论文标题和出版物标题进行匹配，检查 RFCD 代码标题中的关键词是否出现在出版物或论文的标题中（本研究仅针对计算机系的出版物）。
用找到的主要 RFCD 代码对每个工作人员进行分类（本研究在较小的部门级别进行分类，而非子部门级别或主要部门级别）。
与自我报告的代码进行核对，需要请求计算机系的成员协助，让他们用 RFCD 代码对自己的兴趣领域进行分类。
记录同意自动找到的代码的专家的百分比。

2.4.2 匹配 RFCD 代码与论文和出版物标题

这一过程分为几个阶段：
1. 从保存 IRIS 出版物数据的 XML 文件中收集相关数据，仅考虑计算机系人员撰写的论文，提取论文（或书籍）标题、所属出版物标题和作者列表。
2. 收集麦考瑞大学计算机系当前工作人员的姓名，排除没有出版物的工作人员和没有计算机系人员作为作者的出版物，得到一个将工作人员与他们撰写、合著或编辑的出版物关联起来的 Python 字典。
3. 从澳大利亚统计局网站收集相关的 RFCD 代码，由于在新代码发布之前进行收集，匹配使用的部门为 280000 - 信息、计算与通信科学。为了测试 IRIS 出版物数据中哪些信息能提供最准确和可预测的分类，对每个工作人员的文档进行了 3 次分类，分别仅使用论文（或书籍）标题、所属出版物标题以及两者结合。

匹配 RFCD 代码与论文或出版物标题的过程如下：将每个 RFCD 代码拆分为单词，使用简单的字符串搜索测试每个单词是否出现在标题中。除了 “computer” 这个常见单词，因为它会产生太多误匹配。还对字符串匹配过程进行了微调，以匹配具有相同词根的单词，通过创建一个包含 RFCD 代码中术语和可能出现在出版物标题中的相关单词的本体来实现，例如：

"simulation": ["simulating", "simulate", "simulations"],
"analysis": ["analyse", "analysing"],
"representations": ["representing", "representative"],
"encryption": ["encrypting", "cryptography", "encoding",  
"decryption",    "decoding", "cryptology"],
"security": ["secure", "unsecure", "secret"],

该本体还将 RFCD 代码中的术语与指代相似概念的单词进行匹配，例如 “expert” 与 “knowledge - based” 匹配。

2.5 分类

在将出版物标题与 RFCD 代码匹配的初始过程中，尝试为每个工作人员的出版物匹配一个或多个 RFCD 代码。每个出版物平均有三组相关代码：仅基于论文或书籍标题匹配的代码、基于所属出版物标题匹配的代码以及基于两者标题匹配的代码。由于关注的是对工作人员的专业领域进行分类，需要将单个结果汇总，为每个工作人员提供总体的专业分类。为了简化输出，在部门级别（如 280100 - 信息系统）而不是子部门级别对工作人员的专业领域进行分类。同时，调整每个部门的匹配数量，以反映标题中产生匹配的单词比例。最终的分类输出为每个专家提供三组分类结果：基于论文标题匹配的部门 RFCD 代码及其数量、基于所属出版物标题匹配的代码以及基于两者标题匹配的代码。

2.6 验证结果

自动对每个工作人员的专业领域进行分类后，需要让工作人员查看分类结果并接受或拒绝。选择了 20 名出版物数量超过 10 篇的工作人员，向他们发送结果，要求他们指出哪些是正确的，哪些是错误的，并从提供的列表中选择最能准确代表其研究领域的 RFCD 代码。2008 年 3 月 31 日，发布了一组新的 RFCD 代码，从 4 月 1 日起使用。由于已经向所有 20 名工作人员发送了包含旧代码的电子邮件，且有 10 人已经回复，决定对剩下的 10 名工作人员使用新代码进行分类并重新发送结果。所使用的算法可以同样轻松地使用新代码对工作人员的出版物进行分类。由于新代码的引入较新，许多系统和机构仍在使用旧代码，短期内对旧代码进行分类仍然相关。此外，对新旧代码进行分类可能有助于了解哪组代码能更准确地对工作人员进行分类。

2.7 结果

计算机系有 57 名工作人员在 IRIS 中有出版物数据。不同分类方法对论文的分类情况如下表所示：
|分类方法|均值|标准差|中位数|众数|最大值|最小值|
| ---- | ---- | ---- | ---- | ---- | ---- | ---- |
|仅论文标题（旧代码）|70.55%|26.47%|71.79%|100.00%|100.00%|0.00%|
|仅出版物标题（旧代码）|88.26%|18.35%|95.45%|100.00%|100.00%|0.00%|
|论文和出版物标题（旧代码）|96.04%|6.59%|100.00%|100.00%|100.00%|75.00%|
|仅论文标题（新代码）|71.96%|26.65%|75.00%|100.00%|100.00%|0.00%|
|仅出版物标题（新代码）|88.26%|18.35%|95.45%|100.00%|100.00%|0.00%|
|论文和出版物标题（新代码）|96.15%|6.48%|100.00%|100.00%|100.00%|75.00%|

从表中可以看出，使用论文和出版物标题进行分类平均能分类更多的文档，其次是仅使用出版物标题，仅使用论文标题的分类效果最差。Wilcoxon 符号秩检验结果如下表所示：
|分类方法 1 (x)|分类方法 2 (y)|W|ns/r|P(1 - 尾)|P(2 - 尾)|z|
| ---- | ---- | ---- | ---- | ---- | ---- | ---- |
|论文标题|出版物标题|-481|36|0.0001|0.0002|-3.77|
|论文标题|论文和出版物标题|-780|39|<.0001|<.0001|-5.44|
|出版物标题|论文和出版物标题|-276|23|<.0001|<.0001|-4.19|

这表明三种方法在平均分类文档数量上有显著差异，至少对于计算机系工作人员撰写的出版物，除了论文或书籍标题外，还需要更多关于出版物的信息。因为论文或书籍标题通常会有一定的创意，可能不容易与领域相关联，而会议和期刊标题通常会包含特定领域的关键词。

2.8 测试相似单词字典

还测试了 RFCD 代码中的单词与具有相同词根或指代相似概念的单词组成的字典是否能比不使用该字典分类更多的文档。结果显示，使用旧代码时，在大多数情况下，使用相似单词字典能分类更多的论文，平均比不使用时多分类 32.24% 的论文；使用新代码时，在大多数情况下，两种方法分类的文档数量相等或非常相似，使用相似单词字典平均仅比不使用时多分类 2.83% 的论文。这表明新的 RFCD 代码（至少在使用的部门中）在分类数量方面更适合分类任务。

mermaid 流程图如下：

graph LR
    A[收集 IRIS 出版物数据] --> B[提取计算机系论文信息]
    B --> C[收集计算机系工作人员姓名]
    C --> D[排除无出版物人员和无关出版物]
    D --> E[收集 RFCD 代码]
    E --> F[进行三次分类]
    F --> G[匹配 RFCD 代码与标题]
    G --> H[调整匹配数量]
    H --> I[汇总分类结果]
    I --> J[工作人员验证结果]

综上所述，通过对计算机系工作人员的出版物数据进行分析，利用 RFCD 代码对其专业领域进行分类，并对分类结果进行验证和测试，发现使用论文和出版物标题进行分类效果最佳，新的 RFCD 代码在分类任务中表现更优，相似单词字典在使用旧代码时能显著提高分类数量。

3. 深入分析与启示

3.1 分类方法效果差异原因

从前面的结果可知，仅论文标题分类效果最差，论文和出版物标题结合分类效果最佳。其原因在于论文标题往往为了吸引读者，会采用一些富有创意但与专业领域关联不紧密的表述，例如 “Training for High Risk Situations” 这样的标题，很难直接从中判断出具体的专业领域。而出版物标题，如会议和期刊标题，通常会包含特定领域的关键词，像 “Proceedings of Fourth International Joint Conference on Autonomous Agents and Multi Agent Systems” ，能更直接地反映出专业领域信息。所以，在进行专业领域分类时，综合考虑论文和出版物标题能获取更全面、准确的信息。

3.2 新旧 RFCD 代码对比

新的 RFCD 代码在分类任务中表现更优，尤其是在使用相似单词字典时，新代码下使用字典和不使用字典分类的文档数量差异较小。这说明新代码本身的设计更加合理，其标题中的术语与出版物中的表述更加契合，减少了对相似单词字典的依赖。而旧代码可能由于设计的局限性，需要借助相似单词字典来提高分类的准确性。从长远来看，随着各系统和机构逐渐采用新的 RFCD 代码，分类工作将更加高效和准确。

3.3 相似单词字典的作用

相似单词字典在旧代码分类中起到了显著的作用，平均能多分类 32.24% 的论文。这表明在旧代码体系下，由于代码标题与出版物表述的差异较大，通过构建相似单词字典可以弥补这种差异，提高分类的覆盖率。但在新代码体系下，其作用相对减弱，仅能多分类 2.83% 的论文。不过，相似单词字典仍然具有一定的价值，它可以作为一种辅助手段，在某些特殊情况下提高分类的准确性。

3.4 对专家推荐系统的意义

将 RFCD 代码分类结果应用于专家推荐系统，可以为专家的个人资料提供更丰富、准确的专业领域信息。通过自动为专家定位 RFCD 代码，能够让推荐系统更精准地推荐合适的专家，提高专家匹配的效率和质量。例如，当有一个关于信息系统的项目需要专家参与时，推荐系统可以根据专家的 RFCD 代码分类结果，快速筛选出在信息系统领域有专业知识的专家。

4. 实际应用建议

4.1 数据收集与预处理

全面收集数据 ：在进行专业领域分类时，应尽可能收集更多关于出版物的信息，除了论文和出版物标题外，还应包括论文摘要、相关关键词等。这些信息可以为分类提供更多的依据，提高分类的准确性。
数据清洗 ：对收集到的数据进行清洗，去除无效信息和重复数据。例如，在收集工作人员姓名时，要确保姓名的准确性和一致性，避免因姓名拼写错误或重复导致的数据误差。

4.2 分类算法选择与优化

结合多种算法 ：可以尝试结合多种分类算法，如机器学习算法（如决策树、支持向量机等）和规则匹配算法（如本研究中的字符串匹配算法），以提高分类的准确性和稳定性。
优化相似单词字典 ：不断更新和优化相似单词字典，使其能够涵盖更多的相似概念和词根。可以通过收集更多的出版物数据，分析其中的术语和表述，来扩充字典的内容。

4.3 专家验证与反馈

定期验证 ：定期让专家对分类结果进行验证和反馈，及时发现分类中存在的问题并进行调整。例如，可以每半年或一年进行一次验证，确保分类结果的准确性。
建立反馈机制 ：建立专家反馈机制，鼓励专家提出自己的意见和建议。对于专家提出的合理建议，要及时采纳并对分类算法和字典进行优化。

5. 未来研究方向

5.1 跨部门分类研究

本研究仅针对计算机系的出版物进行分类，未来可以扩展到其他部门，研究如何在不同部门之间进行统一的专业领域分类。这需要考虑不同部门的专业特点和术语差异，开发更通用的分类算法和字典。

5.2 引入更多数据源

除了出版物数据外，还可以引入其他数据源，如科研项目数据、专利数据等，以更全面地了解专家的专业领域。通过整合多种数据源，可以提高分类的准确性和可靠性。

5.3 智能化分类系统开发

利用人工智能技术，开发智能化的专业领域分类系统。该系统可以自动学习和优化分类算法，根据不同的数据源和分类需求，动态调整分类策略，提高分类的效率和准确性。

6. 总结

通过对计算机系工作人员出版物数据的分析，利用 RFCD 代码进行专业领域分类的研究取得了一定的成果。研究发现，结合论文和出版物标题进行分类效果最佳，新的 RFCD 代码在分类任务中表现更优，相似单词字典在旧代码分类中能显著提高分类数量。同时，对分类方法的效果差异、新旧代码对比、相似单词字典的作用等进行了深入分析，并提出了实际应用建议和未来研究方向。未来的研究可以进一步拓展分类的范围和数据源，开发更智能化的分类系统，为专家推荐系统和科研管理提供更有力的支持。

以下是一个总结表格，展示了不同方面的研究结果和建议：
|方面|研究结果|建议|
| ---- | ---- | ---- |
|分类方法|论文和出版物标题结合分类效果最佳，仅论文标题分类效果最差|综合考虑论文和出版物标题，同时收集更多出版物信息|
|新旧 RFCD 代码|新代码在分类数量方面更适合分类任务|各系统和机构逐渐采用新代码|
|相似单词字典|旧代码下能显著提高分类数量，新代码下作用相对减弱|不断更新和优化字典，作为辅助手段使用|
|实际应用|数据收集、算法选择和专家验证对分类结果有重要影响|全面收集数据，结合多种算法，定期进行专家验证|

mermaid 流程图展示未来研究方向：

graph LR
    A[跨部门分类研究] --> B[开发通用分类算法和字典]
    C[引入更多数据源] --> D[整合多种数据源提高准确性]
    E[智能化分类系统开发] --> F[自动学习和优化分类算法]
    B --> G[拓展分类范围]
    D --> G
    F --> G

通过以上的研究和分析，我们对从出版物数据中发现专业领域有了更深入的认识，为相关领域的研究和实践提供了有价值的参考。