从出版物数据中发现专业领域
1. 引言
在现有的系统中,用于定位专家的数据源包括电子邮件、公告板、网页、程序代码和技术报告等。目前已经开发了一个名为 “Who Knows?” 的原型系统,并对提出的解决方案的部分组件进行了实现和测试,作为初步的概念验证。后续将评估从人工制品中捕获初始数据并让专家验证结果的可行性。在更大的框架下,会采用更复杂的自动化方法,利用多种输入,如个人网页、项目/资助存储库、引文索引和出版物数据库等。从长远来看,打算创建一个类似 WEKA 的工具包或工作台,整合该领域的不同工作。短期内,为了进行概念验证,使用了简单的文本分析方法和内部数据源,即大学内所有人员的出版物、资助和影响因子的集合。
2. 评估自动专业知识获取
2.1 IRIS 系统介绍
麦考瑞大学的研究办公室(RO)运行并维护着集成研究信息系统(IRIS),要求工作人员从 2001 年(系统首次投入使用的年份)起输入所有出版物的信息。该系统还会存储每个工作人员的研究项目和资助(已接受和被拒绝的)信息。工作人员可以在其个人资料中提名与他们的专业领域相对应的 RFCD(研究领域、课程和学科)代码,以及他们在每个领域的专业程度百分比。
2.2 RFCD 代码
RFCD 代码由澳大利亚研究委员会(ARC)发布,用于统一分类高等教育领域的研究和开发活动及其他活动。这些代码分为不同的部门,例如 250000 - 化学科学、260000 - 地球科学、420000 - 语言与文化和 280000 - 信息、计算与通信科学等,每个部门又进一步细分为子部门,如 280101 - 信息系统组织和 280102 - 信息系统管理是信息、计算与通信科学