26、从出版物数据中发现专业领域

从出版物数据中发现专业领域

1. 引言

在现有的系统中,用于定位专家的数据源包括电子邮件、公告板、网页、程序代码和技术报告等。目前已经开发了一个名为 “Who Knows?” 的原型系统,并对提出的解决方案的部分组件进行了实现和测试,作为初步的概念验证。后续将评估从人工制品中捕获初始数据并让专家验证结果的可行性。在更大的框架下,会采用更复杂的自动化方法,利用多种输入,如个人网页、项目/资助存储库、引文索引和出版物数据库等。从长远来看,打算创建一个类似 WEKA 的工具包或工作台,整合该领域的不同工作。短期内,为了进行概念验证,使用了简单的文本分析方法和内部数据源,即大学内所有人员的出版物、资助和影响因子的集合。

2. 评估自动专业知识获取

2.1 IRIS 系统介绍

麦考瑞大学的研究办公室(RO)运行并维护着集成研究信息系统(IRIS),要求工作人员从 2001 年(系统首次投入使用的年份)起输入所有出版物的信息。该系统还会存储每个工作人员的研究项目和资助(已接受和被拒绝的)信息。工作人员可以在其个人资料中提名与他们的专业领域相对应的 RFCD(研究领域、课程和学科)代码,以及他们在每个领域的专业程度百分比。

2.2 RFCD 代码

RFCD 代码由澳大利亚研究委员会(ARC)发布,用于统一分类高等教育领域的研究和开发活动及其他活动。这些代码分为不同的部门,例如 250000 - 化学科学、260000 - 地球科学、420000 - 语言与文化和 280000 - 信息、计算与通信科学等,每个部门又进一步细分为子部门,如 280101 - 信息系统组织和 280102 - 信息系统管理是信息、计算与通信科学的子部门。

2.3 利用出版物数据分类专家

由于很少有工作人员输入 RFCD 代码数据,无法直接从 IRIS 中获取该信息。如果能够自动为专家定位 RFCD 代码,不仅可以为原型系统中每个专家的个人资料提供有用的补充,还能让专家更真实地了解自己的专业领域。因此,选择使用 IRIS 中的出版物数据为每个出版物分配 RFCD 代码,然后根据每个工作人员的出版物的 RFCD 代码为其分配相应的代码。IRIS 中的出版物信息包括出版物名称、所属出版物名称、作者姓名、主要所属部门和出版年份等,但不包括论文摘要、相关关键词或论文的在线位置。

2.4 方法论

2.4.1 任务步骤
  1. 使用简单的字符串匹配算法,将 RFCD 代码与论文标题和出版物标题进行匹配,检查 RFCD 代码标题中的关键词是否出现在出版物或论文的标题中(本研究仅针对计算机系的出版物)。
  2. 用找到的主要 RFCD 代码对每个工作人员进行分类(本研究在较小的部门级别进行分类,而非子部门级别或主要部门级别)。
  3. 与自我报告的代码进行核对,需要请求计算机系的成员协助,让他们用 RFCD 代码对自己的兴趣领域进行分类。
  4. 记录同意自动找到的代码的专家的百分比。
2.4.2 匹配 RFCD 代码与论文和出版物标题

这一过程分为几个阶段:
1. 从保存 IRIS 出版物数据的 XML 文件中收集相关数据,仅考虑计算机系人员撰写的论文,提取论文(或书籍)标题、所属出版物标题和作者列表。
2. 收集麦考瑞大学计算机系当前工作人员的姓名,排除没有出版物的工作人员和没有计算机系人员作为作者的出版物,得到一个将工作人员与他们撰写、合著或编辑的出版物关联起来的 Python 字典。
3. 从澳大利亚统计局网站收集相关的 RFCD 代码,由于在新代码发布之前进行收集,匹配使用的部门为 280000 - 信息、计算与通信科学。为了测试 IRIS 出版物数据中哪些信息能提供最准确和可预测的分类,对每个工作人员的文档进行了 3 次分类,分别仅使用论文(或书籍)标题、所属出版物标题以及两者结合。

匹配 RFCD 代码与论文或出版物标题的过程如下:将每个 RFCD 代码拆分为单词,使用简单的字符串搜索测试每个单词是否出现在标题中。除了 “computer” 这个常见单词,因为它会产生太多误匹配。还对字符串匹配过程进行了微调,以匹配具有相同词根的单词,通过创建一个包含 RFCD 代码中术语和可能出现在出版物标题中的相关单词的本体来实现,例如:

"simulation": ["simulating", "simulate", "simulations"],
"analysis": ["analyse", "analysing"],
"representations": ["representing", "representative"],
"encryption": ["encrypting", "cryptography", "encoding",  
"decryption",    "decoding", "cryptology"],
"security": ["secure", "unsecure", "secret"],

该本体还将 RFCD 代码中的术语与指代相似概念的单词进行匹配,例如 “expert” 与 “knowledge - based” 匹配。

2.5 分类

在将出版物标题与 RFCD 代码匹配的初始过程中,尝试为每个工作人员的出版物匹配一个或多个 RFCD 代码。每个出版物平均有三组相关代码:仅基于论文或书籍标题匹配的代码、基于所属出版物标题匹配的代码以及基于两者标题匹配的代码。由于关注的是对工作人员的专业领域进行分类,需要将单个结果汇总,为每个工作人员提供总体的专业分类。为了简化输出,在部门级别(如 280100 - 信息系统)而不是子部门级别对工作人员的专业领域进行分类。同时,调整每个部门的匹配数量,以反映标题中产生匹配的单词比例。最终的分类输出为每个专家提供三组分类结果:基于论文标题匹配的部门 RFCD 代码及其数量、基于所属出版物标题匹配的代码以及基于两者标题匹配的代码。

2.6 验证结果

自动对每个工作人员的专业领域进行分类后,需要让工作人员查看分类结果并接受或拒绝。选择了 20 名出版物数量超过 10 篇的工作人员,向他们发送结果,要求他们指出哪些是正确的,哪些是错误的,并从提供的列表中选择最能准确代表其研究领域的 RFCD 代码。2008 年 3 月 31 日,发布了一组新的 RFCD 代码,从 4 月 1 日起使用。由于已经向所有 20 名工作人员发送了包含旧代码的电子邮件,且有 10 人已经回复,决定对剩下的 10 名工作人员使用新代码进行分类并重新发送结果。所使用的算法可以同样轻松地使用新代码对工作人员的出版物进行分类。由于新代码的引入较新,许多系统和机构仍在使用旧代码,短期内对旧代码进行分类仍然相关。此外,对新旧代码进行分类可能有助于了解哪组代码能更准确地对工作人员进行分类。

2.7 结果

计算机系有 57 名工作人员在 IRIS 中有出版物数据。不同分类方法对论文的分类情况如下表所示:
|分类方法|均值|标准差|中位数|众数|最大值|最小值|
| ---- | ---- | ---- | ---- | ---- | ---- | ---- |
|仅论文标题(旧代码)|70.55%|26.47%|71.79%|100.00%|100.00%|0.00%|
|仅出版物标题(旧代码)|88.26%|18.35%|95.45%|100.00%|100.00%|0.00%|
|论文和出版物标题(旧代码)|96.04%|6.59%|100.00%|100.00%|100.00%|75.00%|
|仅论文标题(新代码)|71.96%|26.65%|75.00%|100.00%|100.00%|0.00%|
|仅出版物标题(新代码)|88.26%|18.35%|95.45%|100.00%|100.00%|0.00%|
|论文和出版物标题(新代码)|96.15%|6.48%|100.00%|100.00%|100.00%|75.00%|

从表中可以看出,使用论文和出版物标题进行分类平均能分类更多的文档,其次是仅使用出版物标题,仅使用论文标题的分类效果最差。Wilcoxon 符号秩检验结果如下表所示:
|分类方法 1 (x)|分类方法 2 (y)|W|ns/r|P(1 - 尾)|P(2 - 尾)|z|
| ---- | ---- | ---- | ---- | ---- | ---- | ---- |
|论文标题|出版物标题|-481|36|0.0001|0.0002|-3.77|
|论文标题|论文和出版物标题|-780|39|<.0001|<.0001|-5.44|
|出版物标题|论文和出版物标题|-276|23|<.0001|<.0001|-4.19|

这表明三种方法在平均分类文档数量上有显著差异,至少对于计算机系工作人员撰写的出版物,除了论文或书籍标题外,还需要更多关于出版物的信息。因为论文或书籍标题通常会有一定的创意,可能不容易与领域相关联,而会议和期刊标题通常会包含特定领域的关键词。

2.8 测试相似单词字典

还测试了 RFCD 代码中的单词与具有相同词根或指代相似概念的单词组成的字典是否能比不使用该字典分类更多的文档。结果显示,使用旧代码时,在大多数情况下,使用相似单词字典能分类更多的论文,平均比不使用时多分类 32.24% 的论文;使用新代码时,在大多数情况下,两种方法分类的文档数量相等或非常相似,使用相似单词字典平均仅比不使用时多分类 2.83% 的论文。这表明新的 RFCD 代码(至少在使用的部门中)在分类数量方面更适合分类任务。

mermaid 流程图如下:

graph LR
    A[收集 IRIS 出版物数据] --> B[提取计算机系论文信息]
    B --> C[收集计算机系工作人员姓名]
    C --> D[排除无出版物人员和无关出版物]
    D --> E[收集 RFCD 代码]
    E --> F[进行三次分类]
    F --> G[匹配 RFCD 代码与标题]
    G --> H[调整匹配数量]
    H --> I[汇总分类结果]
    I --> J[工作人员验证结果]

综上所述,通过对计算机系工作人员的出版物数据进行分析,利用 RFCD 代码对其专业领域进行分类,并对分类结果进行验证和测试,发现使用论文和出版物标题进行分类效果最佳,新的 RFCD 代码在分类任务中表现更优,相似单词字典在使用旧代码时能显著提高分类数量。

3. 深入分析与启示

3.1 分类方法效果差异原因

从前面的结果可知,仅论文标题分类效果最差,论文和出版物标题结合分类效果最佳。其原因在于论文标题往往为了吸引读者,会采用一些富有创意但与专业领域关联不紧密的表述,例如 “Training for High Risk Situations” 这样的标题,很难直接从中判断出具体的专业领域。而出版物标题,如会议和期刊标题,通常会包含特定领域的关键词,像 “Proceedings of Fourth International Joint Conference on Autonomous Agents and Multi Agent Systems” ,能更直接地反映出专业领域信息。所以,在进行专业领域分类时,综合考虑论文和出版物标题能获取更全面、准确的信息。

3.2 新旧 RFCD 代码对比

新的 RFCD 代码在分类任务中表现更优,尤其是在使用相似单词字典时,新代码下使用字典和不使用字典分类的文档数量差异较小。这说明新代码本身的设计更加合理,其标题中的术语与出版物中的表述更加契合,减少了对相似单词字典的依赖。而旧代码可能由于设计的局限性,需要借助相似单词字典来提高分类的准确性。从长远来看,随着各系统和机构逐渐采用新的 RFCD 代码,分类工作将更加高效和准确。

3.3 相似单词字典的作用

相似单词字典在旧代码分类中起到了显著的作用,平均能多分类 32.24% 的论文。这表明在旧代码体系下,由于代码标题与出版物表述的差异较大,通过构建相似单词字典可以弥补这种差异,提高分类的覆盖率。但在新代码体系下,其作用相对减弱,仅能多分类 2.83% 的论文。不过,相似单词字典仍然具有一定的价值,它可以作为一种辅助手段,在某些特殊情况下提高分类的准确性。

3.4 对专家推荐系统的意义

将 RFCD 代码分类结果应用于专家推荐系统,可以为专家的个人资料提供更丰富、准确的专业领域信息。通过自动为专家定位 RFCD 代码,能够让推荐系统更精准地推荐合适的专家,提高专家匹配的效率和质量。例如,当有一个关于信息系统的项目需要专家参与时,推荐系统可以根据专家的 RFCD 代码分类结果,快速筛选出在信息系统领域有专业知识的专家。

4. 实际应用建议

4.1 数据收集与预处理

  • 全面收集数据 :在进行专业领域分类时,应尽可能收集更多关于出版物的信息,除了论文和出版物标题外,还应包括论文摘要、相关关键词等。这些信息可以为分类提供更多的依据,提高分类的准确性。
  • 数据清洗 :对收集到的数据进行清洗,去除无效信息和重复数据。例如,在收集工作人员姓名时,要确保姓名的准确性和一致性,避免因姓名拼写错误或重复导致的数据误差。

4.2 分类算法选择与优化

  • 结合多种算法 :可以尝试结合多种分类算法,如机器学习算法(如决策树、支持向量机等)和规则匹配算法(如本研究中的字符串匹配算法),以提高分类的准确性和稳定性。
  • 优化相似单词字典 :不断更新和优化相似单词字典,使其能够涵盖更多的相似概念和词根。可以通过收集更多的出版物数据,分析其中的术语和表述,来扩充字典的内容。

4.3 专家验证与反馈

  • 定期验证 :定期让专家对分类结果进行验证和反馈,及时发现分类中存在的问题并进行调整。例如,可以每半年或一年进行一次验证,确保分类结果的准确性。
  • 建立反馈机制 :建立专家反馈机制,鼓励专家提出自己的意见和建议。对于专家提出的合理建议,要及时采纳并对分类算法和字典进行优化。

5. 未来研究方向

5.1 跨部门分类研究

本研究仅针对计算机系的出版物进行分类,未来可以扩展到其他部门,研究如何在不同部门之间进行统一的专业领域分类。这需要考虑不同部门的专业特点和术语差异,开发更通用的分类算法和字典。

5.2 引入更多数据源

除了出版物数据外,还可以引入其他数据源,如科研项目数据、专利数据等,以更全面地了解专家的专业领域。通过整合多种数据源,可以提高分类的准确性和可靠性。

5.3 智能化分类系统开发

利用人工智能技术,开发智能化的专业领域分类系统。该系统可以自动学习和优化分类算法,根据不同的数据源和分类需求,动态调整分类策略,提高分类的效率和准确性。

6. 总结

通过对计算机系工作人员出版物数据的分析,利用 RFCD 代码进行专业领域分类的研究取得了一定的成果。研究发现,结合论文和出版物标题进行分类效果最佳,新的 RFCD 代码在分类任务中表现更优,相似单词字典在旧代码分类中能显著提高分类数量。同时,对分类方法的效果差异、新旧代码对比、相似单词字典的作用等进行了深入分析,并提出了实际应用建议和未来研究方向。未来的研究可以进一步拓展分类的范围和数据源,开发更智能化的分类系统,为专家推荐系统和科研管理提供更有力的支持。

以下是一个总结表格,展示了不同方面的研究结果和建议:
|方面|研究结果|建议|
| ---- | ---- | ---- |
|分类方法|论文和出版物标题结合分类效果最佳,仅论文标题分类效果最差|综合考虑论文和出版物标题,同时收集更多出版物信息|
|新旧 RFCD 代码|新代码在分类数量方面更适合分类任务|各系统和机构逐渐采用新代码|
|相似单词字典|旧代码下能显著提高分类数量,新代码下作用相对减弱|不断更新和优化字典,作为辅助手段使用|
|实际应用|数据收集、算法选择和专家验证对分类结果有重要影响|全面收集数据,结合多种算法,定期进行专家验证|

mermaid 流程图展示未来研究方向:

graph LR
    A[跨部门分类研究] --> B[开发通用分类算法和字典]
    C[引入更多数据源] --> D[整合多种数据源提高准确性]
    E[智能化分类系统开发] --> F[自动学习和优化分类算法]
    B --> G[拓展分类范围]
    D --> G
    F --> G

通过以上的研究和分析,我们对从出版物数据中发现专业领域有了更深入的认识,为相关领域的研究和实践提供了有价值的参考。

本项目采用C++编程语言结合ROS框架构建了完整的双机械臂控制系统,实现了Gazebo仿真环境下的协同运动模拟,并完成了两台实体UR10工业机器人的联动控制。该毕业设计在答辩环节获得98分的优异成绩,所有程序代码均通过系统性调试验证,保证可直接部署运行。 系统架构包含三个核心模块:基于ROS通信架构的双臂协调控制器、Gazebo物理引擎下的动力学仿真环境、以及真实UR10机器人的硬件接口层。在仿真验证阶段,开发了双臂碰撞检测算法和轨迹规划模块,通过ROS控制包实现了末端执行器的同步轨迹跟踪。硬件集成方面,建立了基于TCP/IP协议的实时通信链路,解决了双机数据同步和运动指令分发等关键技术问题。 本资源适用于自动化、机械电子、人工智能等专业方向的课程实践,可作为高年级课程设计、毕业课题的重要参考案例。系统采用模块化设计理念,控制核心与硬件接口分离架构便于功能扩展,具备工程实践能力的学习者可在现有框架基础上进行二次开发,例如集成视觉感知模块或优化运动规划算法。 项目文档详细记录了环境配置流程、参数调试方法和实验验证数据,特别说明了双机协同作业时的时序同步解决方案。所有功能模块均提供完整的API接口说明,便于使用者快速理解系统架构并进行定制化修改。 资源来源于网络分享,仅用于学习交流使用,请勿用于商业,如有侵权请联系我删除!
【微电网】【创新点】基于非支配排序的蜣螂优化算法NSDBO求解微电网多目标优化调度研究(Matlab代码实现)内容概要:本文围绕基于非支配排序的蜣螂优化算法(NSDBO)在微电网多目标优化调度中的应用展开研究,提出了一种改进的智能优化算法以解决微电网系统中经济性、环保性和能源效率等多重目标之间的权衡问题。通过引入非支配排序机制,NSDBO能够有效处理多目标优化中的帕累托前沿搜索,提升解的多样性和收敛性,并结合Matlab代码实现仿真验证,展示了该算法在微电网调度中的优越性能和实际可行性。研究涵盖了微电网典型结构建模、目标函数构建及约束条件处理,实现了对风、光、储能及传统机组的协同优化调度。; 适合人群:具备一定电力系统基础知识和Matlab编程能力的研究生、科研人员及从事微电网、智能优化算法应用的工程技术人员;熟悉优化算法与能源系统调度的高年级本科生亦可参考。; 使用场景及目标:①应用于微电网多目标优化调度问题的研究与仿真,如成本最小化、碳排放最低与供电可靠性最高之间的平衡;②为新型智能优化算法(如蜣螂优化算法及其改进版本)的设计与验证提供实践案例,推动其在能源系统中的推广应用;③服务于学术论文复现、课题研究或毕业设计中的算法对比与性能测试。; 阅读建议:建议读者结合文中提供的Matlab代码进行实践操作,重点关注NSDBO算法的核心实现步骤与微电网模型的构建逻辑,同时可对比其他多目标算法(如NSGA-II、MOPSO)以深入理解其优势与局限,进一步开展算法改进或应用场景拓展。
内容概要:本文详细介绍了使用ENVI与SARscape软件进行DInSAR(差分干涉合成孔径雷达)技术处理的完整流程,涵盖从数据导入、预处理、干涉图生成、相位滤波与相干性分析、相位解缠、轨道精炼与重去平,到最终相位转形变及结果可视化在内的全部关键步骤。文中以Sentinel-1数据为例,系统阐述了各环节的操作方法与参数设置,特别强调了DEM的获取与处理、基线估算、自适应滤波算法选择、解缠算法优化及轨道精炼中GCP点的应用,确保最终获得高精度的地表形变信息。同时提供了常见问题的解决方案与实用技巧,增强了流程的可操作性和可靠性。; 适合人群:具备遥感与GIS基础知识,熟悉ENVI/SARscape软件操作,从事地质灾害监测、地表形变分析等相关领域的科研人员与技术人员;适合研究生及以上学历或具有相关项目经验的专业人员; 使用场景及目标:①掌握DInSAR技术全流程处理方法,用于地表沉降、地震形变、滑坡等地质灾害监测;②提升对InSAR数据处理中关键技术环节(如相位解缠、轨道精炼)的理解与实操能力;③实现高精度形变图的生成与Google Earth可视化表达; 阅读建议:建议结合实际数据边学边练,重点关注各步骤间的逻辑衔接与参数设置依据,遇到DEM下载失败等问题时可参照文中提供的多种替代方案(如手动下载SRTM切片),并对关键结果(如相干性图、解缠图)进行质量检查以确保处理精度。
此项目旨在实现一个简易而实用的RFID智能门禁控制系统。采用经典的51系列单片机——STC89C52作为核心控制器,集成MFRC522射频识别模块来读取RFID卡片信息。用户界面通过128x64像素的LCD显示屏展示相关信息,同时配备了键盘用于密码的输入、验证及修改。此设计结合了RFID技术的高效率识别与单片机的强大控制能力,适用于学习、教学或小型安防项目。 资源包含 源代码:完整C语言编写的源程序,涵盖了RFID识别、密码验证逻辑、显示控制以及用户交互等功能模块。 原理图:详细展示了整个系统的电路连接,包括单片机、MFRC522模块、LCD12864屏幕、按键等组件的电气连接方式,便于理解和自制。 技术特点 RFID技术应用:通过MFRC522模块实现非接触式身份认证,提升门禁安全性与便捷性。 人机交互界面:利用LCD12864显示屏直观展示状态信息,并通过物理按键进行操作,增加了系统的易用性。 密码安全机制:支持用户密码的设定和更改,增强系统安全性。 51单片机编程:适合初学者和专业人士学习51单片机应用开发,尤其是嵌入式系统与物联网领域的实践。 使用指南 环境搭建:确保你有合适的IDE(如Keil uVision)安装以编译51单片机的C代码。 原理图分析:详细阅读原理图,了解各部件间的连接,这对于正确搭建硬件平台至关重要。 编译与上传:将提供的源代码编译无误后,通过编程器或ISP接口烧录到STC89C52单片机中。 硬件组装:根据原理图搭建电路,确保所有组件正确连接。 测试与调试:完成后进行功能测试,可能需要对代码或硬件做适当调整以达到最佳工作状态。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值