第一周:数据获取
对于可视化课程知识问答系统来说, 获取高质量的课程知识数据是非常重要的任务.
考虑到本项目面向的人群主要是山东大学软件学院的学生/老师, 我们需要采集高质量的课程知识资料. 校内维护的高质量课程复习资料可以从山软智库公开平台进行采集, 公开平台也可以获取到课程参考书目和百科资料. 对于获取到的多种资料, 需要进行数据预处理才可以转化为可使用的纯文本.
①获取山软智库维护的公开课程资料.
山软智库提供了一系列公开课程资料,这些资料涵盖了不同学科,并采用了多级目录的结构化形式,方便学习和查阅。通过获取这些资料,学习者可以系统地掌握各学科的知识。
这些课程资料通常以PDF格式提供,包含详细的课程内容和知识结构,帮助学习者更好地理解和应用所学知识。多级目录的设计使得资料的层次分明,查找和导航变得更加便捷。
下例图为山软智库的课程资料PDF(分学科含多级目录的结构化知识).
②通过参考教材获取资料.课程参考教材和参考书目内含大量结构化的知识.
课程参考教材和书目中包含大量结构化的知识,这些知识以清晰、系统的方式呈现,便于学习者查阅和理解。例如,教材中常常包括概念解释、理论背景、实践案例以及习题和解答,通过这种结构化的方式,学习者可以全面掌握理论知识并将其应用于实践中。
③通过百科内容获取资料. 高质量百科词条含对名词的多维解释和双向链接知识关联.
百科词条不仅提供了对名词和概念的详细解释,还通过双向链接的形式,关联了相关知识,使得学习者能够全面理解并探索相关主题。
百科内容的优势在于其丰富的知识层次和全面的解释。每个词条通常由专家或资深编辑撰写,内容经过多次审核,确保信息的准确性和可靠性。高质量的百科词条包括了概念的定义、历史背景、应用实例、最新研究进展等多维度的信息,为学习者提供了一个全面的知识视角。
此外,百科内容中的双向链接设计,使得学习者能够方便地跳转到相关词条,进行更深入的探索和学习。这种知识关联的方式,有助于构建一个完整的知识网络,使学习者在理解某一特定概念时,可以同时了解到与之相关的其他概念,从而形成系统的知识体系。