分类在文件管理中的核心作用

第二章 什么是分类?

引言

在文件管理领域,分类对于将信息(包括记录中嵌入的信息)归入系统结构以实现控制和检索目的至关重要。它是一个整体性概念和活动,使与信息相关的组织能够从信息的创建之初到处置为止对其进行组织和管理。从文件管理视角进行的分类强调通过功能来确保记录的上下文在时间推移中保持完整和安全。

本章讨论了与分类相关的概念定义:电子记录的发展、电子记录与纸质记录之间的差异、从不同角度进行的分类,以及人工与机器分类。

与分类相关的概念

定义概念对于增加与讨论主题相关的知识体系至关重要。通过定义概念可以减少混淆和误解,因为不同领域关于同一主题的知识体系往往具有不同的概念定义(博奇,2011年)。本章讨论了与分类相关的各种概念,如信息、文档、记录、生命周期以及分类这一术语本身。这些术语必须加以解释,因为一些作者会互换使用它们,而另一些作者则严格区分其含义。只有理解了这些术语,才能理解为何一般意义上的信息分类与具体意义上的记录分类有所不同。

尽管记录经常被讨论,但不同领域对其概念的理解各不相同。人们通常认为记录类似于文档、信息或数据。正确理解记录的概念至关重要,因为数据、信息和文档并不一定是记录。这种误解可能会影响记录管理的效率和有效性。对记录含义的错误理解将不仅会阻碍举措的实施,还可能使组织面临风险。因此,本节定义了本书中使用的概念,以更好地理解文件管理领域中分类的上下文。

信息

术语“信息”、“文档”和“记录”通常被交替使用。然而,每个术语都有其自身的定义和概念。根据巴克兰德(1991)和巴德(2011)的观点,信息有三种类型:“作为过程”、“作为知识”和“作为事物”。

信息“作为过程”是指当某人被告知或接收到信息时,其认知状态发生了变化。信息“作为知识”指的是在信息“作为过程”中所感知到的内容。第三种信息“作为事物”则用于指代诸如数据和文档之类的对象,这些对象也被称为信息,因为它们被认为具有信息性。

与记录一样,信息也具有价值,但信息的价值无法量化;它取决于内容和用途。信息的价值是个人判断的结果;也就是说,对一个人有价值的信息可能对另一个人毫无价值。信息也是其运作系统中推动变革的动态力量;在组织中应将其视为一种形成中的组织实体,而非事实的累积堆砌(伊顿和鲍登,1991)。

文档

文档被定义为任何书面或印刷作品;具有法律或官方性质并可作为记录用以提供证据或证明的文书或印刷品。文档可能是固定在某种媒介上的信息或数据,如果其不属于正式记录的一部分,则属于非记录(Pearce‐Moses,2005)。传统上,文档被视为固定在纸张上的文本(利萨科夫斯基,1997)。然而,这一传统已经改变,现在文档包括所有媒介和格式。照片、图纸、录音和视频、文字处理文件、电子表格、网页以及数据库报告现在普遍被视为文档(美国国家标准协会/国家信息标准组织,2003)。

与记录类似,文档传统上被认为具有内容、背景和结构。然而,这些属性的性质在电子文件中可能会发生变化。电子格式可以以三维或非线性结构的形式呈现复杂层次的信息。“四角文件”这一术语有时用于区分那些可打印在纸张上而不会丢失信息的电子文件与更为复杂的三维文件。同样,一些电子文件的内容不是固定的,可能会随时间而变化,例如从不断更新的数据库中提取数据的文字处理文档。这类文档被称为动态文件,以区别于传统固定文件(皮尔斯‐摩西,2005)。

在某些情况下,当“文档”指代非记录的项目时(InterPARES2,2008),它与“记录”有所不同;例如,草稿、记录副本的复制品以及材料等与业务活动无直接关联。在这种意义上,“文档”通常不包含在保管期限表中,且可在无需授权的情况下予以处置。然而,在其他情况下,“文档”可与“记录”同义使用。

“记录”在此意义上表示一份正式文档,尤其是指在日常业务过程中为保存信息以作为其相关内容的证据或证明而创建的最终版本。

术语“文档”将在下文中一致使用,因为记录可能包含文档,但并非所有文档都是记录。詹金森(1937)论证了文档与记录(或档案馆)之间的区别:所有手稿,无论其制作材料如何,均为文档;而记录/档案则是由行政事务产生并随后为短期或长期甚至永久保存的材料。在现代世界中,理解文档的最佳方法是查看计算机用户在正常业务过程中可readily获取的信息;如果员工能够查看该信息,则应将其视为等同于纸质“文档”(塞多纳原则,2003)。

另一方面,可以轻易汇编成信息的数据,无论是显示在屏幕上还是打印在纸张上,根据规则34(塞多纳原则,2003)也属于“文档”。然而,在正常业务过程中由计算机系统使用但对用户隐藏且从不向用户显示的数据,不应被推定为“文档”,同样,只能通过取证手段(如已删除或残留数据)才能访问的数据也不应被视为“文档”。

记录

记录被定义为具有法律或官方性质的书面或印刷作品,可用作某事的证据或证明:文档;已固定在某种介质上的数据或信息:具有内容、背景和结构,并用作人类记忆的延伸或用于体现问责性的数据或信息;在个人或机构活动过程中生成或接收并作为该活动证据而留存(保存)以供未来参考的以固定形式存在的数据或信息;任何为公众知晓而提交的文书(推定通知),留声机唱片;以及被视为一个单元的相关数据元素的任何计算,例如数据库表中某一行中的字段,或目录中描述一项作品的条目(皮尔斯‐摩西,2005)。

术语“记录”相对笼统,无法用于解释或证明特定活动。例如,通过行政流程生成的记录通常称为行政记录,此类情况不胜枚举——“记录”一词可与以下词语组合使用,如:进藏、机构聚合、建筑、档案、关联、业务、目录、内容、或有、常规、企业、当前、处置性、电子、应急运行、工程关键、辅助性、冻结、事务管理、重要、非活跃期;输入、本地、纪念性、市政、叙述性、非当前、非文本、公证、官方、操作的、组织的、永久、总统、印刷、证据性、项目、公共、半当前、特殊、结构、支持性、临时、文本、短暂以及关键记录等。

马来西亚国家档案法(2003)为电子记录管理与档案政策提供了依据,并将记录定义为“以书面或其他形式记载事实或事件,或用于记录信息的材料,包括文件、文档、登记簿、印刷材料、图书、地图、图纸、照片、电影胶片、录音、生成的记录,无论其具有电子或物理特性,以及任何此类材料的副本”。

记录具有固定的内容、背景和结构(ANSI/NISO 2003;利萨科夫斯基,1997)。内容是指构成记录实质的文本、数据、符号、数字、图像、声音、图形及其他信息。记录能够“固化”信息的实质内容,使其可在将来重复、复述或召回,这意味着它起到了记忆延伸的作用;这正是记录概念的核心。记录可以专门用于长期保存信息或防止未来对信息的误解,但如果没有某种形式的认证,则不能假定该记录是可靠的。然而,任何项目,无论最初意图多么短暂,只要其后续被用作其所指事物的证据,就都可作为记录。

固定性是指内容保持稳定并抵抗变更的特性。为了有效保存记忆,记录的内容必须随时间保持一致。在可变介质(如电子记录)上创建的记录必须进行管理,以证明其内容未发生退化或被篡改。

记录可以是固定的,但并非静态的。计算机程序可能允许用户以多种不同方式分析和查看数据。如果底层数据是固定的,并且相同分析和结果视图随时间保持一致,则数据库本身也可被视为一条记录。

上下文是指记录在创建、接收、存储或使用过程中所处的组织、功能和操作环境。上下文包括记录创建、编制或发布的时间和地点,以及与其他记录的关系。必须能够确定一条记录如何与其他记录相关联,以及与创建该记录的组织之间的关系(Jisc Infonet,2012年)。

结构指的是记录的物理特征及其内容的内部组织。记录结构是使内容变得有形且可理解的形式。物理特征包括组成部分和组装方法,例如纸张、墨水、印章和字体族,或字符集、编码和文件格式。结构还包括文档的逻辑组织。记录的结构可能很简单,例如页面上的纯文本;也可能被组织成带有标题的大纲或部分;或者可能非常复杂,包含序言、正文以及见证人的签名。

文档的结构包含在定义记录为一个单元并使其具有身份以区别于其他信息的边界之内。一条记录可能由许多物理上或逻辑上离散的部分组成,这些部分共同作为一个单元发挥作用,例如多页内容或多张表格中的数据值,但这些部分必须以某种方式绑定在一起。

记录通常指文档,而非实物或出版材料,尽管记录的集合可能包含实物和图书。记录是根据其功能而非特征来定义的;该定义被扩展为包括许多通常不被视为记录的材料。例如,某件实物即使超出了对记录定义的通俗理解,也可能发挥记录的功能。

本书中的讨论特指电子记录和现行记录。电子记录是指以仅计算机可处理的形式记录且符合记录定义的任何信息。电子记录可以来自数据库、电子表格、电子邮件(email)、离线或在线系统,以及能够创建或存储内容的任何电子介质,例如智能手机、机器和设备(皮尔斯‐摩西,2005)。在本书中,术语“记录”与“电子记录”可互换使用,二者含义相同,即电子记录。

电子记录

电子环境中的记录已从机器可读的记录发展为电子记录和数字记录(库克,2001)。

机器可读记录是20世纪60至70年代的第一代。这一时期生成的记录被用作更实质性工作的基础纸质记录。这些记录由单次输入产生的固定输出构成,一系列计算过程通常以打孔卡、打印报告、统计表或视觉显示的形式出现,用作传统文献记录(物理或纸质)的来源或辅助信息。通过这一早期对机器可读记录的评估工作,人们获得了宝贵的见解,能够区分数数据与记录(克朗,2012)。数据被视为信息内容,但缺乏生成有意义的记录活动所需的结构和上下文;而记录则包含了创建和使用的上下文,对应于组织结构及排列方式,从而提供必要的证据价值(皮尔斯‐摩西,2005)。数据与记录之间的区分,成为档案职业在应对计算机生成的信息时,在智力、战略、技术和法律层面后续回应的基础(克朗,2012)。

电子记录于1980–1990年代被认可,其发展得益于动态且关系型的软件开发进步。动态和关系型软件的发展是对分层网络以及特别是关系数据库的出现,以及个人计算机在现代工作场所中日益普及所作出的回应。然而,早期的电子记录是非结构化的、虚拟的、短暂的,并且缺乏上下文,由不同的文本、音频和图形组件构成。此外,这些记录的输出被存储在无数种数字媒体类型上。因此,由于形式的多样性,不仅内容与其关系型上下文脱节,而且这些记录若脱离其创建和使用的技术环境,便会失去意义,导致这些记录难以追溯。

数字记录在2000年代开始为人所知。这些记录是在电子记录的基础上发展而来的,通过扩展其范围和复杂性,以应计算机化记录的指数增长以及计算机使用重点的变化。

生命周期

生命周期描述了记录从创建到最终处置存在的不同阶段。谢伦伯格等人提出的记录管理生命周期模型自1960年代以来一直是北美档案馆员和记录管理者的主要模型(皮尔斯‐摩西,2005)。由于纸质记录和电子记录具有不同的特征,因此它们的模型表现形式也不同(尤索夫和切尔,2000),因为生命周期

纸质记录的生命周期与电子记录的文件连续体不同。纸质记录的生命周期包括三个明显阶段:活跃期;半活跃期;以及非活跃期。最后一个阶段通常包括在预定义时期后销毁记录或将记录移交档案馆(尤索夫和切尔,2005)。连续体是一幅动态的、虚拟场所中逻辑实体的地图,以整体性和多维方式绘制而成。文件连续体定义了从记录创建到再利用的各个阶段,这一循环包含四个维度和四个向量:文件管理;权威性;事务性;以及证据性。这四个向量相互作用,形成一个连续且动态的整体,涵盖四个维度:记录可问责行为、捕获记录、组织文件管理制度以及确保社会记忆(厄普沃德,1998,第110–130页)。文件连续体并非新概念。早在1980年代,杰伊·艾瑟顿就曾提出将文件生命周期转变为连续体的思想,并由弗兰克·厄普沃德、苏·麦克米什和芭芭拉·里德等人(仅举数例)进行了大量阐述。

分类

分类是一种管理工具,用于将对象系统地排列到组或类别中(乔斯基,2006;弗兰克斯,2013;格西奥,2002;谢,2006),通常用于根据分类系统中所体现的逻辑化结构规范、方法和程序规则,对业务活动和/或记录进行系统的识别和排列。在业务领域中,分类是一个帮助组织在其业务活动分析的基础上描述、组织和控制信息的过程。

术语“分类”和“排列”在谢伦伯格的现代档案方法中被当作同义词使用,而未深入探讨分类的复杂性。另一方面,詹金森的手册则用诸如“区分”和记录的“放置”等不同术语恰当地讨论了这一主题(MacLean,1956;Schellenberg,1961)。由于“分类”和“排列”术语的使用范围变窄,导致两者的实施受到限制,其中“排列”被定义为反映清点过程的一种操作,使用诸如“组”、“子组”、“系列”和“项目”等术语,而“放置”和“区分”等术语则较少被使用。

基于职能和活动的分类一直是控制信息和记录的首选方法,该方法根据记录存在的原因对记录进行分类,而不是根据记录的主题。也就是说,它关注的是基于记录的上下文和使用,而非其内容。基于职能的分类系统为组织带来以下益处:理解业务与其记录之间的关系;识别具有证据价值的必要记录;根据业务价值对记录进行优先排序;以及促进保管决策。记录分类是一个基于组织功能的整体概念。记录分类方案,也称为文件计划,是一种可用于将记录分类或归组为检索单元的过程。文件计划用于根据生成记录的业务活动对记录进行分类,并直接源自组织的业务分类方案。它通常以目录或文件夹结构表示,例如:功能 → 活动 → 主题 → 子主题(弗兰克斯,2013)。

大多数研究倾向于强调分类的技术方面,特别是如何实现自动化分类,尽管分类理论尚未建立(赫约兰德与佩德森,2005)。记录管理专家因时间和空间的限制而研究许多主题,但通常并未深入考察分类问题,因为图书馆与信息科学及计算机专家已刻意垄断了这一领域。从记录管理角度对分类研究的缺乏,影响了相关文献、分类系统的手动或自动开发以及分类方案的实施。这归因于多种因素,包括:定义记录特征的复杂性;对组织进行彻底的初步研究;以及详细的文档分析,以确保记录被正确选择和分类。这些过程繁琐,记录管理研究人员需要在此领域开展进一步研究。大多数记录管理专业人士已转向研究其他领域,如鉴定、保存或标准(赫约兰,2008;迈,2004;谢,2008)。

分类由若干相关原则构成,包括访问、检索、维护、保留和处置。分类系统应基于公司的规模和数量及其记录的数量、记录的使用方式及使用者,以及记录能够被访问的速度(谢伦伯格,1956;华莱士,1987)。分类系统可便于对记录进行访问,能够在记录所属的上下文中检索所有记录,包括注释和附件。这些系统还可使记录在其整个生命周期中保持其原有上下文,并根据全面的保留时间表进行保存或销毁,该时间表为保存与保管提供控制,或为记录销毁提供依据(麦克尼尔,2002)。

记录与信息:层级结构

组织中的记录层级结构很少在出版或非出版材料中被发现。相反,数据和信息则通常以层级结构的形式呈现,并且尤其可以从在线资源中找到。图2.1 将信息与记录的概念与数据层级结构(查菲和伍德,2005年)相关联,并展示了企业如何创建记录的层级(泰勒,2007年)。该图结合了现有资料,用以展示层级结构、价值和意义方面的差异。

数据、信息和知识相互关联。达文波特和普鲁萨克(2000)将知识定义为第二高阶的概念(智慧为最高阶,但此处未予图示,因其与本研究无关),由数据和信息构成。数据包含关于对象、人员和事件的数值和事实。分析、处理和分类对数据进行处理以生成信息。信息再结合经验、价值观、洞察力和直觉,最终转化为知识。知识的价值和意义大于数据和信息。这一概念体现在拥有更多知识的员工对公司而言比知识较少的员工更有价值的情境中。

另一方面,组织对知识的看法会因其处于最低层级还是最高层级而有所不同,当知识处于最高层级时,它就成为记录。知识存在于个体之中,主要使个人受益;而记录则对整个组织最为有利,因为记录可以为所有业务活动提供证据。没有记录的知识不能作为证据,因此无法保护组织免受法律威胁。

电子与纸质记录之间的差异

原则上,电子记录与纸质记录并无不同,区别仅在于其创建、存储、维护、管理、处置或保存所使用的媒介。媒介是两者共性的终点,这也导致了记录之间的显著差异(罗滕施泰因,2006)。尽管两者都必须包含内容、上下文、结构和固定性才能构成记录,但这些要素在纸张或电子媒介中的维护方式有所不同。

关于差异的问题通常从记录类型的多样性方面进行讨论。例如,纸质记录可以以分类账、人事档案、信函或文章的形式存在;然而,这些类型在电子形式下则有所不同。由电子表格创建的分类账包含公式、图表,并可充当数据库。因此,电子记录的结构比纸质记录更为复杂。电子记录的结构被描述为一个对象(文档),该对象识别其组成部分以及各部分之间的关系性质(约翰斯顿,1998)。这种结构支持生成另一个子文档,链接到其他子子文档的超链接,包含指向网页的动态部分,这些网页可包括在浏览器中运行的JavaScript和ASP等编程语言,以及由于嵌入式可执行字段、函数和宏而形成的电子表格。显然,电子记录的范围比纸质记录更广泛,因为电子系统能够提供用户所需的多种特征的记录,包括文字处理文本、表格、数据库、图像、语音等。

与纸质记录相比,电子记录更容易被篡改。这种篡改可以通过电子系统提供的功能来实现,所需 effort 比篡改纸质记录更少。这导致了冗余以及缺乏对记录可信性(包括真实性、可靠性和完整性)的控制。

电子系统会维护有关记录的信息,这些信息被称为元数据,例如作者姓名、文件创建日期和最后访问日期。这些元数据嵌入在系统中,不会显示在文档的纸质副本上。这使得识别变更变得困难,因此难以保持其准确性,特别是对于没有信息技术背景的人员而言。

除了电子记录与纸质记录之间的差异外,还存在其他一些问题需要从政策、功能需求、参考模型、实施框架和风险等方面加以考虑(贝尔曼,2007)。近期出现的问题包括缺乏相应的政策和软件工具以实现合规,以及对软件控制所需的验证,还有在人机可执行条款中提供证据的要求。当记录不再受控,并可在不同软件之间随意转移时,也已识别出严重的风险(贝尔曼,2006)。

尽管电子记录存在这些差异和问题,但这并未阻碍记录的创建和使用。相反,电子记录已在现代世界被广泛接受,以帮助管理实现高效、有效且具有竞争力。2011年,奥巴马发布了一项行政备忘录,旨在加强记录信息和管理流程,通过更好地记录机构的行为和决策来提升绩效,并促进公开性和问责性(阿布拉克萨斯,2013)。

从不同视角看分类概念

分类是普遍存在的,而进行分类是人类的天性。鲍克和斯塔尔(1999)提出,分类在社会秩序研究中占据着特殊的地位。人类学家、经济学家、历史学家、社会学家、信息科学家、哲学家和统计学家都对分类有着各自独特的视角。人类学家将分类作为一种更好地理解文化的工具,而经济学家则通过分析趋势来预测未来的经济增长。历史学家通过分类来保护文化遗产,社会学家则通过将个体与社会运动的关系进行分类,以诊断某些社会弊病。信息科学家每天致力于为提高检索效率而进行分类的实际设计、分配和选择。相反,哲学家和统计学家虽然探讨分类理论,但很少开展关于其影响的实证研究。

本节讨论档案学、图书馆学和信息科学领域中的分类概念(Foscarini,2009;Livelton,1996;Orr,2005;谢,2006)。这些领域在早期的分类研究中经常被提及。本节末尾讨论了不同视角下分类之间的差异。

档案学与文件管理视角

档案学是一个系统化的理论体系,支持对记录材料进行鉴定、征集、认证、保存以及提供访问的实践。它起源于19世纪的文献考证工作,是一套关于记录的文献性和功能性关系及其控制与传播方式的概念和方法体系(Duranti和McNeil,1997)。

档案学理论对文件管理领域做出了贡献,该领域负责对记录的创建、保管、使用和处置进行系统控制(皮尔斯‐摩西,2005)。有两种类型的档案学理论(Murdoch,2007)。第一种类型描述并解释档案程序与活动,例如设计整理方案、定义全宗和重构来源。第二种类型关注记录的内容与背景,而非机械的控制过程(Roberts,1990)。

档案学领域在文件分类系统的开发中起着重要作用,因为该理论为识别文件的背景、内容和结构,确定文件的真实性与可靠性,以及从创建到保存阶段的记录保存提供了基础。文件分类遵循一项原则,即记录基于职能或活动进行归类(Pearce‐Moses, 2005)。它基于对组织的职责和业务流程相关的职能与活动分析(Xie, 2007)。

分类不仅仅被用作一种检索工具。如果将分类仅仅理解为一种检索工具,那么鉴于电子记录系统中通常嵌入了高度复杂的搜索引擎,分类在电子文件系统中的作用就会显得过时或多余。因此,为了避免对背景的误解或误读,必须认识到分类在确保管理高效、有效且具有竞争力方面还具有其他价值(Foscarini,2009)。国际档案理事会(2008a,2008b,2008c)和HB 5031(2011)指出,文件分类能够实现以下几点:
1. 工作需关联起来,以形成连续的业务活动记录;
2. 业务活动描述方式的变更需被记录和文档化;
3. 意义需传递给那些可能未直接参与相关业务的人员;
4. 工作应分发给适当的人和组;
5. 记录集的管理责任应进行分配;
6. 记录应关联安全和访问权限;以及
7. 记录应关联处置期限和处置操作。

因此,记录分类的目的不仅仅是描述内容或支持搜索与检索。更常见的是,记录分类用于支持整套的文件管理流程,包括识别为支持业务活动而需捕获和创建的记录,提供一个结构以确定并实施保管期限、安全和访问决策,并将记录置于生成该记录的业务活动的上下文中(HB 5031, 2011)。出于文件管理目的的分类通常用于确保所开展业务与相应记录之间的关联是牢固且持续维护的。

这种差异对于记录管理至关重要,因为它要求在档案学和记录管理视角下作为分类进行管理的信息,在保存业务描述与记录之间的关系链接方面发挥主要作用。其主要目的是关联记录信息,使记录的内容能够与相关事件关联起来,从而可以重现“完整的故事”。

档案学理论和文件管理实践的贡献使分类功能区别于图书馆学和信息科学视角。这涉及文件生命周期和可信性方面。记录根据政策、法律、授权和组织的要求进行分类,并从创建到保存的整个过程中通过真实性、完整性和可靠性来维持其可信性。分类的价值不仅体现在日常操作活动中,还体现在业务或组织的战略管理和长期发展上。

图书馆学视角

从图书馆学角度来看,分类比档案学更常被讨论且更为普遍。分类的历史图书馆分类值得注意。从培根时代至今,分类在哲学上被观察,从传统的图书馆分类发展到现代的图书馆分类。分类的定义已经演变,但始终不变的是为信息检索提供支持的坚实目标。

舒帕克(1974)将分类描述为一种对宇宙进行排序的思维过程,而在图书馆实践中,它仅仅是将文档在材料集合中进行存储和定位的行为。从哲学角度看,分类是对宇宙的层级结构化排序,通过不断修订类别,从一个概念经验过渡到另一个概念经验,持续构建知识以体现宇宙的有序结构。20世纪50年代出现了一种新理念,认为图书馆分类是一种计算机辅助排序装置,能够对思想、事实和主题进行快速、精细且高效的处理(Painter,1974)。

图书馆分类在美国的发展与欧洲和亚洲明显不同。传统方案被设计并仅用于浏览工具或书架整理工具,因此通常倾向于“书架一个位置——方案一个位置”的分类方式。相反,欧洲和亚洲则将分类专门用于组织索引中的概念(分类目录)。这种在方法上的差异影响了全球范围内分类的发展,同时保持了其核心基础的高效性,即为用户查找文档提供支持(Painter, 1974; Shupak, 1974)。

在20世纪初,美国图书馆员通常将分类称为两种特定的图书馆实施方式:杜威十进制分类法(DDC)和国会图书馆分类法(LC)。史蒂文森(1974)认为,几代图书馆员一直习惯于将图书馆分类的普遍概念与DDC和LC的可能性及局限性相混淆。这种对图书馆分类的误解使DDC和LC免于进一步的争论。人们没有明确区分图书馆分类的本质、结构和用途的一般原则与这些原则在特定系统中的实践。因此,在20世纪70年代,图书馆分类开始被更传统地看待,因为 DDC和LC通常被用于宗教文本和神圣仪式,并被认定为无主题限制的通用分类。

在新千年,分类已被视为检索系统的基础以及信息检索(Szostak,2014)的主要方法。分类是一种按主题对图书馆资料(图书、连续出版物、视听材料、计算机文件、地图、手稿、教学辅助)进行编码和组织的系统或方法,然后分配一个索书号,以链接到相关信息资源(米什拉,2010)。编目也是图书馆分类的重要任务之一(汗,2006)。图书馆分类包含两个部分:第一是通过识别主题之间的相似性来组织知识,第二是将图书在书架上进行物理组织(巴特利,2007)。

史蒂文森(1974)曾指出,图书馆分类并非由类表和索引构成的物理实体,而是发生在人类思维中的一种过程。然而,在图书馆历史上,人们对分类的认识从未如此深入。有观点指出,分类并不在于从异质领域中挑选出某些实体并将其概念性地归入某些类别,因为这种分组过程会中断并忽视实体之间的关系。他进一步解释说,功能的组织(基于功能的分类)比类别组织更能有效保留这些关系,不值得为了“相似性”而在分类中吸收或重新安排差异性而牺牲这一优势。然而,这一观念在图书馆分类的发展过程中并未得到强调,几代图书馆员已习惯于使用杜威十进制分类法和国会图书馆分类法。这导致分类研究的重点不再集中于图书馆工作,而是转向了信息科学。

里士满(1960)指出,图书馆分类在涉及国会图书馆分类法时具有实用性和功能性的特点,并且由于使用者满意度较高而被广泛使用。然而,这种分类系统在逻辑上、科学上或概率构建上并不严谨。它在层级关系中表现出有限的关联性;与语言或语言学几乎无关;并且在各个方向上随意扩展。分类方案不应武断地将材料划分为少数类别,因为在交叉分类机制中可能存在包含大量子类的主要类别(阿布雷拉,1974)。里士满进一步阐明,分类方案的评价不应仅基于其完整性,而应基于其在多大程度上推动了知识的发展以及实现了其最初创建的目的。

支持图书馆分类的理论因缺乏实质性的学术内容而受到批评(赫约兰,2008)。琼斯(2005)和绍斯塔克(2004)认为,图书馆分类缺乏理论的原因在于过度关注新技术和标准的应用、社会现实文化以及活动系统(博克和斯塔尔,1999,2000),而非记录的上下文或主要目的。图书馆学中的分类性质与记录管理不同。图书馆分类将相似的项目集中在一起,而将不相似的项目分开,以帮助图书馆用户在最短时间内找到所需的材料(马诺夫,2004)。相比之下,在记录保管中,分配的记录基于功能,以维护从创建到保存过程中的可靠性、完整性和真实性(达夫,1996;杜兰蒂,1998,2007;杜兰蒂和麦克尼尔,1997)。

信息科学视角

从社会的角度来看,信息科学被视为一个知识体系,有助于理解社会信息需求得到满足的方式(霍绍夫斯基和马西,1968)。信息科学是一个跨学科领域,包含行为科学、分类、传递以及语言与语言学等主题(哈蒙,1971)。信息科学跨越多个传统学术学科,其研究领域是记录的信息与知识的宇宙。针对记录的信息的上下文,信息科学是对信息的收集、组织、存储、检索和传播的研究(贝茨,1999)。

可以推断,信息科学是一门跨学科领域,涉及与知识传递和信息源相关的理论与实践,以及处理信息的生成、组织、处理、分发、交流和使用的技术、法律和产业,同时也关注用户之间的交流及其在满足信息需求过程中的行为。

威克里在1960年代初期的著作中讨论的分类范围从狭义(分类本身)到更广泛的关于信息检索主题的讨论,反映了图书馆学与信息科学之间的分歧(布劳顿和米尔斯,2011)。分类与信息科学相关,因为该领域主导着信息的流动以及为实现最优存储、检索和传播而管理信息的技术(博尔科,1968)。

优化存储和信息检索的理念源自图书馆工作和计算机科学(Saracevic, 1999)。由于图书馆学关注分类本身,因此它也聚焦于更广泛的 信息检索 主题(Broughton & Mills, 2011)。然而,信息科学中的分类理论常因缺乏理论基础、缺乏“明确”的理论以及法律,并且以实践为导向而受到争议(Capurro & Hjørland, 2003; Hjørland, 2008;Webber, 2003)。

档案学、图书馆学与信息科学中的分类比较

对分类的比较通常基于档案学和图书馆学这两个学科所采用的方法(Foscarini,2009;Orr,2005;谢,2006)。莱文森(1939)讨论了档案馆的分类方法,该方法后来在研究中被称为“记录分类”。在美国,与欧洲相比,这种方法被认为是一种较新且尚未成熟的方法。莱文森(1939)指出,美国在图书馆分类方面拥有更丰富的经验,并已确立了图书馆分类的基本意义,但在记录分类方面缺乏系统的理论基础。据指出,图书馆分类基于三个要素:即预先确定的主题逻辑体系;根据主题的逻辑体系进行资料的物理排列;以及利用该体系查找资料(坎贝尔,1941)。第三个要素得到了马诺夫(2004)和Foscarini(2009)的支持,他们认为图书馆分类是一种以检索为导向的技术。然而,不建议将图书馆分类方法用于记录分类(谢伦贝格引述的利兰,1915/1956),因为“任何十进制分类系统、图书馆学的精细方法,或纯粹按时间顺序或纯粹字母顺序排列的方法,都无法成功应用于记录分类。”

表2.1 总结了档案学、图书馆学和信息科学的观点,描述了每个领域的定义、理论哲学和分类方法。这三个领域为分类提供了重要的概念,虽然关注的目的不同,但由于具有跨学科性而相互补充。

从档案学的角度来看,分类具有整体性和理论性强的特点。图书馆学在分类方面的研究较多,但主要侧重于检索目的和实践。从信息科学的角度来看,分类已发展成为优化存储、检索和传播过程的工具。

图书馆分类要素与档案学理论及档案工作的实际条件相关(格林瑟姆,1999;勒温森,1939;施瓦茨与库克,2002)。例如,物理排列关于图书馆资料的分类,如图书馆分类第二个要素所述,理论上受来源原则(respect des fonds)支配。然而,根据主题内容将记录分配到预定逻辑体系中的某一位置,并通过代表该体系各要素的符号系统对其进行标识的做法,不适用于文件分类。这是一种对客观事实的确定,而非智力体系的应用。因此,所谓图书馆分类并非真正的分类,而是一种分类学实践,它以特定方式重新定义了用于档案目的的分类,并完全拒绝与图书馆术语的任何类比。至于记录分类,它涵盖了一系列描述性活动,包括“通过适当技术进行法律与历史研究(如有必要),对机构、起源、保管以及收藏中所含档案功能类型进行客观确定,以及在时间上、地理上或以其他方式客观划定边界”(勒温森,1939)。

来源原则(respect des fonds)和原始顺序神圣性原则(registraturprinzip)对记录的分类以及文件管理整体均产生了影响,包括詹金森、麦克莱恩、贝尔曼和厄普沃德等专业人士的著作。除了这些原则之外,respect des fonds 在文件管理的“环境”层面也具有同等重要性。respect des fonds 这一概念于1841年在法国提出。它被认为与编制目录以及档案馆中记录的物理分组相关,并作为文件保管实体的分类系统。该原则的功能性主要体现在涉及司法或法律实体的宏观层面,而在与档案形成过程相关的结构内部维度方面则较弱。因此,respect des fond 模型作为一个框架,从法律层面而非记录实际生成的层面整体性地定义了管理机构(厄普沃德,1998,第110–130页)。

厄普沃德(1998)还指出,两个原则(provenance和registraturprinzip)催生了档案整理的第三种方法,即“⋯⋯分类体系应基于档案的原始组织,其大致轮廓与产生该档案的行政机关的组织相对应。”这位非荷兰籍档案学家声称,这种方法对20世纪档案并无相关性,而澳大利亚经验也发现其无关紧要。因此,麦克莱恩探索了扩展詹金森手册的实践做法和方法,反过来引发了关于档案术语“分类”的进一步讨论。该术语在北美和澳大利亚一直与图书馆员和记录管理者的不同用法产生冲突,似乎已逐渐失去信誉。然而,“分类”在档案学理论与实践中具有特定的含义,在决定是否弃用该术语之前,必须充分考虑这些含义。

分类:机器与人类

技术已变得无处不在,主导着图书馆学的许多方面,从而引导图书馆工作朝着这一技术方向发展。因此,通过融合人文主义图书管理员与计算机科学家的领域,图书馆学已扩展为图书馆与信息科学。在分类领域,这种结合表现为计算机化分类或自动文档分类(莫伯格,1974)。希普斯(1973)将自动文档分类视为一种优化方法,该方法根据文档对之间的相关性与共同内容关系,对一组测试文档进行分类。通常,文档按主题、主题或甚至现象进行分类。

文档并非依据通用模式进行分类,而是依据不同学科所采用的不同术语进行分类(什托萨克,2008)。自动文档分类不仅能够区分文本,还能精确理解词语的含义和上下文,通常借助精确率和召回率的概念来实现(理事会,2015)。

文档分类也被称为文档/文本分类/路由和主题识别。文档分类可以定义为基于内容将一个或多个预定义类别(主题)分配给文档,这些文档可用于文档过滤,并路由到特定主题的处理机制,例如信息抽取和机器翻译(Goller, Löning, Will, and Wolff, 2000)。

自动文档分类与文档检索密切相关。在文档检索中,用户通过提供查询来表述其信息需求,然后对该查询进行分析,并应用于相对固定且预处理(索引)的文档语料库。这使得在正确的时间更容易找到相关信息,并将文档直接过滤和路由给用户。

自动文档分类应用机器学习或其他技术来自动对文档进行分类,从而实现更快、可扩展且更客观的分类。至少有三种方法:监督方法、无监督方法和基于规则的方法。基于规则的方法与更高的性能质量相关,尤其是在复杂场景中(理事会,2015)。关于用于文档分类的自动化机器学习,最佳且最实用的方法是在过程中同时使用计算机和人类。通过机器学习使人类能够自动化分类规则的软件可提高效率。与手动分类相比,自动化分类所需的工作量更少,因为机器可以独立执行该过程并生成结果。

帕拉帕达基斯(2013)认为,文件管理不仅仅是一项单一要求,而是包含“分类”、“归档声明”、“保存与管理”以及“安全与可审计性”在内的多项要求。自动分类涉及使用语言学、词汇和语义分析的“分类”,而“归档声明”则用于判断文档是否具有作为记录的价值。实现自动化的挑战并不在于“分类”,而在于“归档声明”。所谓的自动归档声明并非总是可行,因为它不仅需要理解文档类型及其上下文,还需要了解相关流程。自动分类本身也并非新概念,它既已作为独立产品实现,也已集成到电子邮件和文件捕获系统中。然而,由于合规问题,其采用进展一直缓慢。法律部门可能不愿接受机器能够执行分类这一事实。

结论

其他学科(如图书馆和信息科学)的分类与文件管理的角度并无显著差异。在这些学科中,分类的概念是相同的,即选择和组织信息以实现快速访问、精确准确的检索以及智能搜索。然而,由于文件管理强调记录应根据其上下文和生命周期进行管理,因此分类的应用在其他学科中有所不同。文件价值可从这些标准中得出。文件管理注重将记录的上下文和生命周期纳入分类之中。所创建和维护的记录需遵循文件生命周期,以保护其上下文的真实性与可信性。这些内容应包含在记录的文件档案和元数据中,并参照组织所规定的标准和法规。

除了探讨来自档案与文件管理、图书馆与信息科学等领域的分类概念外,本章还讨论了自动分类以及从这些学科角度出发的分类系统的开发。来自档案学的第一个理论仍然是文件分类模型发展的核心,因为它从真实性、有效性及可靠性方面为该模型提供了价值。来自信息科学的第二和第三项理论则对检索技术有所贡献,因为这两个功能在该学科中被广泛使用。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值