66、《ḥadīṯ阿拉伯语文本的分割与语言分析》

《ḥadīṯ阿拉伯语文本的分割与语言分析》

1. ḥadīṯ的结构与数据选择

ḥadīṯ的结构是一系列二元元素,包括叙述文本(matn)以及前面的传述链(isnād)。传述链由一系列传述者组成,他们依次传递叙述内容,直至第一个见到或听到穆罕默德的人,它确保了传统的有效性。在选择输入数据时,优先考虑计算和语言学标准,而非文献学标准。选择了穆罕默德·伊本·伊斯梅尔·布哈里编纂的《布哈里圣训实录》的在线版本,其全数字化和标音的特点,无需手动干预或准备即可进行广泛研究。文本按原样处理,暂不进行正字法和文献学连贯性的系统控制。

2. 表面信息提取:从分割到表示

自动分割是为非离散连续体分配分割边界以获得离散对象的过程,旨在避免或大幅减少监督干预,因为处理大量数据时,监督干预在时间和人力上都很耗费资源。

2.1 ḥadīṯ的分割:配对显式和隐式信息

分割ḥadīṯ文本在很多方面类似于处理(伪)自然语言中的半结构化文本,如数学描述中的半正式文本。相关研究表明,分割不仅可用于识别离散字符串,还可通过分析规律性和重复性为文本赋予全局结构,这种结构受一种上下文“规则语法”的控制,该语法也控制着内容信息与其文本组织之间的联系。

ḥadīṯ集合无疑符合“结构化文本”的定义,其组织严谨,依赖于一组反复出现的“功能表达式”(特别是基于动词和介词),这些表达式界定、定义并有时嵌套不同类型的内容。文本连续体可分为两个层次,一层包含信息,另一层除文本价值外,还具有元文本功能,用于组织和定义第一层。这与数据库结构有相似之处,但与数学和信息科学的类比并不完美,因为对于这些“功能表达式”的原始价值、含义和翻译,尚未达成普遍共识,且完整集合也未完全定义。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值