以《出师表》作为例子,对比通用分块和父子分块的区别

以《出师表》作为例子,对比通用分块和父子分块的区别

我们以《出师表》(节选)为例,通过具体分割结果对比通用分块父子分块的核心差异。《出师表》结构清晰(含表文开头、历史回顾、治国建议、出师目的等部分),适合展示两种分块策略的不同逻辑。

原始文本(《出师表》节选)

先帝创业未半而中道崩殂,今天下三分,益州疲弊,此诚危急存亡之秋也。然侍卫之臣不懈于内,忠志之士忘身于外者,盖追先帝之殊遇,欲报之于陛下也。诚宜开张圣听,以光先帝遗德,恢弘志士之气,不宜妄自菲薄,引喻失义,以塞忠谏之路也。

宫中府中,俱为一体,陟罚臧否,不宜异同。若有作奸犯科及为忠善者,宜付有司论其刑赏,以昭陛下平明之理,不宜偏私,使内外异法也。

侍中、侍郎郭攸之、费祎、董允等,此皆良实,志虑忠纯,是以先帝简拔以遗陛下。愚以为宫中之事,事无大小,悉以咨之,然后施行,必能裨补阙漏,有所广益。

将军向宠,性行淑均,晓畅军事,试用于昔日,先帝称之曰能,是以众议举宠为督。愚以为营中之事,悉以咨之,必能使行阵和睦,优劣得所。

亲贤臣,远小人,此先汉所以兴隆也;亲小人,远贤臣,此后汉所以倾颓也。先帝在时,每与臣论此事,未尝不叹息痛恨于桓、灵也。侍中、尚书、长史、参军,此悉贞良死节之臣,愿陛下亲之信之,则汉室之隆,可计日而待也。

臣本布衣,躬耕于南阳,苟全性命于乱世,不求闻达于诸侯。先帝不以臣卑鄙,猥自枉屈,三顾臣于草庐之中,咨臣以当世之事,由是感激,遂许先帝以驱驰。后值倾覆,受任于败军之际,奉命于危难之间,尔来二十有一年矣。

先帝知臣谨慎,故临崩寄臣以大事也。受命以来,夙夜忧叹,恐托付不效,以伤先帝之明,故五月渡泸,深入不毛。今南方已定,兵甲已足,当奖率三军,北定中原,庶竭驽钝,攘除奸凶,兴复汉室,还于旧都。此臣所以报先帝而忠陛下之职分也。至于斟酌损益,进尽忠言,则攸之、祎、允之任也。

愿陛下托臣以讨贼兴复之效,不效,则治臣之罪,以告先帝之灵。若无兴德之言,则责攸之、祎、允等之慢,以彰其咎。陛下亦宜自谋,以咨诹善道,察纳雅言,深追先帝遗诏。臣不胜受恩感激。今当远离,临表涕零,不知所言。

一、通用分块(按固定长度分割)

核心逻辑

不考虑文本天然段落结构,按固定字符数(此处设为 200字,含少量重叠)分割为独立片段,所有分块平级无关联。

分割结果(示例)
# 分块1
先帝创业未半而中道崩殂,今天下三分,益州疲弊,此诚危急存亡之秋也。然侍卫之臣不懈于内,忠志之士忘身于外者,盖追先帝之殊遇,欲报之于陛下也。诚宜开张圣听,以光先帝遗德,恢弘志士之气,不宜妄自菲薄,引喻失义,以塞忠谏之路也。

宫中府中,俱为一体,陟罚臧否,不宜异同。若有作奸犯科及为忠善者,宜付有司论其刑赏,以昭陛下平明之理,不宜偏私,使内外异法也。

# 分块2(与分块1重叠部分:宫中府中...)
宫中府中,俱为一体,陟罚臧否,不宜异同。若有作奸犯科及为忠善者,宜付有司论其刑赏,以昭陛下平明之理,不宜偏私,使内外异法也。

侍中、侍郎郭攸之、费祎、董允等,此皆良实,志虑忠纯,是以先帝简拔以遗陛下。愚以为宫中之事,事无大小,悉以咨之,然后施行,必能裨补阙漏,有所广益。

# 分块3
将军向宠,性行淑均,晓畅军事,试用于昔日,先帝称之曰能,是以众议举宠为督。愚以为营中之事,悉以咨之,必能使行阵和睦,优劣得所。

亲贤臣,远小人,此先汉所以兴隆也;亲小人,远贤臣,此后汉所以倾颓也。先帝在时,每与臣论此事,未尝不叹息痛恨于桓、灵也。侍中、尚书、长史、参军,此悉贞良死节之臣,愿陛下亲之信之,则汉室之隆,可计日而待也。

# 分块4(后续内容,略)
...
特点
  1. 破坏天然结构:如“宫中府中”的治国建议被拆分为分块1和分块2,完整语义被割裂;
  2. 检索依赖运气:若用户问“诸葛亮推荐了哪些宫中大臣?”,需恰好命中包含“郭攸之、费祎、董允”的分块2,若分块长度设置不当,可能遗漏;
  3. 无上下文关联:分块3提到“向宠”,但无法直接关联到其属于“军事建议”的整体逻辑。

二、父子分块(按语义层级分割)

核心逻辑

先按天然段落/主题拆分为“父块”(保留完整语义单元),再从父块中拆分“子块”(细节信息),子块通过元数据绑定父块。

分割结果(示例)
1. 父块(按主题划分,保留完整逻辑)
# 父块1(开篇立论与核心建议)
先帝创业未半而中道崩殂,今天下三分,益州疲弊,此诚危急存亡之秋也。然侍卫之臣不懈于内,忠志之士忘身于外者,盖追先帝之殊遇,欲报之于陛下也。诚宜开张圣听,以光先帝遗德,恢弘志士之气,不宜妄自菲薄,引喻失义,以塞忠谏之路也。

# 父块2(治国原则:宫中与府中统一)
宫中府中,俱为一体,陟罚臧否,不宜异同。若有作奸犯科及为忠善者,宜付有司论其刑赏,以昭陛下平明之理,不宜偏私,使内外异法也。

# 父块3(推荐宫中大臣)
侍中、侍郎郭攸之、费祎、董允等,此皆良实,志虑忠纯,是以先帝简拔以遗陛下。愚以为宫中之事,事无大小,悉以咨之,然后施行,必能裨补阙漏,有所广益。

# 父块4(推荐军事人才)
将军向宠,性行淑均,晓畅军事,试用于昔日,先帝称之曰能,是以众议举宠为督。愚以为营中之事,悉以咨之,必能使行阵和睦,优劣得所。

# 父块5(亲贤远佞的历史教训)
亲贤臣,远小人,此先汉所以兴隆也;亲小人,远贤臣,此后汉所以倾颓也。先帝在时,每与臣论此事,未尝不叹息痛恨于桓、灵也。侍中、尚书、长史、参军,此悉贞良死节之臣,愿陛下亲之信之,则汉室之隆,可计日而待也。

# 父块6(自述身世与先帝之恩)
臣本布衣,躬耕于南阳,苟全性命于乱世,不求闻达于诸侯。先帝不以臣卑鄙,猥自枉屈,三顾臣于草庐之中,咨臣以当世之事,由是感激,遂许先帝以驱驰。后值倾覆,受任于败军之际,奉命于危难之间,尔来二十有一年矣。

# 父块7(出师目的与责任划分)
先帝知臣谨慎,故临崩寄臣以大事也。受命以来,夙夜忧叹,恐托付不效,以伤先帝之明,故五月渡泸,深入不毛。今南方已定,兵甲已足,当奖率三军,北定中原,庶竭驽钝,攘除奸凶,兴复汉室,还于旧都。此臣所以报先帝而忠陛下之职分也。至于斟酌损益,进尽忠言,则攸之、祎、允之任也。

# 父块8(临终嘱托)
愿陛下托臣以讨贼兴复之效,不效,则治臣之罪,以告先帝之灵。若无兴德之言,则责攸之、祎、允等之慢,以彰其咎。陛下亦宜自谋,以咨诹善道,察纳雅言,深追先帝遗诏。臣不胜受恩感激。今当远离,临表涕零,不知所言。
2. 子块(从父块中拆分细节,绑定父块ID)
# 子块1(父块3的细节:推荐的宫中大臣姓名)
侍中、侍郎郭攸之、费祎、董允等,此皆良实,志虑忠纯。
(元数据:parent_id=3,父块主题“推荐宫中大臣”)

# 子块2(父块3的细节:推荐理由)
是以先帝简拔以遗陛下。愚以为宫中之事,事无大小,悉以咨之,然后施行,必能裨补阙漏,有所广益。
(元数据:parent_id=3)

# 子块3(父块4的细节:推荐的军事人才)
将军向宠,性行淑均,晓畅军事,试用于昔日,先帝称之曰能。
(元数据:parent_id=4,父块主题“推荐军事人才”)

# 子块4(父块7的细节:出师目标)
当奖率三军,北定中原,庶竭驽钝,攘除奸凶,兴复汉室,还于旧都。
(元数据:parent_id=7,父块主题“出师目的与责任划分”)

# 子块5(父块5的细节:亲贤远佞的历史对比)
亲贤臣,远小人,此先汉所以兴隆也;亲小人,远贤臣,此后汉所以倾颓也。
(元数据:parent_id=5,父块主题“亲贤远佞的历史教训”)
特点
  1. 保留语义完整性:每个父块对应一个独立主题(如“推荐宫中大臣”“出师目的”),避免通用分块的割裂问题;
  2. 检索精准且有背景:若用户问“诸葛亮推荐了哪些人处理宫中事务?”,先通过子块1(含“郭攸之、费祎、董允”)匹配,再通过 parent_id=3 回溯父块3,获取完整推荐理由和建议;
  3. 支持复杂关联查询:若用户问“诸葛亮认为汉朝兴衰的关键是什么?”,子块5匹配“亲贤臣,远小人”,父块5提供完整历史教训(先汉兴隆、后汉倾颓),答案更全面。

三、核心区别总结

对比维度通用分块(《出师表》案例)父子分块(《出师表》案例)
分块依据固定字符长度(如200字),不考虑段落/主题文本天然主题(如“推荐大臣”“出师目的”),先父后子
语义完整性差(如“宫中府中”建议被拆分到两个分块)好(父块完整保留每个主题的逻辑)
检索逻辑直接匹配分块,若问题涉及跨分块内容,易遗漏关联先匹配子块(细节),再关联父块(背景),自动补全逻辑
适用问题类型简单事实查询(如“先帝崩殂时天下局势如何?”)复杂关联查询(如“诸葛亮推荐大臣的理由与治国建议的关系”)

通过《出师表》的例子可见:通用分块适合快速处理结构简单的文本和基础查询,而父子分块更适合结构清晰、需要深度理解的文本(如古文、论文、长报告),能在精准匹配细节的同时,保留完整的语义背景。

【电能质量扰动】基于ML和DWT的电能质量扰动分类方法研究(Matlab实现)内容概要:本文研究了一种基于机器学习(ML)和离散小波变换(DWT)的电能质量扰动分类方法,并提供了Matlab实现方案。首先利用DWT对电能质量信号进行多尺度分解,提取信号的时频域特征,有效捕捉电压暂降、暂升、中断、谐波、闪变等常见扰动的关键信息;随后结合机器学习分类器(如SVM、BP神经网络等)对提取的特征进行训练与分类,实现对不同类型扰动的自动识别与准确区分。该方法充分发挥DWT在信号去噪与特征提取方面的优势,结合ML强大的模式识别能力,提升了分类精度与鲁棒性,具有较强的实用价值。; 适合人群:电气工程、自动化、电力系统及其自动化等相关专业的研究生、科研人员及从事电能质量监测与分析的工程技术人员;具备一定的信号处理基础和Matlab编程能力者更佳。; 使用场景及目标:①应用于智能电网中的电能质量在线监测系统,实现扰动类型的自动识别;②作为高校或科研机构在信号处理、模式识别、电力系统分析等课程的教学案例或科研实验平台;③目标是提高电能质量扰动分类的准确性与效率,为后续的电能治理与设备保护提供决策依据。; 阅读建议:建议读者结合Matlab代码深入理解DWT的实现过程与特征提取步骤,重点关注小波基选择、分解层数设定及特征向量构造对分类性能的影响,并尝试对比不同机器学习模型的分类效果,以全面掌握该方法的核心技术要点。
评论
成就一亿技术人!
拼手气红包6.0元
还能输入1000个字符
 
红包 添加红包
表情包 插入表情
 条评论被折叠 查看
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值