网文校对系统 - 校对模块

校对模块的方案也是在与R1的讨论中逐步清晰和完善的。

我会尽量还原这个过程,让大家体会与AI相互启发的乐趣。至于最终结伦则不是最重要了。

R1最开始提出了一个基于规则的校对引擎,其核心是用不同的规则检查不同类型的一致性错误。

这里列举了三类规则:死亡一致性(DeathConsistencyRule)、修为进度(CultivationProgressRule)和物品传承(ItemInheritanceRule)。

很显然,此方案最大的缺陷是:要保证校对效果,必须开发出尽可能多的规则。

这显然不现实!

有了前面实体识别的经验,这种语义方面的问题大模型可能更胜任。

看看R1的回复:

这个方案靠谱多了。利用大模型自然语言理解和推理能力,分析文本中的上下文关系,识别潜在的不一致。

要用大模型,除了要校对的新章节内容,还得给它上下文,即上图中R1提到的“知识快照”。虽然R1目前还没提及知识快照的实现细节,但不难判断,其内容应该是当前知识库中实体和关系的数据。

这里就有一个潜在问题了:对于上百万字的网络小说,这个知识快照的量得有多大?会不会超过大模型的上下文窗口?

对此,R1的改进方案如下:

这个改进方案就相当靠谱了。只需要从知识库中提取新章节涉及的实体和关系,按需加载就行了。由于新章节涉及的人物、物品、功法、事件有限,需提取的实体和关系只会占到整个知识库很小的一部分,而且数据量相对固定,不会随章节数的增加而膨胀。

比如要校对第100章,需要提取50个实体和关系;那么到了第300章,差不多应该还是这个量。除非第100章是两千字,第300章是一万字。即便是这样,我们也可以通过分段校对来解决。

方向定了,接下来考虑如何实现。

  1. 新章节涉及哪些实体?这可以通过前面实体识别的功能模块获取。

  2. 一旦拿到了这个实体列表,调用Mongodb和Neo4j的查询语句就能提取实体和关系数据。

  3. 有了实体和关系的上下文信息,就能构造提示词让大模型校对了。

最后采用的提示词结合了R1的建议和前面coze智能体的提示词:

下面咱们过一遍相关代码,并运行看看校对效果。

校对

校对效果还是相当不错的。说到这里,我就忍不住要吐槽一下起点中文网。好歹也是腾讯旗下的公司,技术和资金都不缺,就不能开发个类似的系统减轻一下网文作者的工作量吗?

而且稍微增加个对话功能就可以变成个网文问答系统,开放给读者,提升阅读体验。比如回答些类似“哪位大神能不能做张地图啊?”,“跪求家族图谱”等问题。

总结

到这里,咱们这个AI应用开发的教程就该告一段落了。

正如教程开头说的,CloudMan的目标是通过具体案例带大家体会一下AI应用的开发思路和过程,提升大家使用AI的信心。

AI大模型大大降低了应用开发的门槛。只要有好的想法,稍微有些编程基础就能开发出优秀的应用。

退一万步,即便对应用开发没兴趣,AI也能帮助我们探索新领域,发展自身潜能。

以前学东西除了找到好的教程,更得有人指导。现在好了,AI就是那个能提供指导的人,它经验丰富、态度端正、而且24小时待命。

这是个知识平权的时代,没有什么不能学的,也没有什么学不会的。

最后,祝大家在AI时代不断精进,不断超越。

咱们有机会再见!

公众号Cloudman6

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值