关于基于规则方法的反思【连载3】-思考

本文探讨了基于规则方法在语言学研究中的应用,指出其通过设定可证伪的基础假设和从语言事实中学习规则体系,避免了‘拍脑袋’式的决策。文章深入分析了基于规则方法与基于统计方法在闭环反馈机制、稳定性、适应性和沟通成本上的差异,揭示了过去二十年主流技术路线给人留下‘拍脑袋’印象的原因,并对未来改进方向提出了建议。

原文地址:http://blog.sina.com.cn/s/blog_729574a0010134zr.html

 

原文内容:

 

【问4】基于规则方法是不是“拍脑袋”?

【答】不是。基于规则方法做了两件事情。第一,对“规则长什么样”做了一些可证伪的基础假设;第二

 

,鼓励人们对一些具体的语言,按照这些可证伪的基础假设,建立相应的具体的规则体系。第一件事情是

 

基于大量的语言事实,特别是基于生成学派的前身结构主义语言学派实地调查北美各印第安语言的实践。

 

其后又在根据各种批评不断调整充实完善,目标就是要具有语言共性,就是要能够为所有语言建立规则系

 

统提供统一的框架。第二件事情同样要基于语言事实,在语言事实基础上决定规则的对错和存留。特别是

 

,一旦“规则长什么样”的具体假设确定下来,甚至可以在技术上对应地确定从连续不断呈现的无标注语

 

料出发学习规则系统的具体学习算法。当然,对于具有一定复杂程度的语言,从语料学习规则只有在极限

 

意义下才是可行的。这些都说明,基于规则方法从来不是“拍脑袋”,从来都不拒绝语料和从语料中学习

 

,从来都把符合语言事实当做天经地义的最终且唯一的标准。个别规则体系做得不好,应该批评和改造的

 

是那个体系。关于“规则长什么样”的个别假设做得不好,应该批评和修改的是那个假设。基于规则方法

 

本身,迄今为止并未遭受有力的毁灭性批评。并没有过硬证据证明使用基于规则的方法不可能描述哪一种

 

语言。

    至于不随语料的增减而变化的部分,那是基于规则方法和基于统计方法里面都有的。在基于统计的方

 

法里,统计模型的通式、特征维度、标注体系,都是不随语料的增减而变化的。在基于规则的方法里,规

 

则的一般形态要比具体的规则体系稳定很多,具体的规则体系里,句法范畴要比重写规则稳定很多。等到

 

要讨论修改规则的一般形态的时候,基于规则的方法已经面临很深刻的危机了。不能因为一种方法里有不

 

随语料的增减而变化的部分,就说这种方法是“拍脑袋”。关键是,当方法与语言现状大规模不相符合时

 

,任何部分都必须是可调整的,都是受到语料的反馈作用的。当然,这里指的语料,是未经渗透理论的生

 

语料。按照特定标注体系标注过的语料,已经不能算是生语料,不在此列。

    进一步说,“拍脑袋”也和理性主义没有太大的关系。先假设后修正也好,先搜集后假设也好,都是

 

闭环反馈机制,这环都闭在语言事实面前,都接受语言事实的检验。对于有闭环的机制来说,顺序的先后

 

并不足以区分结果的优劣。理性主义不反对接受事实的检验,不反对闭环反馈。而“拍脑袋”说的是不要

 

闭环反馈机制,假设什么就是什么,不接受事实的检验。二者区分一目了然。

    那么,为什么过去二十年来基于规则方法的主流技术路线给人以“拍脑袋”的感觉呢?这要从基于规

 

则方法和基于统计方法受理闭环反馈的运作模式说起。在基于统计方法下,一旦统计模型、特征维度、标

 

记体系这些不变的东西确定以后,剩下的就只有语料的标注和参数的训练了。无论语料的标注还是参数的

 

训练,都不需要语言学家的参与,参数的训练基本是自动化的,语料的标注是劳务化的。 因此,基于统计

 

方法的执行力很高,沟通成本很低,反馈周期很短。这比较适应快速成型的应用。反观基于规则方法,具

 

体规则的取舍要语言学家来定,规则长什么样的取舍要顶级语言学家来定。一旦遇到问题反馈,响应效率

 

很低,沟通成本巨高。更深层次的原因是,在基于规则方法的形式化框架下,没有建立起一套很好的从实

 

例中学习、调整、维护语言学知识的自动化机制,更没有建立起一套适应问题反馈的语言学知识维护管理

 

机制。重点不恰当地落在了语言学家身上而不是语言学知识工程师的身上。这种分工方式的缺陷如果不能

 

很好地改进,确实对基于规则方法的生存和发展具有很大的阻碍作用。我在后面还会对这个现象怎么改进

 

提出建设性的设想。

 

 

 

总结:

 

建立“规则长成什么样子”  ,目标是要具有语言共性,就是要能够为所有语言建立规则系统提供统一的框架。

建立相应的具体的规则体系,则是从语料中逐步学习的,要基于语言事实,在语言事实基础上决定规则的对错和存留。

“拍脑袋”也和理性主义没有太大的关系。先假设后修正也好,先搜集后假设也好,都是闭环反馈机制。

 

 

 

已经博主授权,源码转载自 https://pan.quark.cn/s/a4b39357ea24 常见问题解答 网页打开速度慢或者打不开网页? 受到多种因素的影响,对于非会员用户我们无法提供最优质的服务。 如果您希望得到最棒的体验,请至大会员页面("右上角菜单 → 大会员")根据说明操作。 请注意:受制于国际网络的诸多不确定性,我们无法对任何服务的可靠性做出任何保证。 如果出现了网络连接相关的问题,我们建议您先等待一段时间,之后再重试。 如果您在重试后发现问题仍然存在,请联系我们,并说明网络问题持续的时间。 图片下载后无法找到? 打开"右上角菜单 → 更多 → 修改下载路径",在弹出的对话框中可以看到当前图片的保存路径。 此外,由于网络因素,在保存图片之后,等待屏幕下方出现"已保存到..."后,才能在本地找到图片。 如何更改图片保存的目录? 请参见"右上角菜单 → 更多 → 修改下载路径"。 翻页不方便? 在点进某个图片后,通过在图片上向左或向右滑动,即可翻页查看下一个作品。 如何保存原图/导出动图? 长按图片/动图,在弹出的菜单中选择保存/导出即可。 输入账号密码后出现"进行人机身份验证"? 此为pixiv登陆时的验证码,请按照要求点击方框或图片。 在pxvr中注册pixiv账号后,收到验证邮件,无法访问邮件中的验证链接? 请复制邮件中的链接,打开pxvr中的"右上角菜单 → 输入地址"进行访问。 能否自动将页面内容翻译为汉语? 很抱歉,pxvr暂不提供语言翻译服务。 图片下载类型是否可以选择? 能否批量下载/批量管理下载? 已支持批量下载多图作品中的所有原图:找到一个多图作品,进入详情页面后,点击图片进入多图浏览模式,长按任意一张图片即可看到批量下载选项。 关于上述其他功能,我们...
考虑局部遮阴的光伏PSO-MPPT控制模型(Simulink仿真实现)内容概要:本文介绍了基于Simulink仿真实现的考虑局部遮阴的光伏PSO-MPPT控制模型,旨在通过粒子群优化(PSO)算法解决光伏发电系统在局部阴影条件下最大功率点跟踪(MPPT)的效率问题。文档不仅提供了该模型的技术实现方法,还列举了大量相关的MATLAB/Simulink仿真资源,涵盖电力系统、智能优化算法、机器学习、路径规划、信号处理等多个科研方向,适用于复现高水平期刊论文和开展创新性研究。文中强调科研需逻辑缜密、善于借力,并提倡结合实际仿真与理论分析以提升研究深度。 适合人群:具备一定电力电子、自动控制或新能源背景,熟悉MATLAB/Simulink环境,从事光伏系统优化、智能算法应用或相关领域研究的研发人员及硕博研究生。 使用场景及目标:①研究局部遮阴下光伏系统MPPT控制策略的性能提升;②利用PSO等智能优化算法解决非线性、多峰值优化问题;③复现SCI/EI级别论文中的MPPT控制模型;④开展光伏系统建模与仿真教学或项目开发。 阅读建议:建议读者结合文档提供的网盘资源,下载完整代码与模型文件,按照目录顺序逐步学习,重点理解PSO算法在MPPT中的应用机制,并通过修改参数、对比实验等方式深入掌握仿真细节,提升工程实践与科研创新能力。
评论
成就一亿技术人!
拼手气红包6.0元
还能输入1000个字符
 
红包 添加红包
表情包 插入表情
 条评论被折叠 查看
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值