4、自然语言处理:从语用学到书写系统与编码

自然语言处理:从语用学到书写系统与编码

1. 语用学基础

语用学中存在两种重要的信息类型:
- 交际寒暄类(Phatic) :用于建立或关联通信渠道的信息,例如“Hello!”和闲聊内容。
- 指称类(Referential) :传达与上下文相关信息的消息,像“It’s raining.”。

在实际交流中,多数言语行为往往是这几种因素的组合,而非单纯聚焦于某一个因素。

当处理文本数据集时,思考消息撰写的原因十分必要。这需要综合运用语用学、社会语言学和领域专业知识。即便无法随时咨询领域专家,我们也能对数据的语用和社会背景进行合理的解读。而且,在处理流程的早期就应考虑这些因素,因为它们会对后续的数据处理决策产生影响。

2. 书写系统的起源

书写在人类历史中是相对较新的发展,但人体似乎已经产生了相应的生理适应。当一个人具备读写能力时,大脑中专门负责字符识别的“字母盒”区域会被激活,且无论学习何种语言,“字母盒”在大脑中的位置大致相同。

书写系统在历史上似乎多次被发明。通常的模式是先创造出表意明确但可能与单词并不对应的符号,即象形文字,随后这些符号会逐渐演变和专业化。

以拉丁字母的起源为例,其发展历程曲折:
- 拉丁人借鉴了希腊字母,但古典时期存在多种希腊字母表。
- 希腊人又从腓尼基人那里借用字符,并创新了一些字母。
- 腓尼基人是居住在黎凡特海岸的迦南人部落,迦南人的书写系统基于简化后的埃及字符。
- 埃及文字是语标和语音符号的混合(类似于现代日语),迦南人采用了埃及

评论
成就一亿技术人!
拼手气红包6.0元
还能输入1000个字符  | 博主筛选后可见
 
红包 添加红包
表情包 插入表情
 条评论被折叠 查看
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值