采用Bert进行中文分词

博客提供了一个参考链接https://www.jianshu.com/p/be0a951445f4 ,但未提及链接具体内容。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

### 使用 BERT 进行分词 为了使用 BERT 模型进行中文或英文分词,需先加载相应的 BERT 分词器 `BertTokenizer` 和模型 `BertModel`。对于本地存储的 BERT 模型,可以通过提供模型路径来完成加载。 ```python import torch from transformers import BertTokenizer, BertModel print("加载 BERT 模型和分词器...") tokenizer = BertTokenizer.from_pretrained('D:\\bert-base-chinese') model = BertModel.from_pretrained('D:\\bert-base-chinese') ``` 这段代码展示了如何从指定路径加载预训练好的 BERT 中文模型及其对应的分词器[^1]。 当处理特定文本时,BERT 的分词过程会将输入字符串转换成一系列 token ID 列表,这些 IDs 可用于后续的编码操作。下面是一个具体的例子: ```python text = "62号汽车故障报告综合情况: 故障现象: 加速后,放开油门,发动机熄火。" tokens = tokenizer.tokenize(text) token_ids = tokenizer.convert_tokens_to_ids(tokens) print(f"原始文本长度: {len(text)}") print(f"分词后的 tokens 数量: {len(tokens)}") print(f"分词结果: {tokens}") ``` 上述代码片段演示了如何利用已加载的分词器对一段描述车辆问题的文字进行精细粒度的分割,其中每个字符(包括数字、标点符号)都被视为独立单元处理[^4]。 值得注意的是,在实际应用中可能还需要考虑更多的细节设置,比如最大序列长度等参数调整,这取决于具体应用场景的需求[^3]。 #### 英文分词实例 同样地,如果要针对英文文本执行相同的操作,则只需更改所使用的预训练模型名称即可获得适用于英语环境下的分词工具。例如采用 `bert-base-uncased` 或其他适合英文的版本。 ```python english_tokenizer = BertTokenizer.from_pretrained('bert-base-uncased') sentence = "This is an example sentence." eng_tokens = english_tokenizer.tokenize(sentence) print(eng_tokens) ``` 此部分介绍了基于不同语言需求选择合适的预训练模型来进行有效分词的方式[^2]。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值