基于BERT分词器对新闻文本进行分词

Wenliam

于 2023-08-27 13:08:41 发布

阅读量182

点赞数 2

文章标签： bert 人工智能深度学习

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.youkuaiyun.com/weston95/article/details/132522624

版权

import pandas as pd
from transformers import BertTokenizer
import re

# 加载BERT分词器
tokenizer = BertTokenizer.from_pretrained ( 'bert-base-uncased' )

# 读取Excel文件中的文本数据（假设在第一个sheet中）
file_path = '目标文档.xlsx'
df = pd.read_excel ( file_path, header=0 )  # 使用第一行作为列名

# 对每篇新闻内容进行BERT分词并合并为一个字符串
tokenized_texts = []
for text in df["内容"]:  # 根据你的列名调整
    tokens = tokenizer.tokenize ( str ( text ) )  # 确保将文本转为字符串类型

    # 去除特殊字符
    cleaned_tokens = [token for token in tokens if re.match ( r'^\w+$', token )]

    # 将分词结果合并为一个字符串
    merged_text = " ".join ( cleaned_tokens )
    tokenized_texts.append ( merged_text )

# 将分词结果添加为新的列
df['Tokenized_Content'] = tokenized_texts

# 将带有分词结果的DataFrame写入新的Excel文件
output_file_path = 'Merged_Tokenized_News.xlsx'
df.to_excel ( output_file_path, index=False )

print ( "合并分词结果后的数据已保存至 Merged_Tokenized_News.xlsx" )

博客等级

码龄5年

45
原创

16
点赞

26
收藏

3
粉丝

关注

私信

热门文章

上一篇：: 通过高频词创建无向图

下一篇：: 文本处理，nltk清洗+bert分词

最新评论

Python networkX共现图，通过LDA主题关键词共现
优快云-Ada助手: 恭喜您写完了第19篇博客！标题看起来非常有趣，我很期待阅读您关于Python networkX共现图和LDA主题关键词共现的文章。您对这个主题的深入探索让我感到非常兴奋。不过，如果我可以提供一些建议的话，我希望您能在下一篇博客中进一步探讨一下如何使用这些工具来解决实际问题。希望您能够保持创作，并继续分享您的知识与见解！
Python制作gephi代码
优快云-Ada助手: 恭喜您写了第20篇博客！阅读您的标题，我对您在Python制作gephi代码方面的专业知识和技能表示钦佩。您的持续创作展现了您对该领域的热情和才华。在下一步的创作中，我建议您可以考虑分享一些实践经验和技巧，或者深入探讨一些高级功能，以帮助读者更好地应用和理解Python制作gephi代码。期待您未来更多精彩的博客！
Coherence Score验证LDA主题分类水平
优快云-Ada助手: 恭喜您写了第11篇博客！标题“Coherence Score验证LDA主题分类水平”听起来非常有深度。您的研究对于验证LDA主题分类的水平具有重要意义，这有助于提升主题模型的准确性和可解释性。接下来，我建议您可以考虑探索不同的主题模型评估指标，比如Perplexity指标，以便更全面地评估主题分类的效果。期待您未来更多的博客分享，谢谢您的努力！
LDA主题挖掘并通过一致性分数和困惑度进行验证
优快云-Ada助手: 恭喜您写了第12篇博客！标题《LDA主题挖掘并通过一致性分数和困惑度进行验证》引起了我的兴趣。您对LDA主题挖掘的验证方法进行了深入研究，这是一个非常有价值的工作。我认为这篇博客的内容对于那些对主题挖掘感兴趣的读者来说一定很有帮助。在下一步的创作中，我希望您能继续探索LDA主题挖掘领域的一些挑战和解决方案。也许您可以尝试比较不同的验证方法，或者在实际应用中探索LDA主题挖掘的潜力。无论您选择哪个方向，我相信您的深入研究和实践经验将为读者提供更多有见地的观点和建议。请继续保持您的创作热情，并分享更多关于LDA主题挖掘的见解。期待您未来的博客！
两个新闻源发布新闻时间折线图对比
优快云-Ada助手: 恭喜作者完成了第13篇博客！标题看起来非常有趣，我很期待阅读你的新文章。你的博客一直以来都提供了有价值的信息和观点，这次的主题似乎也很有潜力。如果可以的话，我建议你在博客中加入更多的数据和分析，以便读者更好地理解两个新闻源发布新闻时间的折线图对比。期待你的下一篇作品！

最新文章

目录

展开全部

收起

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。