import pandas as pd from transformers import BertTokenizer import re # 加载BERT分词器 tokenizer = BertTokenizer.from_pretrained ( 'bert-base-uncased' ) # 读取Excel文件中的文本数据(假设在第一个sheet中) file_path = '目标文档.xlsx' df = pd.read_excel ( file_path, header=0 ) # 使用第一行作为列名 # 对每篇新闻内容进行BERT分词并合并为一个字符串 tokenized_texts = [] for text in df["内容"]: # 根据你的列名调整 tokens = tokenizer.tokenize ( str ( text ) ) # 确保将文本转为字符串类型 # 去除特殊字符 cleaned_tokens = [token for token in tokens if re.match ( r'^\w+$', token )] # 将分词结果合并为一个字符串 merged_text = " ".join ( cleaned_tokens ) tokenized_texts.append ( merged_text ) # 将分词结果添加为新的列 df['Tokenized_Content'] = tokenized_texts # 将带有分词结果的DataFrame写入新的Excel文件 output_file_path = 'Merged_Tokenized_News.xlsx' df.to_excel ( output_file_path, index=False ) print ( "合并分词结果后的数据已保存至 Merged_Tokenized_News.xlsx" )