#保持每天更新第一天(1)_文本预处理小技巧_中英文翻译分割技巧_从中文右边空格分割,用rsplit(‘ ‘, 1)

-- coding: utf-8 --

“”"
Created on Fri Oct 18 20:58:07 2024

@author: M.D
“”"

import pandas as pd

df = pd.read_csv(“transversalSkillsCollection_翻译.csv”)
data = df[“altLabels 替代标签”]

原始数据,每条数据由英文和中文组成

data = “”"
take the initiative 积极主动
give impetus 推动
be a driving force 成为驱动力
demonstrate sense of initiative 展示主动性
initiate action 发起行动
show sense of initiative 展现主动性
show active initiative 展现积极的主动性
implement environmental choices in your own eating habit 将环保选择融入自己的饮食习惯
adopt a sustainable eating habit 采用可持续的饮食习惯
promoting organic and biological food consumption 促进有机和生物食品的消费
“”"

分割文本为每一行

df get()

lines = data.strip().split(‘\n’)

提取英文和中文,按倒数第一个空格分割

english = []
chinese = []
for line in lines:
eng, chn = line.rsplit(’ ', 1) # 使用rsplit从右侧第一个空格进行分割
english.append(eng)
chinese.append(chn)

创建DataFrame

df = pd.DataFrame({‘English’: english, ‘Chinese’: chinese})

保存为CSV文件

df.to_csv(‘soft_skills_separated_all.csv’, index=False, encoding=‘utf-8-sig’)

print(“CSV file saved successfully.”)

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值