python百度翻译urllib_【Python】Python的urllib、urllib2模块调用“百度翻译”API进行批量自动翻译...

本文介绍了如何在Python中利用urllib和urllib2模块调用百度翻译API进行批量文本翻译,主要步骤包括读取输入文件、转换文本格式、请求翻译、处理返回的JSON结果并写入输出文件。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

1.问题描述

在文本数据处理时,经常回出现文本中各种语言的混杂情况,包括:英文、日语、俄语、法语等,需要将不同语种的语言批量翻译成中文进行处理。可以通过Python直接调用百度提供的翻译API进行批量的翻译。

百度翻译API详细文档见:百度翻译API文档

2.问题解决

开发环境:Linux

将文本中的中文和非中文进行分离,对非中文的部分进行翻译。

Python的代码如下:translate.py

#!/usr/bin/python

#-*- coding:utf-8 -*-

import sys

reload(sys)

sys.setdefaultencoding("utf8")

import json #导入json模块

import urllib #导入urllib模块

from urllib2 import Request, urlopen, URLError, HTTPError #导入urllib2模块

def translate(inputFile, outputFile):

fin = open(inputFile, 'r') #以读的方式打开输入文件

fout = open(outputFile, 'w') #以写的方式代开输出文件

for eachLine in fin: #按行读入文件

line = eachLine.strip() #去除每行首尾可能的空格等

quoteStr = urllib.quote(line) #将读入的每行内容转换成特定的格式进行翻译

url = 'http://openapi.baidu.com/public/2.0/bmt/translate?client_id=WtzfFYTtXyTocv7wjUrfGR9W&q=' + quoteStr + '&from=auto&to=zh'

try:

resultPage = urlopen(url) #调用百度翻译API进行批量翻译

except HTTPError as e:

print('The server couldn\'t fulfill the request.')

print('Error code: ', e.code)

except URLError as e:

print('We failed to reach a server.')

print('Reason: ', e.reason)

except Exception, e:

print 'translate error.'

print e

continue

resultJason = resultPage.read().decode('utf-8') #取得翻译的结果,翻译的结果是json格式

js = None

try:

js = json.loads(resultJason) #将json格式的结果转换成Python的字典结构

except Exception, e:

print 'loads Json error.'

print e

continue

key = u"trans_result"

if key in js:

dst = js["trans_result"][0]["dst"] #取得翻译后的文本结果

outStr = dst

else:

outStr = line #如果翻译出错,则输出原来的文本

fout.write(outStr.strip().encode('utf-8') + '\n') #将结果输出

fin.close()

fout.close()

if __name__ == '__main__':

translate(sys.argv[1], sys.argv[2]) #通过获得命令行参数获得输入输出文件名来执行,方便

程序完成之后,在Linux命令行输入:python translate.py myinput.txt myoutput.txt

就能够执行了。最终的翻译结果都写入到输出文件myoutput.txt中了。

3.注意

(1)程序的前几行都是常规写法,为了解决可能经常出现的中文编码问题。

(2)第18行,需要进行翻译的文本需要通过quote函数转化成特定的格式编码进行翻译。

(3)第19行,url中的“&from=auto&to=zh”,from后面接源语言的代码,to后面接目的语言的代码,如:zh表示中文、en表示英文,auto表示自动的任意语言。

希望对大家有所帮助,谢谢。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值