Python爬虫爬取翻译类网站

最新推荐文章于 2024-06-17 17:10:01 发布

qwefdrt

最新推荐文章于 2024-06-17 17:10:01 发布

阅读量1k

点赞数

CC 4.0 BY-SA版权

分类专栏： Python爬虫

本文链接：https://blog.youkuaiyun.com/qwefdrt/article/details/75028178

Python爬虫专栏收录该内容

3 篇文章

订阅专栏

本文介绍了一种使用Python爬虫技术抓取特定日语翻译网站的方法。通过分析网站的POST请求，利用requests库模拟发送数据并解析返回结果。文中详细展示了如何构造请求头及参数，并提供了完整的代码示例。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

很多翻译网站都是一下类似的布局，如百度翻译：

当输入要翻译的内容点击翻译后，网站的URL实际上是不会变的，因为大多数翻译网站在进行这个操作的时候用到的是POST请求类型。

我以我爬过的一个日文翻译网站举例：

用Chrome查看接收的文件，这里其实就是我们每次查询发送的POST请求内容。其中timestamp,unqid都是随机的（但是在我爬去的过程中网站好像不会去认证这些），只要在代码中把每次请求加上这些内容就行了。

下面上代码：

import requests
import lxml
from bs4 import BeautifulSoup

url = 'http://nihongo.j-talk.com/'

def get_result(content):
    data = {}
    data['timestamp'] = '1499416657'
    data['uniqid'] = '48f377db0a94b119fe3870942785c1b8e0bb654b'
    data['kanji'] = content
    data['Submit'] = 'Translate Now'
    data['kanji_parts'] = 'unchanged'
    data['converter'] = 'spacedrollover'
    data['kana_output'] = 'katakana'

    response = requests.post(url,data = data) 

    soup = BeautifulSoup(response.text,'lxml')
    
    ###分析html获得结果
    big = ''
    if soup.findAll('trg',{'class':'trigger'}):
        romas = soup.findAll('trg',{'class':'trigger'})
        for roma in romas:
            roma = roma.get_text()
            big += roma
        return big
    else:
        try:
            romas = soup.findAll('div',{'class':'katakana'})
            for roma in romas:
                roma = roma.get_text()
                big += roma
            return big
        except:
            return ''

inputfilepath = input('输入读取的文件路径')
inputfile = open(inputfilepath,'r')
outputfile = open('output'+inputfilepath,'w')
lines = inputfile.readlines()
for line in lines:
    line = line.replace('\n','')
    result = get_katakana(line)
    result1 = "%s    %s\r\n" %(line,result)
    print(result1),
    outputfile.write(result1)
inputfile.close()
outputfile.close()