在 https://danbooru.donmai.us 搜索色图的时候,因为老美的网站的缘故,不支持中文和日文输入,只能输入平假名对应罗马音来寻找人物.像我虽然日语N1了,但是遇到人名有时依然会念错.所以需要一个可以直接翻译角色名的API.不过找了一圈,什么有道翻译,谷歌翻译(googleTranslate for py),都是坑=,=
例如:宝多六花->Treasure six flowers
我佛了,什么精致翻译
所以不考虑机翻考虑人翻,立刻想到可以用百度百科或者萌娘百科的翻译,于是不用翻译直接用爬虫爬下来不就好了吗?
所以立刻写完测试,拿来使用(好像没啥问题)
图一:输入框中输入角色的罗马音

图二:百科翻译


测试结果
1.动漫角色


其他
另外,还能搜现实人物的外文名。因为百度百科的网页样式比较统一,所以不用修改爬虫就能得到,但是萌百的页面普遍有三种1.角色 2.重名->重定向 3.现实人物,而这里只做了对角色的搜索页面,所以现实人物会GG。另外没有对没有平假名的页面也会GG


我觉得可以走NLP方向研究下平假名翻译这个问题
Python代码
import requests
from lxml import etree

本文介绍了作者如何使用Python脚本从百度百科和萌娘百科抓取动漫角色的罗马音或外文名,以解决在不支持中文和日文输入的网站上搜索动漫角色的问题。通过避免依赖机器翻译API,作者直接爬取相关百科网站的数据,实现了更准确的搜索。文章包含了测试结果和Python代码示例。
最低0.47元/天 解锁文章

被折叠的 条评论
为什么被折叠?



