python langid 语种检测以及语种对应表

最新推荐文章于 2024-09-24 19:37:31 发布

原创最新推荐文章于 2024-09-24 19:37:31 发布 · 6k 阅读

18 ·

CC 4.0 BY-SA版权

文章标签：

#python #语种识别 #语言类型 #语种简称对应表 #langid

Python 专栏收录该内容

45 篇文章

订阅专栏

本文介绍了一个使用langid包进行文本语种识别的方法，并提供了详细的Python代码示例。通过对不同语言的文本输入，该工具能够准确识别出文本所属的语言种类。

部署运行你感兴趣的模型镜像

利用langid包识别语种，demo代码

import langid
def lang_by_langid(para_text):
    '''
    语种识别,根据langid包
    '''
    ret = langid.classify(para_text)
    print(f"langid:{ret}")
    return ret[0]

lang_arr=[
        "「i-FILTER」に複数の脆弱性。導入企業は最新版に更新を（JVN#32155106） | セキュリティ対策のラック",
        "疑似 KimsukyAPT 组织最新攻击活动样本分析",
        "이스트시큐리티 알약 블로그",
        "Ruth Schofield Is Joining Heimdal™ Security’s Executive All-Star Team as UK Sales Director",
         'いつもながら素敵や。https://t.co/Ei2fJGhZTC'
    ]

for item in lang_arr:
    print(f"text:{item}")
    tmp = lang_by_langid(item)

输出结果：

text:「i-FILTER」に複数の脆弱性。導入企業は最新版に更新を（JVN#32155106） | セキュリティ対策のラック
langid:('ja', -675.1671650409698)

text:疑似 KimsukyAPT 组织最新攻击活动样本分析
langid:('zh', -202.03950572013855)

text:이스트시큐리티 알약 블로그
langid:('ko', -248.97621655464172)

text:Ruth Schofield Is Joining Heimdal™ Security’s Executive All-Star Team as UK Sales Director
langid:('en', -54.81398916244507)

text:いつもながら素敵や。https://t.co/Ei2fJGhZTC
langid:('ja', -255.61449241638184)

ISO 639语言编码标准

ISO 639-1是国际标准化组织ISO 639语言编码标准的第一部分。它含有 136 个两字母的编码，用来标示世界上主要的语言。这些代码在很多地方都被用作语言的简写，例如：
    * 英语（English）用en表示
    * 德语（Deutsch）用de表示（Deutsch 是德语的本名）
    * 日语（Japanese）用ja表示（尽管日语的拼音是 Nihongo）
    * 汉语使用zh表示，来自“中文”的汉语拼音: Zhōngwén

ISO 639-1语言列表
aa      阿法尔语        fr      法语            li      林堡语          se      北萨米语
ab      阿布哈兹语      fy      弗里西亚语      ln      林加拉语        sg      桑戈语
ae      阿维斯陀语      ga      爱尔兰语        lo      老挝语          sh      塞尔维亚-克罗地亚语
af      阿非利堪斯语    gd      苏格兰盖尔语    lt      立陶宛语        si      僧加罗语
ak      阿坎语          gl      加利西亚语      lu      卢巴-加丹加语   sk      斯洛伐克语
am      阿姆哈拉语      gn      瓜拉尼语        lv      拉脱维亚语      sl      斯洛文尼亚语
an      阿拉贡语        gu      古吉拉特语      mg      马达加斯加语    sm      萨摩亚语
ar      阿拉伯语        gv      马恩岛语        mh      马绍尔语        sn      绍纳语
as      阿萨姆语        ha      豪萨语          mi      毛利语          so      索马里语
av      阿瓦尔语        he      希伯来语        mk      马其顿语        sq      阿尔巴尼亚语
ay      艾马拉语        hi      印地语          ml      马拉亚拉姆语    sr      塞尔维亚语
az      阿塞拜疆语      ho      希里莫图语      mn      蒙古语          ss      斯瓦特语
ba      巴什基尔语      hr      克罗地亚语      mo      摩尔达维亚语    st      南索托语
be      白俄罗斯语      ht      海地克里奥尔语  mr      马拉提语        su      巽他语
bg      保加利亚语      hu      匈牙利语        ms      马来语          sv      瑞典语
bh      比哈尔语        hy      亚美尼亚语      mt      马耳他语        sw      斯瓦希里语
bi      比斯拉玛语      hz      赫雷罗语        my      缅甸语          ta      泰米尔语
bm      班巴拉语        ia      国际语A         na      瑙鲁语          te      泰卢固语
bn      孟加拉语        id      印尼语          nb      书面挪威语      tg      塔吉克语
bo      藏语            ie      国际语E         nd      北恩德贝勒语    th      泰语
br      布列塔尼语      ig      伊博语          ne      尼泊尔语        ti      提格里尼亚语
bs      波斯尼亚语      ii      四川彝语        ng      恩敦加语        tk      土库曼语
ca      加泰隆语        ik      依努庇克语      nl      荷兰语          tl      塔加洛语
ce      车臣语          io      伊多语          nn      新挪威语        tn      塞茨瓦纳语
ch      查莫罗语        is      冰岛语          no      挪威语          to      汤加语
co      科西嘉语        it      意大利语        nr      南恩德贝勒语    tr      土耳其语
cr      克里语          iu      伊努伊特语      nv      纳瓦霍语        ts      宗加语
cs      捷克语          ja      日语            ny      尼扬贾语        tt      塔塔尔语
cu      教会斯拉夫语    jv      爪哇语          oc      奥克语          tw      特威语
cv      楚瓦什语        ka      格鲁吉亚语      oj      奥吉布瓦语      ty      塔希提语
cy      威尔士语        kg      刚果语          om      奥洛莫语        ug      维吾尔语
da      丹麦语          ki      基库尤语        or      奥利亚语        uk      乌克兰语
de      德语            kj      宽亚玛语        os      奥塞梯语        ur      乌尔都语
dv      迪维希语        kk      哈萨克语        pa      旁遮普语        uz      乌兹别克语
dz      不丹语          kl      格陵兰语        pi      巴利语          ve      文达语
ee      埃维语          km      高棉语          pl      波兰语          vi      越南语
el      现代希腊语      kn      卡纳达语        ps      普什图语        vo      沃拉普克语
en      英语            ko      朝鲜语、韩语    pt      葡萄牙语        wa      沃伦语
eo      世界语          kr      卡努里语        qu      凯楚亚语        wo      沃洛夫语
es      西班牙语        ks      克什米尔语      rm      利托-罗曼语     xh      科萨语
et      爱沙尼亚语      ku      库尔德语        rn      基隆迪语        yi      依地语
eu      巴斯克语        kv      科米语          ro      罗马尼亚语      yo      约鲁巴语
fa      波斯语          kw      康沃尔语        ru      俄语            za      壮语
ff      富拉语          ky      吉尔吉斯语      rw      基尼阿万达语    zh      中文、汉语
fi      芬兰语          la      拉丁语          sa      梵语            zu      祖鲁语
fj      斐济语          lb      卢森堡语        sc      撒丁语
fo      法罗语          lg      干达语          sd      信德语