
AI
文章平均质量分 95
自然语言处理( Natural Language Processing, NLP)是计算机科学领域与人工智能领域中的一个重要方向。它研究能实现人与计算机之间用自然语言进行有效通信的各种理论和方法。
爱看书的小沐
我一读书,就丧失了所有时间感。
他们不会理解这本书,不过这样只有好处。理解令心灵懒散。
我就是想开一家书店。
展开
-
【小沐学AI】Python实现语音识别(whisperX)
Whisper 是一种通用语音识别模型。它是在各种音频的大型数据集上训练的,也是一个多任务模型,可以执行多语言语音识别、语音翻译和语言识别。Transformer 序列到序列模型针对各种语音处理任务进行训练,包括多语言语音识别、语音翻译、口语识别和语音活动检测。这些任务共同表示为解码器要预测的一系列标记,从而允许单个模型取代传统语音处理管道的许多阶段。多任务训练格式使用一组特殊标记作为任务说明符或分类目标。╮( ̄▽ ̄)╭如果您感觉方法或代码不咋地//(ㄒoㄒ)//,就在评论处留言,作者继续改进;o_O。原创 2024-06-30 13:28:34 · 5152 阅读 · 8 评论 -
【小沐学AI】Python实现语音识别(whisper+HuggingFace)
Whisper 是一种通用语音识别模型。它是在各种音频的大型数据集上训练的,也是一个多任务模型,可以执行多语言语音识别、语音翻译和语言识别。Transformer 序列到序列模型针对各种语音处理任务进行训练,包括多语言语音识别、语音翻译、口语识别和语音活动检测。这些任务共同表示为解码器要预测的一系列标记,从而允许单个模型取代传统语音处理管道的许多阶段。多任务训练格式使用一组特殊标记作为任务说明符或分类目标。原创 2024-06-30 09:47:32 · 2632 阅读 · 0 评论 -
【小沐学AI】Python实现语音识别(faster-whisper-webui)
Whisper 是一种通用语音识别模型。它是在各种音频的大型数据集上训练的,也是一个多任务模型,可以执行多语言语音识别、语音翻译和语言识别。OpenAI 的开源模型 whisper,可以执行 99 种语言的语音识别和文字转写。但是 whisper 模型占用计算资源多,命令行使用门槛高。whisper 模型本身还存在一些问题,例如 模型幻听问题。Whisper是可以理解多种语言的自动语音识别()系统。它已经接受了从网络收集的 680,000 小时监督数据的训练。原创 2024-06-30 00:58:36 · 2133 阅读 · 2 评论 -
【小沐学AI】Python实现语音识别(faster-whisper)
Faster-Whisper是Whisper开源后的第三方进化版本,它对原始的 Whisper 模型结构进行了改进和优化。faster-whisper 是使用 CTranslate2 重新实现 OpenAI 的 Whisper 模型,CTranslate2 是 Transformer 模型的快速推理引擎。此实现比 openai/whisper 快 4 倍,同时使用更少的内存实现相同的准确性。通过对 CPU 和 GPU 进行 8 位量化,可以进一步提高效率。原创 2024-06-29 23:50:00 · 5764 阅读 · 23 评论 -
【小沐学AI】C++实现语音识别(Whisper.cpp)
Whisper 是一种通用语音识别模型。它是在各种音频的大型数据集上训练的,也是一个多任务模型,可以执行多语言语音识别、语音翻译和语言识别.转载 2024-06-23 00:40:54 · 2136 阅读 · 5 评论 -
【小沐学AI】Python实现语音识别(Whisper-Web)
Whisper 是一种自动语音识别 (ASR) 系统,经过 680,000 小时的多语言和多任务监督数据的训练,从网络上收集。我们表明,使用如此庞大而多样化的数据集可以提高对口音、背景噪音和技术语言的鲁棒性。此外,它还支持多种语言的转录,以及从这些语言翻译成英语。我们正在开源模型和推理代码,作为构建有用应用程序和进一步研究鲁棒语音处理的基础。Whisper 架构是一种简单的端到端方法,作为编码器-解码器 Transformer 实现。原创 2024-06-22 23:22:34 · 1544 阅读 · 2 评论 -
【NLP开发】Python实现聊天机器人(微信机器人)
通过腾讯云HiFlow场景连接器,可以零代码的设置企业微信机器人自动/定时发消息的规则,比如:每周五下午6点定时发送周报;收到新的销售线索/报表自动发送消息通知管理群等。原创 2024-06-01 19:06:25 · 4635 阅读 · 2 评论 -
【小沐学AI】智谱AI大模型的一点点学习(Python)
202年1月30日,大模型开源开放评测体系司南(OpenCompass2.0)正式发布,旨在为大语言模型、多模态模型等各类模型提供一站式评测服务。GLM-4模型编码:glm-4根据输入的自然语言指令完成多种语言类任务,推荐使用 SSE 或异步调用方式请求接口client = ZhipuAI(api_key="") # 填写您自己的APIKeymodel="glm-4", # 填写需要调用的模型名称messages=[原创 2024-03-23 20:27:07 · 2655 阅读 · 0 评论 -
【小沐学AI】Google AI大模型的一点点学习(Python)
Gemini 是 Google 最大、功能最强大的 AI 模型。Gemini 是 Google 的最新一代生成模型,超越了 PaLM 模型系列的功能。原创 2024-03-19 00:18:36 · 1646 阅读 · 0 评论 -
【小沐学AI】数据分析的Python库:Pandas AI
PandasAI 是一个 Python 库,可以轻松地用自然语言向数据提问。它可以帮助您使用生成式 AI 探索、清理和分析数据。PandasAI与您的数据库(SQL、CSV、pandas、polars、mongodb、noSQL 等)聊天。PandasAI 使用 LLM(GPT 3.5 / 4、Anthropic、VertexAI)和 RAG 进行数据分析对话。原创 2024-03-17 17:39:47 · 4804 阅读 · 0 评论 -
【小沐学写作】免费在线AI辅助写作汇总
自从chatgpt火了以后,AI工具爆发式增长,各种各样的AI工具层出不穷。有Ai写作、AI绘画、AI编程、AI视频、AI音频等等,今天为大家推荐的这几款AI辅助写作工具。智能创作助手 Effidit(Efficient and Intelligent Editing) 是由腾讯 AI Lab 开发的一个研究性原型系统,探索用 AI 技术提升写作者的写作效率和创作体验(在线体验推荐使用 Chrome 或 Microsoft Edge 浏览器)天工AI搜索能够通过流畅的对话式交互准确地理解用户的搜索意图。原创 2023-11-25 22:09:10 · 1707 阅读 · 2 评论 -
【小沐学NLP】Python实现K-Means聚类算法(nltk、sklearn)
机器学习三要素:包括数据、模型、算法机器学习三大任务方向:分类、回归、聚类机器学习三大类训练方法:监督学习、非监督学习、强化学习聚类是一种无监督学习任务,该算法基于数据的内部结构寻找观察样本的自然族群(即集群)。使用案例包括细分客户、新闻聚类、文章推荐等。因为聚类是一种无监督学习(即数据没有标注),并且通常使用数据可视化评价结果。如果存在「正确的回答」(即在训练集中存在预标注的集群),那么分类算法可能更加合适。原创 2024-01-01 01:26:41 · 1965 阅读 · 0 评论 -
【小沐学NLP】Python实现TF-IDF算法(nltk、sklearn、jieba)
TF-IDF(term frequency–inverse document frequency)是一种用于信息检索与数据挖掘的常用加权技术。TF是词频(Term Frequency),IDF是逆文本频率指数(Inverse Document Frequency)。TF-IDF是一种统计方法,用以评估一字词对于一个文件集或一个语料库中的其中一份文件的重要程度。字词的重要性随着它在文件中出现的次数成正比增加,但同时会随着它在语料库中出现的频率成反比下降。原创 2023-12-31 22:33:59 · 2737 阅读 · 2 评论 -
【小沐学Python】Python实现WebUI网页图表(gradio)
Gradio是用友好的网络界面演示机器学习模型的最快方法,因此任何人都可以在任何地方使用它!Gradio与他人共享机器学习模型、API或数据科学工作流程的最佳方法之一是创建一个交互式应用程序,允许您的用户或同事在浏览器中尝试演示。Gradio允许您构建演示并共享它们,所有这些都使用Python。通常只需几行代码!让我们开始吧。使用gradio,只需在原有的代码中增加几行,就能自动化生成交互式web页面,并支持多种输入输出格式,比如图像分类中的图>>标签,超分辨率中的图>>图等。╮( ̄▽ ̄)╭。原创 2023-12-10 12:39:40 · 3869 阅读 · 0 评论 -
【小沐学Python】Python实现语音识别(vosk)
Vosk 是一个语音识别工具包。支持二十+种语言 - 中文,英语,印度英语,德语,法语,西班牙语,葡萄牙语,俄语,土耳其语,越南语,意大利语,荷兰人,加泰罗尼亚语,阿拉伯, 希腊语, 波斯语, 菲律宾语,乌克兰语, 哈萨克语, 瑞典语, 日语, 世界语, 印地语, 捷克语, 波兰语, 乌兹别克语, 韩国语移动设备上脱机工作-Raspberry Pi,Android,iOS使用简单的 pip3 install vosk 安装每种语言的手提式模型只有是50Mb, 但还有更大的服务器模型可用。原创 2023-12-10 11:04:31 · 6890 阅读 · 0 评论 -
【小沐学Python】Python实现TTS文本转语音(speech、pyttsx3、百度AI)
TTS(Text To Speech) 译为从文本到语音,TTS是人工智能AI的一个模组,是人机对话的一部分,即让机器能够说话。TTS是语音合成技术应用的一种,首先采集语音波形,然后进行优化处理,最后存储在数据库中,合成语音是提取波形转换成自然语音输出。Windows 语音识别允许你单独通过语音控制电脑,而无需键盘或鼠标。本文列出了可用于语音识别的命令。适用于 Python 2 和 3 的文本转语音 (TTS) 库。无需互联网连接或延迟即可工作。原创 2023-12-10 09:16:52 · 12210 阅读 · 1 评论 -
【小沐学Python】Python实现语音识别(Whisper)
Whisper 是一种通用的语音识别模型。它是在包含各种音频的大型数据集上训练的,也是一个多任务模型,可以执行多语言语音识别、语音翻译和语言识别。Open AI在2022年9月21日开源了号称其英文语音辨识能力已达到人类水准的Whisper神经网络,且它亦支持其它98种语言的自动语音辨识。Whisper系统所提供的自动语音辨识(Automatic Speech Recognition,ASR)模型是被训练来运行语音辨识与翻译任务的,它们能将各种语言的语音变成文本,也能将这些文本翻译成英文。原创 2023-12-09 18:01:03 · 20745 阅读 · 31 评论 -
【小沐学Python】Python实现语音识别(SpeechRecognition)
SpeechRecognition用于执行语音识别的库,支持多个引擎和 API,在线和离线。以上几个中只有 recognition_sphinx()可与CMU Sphinx 引擎脱机工作, 其他六个都需要连接互联网。另外,SpeechRecognition 附带 Google Web Speech API 的默认 API 密钥,可直接使用它。其他的 API 都需要使用 API 密钥或用户名/密码组合进行身份验证。╮( ̄▽ ̄)╭如果您感觉方法或代码不咋地//(ㄒoㄒ)//,就在评论处留言,作者继续改进;原创 2023-12-09 17:21:50 · 24412 阅读 · 28 评论 -
【小沐学NLP】关联规则分析Apriori算法(Mlxtend库,Python)
Apriori 是一种流行的算法,用于提取具有关联规则学习应用的频繁项集。先验算法被设计为在包含交易的数据库上运行,例如商店顾客的购买。如果项集满足用户指定的支持阈值(support threshold),则将其视为“频繁”。例如,如果支持阈值(support threshold)设置为 0.5 (50%),则常用项集定义为在数据库中至少 50% 的事务中一起出现的一组项。原创 2023-09-17 08:58:43 · 3203 阅读 · 0 评论 -
【小沐学NLP】AI辅助编程工具汇总
迄今为止的进展表明,生成式 AI 模型可能会成为开发人员编写、调试和优化代码能力的必备工具。原创 2023-09-16 16:20:45 · 2161 阅读 · 0 评论 -
【小沐学NLP】Python使用NLTK库的入门教程
NLTK - 自然语言工具包 - 是一套开源Python。支持自然研究和开发的模块、数据集和教程 语言处理。NLTK 需要 Python 版本 3.7、3.8、3.9、3.10 或 3.11。NLTK是一个高效的Python构建的平台,用来处理人类自然语言数据。它提供了易于使用的接口,通过这些接口可以访问超过50个语料库和词汇资源(如WordNet),还有一套用于分类、标记化、词干标记、解析和语义推理的文本处理库,以及工业级NLP库的封装器和一个活跃的讨论论坛。原创 2023-09-03 02:03:47 · 15532 阅读 · 11 评论 -
【小沐学NLP】Python进行统计假设检验
什么是假设检验?统计学有两个推断统计方法,一个是参数估计,另一个是假设检验。参数估计用样本统计量来推断总体参数的方法假设检验是基于某一假设的前提下,同样利用样本统计量去检验这个假设是否成立。╮( ̄▽ ̄)╭如果您感觉方法或代码不咋地//(ㄒoㄒ)//,就在评论处留言,作者继续改进;o_O???如果您需要相关功能的代码定制化开发,可以留言私信作者;(✿◡‿◡)!!原创 2023-08-20 01:56:48 · 1771 阅读 · 0 评论 -
【小沐学NLP】在线AI绘画网站(网易云课堂:AI绘画工坊)
Stable Diffusion是一种强大的图像生成AI,它可以根据输入的文字描述词(prompt)来绘制图像。在Stable Diffusion上完成优秀图像的制作需要有正确的模型+准确的提示词+参数调整+后期处理技术。网易云课堂云课堂stable diffusion上线。Stable Diffusion官方会提供SD模型(目前更新到Stable Diffusion 2.1-v)。除此之外,我们也可以从Civitai上面获取模型。原创 2023-08-05 12:03:52 · 2553 阅读 · 3 评论 -
【小沐学NLP】在线AI绘画网站(百度:文心一格)
当下,越来越多AI领域前沿技术争相落地,逐步释放出极大的产业价值,其中最受关注的方向之一便是 大规模预训练模型(简称“大模型”),大模型不仅效果好、泛化能力强、通用性强,而且具有强大的生成能力。在此基础上,AIGC(Artificial Intelligence Generated Content,人工智能生成内容)赛道也正在如火如荼地发展。这一代内容生产者正在逐渐掌握一种新的生产方式-AIGC,借助AI技术来取长补短,提升工作效率。原创 2023-08-05 09:56:00 · 1793 阅读 · 0 评论 -
【小沐学NLP】龙猫-InsCode Stable Diffusion 美图活动一期
目前市面上比较权威,并能用于工作中的AI绘画软件其实就两款。一个叫Midjourney(简称MJ),另一个叫Stable-Diffusion(简称SD)。MJ需要付费使用,而SD开源免费,但是上手难度和学习成本略大。Stable Diffusion 是 2022 年发布的深度学习文字到图像生成模型。它主要用于根据文字的描述产生详细图像,能够在几秒钟内创作出令人惊叹的艺术作品。原创 2023-07-16 01:00:53 · 1359 阅读 · 2 评论 -
【小沐学NLP】Python实现聊天机器人(OpenAI,模型概述笔记)
OpenAI是全球最著名的人工智能研究机构,发布了许多著名的人工智能技术和成果,如大语言模型GPT系列、文本生成图片预训练模型DALL·E系列、语音识别模型Whisper系列等。由于这些模型在各自领域都有相当惊艳的表现,引起了全世界广泛的关注。GPT之前有几个的前辈,包括GPT-1、GPT-2和GPT-3和ChatGPT。GPT家族与BERT模型都是知名的NLP模型族,都基于Transformer技术。GPT-1只有12层,而到了GPT-3,则增加到96层。原创 2023-05-20 18:00:04 · 2637 阅读 · 0 评论 -
【小沐学NLP】Python实现聊天机器人(ChatterBot,集成web服务)
Flask诞生于2010年, Armin Ronacher的一个愚人节玩笑。不过现在已经是一个用python语言基于Werkzeug工具箱编写的轻量级web开发框架,它主要面向需求简单,项目周期短的小应用。Flask-SQLalchemy:操作数据库;Flask-migrate:管理迁移数据库;Flask-Mail:邮件;Flask-WTF:表单;Flask-script:插入脚本;Flask-Login:认证用户状态;Flask-RESTful:开发REST API的工具;原创 2023-05-08 20:32:54 · 3379 阅读 · 0 评论 -
【小沐学NLP】Python实现聊天机器人(ChatterBot,集成前端页面)
ChatterBot是一个Python库,可以轻松生成自动化 对用户输入的响应。ChatterBot 使用一系列机器学习 产生不同类型响应的算法。这使得它很容易 开发人员创建聊天机器人并自动与用户对话。╮( ̄▽ ̄)╭如果您感觉方法或代码不咋地//(ㄒoㄒ)//,就在评论处留言,作者继续改进;o_O???如果您需要相关功能的代码定制化开发,可以留言私信作者;(✿◡‿◡)!!原创 2023-05-08 20:31:57 · 1841 阅读 · 0 评论 -
【小沐学NLP】Python实现聊天机器人(若干在线聊天机器人)
AI 聊天机器人使用自然语言处理 (NLP) 来帮助用户通过文本、图形或语音与 Web 服务或应用进行交互。聊天机器人可以理解自然人类语言、模拟人类对话并运行简单的自动化任务。此外,AI 聊天机器人还利用预测智能和分析技术来了解用户的偏好,并利用了解的这些信息来提供建议和预测需求。AI 聊天机器人用于各种渠道,例如消息传递应用、移动应用、网站、电话线路和支持语音的应用。它们可以针对不同目的而开发,无论是仅处理一些简单的命令,还是充当复杂的数字助理和交互式代理。原创 2023-05-07 21:48:22 · 1918 阅读 · 2 评论 -
【小沐学NLP】Python实现聊天机器人(Selenium、七嘴八舌)
WebDriver 允许你通过模拟用户交互来自动执行 Microsoft Edge。WebDriver 可以使用在浏览器中运行的 JavaScript 不可使用的功能和信息。WebDriver 比 JavaScript 单元测试更准确地模拟用户事件或 OS 级事件。WebDriver 管理单个测试会话中的多个窗口、选项卡、网页。WebDriver 在特定计算机上运行多个 Microsoft Edge 会话。原创 2023-02-19 13:03:55 · 2815 阅读 · 2 评论 -
【小沐学NLP】Python实现聊天机器人(微软小冰)
小冰公司前身为微软(亚洲)互联网工程院人工智能小冰团队,是微软全球最大的人工智能独立产品研发团队。该团队于2013年12月在中国组建,2014年9月扩展建立日本研发分部,团队分布于北京、苏州、东京等地,技术产品覆盖中国、日本及印度尼西亚等多个国家,商业客户覆盖全球范围。小冰”是微软在2014年5月29日发布的人工智能。原创 2022-10-18 00:26:26 · 3735 阅读 · 0 评论 -
【小沐学NLP】Python实现聊天机器人(ChatterBot,代码示例)
ChatterBot是Python中基于机器学习的对话对话引擎,可以根据已知对话的集合生成响应。ChatterBot与语言无关的设计允许它被训练成说任何语言。未经训练的聊天机器人实例开始时不知道如何进行通信。每次用户输入语句时,库都会保存他们输入的文本以及语句所响应的文本。随着 ChatterBot 接收到更多输入,它可以回复的响应数以及每个响应相对于输入语句的准确性也会增加。原创 2022-10-05 07:34:40 · 9894 阅读 · 40 评论 -
【小沐学NLP】Python实现词云图
自然语言处理 (Natural Language Processing) 是人工智能(AI)的一个子领域。自然语言处理(NLP)就是在机器语言和人类语言之间沟通的桥梁,以实现人机交流的目的。使用wordcloud+jieba+各种形状进行测试。原创 2022-10-04 17:13:35 · 4229 阅读 · 2 评论 -
【小沐学NLP】Python实现聊天机器人(微软Azure机器人服务)
正因为对话机器人有如此广泛的应用,技术应用也层出不穷。如百度开源的基于检索式机器人的框架AnyQ;Google开源的基于生成式对话系统DeepQA;Facebook开源的基于阅读理解的系统DrQA;北京大学知识库问答系统gAnswer。什么是 Bot Framework SDK?Microsoft Bot Framework和 Azure 机器人服务是库、工具和服务的集合,可用于生成、测试、部署和管理智能机器人。原创 2022-10-03 05:38:12 · 2695 阅读 · 0 评论 -
【小沐学NLP】Python实现聊天机器人(ELIZA)
聊天机器人可用于实用的目的,如客户服务或资讯获取。有些聊天机器人会搭载自然语言处理系统,但大多简单的系统只会撷取输入的关键字,再从数据库中找寻最合适的应答句。聊天机器人是虚拟助理(如Google智能助理)的一部分,可以与许多组织的应用程序,网站以及即时消息平台(Facebook Messenger)连接。非助理应用程序包括娱乐目的的聊天室,研究和特定产品促销,社交机器人。聊天机器人(chatterbot)是一个用来模拟人类对话或聊天的程序。“Eliza”和 “Parry”是早期非常著名的聊天机器人。原创 2022-09-18 00:29:21 · 9777 阅读 · 0 评论 -
【小沐学NLP】Python实现图片文字识别
Tesseract最初由惠普实验室支持,用于电子版文字识别,1996年被移植到Windows上,1998年进行了C++化,在2005年Tesseract由惠普公司宣布开源。2006年到现在,由Google公司维护开发。最初Tesseract是用C语言写的,在1998年改用C++。...原创 2022-08-08 06:46:05 · 6373 阅读 · 0 评论 -
【小沐学NLP】Python实现中文、英文分词
机器学习之所以看上去可以解决很多复杂的问题,是因为它把这些问题都转化为了数学问题。而 NLP 也是相同的思路,文本都是一些「非结构化数据」,我们需要先将这些数据转化为「结构化数据」,结构化数据就可以转化为数学问题了,而分词就是转化的第一步。分词是自然语言理解(NLP)的重要步骤。分词就是将句子、段落、文章这种长文本,分解为以字词为单位的数据结构,方便后续的处理分析工作。(1)中文分词⼯具原创 2022-09-24 14:00:19 · 6097 阅读 · 0 评论 -
【小沐学NLP】Python实现聊天机器人(ALICE)
简单来说,聊天机器人是一种可以模拟和处理人类会话(无论是书面还是口头会话)的计算机程序,让人能够与数字设备交互,就像和真人交流一样。不同聊天机器人的复杂度各不相同,简单如通过单行响应回答简单查询的基本程序,复杂则如数字助手,在收集和处理信息的过程中不断学习和进化,不断提高个性化水平。当前聊天机器人用到的技术:大家常说人工智能的三大要素,包括数据、算法和算力。而在聊天机器人的技术体系下,最关键的三个因素应该是人工、数据和算法。在现阶段,人工是大于数据,更大于算法的。原创 2022-10-02 06:35:07 · 7438 阅读 · 0 评论