大数据
文章平均质量分 94
陈敬雷-充电了么-CEO兼CTO
这个作者很懒,什么都没留下…
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
自然语言处理系列六十八》搜索引擎项目实战》搜索引擎系统架构设计
【配套新书教材】《自然语言处理原理与实战》(人工智能科学与技术丛书)【陈敬雷编著】【清华大学出版社】新书特色:本书从自然语言处理基础开始,逐步深入各种NLP热点前沿技术,使用了Java和Python两门语言精心编排了大量代码实例,契合公司实际工作场景技能,侧重实战。原创 2024-09-11 20:58:53 · 2390 阅读 · 0 评论 -
自然语言处理系列六十》分布式深度学习实战》主流深度学习开源平台
【配套新书教材】《自然语言处理原理与实战》(人工智能科学与技术丛书)【陈敬雷编著】【清华大学出版社】新书特色:本书从自然语言处理基础开始,逐步深入各种NLP热点前沿技术,使用了Java和Python两门语言精心编排了大量代码实例,契合公司实际工作场景技能,侧重实战。原创 2024-09-06 20:50:41 · 1935 阅读 · 0 评论 -
自然语言处理系列五十九》自然语言模型》N-Gram统计自然语言模型
【配套新书教材】《自然语言处理原理与实战》(人工智能科学与技术丛书)【陈敬雷编著】【清华大学出版社】新书特色:本书从自然语言处理基础开始,逐步深入各种NLP热点前沿技术,使用了Java和Python两门语言精心编排了大量代码实例,契合公司实际工作场景技能,侧重实战。原创 2024-09-05 21:32:54 · 1027 阅读 · 0 评论 -
自然语言处理系列五十八》自然语言模型》自然语言模型算法原理
【配套新书教材】《自然语言处理原理与实战》(人工智能科学与技术丛书)【陈敬雷编著】【清华大学出版社】新书特色:本书从自然语言处理基础开始,逐步深入各种NLP热点前沿技术,使用了Java和Python两门语言精心编排了大量代码实例,契合公司实际工作场景技能,侧重实战。原创 2024-09-05 21:19:55 · 818 阅读 · 0 评论 -
自然语言处理系列五十七》关键词提取和文本摘要》文本摘要介绍及相关算法
文本摘要是一种从一个或多个信息源中抽取关键信息的方法,它帮助用户节省了大量时间,用户可以从摘要获取到文本的所有关键信息点而无需阅读整个文档。16.2.1 文本摘要介绍及相关算法文本摘要按照输入类型可分为单文档摘要和多文档摘要。单文档摘要方法是指针对单个文档,对其内容进行抽取总结生成摘要;多文档摘要方法是指从包含多份文档的文档集合中生成一份能够概括这些文档中心内容的摘要。按照输出类型可分为抽取式摘要和生成式摘要。抽取式摘要从源文档中抽取关键句和关键词组成摘要,摘要全部来源于原文。原创 2024-09-04 21:37:24 · 1772 阅读 · 0 评论 -
自然语言处理系列五十六》关键词提取和文本摘要》关键词提取介绍及相关算法
关键词提取是文本挖掘领域一个很重要的部分,通过对文本提取的关键词可以窥探整个文本的主题思想,进一步应用于文本的推荐或文本的搜索。16.1.1 关键词提取介绍及相关算法关键词是能够表达文档中心内容的词语,常用于计算机系统标引论文内容特征、信息检索、系统汇集以供读者检阅。关键词提取是文本挖掘领域的一个分支,是文本检索、文档比较、摘要生成、文档分类和聚类等文本挖掘研究的基础性工作。从算法的角度来看,关键词提取算法主要有两类:无监督关键词提取方法和有监督关键词提取方法。无监督关键词提取方法。原创 2024-09-04 21:31:53 · 1964 阅读 · 0 评论 -
自然语言处理系列五十五》文本聚类算法》LDA主题词-潜在狄利克雷分布模型算法原理
【配套新书教材】《自然语言处理原理与实战》(人工智能科学与技术丛书)【陈敬雷编著】【清华大学出版社】新书特色:本书从自然语言处理基础开始,逐步深入各种NLP热点前沿技术,使用了Java和Python两门语言精心编排了大量代码实例,契合公司实际工作场景技能,侧重实战。原创 2024-09-04 20:53:18 · 1675 阅读 · 0 评论 -
自然语言处理系列五十四》文本聚类算法》K-means文本聚类算法原理
【配套新书教材】《自然语言处理原理与实战》(人工智能科学与技术丛书)【陈敬雷编著】【清华大学出版社】新书特色:本书从自然语言处理基础开始,逐步深入各种NLP热点前沿技术,使用了Java和Python两门语言精心编排了大量代码实例,契合公司实际工作场景技能,侧重实战。原创 2024-09-03 20:39:34 · 1532 阅读 · 0 评论 -
自然语言处理系列五十三》文本聚类算法》文本聚类介绍及相关算法
分类和聚类都是文本挖掘中常使用的方法,他们的目的都是将相似度高的对象归类,不同点在于分类是采用监督学习,分类算法按照已经定义好的类别来识别一篇文本,而聚类是将若干文本进行相似度比较,最后将相似度高的归为一类。在分类算法中,训练集为已经标注好的数据集,但是微博文本具有的大数据特性及不确定性决定了标注数据的难度,因此本文选择聚类算法对大量且随机的微博文本进行处理。大量文本建模后还需要对主题分布进行聚类以得到更精确简洁的话题,因此文本聚类在话题检测技术中具有重要意义。原创 2024-09-03 20:33:33 · 1786 阅读 · 0 评论 -
自然语言处理系列五十二》文本分类算法》BERT模型算法原理及文本分类
【配套新书教材】《自然语言处理原理与实战》(人工智能科学与技术丛书)【陈敬雷编著】【清华大学出版社】新书特色:本书从自然语言处理基础开始,逐步深入各种NLP热点前沿技术,使用了Java和Python两门语言精心编排了大量代码实例,契合公司实际工作场景技能,侧重实战。原创 2024-09-02 21:18:09 · 2435 阅读 · 0 评论 -
大模型企业应用落地系列九》多模态具身智能》端到端强化学习人形机器人
【配套新书教材】《自然语言处理原理与实战》(人工智能科学与技术丛书)【陈敬雷编著】【清华大学出版社】新书特色:本书从自然语言处理基础开始,逐步深入各种NLP热点前沿技术,使用了Java和Python两门语言精心编排了大量代码实例,契合公司实际工作场景技能,侧重实战。原创 2024-09-02 21:06:56 · 3371 阅读 · 0 评论 -
自然语言处理系列五十一》文本分类算法》Python快速文本分类器FastText
【配套新书教材】《自然语言处理原理与实战》(人工智能科学与技术丛书)【陈敬雷编著】【清华大学出版社】新书特色:本书从自然语言处理基础开始,逐步深入各种NLP热点前沿技术,使用了Java和Python两门语言精心编排了大量代码实例,契合公司实际工作场景技能,侧重实战。原创 2024-09-01 21:18:28 · 1843 阅读 · 0 评论 -
自然语言处理系列五十》文本分类算法》SVM支持向量机算法原理
【配套新书教材】《自然语言处理原理与实战》(人工智能科学与技术丛书)【陈敬雷编著】【清华大学出版社】新书特色:本书从自然语言处理基础开始,逐步深入各种NLP热点前沿技术,使用了Java和Python两门语言精心编排了大量代码实例,契合公司实际工作场景技能,侧重实战。原创 2024-09-01 21:08:00 · 1882 阅读 · 4 评论 -
自然语言处理系列四十九》文本分类算法》朴素贝叶斯算法原理
【配套新书教材】《自然语言处理原理与实战》(人工智能科学与技术丛书)【陈敬雷编著】【清华大学出版社】新书特色:本书从自然语言处理基础开始,逐步深入各种NLP热点前沿技术,使用了Java和Python两门语言精心编排了大量代码实例,契合公司实际工作场景技能,侧重实战。原创 2024-08-31 20:50:09 · 1075 阅读 · 0 评论 -
自然语言处理系列四十八》Word2vec词向量模型》算法原理
【配套新书教材】《自然语言处理原理与实战》(人工智能科学与技术丛书)【陈敬雷编著】【清华大学出版社】新书特色:本书从自然语言处理基础开始,逐步深入各种NLP热点前沿技术,使用了Java和Python两门语言精心编排了大量代码实例,契合公司实际工作场景技能,侧重实战。原创 2024-08-31 20:43:07 · 1453 阅读 · 0 评论 -
自然语言处理系列四十七》Elasticsearch搜索引擎》Elasticsearch代码实战
【配套新书教材】《自然语言处理原理与实战》(人工智能科学与技术丛书)【陈敬雷编著】【清华大学出版社】新书特色:本书从自然语言处理基础开始,逐步深入各种NLP热点前沿技术,使用了Java和Python两门语言精心编排了大量代码实例,契合公司实际工作场景技能,侧重实战。原创 2024-08-30 21:46:36 · 1322 阅读 · 0 评论 -
大模型企业应用落地系列八》基于大模型的对话式推荐系统》用户交互层
【配套新书教材】《自然语言处理原理与实战》(人工智能科学与技术丛书)【陈敬雷编著】【清华大学出版社】新书特色:本书从自然语言处理基础开始,逐步深入各种NLP热点前沿技术,使用了Java和Python两门语言精心编排了大量代码实例,契合公司实际工作场景技能,侧重实战。原创 2024-08-30 21:32:28 · 1106 阅读 · 0 评论 -
大模型企业应用落地系列七》基于大模型的对话式推荐系统》对话管理层
【配套新书教材】《自然语言处理原理与实战》(人工智能科学与技术丛书)【陈敬雷编著】【清华大学出版社】新书特色:本书从自然语言处理基础开始,逐步深入各种NLP热点前沿技术,使用了Java和Python两门语言精心编排了大量代码实例,契合公司实际工作场景技能,侧重实战。原创 2024-08-29 20:40:32 · 1161 阅读 · 0 评论 -
大模型企业应用落地系列六》基于大模型的对话式推荐系统》推荐引擎层
【配套新书教材】《自然语言处理原理与实战》(人工智能科学与技术丛书)【陈敬雷编著】【清华大学出版社】新书特色:本书从自然语言处理基础开始,逐步深入各种NLP热点前沿技术,使用了Java和Python两门语言精心编排了大量代码实例,契合公司实际工作场景技能,侧重实战。原创 2024-08-29 20:34:31 · 1784 阅读 · 0 评论 -
大模型企业应用落地系列五》基于大模型的对话式推荐系统》大模型管理层
【配套新书教材】《自然语言处理原理与实战》(人工智能科学与技术丛书)【陈敬雷编著】【清华大学出版社】新书特色:本书从自然语言处理基础开始,逐步深入各种NLP热点前沿技术,使用了Java和Python两门语言精心编排了大量代码实例,契合公司实际工作场景技能,侧重实战。原创 2024-08-28 21:27:27 · 1113 阅读 · 0 评论 -
大模型企业应用落地系列四》基于大模型的对话式推荐系统》大模型底座层
【配套新书教材】《自然语言处理原理与实战》(人工智能科学与技术丛书)【陈敬雷编著】【清华大学出版社】新书特色:本书从自然语言处理基础开始,逐步深入各种NLP热点前沿技术,使用了Java和Python两门语言精心编排了大量代码实例,契合公司实际工作场景技能,侧重实战。原创 2024-08-28 21:15:21 · 1089 阅读 · 0 评论 -
大模型企业应用落地系列三》基于大模型的对话式推荐系统》大数据平台层
【配套新书教材】《自然语言处理原理与实战》(人工智能科学与技术丛书)【陈敬雷编著】【清华大学出版社】新书特色:本书从自然语言处理基础开始,逐步深入各种NLP热点前沿技术,使用了Java和Python两门语言精心编排了大量代码实例,契合公司实际工作场景技能,侧重实战。原创 2024-08-27 20:37:27 · 1085 阅读 · 0 评论 -
大模型企业应用落地系列二》基于大模型的对话式推荐系统》核心技术架构设计图
【配套新书教材】《自然语言处理原理与实战》(人工智能科学与技术丛书)【陈敬雷编著】【清华大学出版社】新书特色:本书从自然语言处理基础开始,逐步深入各种NLP热点前沿技术,使用了Java和Python两门语言精心编排了大量代码实例,契合公司实际工作场景技能,侧重实战。原创 2024-08-27 19:58:20 · 1492 阅读 · 0 评论 -
大模型企业应用落地系列》基于大模型的对话式推荐系统》对话推荐系统技术架构
【配套新书教材】《自然语言处理原理与实战》(人工智能科学与技术丛书)【陈敬雷编著】【清华大学出版社】新书特色:本书从自然语言处理基础开始,逐步深入各种NLP热点前沿技术,使用了Java和Python两门语言精心编排了大量代码实例,契合公司实际工作场景技能,侧重实战。原创 2024-08-26 21:18:42 · 5103 阅读 · 0 评论 -
大模型企业应用落地系列一》基于大模型的对话式推荐系统》对话式推荐系统概述
在当今AI时代,大模型技术正引领着企业应用的新浪潮,推动着各行各业的创新与发展。本章将深入探讨大模型在企业中的实际应用,从对话式推荐系统到多模态搜索,从自然语言交互的数据查询到智能客服对话机器人,再到多模态数字人和多模态具身智能,接下来 将逐一剖析这些前沿技术的原理、架构设计、关键技术和实际应用案例。这些应用不仅展示了大模型如何赋能企业提升效率和服务质量,还揭示了它们在塑造未来智能化社会中的重要作用。原创 2024-08-26 22:02:57 · 1405 阅读 · 0 评论 -
大数据用户画像系统架构设计
文章目录前言一、搜索数据仓库搭建、数据抽取部分二、大数据平台、用户画像集市分层设计、处理三、离线计算部分四、实时计算部分五、Solr/ES搜索引擎部分六、Java Web毫秒级实时用户画像接口服务七、用户画像实时展示异步触发获取Web自助后台总结前言个性化搜索目前发展阶段不是要替换掉传统搜索,而是对传统搜索的一个补充。我们先看下它的架构如图2.3所示:图2.3 用户画像系统架构图用户画像是一个非常通用普遍使用的系统,从我们的架构图中可以看出,从数据计算时效性上来讲分离线计算和实时计算。离线计算.原创 2020-11-21 09:52:11 · 3304 阅读 · 4 评论 -
自然语言处理系列三十一》文本相似度算法》余弦相似度》Python代码实现
【配套新书教材】《自然语言处理原理与实战》(人工智能科学与技术丛书)【陈敬雷编著】【清华大学出版社】新书特色:本书从自然语言处理基础开始,逐步深入各种NLP热点前沿技术,使用了Java和Python两门语言精心编排了大量代码实例,契合公司实际工作场景技能,侧重实战。原创 2021-02-17 21:16:51 · 2065 阅读 · 2 评论 -
自然语言处理系列二十九》文本相似度算法》余弦相似度》算法原理
注:此文章内容均节选自充电了么创始人,CEO兼CTO陈敬雷老师的新书《自然语言处理原理与实战》(人工智能科学与技术丛书)【陈敬雷编著】【清华大学出版社】文章目录自然语言处理系列二十九文本相似度算法余弦相似度算法原理总结自然语言处理系列二十九文本相似度算法在自然语言处理中,我们经常需要判定两个东西是否相似。比如,在微博的热点话题推荐那里,我们需要比较微博之间的相似度,让相似度高的微博聚集在一起形成一个簇,提出一个主题。在问答系统中,我们需要提前准备好问题和一些答案,让用户输入的问题与题库中原创 2021-02-17 20:31:50 · 810 阅读 · 1 评论 -
自然语言处理系列二十七》文本相似度算法》字符串编辑距离》Java代码实现
注:此文章内容均节选自充电了么创始人,CEO兼CTO陈敬雷老师的新书《自然语言处理原理与实战》(人工智能科学与技术丛书)【陈敬雷编著】【清华大学出版社】文章目录自然语言处理系列二十七文本相似度算法字符串编辑距离Java代码实现总结文本相似度算法在自然语言处理中,我们经常需要判定两个东西是否相似。比如,在微博的热点话题推荐那里,我们需要比较微博之间的相似度,让相似度高的微博聚集在一起形成一个簇,提出一个主题。在问答系统中,比如说人工客服,我们需要提前准备好问题和一些答案,让用户输入的原创 2021-02-09 21:37:57 · 608 阅读 · 1 评论 -
自然语言处理系列二十六》文本相似度算法》字符串编辑距离》算法原理
注:此文章内容均节选自充电了么创始人,CEO兼CTO陈敬雷老师的新书《自然语言处理原理与实战》(人工智能科学与技术丛书)【陈敬雷编著】【清华大学出版社】文章目录自然语言处理系列二十六文本相似度算法字符串编辑距离算法原理总结自然语言处理系列二十六文本相似度算法在自然语言处理中,我们经常需要判定两个东西是否相似。比如,在微博的热点话题推荐那里,需要比较微博之间的相似度,让相似度高的微博聚集在一起形成一个簇,提出一个主题。在问答系统中,比如说人工客服,我们需要提前准备好问题和一些答案,让用户输入的问题与题原创 2021-02-08 17:00:35 · 465 阅读 · 0 评论 -
自然语言处理系列二十五》词性标注》词性标注原理》CRF词性标注
注:此文章内容均节选自充电了么创始人,CEO兼CTO陈敬雷老师的新书《自然语言处理原理与实战》(人工智能科学与技术丛书)【陈敬雷编著】【清华大学出版社】文章目录自然语言处理系列二十五词性标注CRF词性标注总结自然语言处理系列二十五词性标注词性标注(Part-Of-Speech tagging, POS tagging)也被称为语法标注(grammatical tagging)或词类消疑(word-category disambiguation),是语料库语言学(corpus linguistics)原创 2021-02-07 22:12:00 · 759 阅读 · 1 评论 -
自然语言处理系列二十二》词性标注》词性标注原理》词性介绍
注:此文章内容均节选自充电了么创始人,CEO兼CTO陈敬雷老师的新书《自然语言处理原理与实战》(人工智能科学与技术丛书)【陈敬雷编著】【清华大学出版社】文章目录自然语言处理系列二十二词性标注词性介绍总结自然语言处理系列二十二词性标注词性标注(Part-Of-Speech tagging, POS tagging)也被称为语法标注(grammatical tagging)或词类消疑(word-category disambiguation),是语料库语言学(corpus linguistics)原创 2021-02-06 20:48:26 · 938 阅读 · 0 评论 -
自然语言处理系列二十一》词性标注》词性标注原理
注:此文章内容均节选自充电了么创始人,CEO兼CTO陈敬雷老师的新书《自然语言处理原理与实战》(人工智能科学与技术丛书)【陈敬雷编著】【清华大学出版社】文章目录自然语言处理系列二十一词性标注词性标注原理总结自然语言处理系列二十一词性标注词性标注(Part-Of-Speech tagging, POS tagging)也被称为语法标注(grammatical tagging)或词类消疑(word-category disambiguation),是语料库语言学(corpus linguistics)中原创 2021-02-05 20:05:31 · 2132 阅读 · 0 评论 -
自然语言处理系列二十》中文分词》分词工具实战》Java的mmseg4j分词
注:此文章内容均节选自充电了么创始人,CEO兼CTO陈敬雷老师的新书《自然语言处理原理与实战》(人工智能科学与技术丛书)【陈敬雷编著】【清华大学出版社】文章目录自然语言处理系列二十分词工具实战Java的mmseg4j分词总结自然语言处理系列二十分词工具实战分词工具有Java、Python、C++实现的,这里给大家推荐目前最流行的分词工具。CRF++是采用C++语言编写,但可以用Python来调用。HanLP是用Java编写的,也可以用Python调用。IK分词和mmseg4j分词也是用Java编写原创 2021-02-05 20:02:20 · 448 阅读 · 0 评论 -
自然语言处理系列十九》中文分词》分词工具实战》Java的IK分词
注:此文章内容均节选自充电了么创始人,CEO兼CTO陈敬雷老师的新书《自然语言处理原理与实战》(人工智能科学与技术丛书)【陈敬雷编著】【清华大学出版社】文章目录自然语言处理系列十九分词工具实战Java的IK分词总结自然语言处理系列十九分词工具实战分词工具有Java、Python、C++实现的,这里给大家推荐目前最流行的分词工具。CRF++是采用C++语言编写,但可以用Python来调用。HanLP是用Java编写的,也可以用Python调用。IK分词和mmseg4j分词也是用Java编写原创 2021-02-05 19:58:15 · 333 阅读 · 0 评论 -
自然语言处理系列十八》中文分词》分词工具实战》Java的HanLP分词
注:此文章内容均节选自充电了么创始人,CEO兼CTO陈敬雷老师的新书《自然语言处理原理与实战》(人工智能科学与技术丛书)【陈敬雷编著】【清华大学出版社】文章目录自然语言处理系列十八分词工具实战Java的HanLP分词总结自然语言处理系列十八分词工具实战分词工具有Java、Python、C++实现的,这里给大家推荐目前最流行的分词工具。CRF++是采用C++语言编写,但可以用Python来调用。HanLP是用Java编写的,也可以用Python调用。IK分词和mmseg4j分词也是用Java编写原创 2021-02-04 17:03:58 · 815 阅读 · 0 评论 -
自然语言处理系列十七》中文分词》分词工具实战》Python的Jieba分词
注:此文章内容均节选自充电了么创始人,CEO兼CTO陈敬雷老师的新书《分布式机器学习实战》(人工智能科学与技术丛书)【陈敬雷编著】【清华大学出版社】文章目录自然语言处理系列十七分词工具实战Python的Jieba分词总结自然语言处理系列十七分词工具实战分词工具有Java、Python、C++实现的,这里给大家推荐目前最流行的分词工具。CRF++是采用C++语言编写,但可以用Python来调用。HanLP是用Java编写的,也可以用Python调用。IK分词和mmseg4j分词也是用Java编写,经常原创 2021-02-04 16:59:11 · 539 阅读 · 0 评论 -
自然语言处理系列十六》中文分词》分词工具实战》CRF++工具包实战
此文章有有陈敬雷老师的清华大学出版社配套书籍教材【自然语言处理原理与实战(人工智能科学与技术丛书)】https://item.jd.com/13951851.html和【分布式机器学习实战(人工智能科学与技术丛书)】,对应京东自营链接地址:https://item.jd.com/12743009.html原创 2021-02-04 16:40:20 · 536 阅读 · 1 评论 -
自然语言处理系列十四》中文分词》机器学习统计分词》感知器分词
此文章有对应的有陈敬雷老师的清华大学出版社配套书籍教材【自然语言处理原理与实战(人工智能科学与技术丛书)】https://item.jd.com/13951851.html和【分布式机器学习实战(人工智能科学与技术丛书)】,对应京东自营链接地址:https://item.jd.com/12743009.html原创 2021-02-03 21:16:48 · 795 阅读 · 0 评论 -
自然语言处理系列十三》中文分词》机器学习统计分词》隐马尔可夫模型HMM分词
此文章有对应的陈敬雷老师的清华大学出版社配套书籍教材【自然语言处理原理与实战(人工智能科学与技术丛书)】https://item.jd.com/13951851.html和【分布式机器学习实战(人工智能科学与技术丛书)】,对应京东自营链接地址:https://item.jd.com/12743009.html原创 2021-02-03 21:08:40 · 523 阅读 · 0 评论
分享