
人工智能
文章平均质量分 79
长空飞鹰
互联网IT技术族
展开
-
chatgpt概述性分享:大家是如何用chatgpt的?
prompt示例相关产品Glarity一款开源浏览器插件,主要功能是利用 ChatGPT为谷歌搜索、YouTube视频等网站内容生成摘要。Wiseone。原创 2023-04-21 17:50:25 · 1039 阅读 · 0 评论 -
基于序列标注模型的主动学习实验
通过实验对比分析了各种主动学习方法在序列标注中的表现,并得出结论原创 2023-04-14 11:16:34 · 262 阅读 · 0 评论 -
ner模型性能实验
各种ner模型预测时间性能和效果各异,这里通过实验对比分析给出选用建议原创 2023-04-14 11:44:37 · 228 阅读 · 0 评论 -
标注规范模板
注:用于新标注任务建规范文档参考。原创 2023-04-14 11:48:48 · 214 阅读 · 0 评论 -
标注经验总结
数据标注相关经验总结原创 2023-04-14 11:55:51 · 481 阅读 · 0 评论 -
探索chatGPT在hr领域应用
一些候选人的面评内容过多,新的面试官很难有耐心一一阅读,可节省面试官时间可利用chatGPT优化简历解析效果结构化schema说明简历信息提取案例,注意起止时间有按制定格式输出,提取的信息完全正确节省面试官阅读简历时间。原创 2023-04-14 12:03:07 · 1821 阅读 · 0 评论 -
简历信息增强
简历信息增强目标是避免HR和面试官跳出系统查询信息,而是在系统中一键查看学校和公司的相关信息。原创 2023-04-14 12:16:06 · 171 阅读 · 0 评论 -
简历解析中实体抽取优化方法
在招聘场景中,无论是候选人还是招聘hr都会面临上传各种格式的简历问题,为了高效的管理和使用简历数据,通常会对上传的简历进行自动解析,得到结构化的简历数据。在简历解析中通常都会使用命名实体识别技术提取简历中的关键实体,包括姓名、学校名、公司名、专业、职位等。基于深度学习模型的命名实体识别技术通常需要很多高质量的标注数据,而针对简历数据进行高质量标注是比较复杂且费时的一个过程,所以基于模型的命名实体识别技术在实际使用过程中会存在一定的问题。原创 2023-04-14 13:13:05 · 668 阅读 · 0 评论 -
Prompt工程探索
在开源大模型LLaMA等成熟后,目前业界焦点在于:如何才能让 LLM 按照我们的要求去做,也就是prompt工程,设计产生大量prompt训练语料用于微调大模型。原创 2023-04-14 16:43:52 · 756 阅读 · 1 评论 -
chatGPT成功之道-数据
在预训练阶段,OpenAI采用了两种方法优化Common Crawl数据集的质量,参考论文。原创 2023-04-17 16:25:25 · 2995 阅读 · 0 评论 -
大数据驱动的云客服
在互联网时代,除了用户数、营业额等,数据已经被认为是未来的核心资源。 大数据为云客服可以在以下几方面发挥作用: 1、近期:智能客服机器人客服机器人可分四代第一代:基于关键词精确匹配,简单有效。例如,在微信公众号平台回复一些关键字词,获取某篇文章或活动入口第二代:支持多个词模糊查询第三代:在关键词匹配的基础上引入了自然语言处理(NLP)技术,先数据清原创 2016-04-15 15:58:35 · 1359 阅读 · 0 评论 -
异常行为分析模型设计
本文针对异常访问现状及问题进行简要描述,在此基础上提出基于一元线性回归的最小二乘法异常访问分析模型,通过该模型解决了异常访问中时间与访问间相关性问题。异常访问是指网络行为偏离正常范围的访问情况。异常访问包含多种场景,如Web访问、数据库访问、操作系统访问、终端交互等。异常访问一直是网络信息安全中备受困扰的。困扰主要体现在以下几个方面,通过某一个模型满足所有场景,模型缺少明确使用条件转载 2016-04-14 13:46:43 · 6318 阅读 · 1 评论 -
流失用户研究方法及流程
大量的用户流失给我们的产品带来极大的挑战,用户为什么流失?流失之后去哪儿了?怎么挽留现有用户?怎么“召回”已流失用户?本文以“手机QQ音乐播放器流失用户研究”为例,谈一下自己的理解,供大家参考。一、先把相关术语搞清楚 有些术语团队内部之前会有定义,没有错误的话,只需要理解和延用即可。有些术语团队第一次接触,需要先进行定义,经过团队内部一致认同之后,方可进行后续工作。 以转载 2016-04-02 20:53:37 · 1443 阅读 · 0 评论 -
准确率、精确率、召回率 F1
在信息检索、分类体系中,有一系列的指标,搞清楚这些指标对于评价检索和分类性能非常重要,因此最近根据网友的博客做了一个汇总。准确率、召回率、F1信息检索、分类、识别、翻译等领域两个最基本指标是召回率(Recall Rate)和准确率(Precision Rate),召回率也叫查全率,准确率也叫查准率,概念公式: 召回率(Recall) =转载 2016-04-25 16:59:33 · 3302 阅读 · 0 评论 -
贝叶斯分类
朴素贝叶斯分类1.1、摘要 贝叶斯分类是一类分类算法的总称,这类算法均以贝叶斯定理为基础,故统称为贝叶斯分类。本文作为分类算法的第一篇,将首先介绍分类问题,对分类问题进行一个正式的定义。然后,介绍贝叶斯分类算法的基础——贝叶斯定理。最后,通过实例讨论贝叶斯分类中最简单的一种:朴素贝叶斯分类。1.2、分类问题综述 对于分类问题,其实谁都不会陌生,转载 2016-03-31 11:44:28 · 903 阅读 · 0 评论 -
文本聚类算法分析
1. 传统的文本聚类算法 传统的文本聚类算法分为以下几种1.1 分割方法(partitioning methods)1.1.1 K-MEANS算法:工作原理:首先从n个数据对象任意选择 k 个对象作为初始聚类中心;而对于所剩下其它对象,则根据它们与这些聚类中心的相似度(距离),分别将它们分配给与其最相似的(聚类中心所代表的)聚类;然后再计算每个所获新聚类的聚类转载 2016-03-30 22:34:02 · 864 阅读 · 0 评论 -
主题提取
随着因特网在全球范围内的飞速发展,网络媒体已被公认为是继报纸、广播、电视之后的“第四媒体”,网络成为反映社会舆情的主要载体之一。网络环境下的舆情信息的主要来源有:新闻评论、BBS、聊天室、博客、聚合新闻(RSS)。网络舆情表达快捷、信息多元,方式互动,具备传统媒体无法比拟的优势。网络舆情形成迅速,对社会影响巨大,不仅需要各级党政干部密切关注,也需要社会各界高度重视。最近,舆情分析成为了热门的研究话转载 2016-03-30 21:28:45 · 5767 阅读 · 1 评论 -
从0开始做互联网推荐-以58转转为例
一、58转转简介58旗下真实个人闲置物品交易平台二、从0开始设计推荐产品框架(1)首页推荐:提取用户画像,根据线下提取出的用户年龄、性别、品类偏好等在首页综合推荐宝贝(2)宝贝详情页推荐:买了还买,看了还看类的关联宝贝推荐(3)附近推荐:和首页推荐的差异在于,提高了地理位置的权重,地理位置不仅要包含当前地理位置,还需要包含常见活跃区域,例如家里、公司转载 2016-03-03 16:07:48 · 884 阅读 · 0 评论 -
logistic regression及其参数估计
在统计分析还有机器学习中,logistic regression都一种比较基本的工具。说基本也是相对的,在专业领域里很基础,但是logistic regression在通常的课程中还是不如linear regression更加基础一些。这也是为什么一般理工科学生都很熟悉linear regression,但是对logistic regression了解就要少一些。linear转载 2013-07-24 14:27:46 · 1157 阅读 · 0 评论 -
特征选择之互信息
对于事件A和事件B同时出现的,一种信息论的描述方法就是互信息,计算方式如下其意义:由于事件A发生与事件B发生相关联而提供的信息量。 在处理分类问题提取特征的时候就可以用互信息来衡量某个特征和特定类别的相关性,如果信息量越大,那么特征和这个类别的相关性越大。反之也是成立的。 以搜狗实验室的语料为例。选取金融,IT产品,体育,娱乐,股票这五个类别,通过互信息转载 2013-07-04 00:35:44 · 7303 阅读 · 0 评论 -
Github 本周最有趣的 10 款「机器学习」开源项目
Face Recognition#世界上最简单的人脸识别库本项目号称世界上最简单的人脸识别库,可使用 Python 和命令行进行调用。该库使用 dlib 顶尖的深度学习人脸识别技术构建,在户外脸部检测数据库基准(Labeled Faces in the Wild benchmark)上的准确率高达 99.38%。项目链接https://git转载 2018-01-03 20:25:05 · 1025 阅读 · 0 评论 -
如何成为一名对话系统工程师
对话系统(对话机器人)本质上是通过机器学习和人工智能等技术让机器理解人的语言。它包含了诸多学科方法的融合使用,是人工智能领域的一个技术集中演练营。图1给出了对话系统开发中涉及到的主要技术。对话系统技能进阶之路图1给出的诸多对话系统相关技术,从哪些渠道可以了解到呢?下面逐步给出说明。图1 对话系统技能树数学矩阵计算主要研究单转载 2017-12-05 17:28:05 · 1027 阅读 · 0 评论 -
基于神经网络的实体识别和关系抽取联合学习
引言本文关注的任务是从无结构的文本中抽取实体以及实体之间的关系(实体 1-关系-实体 2,三元组),这里的关系是我们预定义好的关系类型,例如下图:目前有两大类方法,一种是使用流水线的方法(Pipelined Method)进行抽取:输入一个句子,首先进行命名实体识别,然后对识别出来的实体进行两两组合,再进行关系分类,最后把存在实体关系的三元组转载 2017-12-04 13:47:28 · 1268 阅读 · 0 评论 -
机器学习在互联网应用面临的 10 大挑战
1: “数据稀释性”:训练一个模型,需要大量(标注)数据,但是数据往往比较稀疏。比如,我们想训练一个模型表征某人 “购物兴趣”,但是这个人在网站上浏览行为很少,购物历史很少,很难训练出一个 “meaningful model” 来预测应该给这个人推荐什么商品等 …2:“不平稳随机过程产生的数据”:机器学习模型往往假设数据的产生是 “平稳随机过程”。但是有些互联网数据(比如 spam 邮件,转载 2012-06-06 23:40:20 · 1363 阅读 · 0 评论 -
word2vec使用总结
1.算法概述 Word2Vec是一个可以将语言中的字词转换为向量表达(Vector Respresentations)的模型,Word2vec可以将字词转为连续值的向量表达,并且其中意义相近的词将被映射到向量空间中相近的位置。其主要依赖的假设是Distributional Hypothesis,即在相同语境中出现的词其语义也相近。Word2vec主要分为CBOW(Continuous...原创 2018-08-02 18:01:35 · 1613 阅读 · 0 评论 -
知识图谱研讨会(武汉大学站)笔记
演讲的议题学术界和工业界各一半,参加研讨会的人很多,以武汉高校学生为主,也有不少工业界人士,名单里看到了不少华为的,也有个别京东/百度人士,大家对知识图谱的关注度都很高目前的应用主要集中在智能问答,其它应用场景较少。下面讲一下各个课题的重点领域知识图谱落地实践中问题与对策演讲者:肖仰华 复旦大学知识工场实验室 http://kw.fudan.edu.cn shawyh@fudan.edu.cn...原创 2018-05-03 14:43:02 · 2379 阅读 · 0 评论 -
基于词典的实体识别
ner(命名实体识别)一般是词典和模型方式结合,词典负责已有词识别,模型负责未知词识别。在不需发现未知词的情况下基于词典的实体识别已足够基于字典的ner也有两种做法:字符串多模匹配 和 切词(词典加入自定义词库)字符串多模匹配多模匹配有两种基本算法:trie树 和 记录长度集合的最长匹配trie树匹配效率更高,但占用内存更多而记录长度集合的最长匹配,计算时间效率相比trie稍...原创 2018-08-02 10:35:26 · 10384 阅读 · 2 评论 -
图谱推理规则提取调研
相关算法基于路径排序学习方法(PRA,Pathranking Algorithm)思想:该方法将每种不同的关系路径作为一维特征,通过在知识图谱中统计大量的关系路径构建关系分类的特征向量,建立关系分类器进行关系抽取,绕开规则提取步骤直接推理缺点:这种基于关系的同现统计的方法,面临严重的数据稀疏问题,都是从KG到KG,而KG的知识本身就不够完善,推出来的结果只能实验室用发发paper可以基于关联规则挖...原创 2018-03-07 16:07:43 · 4037 阅读 · 0 评论 -
Finite State Transducer(FST)in NLP
在自然语言处理中,经常会遇到一些针对某些内容法则做出修改的操作,比如说:如果c的后面紧接x的话,则把c变为b,FST则是基于这些规则上的mathematical操作,比如说把若干个规则整合成一个single pass或mega rule,这样做呢,就可以很有效的提高rule-based system的效率。首先,先来大概的了解一下有限状态机(FSM)有限状态机呢就是一个由一堆状态(当然转载 2018-01-08 14:56:43 · 3414 阅读 · 0 评论 -
基于Datalog的知识推理
应用场景知识补全:通过推理补充图谱中还未存在的关系(边)一致性检查:新录入的知识与已有知识的冲突检查PrologProlog语言是以一阶谓词逻辑为理论基础的逻辑程序设计语言,是人工智能程序设计语言族中应用最为广泛的的一种。Prolog的基本语句有三种:事实 规则 目标事实 用来说明一个问题中已知的对象和它们之间的关系,如 妻子(姚明,叶莉) 表示 姚明 的妻子是原创 2017-12-29 16:03:56 · 7167 阅读 · 0 评论 -
常见面试之机器学习算法思想简单梳理
前言: 找工作时(IT行业),除了常见的软件开发以外,机器学习岗位也可以当作是一个选择,不少计算机方向的研究生都会接触这个,如果你的研究方向是机器学习/数据挖掘之类,且又对其非常感兴趣的话,可以考虑考虑该岗位,毕竟在机器智能没达到人类水平之前,机器学习可以作为一种重要手段,而随着科技的不断发展,相信这方面的人才需求也会越来越大。 纵观IT行业的招聘岗位,机器学习之类的岗位还是挺转载 2017-11-16 14:15:09 · 775 阅读 · 0 评论 -
揭开知识库问答KB-QA的面纱3·信息抽取篇
本期我们将介绍 KB-QA 传统方法之一的信息抽取(Information Extraction),我们以一个该方法的经典代表作为例,为大家进一步揭开知识库问答的面纱。该方法来自约翰·霍普金斯大学 Yao X, Van Durme B. 的 Information Extraction over Structured Data: Question Answering with Freebase转载 2017-11-30 09:25:27 · 1343 阅读 · 0 评论 -
一文读懂自然语言处理NLP
前言自然语言处理是文本挖掘的研究领域之一,是人工智能和语言学领域的分支学科。在此领域中探讨如何处理及运用自然语言。对于自然语言处理的发展历程,可以从哲学中的经验主义和理性主义说起。基于统计的自然语言处理是哲学中的经验主义,基于规则的自然语言处理是哲学中的理性主义。在哲学领域中经验主义与理性主义的斗争一直是此消彼长,这种矛盾与斗争也反映在具体科学上,如自然转载 2017-11-30 09:44:32 · 25439 阅读 · 0 评论 -
从CNN视角看在自然语言处理上的应用
1. 前言卷积神经网络(Convolutional Neural Network)最早是应用在计算机视觉当中,而如今 CNN 也早已应用于自然语言处理(Natural Language Processing)的各种任务。本文主要以 CMU CS 11-747 (Neural Networks for NLP) [1] 课程中 Convolutional Networks for Text 这一章节...转载 2017-11-30 15:02:46 · 965 阅读 · 0 评论 -
阿里智能对话交互技术实践与创新
过去 20 多年,互联网及移动互联网将人类带到了一个全新的时代,如果用一个词来总结和概括这个时代的话,「连接」这个词再合适不过。这个时代主要建立了四种连接:第一,人和商品的连接;第二,人和人的连接;第三,人和信息的连接;第四,人和设备的连接。「连接」本身不是目的,它只是为「交互」建立了通道。在人机交互(Human-Computer Interaction)中,人通过输入设备给机器输入相关信转载 2017-12-04 11:28:26 · 2021 阅读 · 0 评论 -
特征选择算法之开方检验
除了分类算法以外,为分类文本作处理的特征提取算法也对最终效果有巨大影响,而特征提取算法又分为特征选择和特征抽取两大类,其中特征选择算法有互信息,文档频率,信息增益,开方检验等等十数种,这次先介绍特征选择算法中效果比较好的开方检验方法。大家应该还记得,开方检验其实是数理统计中一种常用的检验两个变量独立性的方法。(什么?你是文史类专业的学生,没有学过数理统计?那你做什么文本分类?在这捣什么乱?转载 2013-07-04 00:01:58 · 965 阅读 · 0 评论 -
N-gram模型
N-Gram是大词汇连续语音识别中常用的一种语言模型,对中文而言,我们称之为汉语语言模型(CLM, Chinese Language Model)。汉语语言模型利用上下文中相邻词间的搭配信息,在需要把连续无空格的拼音、笔划,或代表字母或笔划的数字,转换成汉字串(即句子)时,可以计算出具有最大概率的句子,从而实现到汉字的自动转换,无需用户手动选择,避开了许多汉字对应一个相同的拼音(或笔划串,或数字串转载 2013-07-04 00:14:59 · 1192 阅读 · 0 评论 -
文本去重之MinHash算法
1.概述 跟SimHash一样,MinHash也是LSH的一种,可以用来快速估算两个集合的相似度。MinHash由Andrei Broder提出,最初用于在搜索引擎中检测重复网页。它也可以应用于大规模聚类问题。2.Jaccard index 在介绍MinHash之前,我们先介绍下Jaccard index。转载 2012-09-04 00:32:33 · 1009 阅读 · 0 评论 -
相似度计算常用方法综述
引言 相似度计算用于衡量对象之间的相似程度,在数据挖掘、自然语言处理中是一个基础性计算。其中的关键技术主要是两个部分,对象的特征表示,特征集合之间的相似关系。在信息检索、网页判重、推荐系统等,都涉及到对象之间或者对象和对象集合的相似性的计算。而针对不同的应用场景,受限于数据规模、时空开销等的限制,相似度计算方法的选择又会有所区别和不同。下面章节会针对不同特点的应用,进行一些常用的相转载 2012-09-04 00:09:11 · 1339 阅读 · 0 评论 -
主题模型-LDA浅析
上个月参加了在北京举办SIGKDD国际会议,在个性化推荐、社交网络、广告预测等各个领域的workshop上都提到LDA模型,感觉这个模型的应用挺广泛的,会后抽时间了解了一下LDA,做一下总结:(一)LDA作用 传统判断两个文档相似性的方法是通过查看两个文档共同出现的单词的多少,如TF-IDF等,这种方法没有考虑到文字背后的语义关联,可能在两个文档共同出现的单词很少甚至没有转载 2012-09-03 16:49:45 · 740 阅读 · 0 评论