- 博客(64)
- 资源 (10)
- 收藏
- 关注
原创 文本检索与答案检索
语义检索可以做语义相似度的计算,可以处理一词多义,要先做文本嵌入,然后在做相似度计算,可以结合在一起;结合BM2.5和相似度计算;用结巴对输入的问题和内容进行分词,fit可以提取单词的词典大小和IDF的大小。编码完成之后,做归一化,便于后面相似度计算,将相似度转为同一个空间内。有了相似度之后,进行一个排序,就可以通过提问找到比较相似的页面。对分词完的内容提取TFIDF,对提问和每一页的内容进行编码。2.对包含查询内容的文档去进行打分,2.5是打分算法。不仅仅考了的TF和IDF,也考虑 了文本的长度。
2024-07-18 07:55:33
367
原创 Chatgpt和GLM api的使用
2.functions:判断用户1和用户2的关系,function,要调用哪个函数,非常有用的功能,可以对文本进行理解,而且可以将文本转为函数的调用。1.embedding模型,gpt和glm不一样。
2024-07-18 07:26:31
277
原创 动手学RAG:Part1 什么是RAG?
2、大模型的结构和参数数量导致对其修改、微调和重新训练变得很困难。1、大模型的幻觉问题、时效性问题、数据安全问题。3、基于知识的问答,依赖于信息抽取。
2024-07-17 13:08:28
294
原创 知识的向量表示
9、一对多、多对一如何捕捉?知识逻辑复杂,训练代价和语料不充分?7、onehot很难计算出词的隐藏关系,所以从词嵌入过渡到知识图谱嵌入。4、CBow,通过前面几个词和后面几个词,预测中间几个词。3、词的语义由什么决定?词由他的上下文决定?5、skip-gram,通过中间几个词,预测后面几个词。6、本质都是上下问贡献的来决定词的意义,词的分布式语义。8、知识图谱嵌入模型,TransE\DisMult。2、bag词袋模型,无法表示词的语义。1、one-hot表示,空间太大。10、知识表示是传统AI的核心。
2024-07-08 08:00:19
297
原创 知识图谱的符号表示
7、属性图、RDF\三元组、关系图。3、属性图表示方法的优点和去点。1、基于图的表示建模。5、OWL,本体语言。6、OWL有很多家族。
2024-07-08 07:45:45
247
原创 【百问大模型02】一文讲透RAG实战全解析
11、向量检索:query和知识可以通过相似度向量比较检索,搜索一些top的结果,可以加一下文本规则的限制,提升精准度,得到召回来的知识;对找回来的知识进行排序,把用户的问题,召回来的知识,给他下个模型,输出0和1,0表示不相关,1表示相关强烈,然后对输出的结果进行排序,输出检索的结果;知识图谱,召回一个知识,也把另外一个知识给召回,知识构建、维护成本很高,好用但是慎用;14、对用户的问题,进行优化,比如用大模型来扩展问题HyDE,利用大模型来做假答案,取向量平均值;:推理能力,聪明,知识;
2024-06-23 23:55:41
442
原创 【百问大模型01】GPT4o最新特性介绍
3)调用工具的能力,发布了多模态模型,如阅读理解;不但理解公式、还知道公式是干吗用的;======================PPT素材==================端到端能力300ms;之前是语音转成文字,再来理解分析;4)网页解析的能力,换一个网页转成html文件;今年开始专向小模型发挥极致,尤其显卡不好买的情况下;1) RAG最需要的就是大模型的长文本能力,2)强调了智能体,发力智能体,很不错的;2)理解语音内外的内容。3)发出非语音的声音。4)自然而及时的互动。
2024-06-22 22:52:20
369
原创 从0开始搭建清华ChatGLM3 6b大模型(Windows RTX4090版)
本文基于RTX4090 从0开始搭建清华chatglm3,相当基础
2024-01-02 23:59:59
4574
1
原创 【AI】Windows配置GPU Cuda驱动和Pytorch框架
在进行AI项目开发的时候,经常要在GPU环境中运行代码,对于没有配置过的新人来说,还是有点复杂的,本文简单总结在Winddows环境种配置的全过程,适合新手入门,仅供大家参考。
2023-01-20 21:45:10
2897
1
翻译 【AI】反向传播的基本原理(06)
反向传播,也叫误差反传,用误差修正网络中的参数,修正的是权重参数、偏置参数。神经网络就是看你权重和偏置准不准,如果准,预测结果就好些。神经网络的中心任务,就是找到权重、偏置的值,那我们应该怎么找呢
2022-05-30 00:08:21
2296
原创 【AI】梯度下降的数学原理(05)
函数在某一点出沿着不同的方向运动,函数值的变化率是不同的,梯度可以定义为一个函数的全部偏导数构成的向量。梯度向量的方向是函数值变化率最大的方向。也就是对函数的某个特定点,函数值变化最迅猛的地方。
2022-05-30 00:01:37
1494
原创 【AI】神经网络算法的本质(04)
神经网络的输入数据,都有他自己的特征,如何提取出这些特征,并将它用好这个特征,是我们需要关注的。其实AI最核心的,也是怎么利用这些特征,来求得权重参数。是通过调大、还是调小,调试的结果对结果有什么影响,这个是我们要学习的
2022-05-29 23:57:59
1393
原创 【AI】当传统算法碰到计算机视觉(03)
计算机视觉的任务,其实是个哲学问题:我是谁?而你!又是谁?这是个分类问题。尽管深度学习的内部过程中,提取特征是个黑盒子,但是,我们学习过程中还是要了解里面发生了什么才行,要清楚深度学习做分类任务的原理
2022-05-29 23:53:10
330
原创 【AI】人工智能学习之神经网络(02)
神经网络不是算法,而是一种特征提取的方法,现在建模拼的不是算法,而是数据;传统的机器学习(范畴:AI>机器学习>深度学习)的基本步骤如下,这些环节里面最难的是特征工程。
2022-05-29 23:45:53
496
原创 1、软考项目管理考情分析
目录一、学习思路二、上午题考情分析1、非项目管理知识2、项目管理知识三、案例题考情分析四、论文题考情分析五、学习计划1、第三版教程做预习,精读教材2、做最近2年的真题3、论文要准备素材,多写一、学习思路1、有些想法可以复制,有些经验是不可以复制的,主要还是积累自己的学习过程。2、书山有路勤为径,学习课程有80个小时3、打好基本功,一定要利...
2019-07-03 10:04:41
278
原创 资料|云计算之PaaS经典案例-上篇+中篇
由梅峰谷云计算小组整理的PaaS相关资料,目前已经上传到百度云盘和群里,有需要的朋友请入群下,信息爆炸的时代,PaaS资料多但是优质的却有限,云小组从中选取了一些经典有用的汇编成册,仅供参考。
2017-10-16 09:32:23
4789
2
原创 【spark你妈喊你回家吃饭-05】RDD编程之旅基础篇-01
RDD是spark特有的数据模型,谈到RDD就会提到什么弹性分布式数据集,什么有向无环图,本文暂时不去展开这些高深概念,在阅读本文时候,大家可以就把RDD当作一个数组,这样的理解对我们学习RDD的API是非常有帮助的。本文所有示例代码都是使用scala语言编写的
2017-06-16 17:54:50
920
原创 【Spark你妈喊你回家吃饭-04】再说Spark底层运行机制
Spark通过RDD对分布式的数据进行管理,RDD记录了转换成“spark格式”后的数据分区(记录数据的存储位置)和数据分区对应的操作 · 应用提交后,形成RDD Graph,并且在后台创建DAG对象(spark不仅仅用DAG建模,而且还会执行它,并且里面不是用对象表示,而是用RDD对象之间的关系)
2017-02-14 23:58:11
1567
原创 【Spark你妈喊你回家吃饭-03】Spark RDD的蛮荒世界
RDD真的是一个很晦涩的词汇,他就是伯克利大学的博士们在论文中提出的一个概念,很抽象,很难懂;但是这是spark的核心概念,因此有必要spark rdd的知识点,用最简单、浅显易懂的词汇描述。不想用学术话的语言来阐述RDD是什么,用简单、容易理解的方式来描述。
2017-02-14 23:45:23
955
原创 【Spark你妈喊你回家吃饭-02】-我是一个凶残的spark
学一门新鲜的技术,其实过程都是相似的,先学基本的原理和概念,再学怎么使用,最后深究这技术是怎么实现的,所以本章节就带你认识认识spark长什么样的,帅不帅,时髦不时髦(这货的基本概念和原理),接着了解spark有什么必杀技(spark的各种大招),我们如何使用它的必杀技,最后看看spark如何更加高效的组合它的必杀技,以及spark是如何练就这一身必杀技的。
2017-02-14 23:38:05
1035
原创 【Spark你妈喊你回家吃饭-01】 Spark是什么鬼?
经过一段时间的学习和测试,是时候给spark的学习经历做一个总结了,对于spark的了解相对晚了写。本博准备推出20篇左右spark系列原创文章(先把牛吹出去再说) ,尽量将枯燥无味的技术讲的通俗易懂- r.kelly
2017-02-12 09:50:34
3181
2
原创 分享一个Java和Android学习视频
和许多网友交流,大家都在感慨学了很多时间的java,但是总感觉java是如此的神秘,能够感觉到他的存在,但却不能体会到他的真正要意,能够看明白代码,却不能写出自己的代码!!!其实说白了,大家都还木有入门,一旦入门了,这些问题都不是问题,学习java有些东西是必须掌握的,有些东西是知道他存在即可的,有些东西是过一遍就可以的,有些东西是完全没有必要去看的,碰到了百度就可以.java不难学,有些东西一定
2016-05-04 15:22:03
737
原创 Hbase课程02- Hbase shell命令总结
1、前言 对hbase的操作使用最多的两种查询方式一个是shell命令,在项目开发中临时查询经常使用,还一个是Hbase Java API的使用,代码开发过程中常用。重用shell命令名称命令表达式创建表create '表名称', '列名称1','列名称2','列名称N'添加记录
2016-03-29 21:56:17
530
原创 本周总结
本周主要工作还是集团DPI与DDR比对工作、工信部日志留存及拨测工作、流量查询系统工作、运维工作,工作很忙,被很多杂事束缚住了手脚,没有时间学习,很郁闷。 目前团队管理和开发都存在很多问题 (1)管理方面,大家都很累,工作无效率,办事无规章,尤其是很多临时取数的需求,很恶心,都是一些无效率的取数 数据分析人员思维比较固定,不学习新东西
2016-03-25 18:14:30
388
原创 Hbase课程01- 和Anmy学习大数据
1、初识Hbase · 稀疏、分布式、持久化 ,KV存储,随机访问随机存储的平台 · 无关系性数据库那样的模式,无sql,无跨行事务,不强调数据之间的关系 · 集群运行,也可以单台机器,横向扩展能力强,存储、缓存、计算能力多台机器提供2、说说传统数据库 不可否认,传统关系型数据库在数据存储、服务和处理上的巨大成功,sql ser
2016-03-25 16:22:54
538
原创 Hive基础知识
1.hive特别适合数据仓库程序,对于数据仓库程序不需要实时响应查询,不需要记录级别的插入、更新和删除2.hive实现word count程序
2014-08-22 14:52:25
743
原创 hbase Web UI中的一些零碎
hbase master默认端口:60000,http://jxdream1:60010/master-statusregion服务器的默认端口:6000
2014-07-23 17:34:57
10888
转载 15个构建交互式图表的最佳jQuery插件
发表于 2013-06-23 22:40 来源:开源中国社区 阅读: 1250次在这篇文章中,我们向你推荐 15 个图表库,包含从简单图表实现到高度复杂的交互式图表,希望你会喜欢。1. Chart.js : Charting Library with HTML5 Canvas 使用HTML5 Canvas元素的Javascript图形库,支持6种统计图形,不依赖其他库.
2013-07-31 17:38:07
1521
转载 淘宝数据产品部总监赵昆:数据可视化--挖掘数据背后模式与关联
2010年12月9日,年度收官技术盛宴SD2.0大会在上海光大会展中心国际大酒店隆重开幕。这是自2007年成功举办首届以来,由优快云和《程序员》杂志主办的连续第四届SD2.0(软件开发2.0)大会。来自IBM、微软、盛大、FaceBook、阿里巴巴等众多企业的技术领袖全部汇聚,共同剖析当前IT技术发展大势,分享在各自领域的技术成就与成功秘诀。淘宝技术研发部-数据产品部总监赵昆,在大会现场做题
2013-07-25 16:41:16
2472
转载 Learning D3.js(4) layout之弦图chord的绘制(1)
今天我们将会领略到D3.js最为强大的layout系列可视化的威力。最终demo:http://jsfiddle.net/U2aCS/这一次的demo见http://jsfiddle.net/AXJf3/Chord(弦图)是非常美观漂亮的可视化图表,源自http://mkweb.bcgsc.ca/circos/ 在网站上可以找到大量漂亮的可视化图表案例。主要用在表
2013-07-22 15:45:01
4385
转载 Learning D3.js(2) 让你的柱形图/直方图动起来
对于我来说,当初让我决心学习D3的原因,不是D3.js的各种图表,因为市面上成熟的js图表库实在是太多,D3js最吸引我的是各种动态的可视化效果及一些强大的图形算法。今天接着上一篇教程Learning D3.js(1) 学习制作一个柱形图/直方图 继续来讲解图表的绘制,不同的是,我们将引入动态的方式来展现图表。demo:http://www.d3js.cn/demo/ba
2013-07-22 11:21:46
2064
转载 Learning D3.js(3) 散点图与axis
不同于前面的两个教程,今天的教程是我自己写的,算是复习教程,复习一下之前学到的transition变换效果,及d3.scale.linear(),domain(),range()几个方法。不过我们会使用一个新的api:axisdemohttp://www.d3js.cn/demo/bar7.htmlhttp://www.d3js.cn/demo/bar8.html
2013-07-22 10:18:41
3308
转载 大数据可视化的一个漂亮案例
TIOBE每个月都会给编程语言排名,从侧面说明哪些编程语言使用比较广泛。那么你是否考虑过这些编程语言彼此之间的影响力呢?哪一门语言的影响力是最大的呢?显而易见,大多数开发者都会认为他们的语言是最好的。如果你想要一个更科学的(或者艺术点的)视图,可以查看下面这幅编程语言影响图。编程语言之间的影响力下图是由Ramio Gómez实现,图中的每个节点代表1种编程语言,之间的连线代表该编程语言对其
2013-07-19 14:10:17
22929
转载 数据可视化6步法
在当前互联网,各种数据可视化图表层出不穷,本文尝试对数据可视化的方法进行归纳,整理成6步法。一般的数据图表都可以拆分成最基本的两类元素: 所描述的事物及这个事物的数值,我们暂且将其分别定义为指标和指标值。比如一个性别分布中,男性占比30%,女性占比70%,那么指标就是男性、女性,指标值对应为30%、70%。一个指标值就是一个数据,将数据的大小以图形的方式表现。比如用柱形图的长度或高
2013-07-19 09:12:24
2387
resource.xml
2011-11-01
struts资源需要的包
2011-10-07
javabijiben
2011-10-05
贪吃蛇源代码JAVA
2011-07-15
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人