- 博客(13)
- 资源 (4)
- 收藏
- 关注
原创 几个大模型开发平台试用汇总
AppBuilder为AI应用开发平台,支持从简单到复杂的各种应用开发,包括但不限于智能体,有很多预先设置的应用模版,生成类问答类为主,也有搜索类、文生图。和前面的也差不多,能自动生成智能体,图生文不需要集成插件,直接大模型就输出了。AgentBulider和AppBuilder的区分,Agent更侧重会话问答的智能体,和AppBuilder功能比较相似,感觉界限不是很清晰。各家功能大同小异,也有各自的优势,团队规模也不一样,起步也有早晚,其实没什么可比较的,纯属都试试。插件需要自己创建,http请求。
2024-12-12 15:23:44
901
原创 RAG及相关技术栈梳理
GraphRAG 及如今热门的 KAG框架的核心改进在于 RAG 的基础上,加强了实体、Chunk之间的关联,适当融入了知识图谱的功能,以此来提高信息检索挖掘潜在实体关联的能力,增强检索召回。A:用户输入的任意语言的文本,都会先进行嵌入操作,转换为向量表示。目标:在数百万甚至数百亿的向量中高效地找到与给定向量最相似的那些向量,同时,也需要高效地存储和管理海量的。),以及非常漫长的构建索引的时间。3. 生成 — 以检索到的上下文为条件,生成问题的回答。,一个模块化的基于图的检索增强生成(
2024-12-11 17:04:37
1244
原创 LLM大语言模型入门之知识点梳理
原因在于训练数据难搞、算法比较难调、需要时间比较长、对标准要求也比较高。算法相对直接,一般是用大量的数据去做下一个词的预测(next-word prediction)。偏好对齐旨在让模型的输出更符合您的偏好,如KTO、SimPO、DPO和RLHF等。基于大量的纯文本数据使用Post-pretrain的方式训练出一个定制的预训练模型。常见的做法是使用预训练的网络(例如在。3. 生成 — 以检索到的上下文为条件,生成问题的回答。指令微调、部分参数微调(适配器、前缀微调、(也叫微调),或者当做特征提取器。
2024-12-11 16:54:23
357
原创 Mahout之minhash
//第一步参数解析 int minClusterSize = Integer.valueOf(getOption(MinhashOptionCreator.MIN_CLUSTER_SIZE));//每个类中的最小point个数,默认10 int minVectorSize = Integer.valueOf(getOption(MinhashOptionCreator.MIN_
2013-10-22 17:09:24
1266
原创 FPGrowth算法研究与mahout FPGrowthDriver代码介绍
一,假设数据集:项的集合: I (A,B,C,D,E,F,G,H…Z)交易数据库:D (001,002,003…007)TIDItem1Item2Item3Item4001ABC 002BC
2013-10-18 14:41:46
2228
原创 一致性哈希
一致性哈希常用于负载均衡与分布式。学习小组一块儿学习memcached时看到一致性哈希,所以研究了下。一致性hash使用场景举例:memcached分布式存储时,在client端应用一致性哈希算法,使kv数据均匀分散至集群的多台服务器中。 至于为什么用一致性hash,得从传统的使用方法说起,传统方法一般为hash取模的方式,具体如下:N台机器组成的集群,那么key值为K的的数据便路
2013-09-27 09:40:43
1140
原创 hdfs的机架感知
Hadoop分为存储和计算,即HDFS与mapred两大块。其中HDFS为hadoop的根基,知识点也很多。大家知道,block存放出于数据安全考虑,会有多个冗余备份(默认为3)。那么,这个副本又是如何存放,是根据什么策略呢?考虑点主要有2点:1.减小因datanode挂掉等原因导致数据丢失的不安全性2.考虑数据传输,要在保证安全的情况下尽可能地使数据传输带宽更大对于以下场景,可用
2013-09-24 10:48:22
1850
原创 排序算法总结与java实现
默认假设从小到大排序~1.选择排序 基本思想就是第i次选择出第i小的,放在第i个位置。随着 i 逐渐增大,比较的次数越来越少,比较次数是固定的: 1 + 2 + 3 + …. + n = n * (n + 1) / 2 由此可以推出,选择排序的时间复杂度和空间复杂度分别为 O(n2 ) 和 O(1) (选择排序只需要一个额外空间用于数组元素交换)。java代码://
2013-08-26 16:11:01
510
转载 cookie vs session
1.cookiecookie 在客户端,网站将一些信息通过cookie保存在本地,当同一个用户再光临同一个网站,WEB 服务器会先看看有没有它上次留下的 Cookie 资料,有的话,就会依据 Cookie里的内容来判断使用者,送出特定的网页内容给你。 Cookie 的使用很普遍,许多有提供个人化服务的网站,都是利用 Cookie来辨认使用者,以方便送出使用者量身定做的内容,像是 Web
2013-08-26 10:14:20
621
转载 【转】数学之美系列二十一 - 布隆过滤器(Bloom Filter)
在日常生活中,包括在设计计算机软件时,我们经常要判断一个元素是否在一个集合中。比如在字处理软件中,需要检查一个英语单词是否拼写正确(也就是要判断它是否在已知的字典中);在 FBI,一个嫌疑人的名字是否已经在嫌疑名单上;在网络爬虫里,一个网址是否被访问过等等。最直接的方法就是将集合中全部的元素存在计算机中,遇到一个新元素时,将它和集合中的元素直接比较即可。一般来讲,计算机中的集合是用哈希表(hash
2013-08-23 10:22:26
652
原创 bootstrap取样
先举个很常见的例子:想要知道池塘里面鱼的数量,可以先抽取N条鱼,做上记号,放回池塘。进行重复抽样,抽取M次,每次抽取N条,考察每次抽到的鱼当中有记号的比例,综合M次的比例,在进行统计量的计算。1,可以从例子看出,bootstrap是一种从给定训练集中有放回的均匀抽样(伪样本),也就是说,每当选中一个样本,它等可能地被再次选中并被再次添加到训练集中。2,是一种小样本估计总体值的非参
2013-08-22 10:34:03
1781
原创 Mahout简介一
Mahout简介:1.是apache旗下的开源项目,提供了机器学习相关的系列算法,是一个开发者用于使用和改装的工具框架;2.主要算法可分为协同过滤/推荐引擎、聚类、分类三大类,并且有很强的扩展性,可以自主优化算法;3.支持hadoop分布式计算;4.无需安装,是一个Java library。5.svn check out地址:http://svn.apache.org/repo
2013-08-21 10:07:38
1006
Nagios安装简易指南
2013-04-08
CAJViewer 7.0.1.安装包
2012-08-10
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人