- 博客(193)
- 收藏
- 关注

原创 开源python-自动集成CI
熟悉需要注册pypi:https://pypi.org/manage/projects/利用github action自动发布填写pypi用户和密码作为repo secrets
2022-04-14 21:17:36
1064
原创 机器学习面试:Leetcode SQL 刷题与答案
聚合函数(如 COUNT)通常需要与 GROUP BY 子句一起使用,并且过滤条件应该放在 HAVING 子句中。直接在 WHERE 子句中使用聚合函数会导致语法错误。处理聚合查询时,MIN 是一个更通用的解决方案,适用于所有 SQL 数据库。TOP 1 则更适合用于非聚合查询中选择排序后的第一行记录。多一层为了空表格时输出null。
2024-12-07 16:27:15
377
原创 动手学习RAG:大模型重排模型 bge-reranker-v2-gemma微调
微调后map从0.637上升至0.706,mrr从0.734上升至0.816。在C-MTEB中进行评测。微调前保留10%的数据集作为测试集验证。
2024-09-18 10:40:39
2963
原创 动手学习RAG: 大模型向量模型微调 intfloat/e5-mistral-7b-instruct
这里直接将query_instruction和document_instruction写进了text里。由于trainer中可以使用多种方式使用多GPU,因此retrievals也都支持。微调后,map从0.651上升到0.699,mrr从0.758上升到0.808。数据还是按照惯例采用t2-ranking。
2024-09-18 10:39:50
756
原创 动手学习RAG: moka-ai/m3e 模型微调deepspeed与对比学习
主要是修改了导入为包的导入,而不是相对引用。这里稍微修改了open-retrievals。数据仍然采用之前介绍的。
2024-09-13 20:27:07
1471
原创 动手学习RAG: 迟交互模型colbert微调实践 bge-m3
本文我们来进行ColBERT模型的实践,按惯例,还是以中的代码为蓝本。在RAG兴起之后,ColBERT也获得了更多的关注。ColBERT整体结构和双塔特别相似,但迟交互式也就意味着比起一般ranking模型,交互来的更晚一些。
2024-09-12 15:42:16
2172
原创 动手学习RAG: 向量模型
在世界百年未有之变局与个人自暴自弃的间隙中,我们学一点RAG。RAG是一种独特的应用,“一周写demo,优化搞半年”,我甚至听说它能破解幻术。为了理解其优化中的关键一环,我们先看下文本向量。文本向量除了是RAG检索的重要模块外,也应用在信息检索、排序、分类、聚类、语义相似度中。
2024-09-07 16:55:09
1380
原创 APS开源源码解读: 排程工具 optaplanner
也即是说,先定义对象“entityClass”, 转化为约束“constraintProviderClass”,然后运用 constructionHeuristic + localSearch的方式进行求解。工序叫做Job,job跟着若干project。在APP类继承的solution中,示例采用的是schedule,也就是planningsolution,作为问题和排产结果。其中,一个整体的任务叫做project, 资源有可再生,非可再生。Solver job接受到problem,开始run。
2024-09-03 18:34:29
2064
原创 Transformer模型特辑
开始训练一个大模型之前,根据scaling law来估算,有多少数据,需要多少算力,要计算多少时间。装载模型,假如模型的参数是以FP16来计算的(A100之后BF16的居多,防止计算的时候上溢出)7B的话,静态显存占用量,指模型的所有参数被load到显存里,如果以BF16的话,要占据14个G。2) = 8BSH**2 + 4BHS **2,乘以2是因为神经网络计算一次加法 一次乘法。反向求导的时候,Loss算梯度得到新weight然后更新,所以是前向计算的两倍,乘以4。
2024-07-11 14:03:39
1118
原创 书生·浦语大模型-第七节课笔记/作业
通过将关键信息随机插入一段长文本的不同位置,形成大语言模型 (LLM) 的Prompt,通过测试大模型是否能从长文本中提取出关键信息,从而测试大模型的长文本信息提取能力的一种方法,可反映LLM长文本理解的基本能力。但评测对于模型优化是非常重要的,指引了模型选择与优化的方向。
2024-04-25 14:25:08
358
原创 书生·浦语大模型-第五节课笔记/作业
lmdeploy kv-cache推理耗时:2.9s。lmdeploy推理耗时: 0.43s。原7b模型问题耗时: 4.5s。
2024-04-10 23:24:27
504
原创 书生·浦语大模型-第三节课笔记/作业
第一步就判断是否落在工作时间?第一感觉扎心,第二感觉就很有画面感了,“你们这群开发人员在阴阳怪气什么,无法无天了,别以为不知道你们在想什么,抓起来”基础配置通过pytoml (新版改为tomllib)读取config.ini。如何控制群聊中对话的控制?包括多人聊,以及单人可能对话中换了topic。大模型服务: 类似微服务的方式?一个server, 一个clinet。如何实现对pdf, excel, ppt的读取?如何判断介入本地知识库搜索还是网络搜索?
2024-04-06 23:40:31
441
原创 算法工程师-机器学习-数据科学家面试准备4-ML系统设计
数据仓库used for the analysis and reporting of structured and semi-structured data from multiple data sources, such as point-of-sale transactions, marketing automation, customer relationship management, and more.include an analytical database and critical a
2023-10-26 14:53:39
524
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人