- 博客(21)
- 收藏
- 关注
原创 加拿大研究型硕士申请
在准备申请研究型硕士的过程中,我发现很难在网上找到系统、清晰的指导信息,很多时候都是自己硬着头皮摸索前进。所以我想把自己的经历整理出来,希望能给后来想走这条路的朋友一些参考。我尚未入学,因此这篇文章主要聚焦在申请流程上。如果之后读研顺利,我也打算在读完一年或毕业后写一篇关于研究型硕士学习与生活的分享。申请背景与结果
2025-04-05 14:21:04
494
原创 【Nodejs后端开发】在Node中运行python
我已经用python写好调用大模型和处理输出的函数了,用js再写一遍就太麻烦了,所以找个办法直接在node中运行python脚本,这样就可以调用我的方法了。参考博客:Python 如何从Node.js调用Python函数|极客教程。如果python运行错误,注意点如下
2025-02-25 17:02:52
137
原创 【Nodejs后端开发】从CommonJS切换到ES面临的BUG
旧版node使用CommonJS,新版使用ES模块。我的项目初始化时是CommonJS,但是开发中突然出现问题,只能使用ES6,遂不得已把所有的文件都切换成该模式。
2025-02-25 16:49:03
394
原创 【Hugging Face】使用本地qwen2模型计算文本的mauve指标
使用hugging face下的evaluate模块,计算mauve指标
2024-07-23 22:03:25
609
原创 【Hugging Face】使用本地qwen2模型计算文本的困惑度perplexity
使用hugging face中的evaluate模块计算文本困惑度
2024-07-23 21:09:00
1163
3
原创 【项目实训】前端:公司高频考点展示与查询
想要在点击词云后输出弹窗,但是图片路径只能通过acquire动态获取,如果使用静态路径浏览器会报错,去http中寻找图片的src。但是弹窗传入的HTML必须是静态,这个问题干扰我好久,后来才想起来,可以传入HTML之前体现获取好动态路径哈哈。一开始用的elment-ui的$allert,但是无论如何都无法改变弹窗的尺寸,导致图片不能完整显示,更换成el-dialog组件就好了。
2024-06-24 14:06:25
216
原创 【项目实训】在聚集结果上对数据进行润色与总结
在前一个步骤的基础上,依据面试问题的知识点进行润色与总结提示词如下下面是一个由句子组成的数组,用双引号围住,句子来源于一些面试者提供的面试信息。请你根据其内容去掉与面问题无关内容,总结出面试中可以提出的问题。具体满足的要求如下:1. 问题必须是问句,2. 问题内容简洁、易于理解3. 问题内容符合你的面试官身份4. 不可以原文输出请你以json格式进行输出,key为"问题",value为你总结问题所组成的list{cluster}system = {
2024-06-24 00:00:51
324
原创 【项目实训】基于bge-large的自然语言文本聚类
项目需求:我们需要对面试经验信息进行总结,但是面试经验的数据量非常大,直接传给大模型会面临以下问题根据上述问题,我们可以先对面试经验中的句子进行聚类,将相似的句子分类在一起,再让大模型对类似的信息进行概括,这样总结能力可能会好一点。
2024-06-23 19:24:29
1804
原创 【项目实训】前端优化
我们所需的几个功能:公司一览、面试经验、数据统计,由于都与公司和岗位有关,固在原先的基础上,将几个功能封装在一起。对信息展示页面的封装组件进行调整,使其可以固定长度,其中内容进行滑动。cc同学负责编写api通信代码。
2024-06-23 18:24:06
144
原创 【项目实训】面试经验板块前端实现回顾
在页面中通过下拉框选择公司和职位关键词,后台获取后调用函数,向后端发送请求数据,返回面试经验的信息,在前台展示。由于信息量较大,所以适合懒加载,浏览器中鼠标滑到底部时发送请求,只从数据库查询1条数据进行返回。正常返回的信息需要为一个字典组成的数据,没有数据或异常时应该返回。可以选择公司和岗位,页面中展示出由大模型总结出的面试经验。绑定,选择器中的内容变化后,触发。方法,获取新数据,数据的偏离值。+ 1,调用获取面经信息的函数。,并调用获取面经信息的函数。鼠标滑动到最底部时,触发。
2024-06-22 19:01:02
158
原创 【项目实现】基于提示词指定大模型格式化输出
使用function call格式化输出比较不稳定,因为大模型可能无法将内容和工具的描述匹配在一起,导致无法调用工具。
2024-06-22 17:28:55
1318
原创 【项目实训】基于RAG技术的知识库对话探索
首先使用前端,进行一些知识库对话的prompt尝试知识库总结质量并不太好:只有抽取原回答的能力,甚至不能修改匹配知识条数如果过长,会输出失败,看来暂时无法改变除此之外,也需要清空历史内容,否则长度过长,输出失败prompt1:你可以帮我总结一下java后端有什么常考的知识点吗?以json格式输出,key是知识点的名称,value是由问题组成的列表结果:答案太长可能输出不完prompt2:请你总结一下阿里面试中的题目类型,并给出该类型下的所有题目匹配知识条数3匹配知识条数为10条。
2024-06-21 13:07:27
780
原创 【项目实训】构建向量知识库
以15kb为上限,不断累积原json文档的元素,当添加新的元素导致文件大于15KB之后,将原先累积的元素输出成子json文件。首先尝试将json文件按照其中的字典数量进行拆分,每个子文件存放十条记录。然而发现,由于不同的经验帖子字数不同,会导致拆分后的存储空间非常不均衡。经过排除,发现可能是因为文件较大,而gpu缓存空间不够。测试之后发现,一个文档在15k以内可以成功向量化。成功构建向量知识库,并对文档进行分割。尝试上传作为知识库,发现向量化失败。构建一个计算json数据大小的函数。最低6k,最高30k。
2024-06-20 20:42:05
281
原创 【项目实训】数据清洗
content中的内容,需要先去掉中括号`[]`,然后按照逗号`,`切分,切分的内容去掉两端单引号再加上`\n`表示分行。title中的内容直接通过strip去掉多余的中括号的单引号。2. 爬虫内容中还包括特殊字符 `\xan`1. 爬虫的同学把数组格式的数据直接存储。
2024-06-20 19:10:27
241
原创 【项目实训】牛客网面经数据过滤
观察数据,发现了标题中常见的一些公司,例如“华为、美团、阿里”等,根据标题过滤,将牛客上爬到的数据按照不同的公司分类,并存储在json文件中。数组中每个元素是个字典,表示一个面试经验帖子,分为 `title`、`content`、`url`5. 讲数据按照不同的公司存放成json,最终筛选出26个公司的面试经验。公司名是键,公司对应的值是一个数组,数组中存放该公司的面试经验。2. 遍历同学爬到的csv文件,在标题中使用正则查找这些公司。1. 我定义了一个公司列表文件,里面列举了常见的公司。
2024-06-20 19:08:45
182
原创 【项目实训】阿里云部署Langchain-Chatchat
在阿里云平台上部署langchain-chatchat项目——一个成熟的RAG实现框架,并调用本地部署的大模型chatglm
2024-04-28 18:45:27
1770
3
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人