自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(45)
  • 资源 (1)
  • 收藏
  • 关注

原创 COZE插件开发-读取图像

由于需要推理图像小模型,然后返回相关参数,目前商店中没有满足需要的插件,所以开发了一个。1. coze发送的图片不是二进制流,而是url链接。

2024-09-23 14:26:05 1360 1

原创 调用kimi-api进行多轮对话

今天练习了调用kimi-api进行多轮对话,测试一下他的文本生成能力。运行后,流式输出答案~

2024-09-03 16:34:22 510

原创 文本查重系统手稿讲解

需要的同学可以去资源下载~

2024-08-08 23:36:18 142

原创 如何用AI颠覆企业未来:从大企业到中小型企业的实战攻略

企业如何落地AI

2024-08-08 15:22:51 358

原创 Mindie在华为910B推理大模型

之前在华为昇腾服务器上推理了Qwen1.5-14b-chat模型,但是用Mindie RC1.0版本无法兼容openai接口,传递的文本字符数有限,不能超过16000.因此,选用了最新版本的Mindie RC2.0版本,成功推理。步骤和上述链接一致,但是下载镜像的时候用MindieRC2.0.目前利用Mindie启动了大模型服务,fastchat启动了embedding服务,然后再启动langchain-chatchat就成功运行,且推理速度和V100卡差不多。如果大家有部署问题,可以后台私信我~

2024-08-05 20:24:08 1583 14

原创 python爬虫-事件触发机制

点击标头可以看到请求后端服务器的api地址,通过拿到这个地址,编写python脚本,不会的可以让gpt帮你写,很好用。然后运行后,就等到爬取完成了,后面也可以多线程爬,还没试,不知道是否有防爬机制。这个网址爬取,html源码找不到链接地址,通过浏览器的开发者工具,点击以下红框。分析预览可知想要的链接地址的id有了,进行地址拼接就行。今天想爬取一些政策,从。

2024-07-27 23:08:21 457

原创 华为910b推理Qwen1.5-72b

910b部署推理大模型

2024-07-12 09:16:36 3655 6

原创 本科毕设《文本查重系统2.0》

本科时期做的文本查重系统没想到很多同学感兴趣,后台下载记录超过20次,也有同学问我查重算法相关的,也有同学问能不能对算法进行改进。为此,我整理了一个需求:文本查重原型系统,查上传文章与库中其他文章的相似度,查重算法包括:(1)深度学习进行embedding(2)传统simhash,(3)对文章进行分句计算.

2024-05-12 18:35:19 272

原创 实习遇到的问题

然而公司并没有提前做埋点,交互数据基本没有,只有我的相关属性信息。没有数据 炒饭都没有原材料,服了。公司需要我做一个智能化推荐算法。

2024-04-07 09:59:28 517 1

原创 面试经验秋招最后一个

技术问题:1.信息定义 2.信息是谁提出来的 3.系统的定义,谁提出来的 4.二进制和三进制 5.计算机系统结构 6.数据中心你知道吗 7.大数据和AI的区别 8.给你一个服务器,你怎么运维。.....还有一些 给忘了,看来还是要从基础打起!

2023-12-01 16:03:43 473 3

原创 秋招+今日学习思考

最近在看图神经网路,我第二篇想对graphsage进行改进,但是我看别人改的最多的是采样部分,加排序后采样的,加强化学习采样的,对于聚合部分改进很少,头疼。从暑假开始投简历,一直到现在,基本只有笔试,面试最远走到了二面,基础还是不扎实,很多东西都忘了。上个月是各种考试:银行,证券,国企等,还有我的实习一起,真个人都累的不行。比如,奇安信二面问到的三次握手,很多详细我不记得了,只能说大概。这个月把实习辞了,好好休息一下,写好我的大论文。银行面试都是去当柜员,很离谱。

2023-11-06 22:14:17 112

原创 lingyue南京面试

7.核对信息 能不能线下面试,期望薪资是多少(我不知道这个啥意思,随便说了一个12k,结果人家说15.5薪,我还是说的12k。总结:要会java,JavaScript,数据库,总的来说,学校里面做的用不到。今天下午三点面试,远程面试,四个面试官,工具:teams 吐槽一下,这个软件真难用。结束了,面试官说后面会有hr联系你 ,我估计凉了。中途还掉线了,离谱。问题:看你的简历 我主要写了python项目,就问了一些python相关的。5.你会前端吗,你会JavaScript吗 我:不会。

2023-10-23 15:48:43 89

原创 面试-交通银行江苏省分行暑期实习生

你常用的编程语言是什么?最后是开放性问题:如果有一个时间紧,任务重的项目,你该怎么做?(有专业性问题,也有半结构化面试)一共四个人,总共花了20分钟,面试官会根据你的回答给你打分,我们在回答的时候,他们在观察我们。另外,这种银行的竞争特别激烈,很多都是复旦,东南的/(ㄒoㄒ)/~~,调整心态就好。一定要提前准备一下,我第一个线下面试就没准备,回答的非常磕磕绊绊,自信很重要。昨天去面试了职能部门实习生,场合非常正式,三个面试官,每个人都很严肃。先自我介绍,然后对你的简历提问,我们那组就我一个计算机专业。

2023-07-05 13:20:40 208

原创 兴业银行笔试

ps:昨天收到的暑期实习笔试通知,双机位,第一次收到银行的考试,hhhh以为很简单,没想到还挺多题目的。这个部分可能要靠刷题来了,不然根本做不完。就是四六级的英语阅读--这个做的还行。1.EPI考试--公务员行测内容。

2023-06-10 17:04:11 343

原创 面试经验(1)

下午四点面试了毕马威KDI 自然语言处理的实习,发现面试官真的很温柔hhhh,问的东西主要是你的简历上的,你的研究方向的东西,但是我都忘了,最基础的都忘了,太离谱了。后面问到了自然语言处理的部分,还是回答上了,主要包括:怎么处理文本的,你用过大语言模型吗,了解chatgpt吗,...我感觉要招聘一个会直接撸代码的人/(ㄒoㄒ)/~~,可是我不太行......自己的研究方向的东西一定要很熟悉!还问了你的pytorch怎么样,用过hugging库吗。

2023-05-30 16:59:52 272

原创 剑指offer11:旋转数组的最小数字

【代码】剑指offer11:旋转数组的最小数字。

2023-05-20 22:02:16 96

原创 剑指offer06:从尾到头打印链表

【代码】剑指offer06:从尾到头打印链表。

2023-05-18 13:26:52 67

原创 剑指offer 04:二维数组中的查找

思路很简单,就是输入可能不是很会,参考了网上的代码,尽量记住。

2023-05-17 13:18:13 54

原创 剑指offer03:数组中重复的元素

这个题目我之前的想法是用暴力,判断是否两个元素相同,很麻烦,python中的集合很好的解决了时间复杂度高的问题。

2023-05-16 09:43:33 113 1

原创 LC:找出其中不含有重复字符的最长子串的长度

滑动窗口 set(),目前窗口大小,左指针;自己写代码时,“while s[i] in cwd:”写成了if,有问题,得想一下为什么?

2023-05-15 18:13:16 129 2

原创 LC:两数相加

其实这道题目思路不难,但是不知道python怎么处理的链表,lc中没有输入输出,但是笔试的时候是有的,所以得写全面。

2023-05-12 19:56:06 158 1

原创 LC:子串能表示从 1 到 N 数字的二进制串

【代码】LC:子串能表示从 1 到 N 数字的二进制串。

2023-05-11 15:24:07 67

原创 LC:可被 K 整除的最小整数

问题:考虑到了偶数不能被全是1的数字整除,但是没有考虑5的情况;另外,在循环体里面,如果k不能被整除,就会一直循环下去,没有结束条件。给定正整数 k ,你需要找出可以被 k 整除的、仅包含数字 1 的最 小 正整数 n 的长度。带模运算的原理可能要推一下了,忘了。优化:增加判断语句;

2023-05-10 18:49:32 68

原创 笔试在线编程题

平时不怎么刷LC,笔试的时候在规定时间内不能想出来,为此,记录一下这次的面试题目。(告诫一下自己,多刷LC)

2023-05-09 15:18:23 107

原创 bilstm代码问题(未解决)

# Defined in Section 4.6.7#encoding:utf-8import torchfrom torch import nn, optimfrom torch.nn import functional as Ffrom torch.utils.data import Dataset, DataLoaderfrom torch.nn.utils.rnn import pad_sequence, pack_padded_sequencefrom collections i.

2022-05-06 16:36:14 887 1

原创 静态词向量预训练模型与动态词向量预训练模型

提示:最近在做文本情感分析,实现Electra预训练模型+BiLstm+attention。在github上找了一些代码,很多都是只有一部分,而且Electra预训练模型没有什么可以参考的代码。所以,记录一下学习过程,有错误的点,大家可以指出来,共同学习。一、静态词向量预训练模型将一个词在整个语料库中的共现上下文信息聚合至该词的向量表示中,也就是说,对于任意一个词,其向量表示是恒定的,不随其上下文的变化而变化。但是,在自然语言中,同一个词语在不同上下文或者语境中可能呈现出多种不同的词义、.

2022-04-08 14:10:10 3890 1

原创 pip加速安装

pip install ...... -i https://pypi.tuna.tsinghua.edu.cn/simple

2022-01-11 22:35:21 699

原创 字符串列表中含有‘nan’

在对句子进行处理时,一直报错:float object has no attribute 'lower'后来每个句子进行输出排查,发现可能读取csv文件时有错,空字符串读取成了nan。用博客记录此次bug,花了两个小时才解决!!!!!!!...

2022-01-07 23:01:15 485

原创 pip国内安装源

pip install -i https://pypi.mirrors.ustc.edu.cn/simple/ pkgname

2021-10-24 22:02:32 150

原创 图解算法数据结构--剑指 Offer 05. 替换空格

题目要求:请实现一个函数,把字符串s中的每个空格替换成"%20"。示例:限制:0 <= s 的长度 <= 10000输入:s = "We are happy."输出:"We%20are%20happy."python代码:根据题目要求,利用for循环实现,如果是空格就替换,得到的最新结果用列表存储。class Solution(object): def replaceSpace(self, s): """ :typ..

2021-10-19 23:05:58 125

原创 根据年份提取dblp内容

文章目录前言 一、pandas是什么? 二、使用步骤 1.引入库 2.读入数据 总结前言最近在做dblp数据集相关预处理工作,根据老师给定的论文,需要按照年份划分提取信息,年份是从1970--2008年。一、分析dblp数据结构从官网上下载dblp最早版本的数据集(不是最新的,最新的有2.1G),大约是1.12GB,XML格式,刚开始老师和我准备手工清洗,只清洗了一年的就好困难,果断放弃,让我想办法编程试一下。查看各种博客后,发现可以用sax进行解析,十分方便

2021-10-18 19:22:58 1306

原创 大话数据结构之线性表的顺序存储

operation: InitList(*L):初始化操作,建立一个空的线性表L ListEmpty(L):若线性表为空,返回true,否则返回false ClearList(*L):将线性表清空 GetElem(L,i,*e):将线性表L中的第i个位置元素值返回给e LocateElem(L,e):在线性表L中查找与给定值e相等的元素,如果查找成功,返回该元素在表中序号表示成功;否则,返回0表示失败 ...

2021-07-25 23:10:08 151 2

原创 大话数据结构第一章读书笔记

数据 是描述客观事物的符号,是计算机中可以操作的对象 数据元素 是组成数据的、有一定意义的基本单位,在计算机中通常作为整体处理 数据项 一个数据元素可以由若干个数据项组成,数据项是数据不可分割的最小单位 数据对象 是性质相同的数据元素的集合,是数据的子集 数据结构 是相互之间存在一种或多种特定关系的数据元素的集合 逻辑结构 集合结构;线性结构;树形结构;图形结构 物理结构 顺序存储结构;链式存储结构...

2021-07-19 21:42:38 224 1

原创 大学四年的课程设计及实验

面向对象课程设计--学生成绩管理系统 操作系统课程设计 数据结构课程设计 计算机硬件课程设计 信息论与编码课程设计 数据库课程设计--教室管理系统 计算机网络课程设计 密码学课程设计--轻量级盲签名算法 网络安全课程设计 入侵防御技术课程设计 信息内容安全课程设计 渗透测试课程设计 信息安全综合实践 工控安全及系统安全实验...

2021-07-19 12:13:50 146 1

原创 从社交关系挖掘引申的两个题目

1.基于机器学习的用户账号异常检测系统的设计与实现本系统旨在利用用户的行为特征来区分正常帐号和异常帐号。具体的思路为,首先抽取用户行为特征以及帐号状态标记(正常或异常)形成训练集,然后基于训练集使用机器学习中有监督学习算法训练分类器,最后对于待测用户样本数据,直接使用该分类器判断是否异常。本系统主要有以下功能模块:用户数据获取模块,异常用户检测模块,统计展示模块。用户数据获取可设计网络爬虫爬取或者自己构造数据集来进行,建议爬取微博用户。异常用户检测是对数据进行预处理,然后特征提取,最后对结果进行存储。统

2021-07-18 19:57:00 207 1

原创 文本在线查重系统的设计与实现(毕业设计)

目录一、博客园信息采集模块二、文本相似度计算模块三、数据存储模块一、博客园

2021-06-09 20:18:08 2919 6

原创 文本在线查重系统(三)

1.爬取了博客园的4000篇文章,存入mongodb数据库。2.进行了分句存储,并提取关键词。3.实现了文本相似度计算截图如下:运行结果:Building prefix dict from the default dictionary ...Loading model from cache C:\Users\ADMINI~1\AppData\Local\Temp\jieba.cacheLoading model cost 1.512 seconds.Prefix d..

2021-04-30 09:58:31 753 1

原创 文本在线查重系统实现(二)

一、框架学习https://www.w3cschool.cn/flask/二、爬虫https://www.cnblogs.com/xingzhui/p/7881262.html三、关键词提取https://blog.youkuaiyun.com/deex13491/article/details/101225295四、基于语义的相似度计算https://github.com/daishengdong/WordSimilarityhttps://github.com/yongyehuang

2021-04-11 22:55:45 430 2

原创 文本在线查重系统设计与实现(1)

《基于多粒度偏好的网络文本抄袭检测系统的研究与实现》论文重点记录及知识点网络爬虫:技术类文本选择主要爬取优快云,新浪博客等技术性站点;新闻类文本主要爬取腾讯新闻等新闻网站等;相似度计算:快速检测:传统的余弦算法;普通检测:改进的余弦算法;详细检测:基于语义理解的文本相似度算法功能方面的需求:网络爬虫模块、系统文本检测服务模块、系统单网页检测服务模块、系统多粒度模块、用户权限管理、系统数据存储模块(自己需要的模块标红)相关技术网络爬虫 文本相似度计算 非关系型数据库 Apache

2021-04-10 15:37:28 2813 1

原创 2021-04-10

文本在线查重系统设计与实现(毕业设计记录)之前一直在准备复试,前几天和老师讨论了系统的几个主要问题:1.大量文本如何用数据库存储,用什么数据库 2.选用什么相似度计算方法 3.爬虫设计(有的网站反爬虫)老师给了两个解决方案:一、如果文本数据太大,实在做不出来,选择某一领域进行查重,比如新闻方面,最后要在毕业论文中进行说明,因个人设备有限........ 最后,要对海量文本查重给出可行的解决方案。方案二:自己再去知网找一些特别详细的论文,进行论文复现。昨天,去万方数据库利用相似度关键...

2021-04-10 14:21:35 169

文本在线查重系统手稿讲解.pdf

详细讲解文本在线查重系统,代码详解及功能详解

2024-08-08

01_文本在线查重系统.rar

本资源为文本在线查重系统,爬取博客园信息作为对比库,完成了句子相似度计算和整体相似度计算。详情请见博客https://blog.youkuaiyun.com/weixin_41549308/article/details/117753327

2021-06-26

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除