- 博客(21)
- 收藏
- 关注
原创 DataWhale AI夏令营 Task2.2笔记
最后,改进了主题词提取方法并优化了噪声处理。主题词提取从原先基于聚类中心特征权重的方法,改为直接统计聚类内的词语频率。新方法能更直观地反映实际用词情况,避免TF-IDF特征权重可能带来的偏差,同时使用管道符"|"分隔主题词,更符合业务需求。对于DBSCAN标记的噪声点(label=-1),不再分配主题词,有效避免低质量数据污染聚类结果,显著提高主题词的代表性和纯净度。该算法的优势在于能更好地处理非球形聚类结构,对噪声数据具有更强的鲁棒性,特别适合文本数据中常见的非均匀分布特征,从而提升聚类质量。
2025-07-16 17:53:47
246
原创 Datawhale AI夏令营 机器学习2.1
充分利用数据特点(测试集93%用户出现在训练集中)对于训练集中出现过的用户,直接使用已知标签。将低频设备品牌归类为"Other"以0.01为步长搜索最佳阈值。解决长尾分布问题,减少噪声。更精确地平衡精确率和召回率。(0.05)提高稳定性。(2000)配合早停。
2025-07-15 23:24:34
213
原创 DataWhale AI夏令营 Task2笔记
有了情感标签和意图标签,机器还要把相似的评论聚成一堆,再提炼出每堆评论的关键词,形成“用户最关心的话题”。这一步分四件事:判断用户是夸还是骂(情感倾向),是否在描述使用场景(用户场景),是否在提问(用户疑问),是否在提建议(用户建议)。它先拿视频描述和标签拼成一段“文字画像”,然后用中文分词工具把这段话拆成一个个关键词,再用TF-IDF算法挑出最有代表性的词,最后用线性分类器比对已知商品,猜出这条视频对应的商品名称。,它的核心任务是把看似杂乱无序的带货视频和评论数据,转化为企业可以直接拿来用的决策参考。
2025-07-14 18:00:47
454
原创 JAVAWEB三大组件|servlet、filter、lisener
当Servlet容器接收到用户的HTTP请求后,由容器负责把请求转换为和对象,分别代表HTTP请求和响应,然后,经过若干个Filter组件后,到达最终的Servlet组件,由Servlet组件完成HTTP处理,将响应写入对象此外,还有一种Listener接口,可以监听各种事件,但不直接参与处理HTTP请求,具体实现由Web App完成,何时调用则由容器决定。ServletFilter和Listener都是运行在容器中的组件,只有容器才能主动调用它们。1、定义类,实现Filter接口,并重写其所有方法。
2025-03-19 12:47:01
1124
3
原创 SpringBoot项目配置文件
1.创建SpringBoot工程,并引入web开发起步依赖、mybatis、mysql驱动、lombok。SpringBoot项目提供了多种属性配置方式(properties、yaml、yml)2.创建数据库表,并在application.yml中配置数据库的基本信息。3.准备基础代码结构,并引入实体类及统一的响应结果封装类Result。可以方便开发接口、前端测试等。
2025-03-09 21:39:39
255
原创 二进制刷题总结
3月8日:打卡的题目:2980(比较简单)、1318(思路牛)、2419(比较简单)、2871(思路牛)、2401(思路牛)3月9日:打卡的题目:2680最大或值(做了半天,第一种思路勉强,第二种没看懂)、3133真牛啊真牛啊太强了,思路和代码都牛3.11日:打卡的题目:342(4的幂)、191(位1的个数)、2595(奇偶位数)、2657(找两个数组的前缀公共数组)二进制数中1的个数x & 1例如当 x = 3 时,x 的二进制表示为 11,x & 1 的值为 1;
2025-03-09 00:21:12
370
原创 代码随想录算法训练营DAY09之动态规划(一)基础题目
算法训练营——动态规划(1)基础题目。动规五部曲、509.斐波拉契数、70.爬楼梯、746、使用最小花费爬楼梯、62、不同路径、63、不同路径||、343、整数拆分、96.不同的二叉搜索树
2024-09-19 20:34:52
2282
原创 代码随想录算法训练营DAY08之二叉树(四)搜索树(2)
只需要使用递归就行,三部曲:返回值类型和参数,退出条件:Left > right,单层逻辑:开辟mid的值为root,root->left指向左递归,root->right指向右递归,最后返回root。首先是如何找到父节点,自己做的时候是从下往上,所以写不出来,应该从上往下遍历的时候就记录,fa [ root -> left -> val ] = root,右边同理,于是便完成了每个结点父亲的记录。根据二叉搜索树的特点,每个结点的值将变成它右边所有结点的值的和,即反中序遍历后,它前面所有的值的和。
2024-08-11 16:38:27
924
原创 代码随想录算法训练营DAY07之二叉树(三)二叉树的修改构造和搜索树
总会忘记那个resize,break;还有0和1的特殊情况。要特别注意区间的范围,左开右闭还是左闭右开,这些细节。第一次没有考虑特殊情况,nums.size()==1第二次node的空间没有开辟对,没有写类型第三次找下标那里没有写对,应该每次都更新一下1.样例中最小节点 可能是int的最小值,如果这样使用最小的int来比较也是不行的。此时可以初始化比较元素为longlong的最小值。遇到在二叉搜索树上求什么最值,求差值之类的,都要思考一下二叉搜索树可是有序的,要利用好这一特点。
2024-08-10 23:43:05
1043
原创 代码随想录算法训练营DAY06之二叉树(二)层序遍历和二叉树属性
层序遍历模板、101.对称二叉树、222.完全二叉树的节点个数、257.二叉树的所有路径、404.左叶子之和、112.路径总和。基本思路就是深搜或者广搜,递归或者迭代,每次写递归想一下递归三要素,每次采用遍历的话,思考用哪种遍历方式:前、中、后
2024-08-08 20:36:36
730
原创 代码随想录算法训练营DAY06之二叉树(一)拾遗
分类(满二叉树、完全二叉树、平衡二叉树、二叉搜索树)、前中后序、递归三要素、递归遍历、迭代遍历
2024-08-08 14:31:37
1076
原创 代码随想录算法训练营DAY05之栈和队列
232.用栈实现队列225. 用队列实现栈20. 有效的括号1047. 删除字符串中的所有相邻重复项150.逆波兰表达式求值239.滑动窗口最大值、347.前k个高频元素
2024-08-07 23:59:45
1335
1
原创 代码随想录算法训练营day04之字符串
344.反转字符串、541.反转字符串||、卡码网54.替换数字、151.翻转字符串里的单词、卡码网55.右旋字符串、28.找出字符串中第一个匹配项的下标、459.重复的子字符串
2024-08-05 15:57:58
1320
原创 代码随想录day03之哈希表
力扣242.有效的字母异位词、力扣349.两个数组的交集、力扣202.快乐数、力扣1.两数之和、力扣454.四数相加||、力扣383.赎金信、力扣15.三数之和、力扣18.四数之和
2024-08-04 19:55:15
2487
原创 代码随想录算法训练营day2之链表
力扣203.移除链表元素、 707.设计链表、206.反转链表、24.两两交换链表中的结点、 19.删除链表的倒数第N个节点、链表相交
2024-08-03 23:51:18
1119
原创 代码随想录算法训练营第1天之数组|力扣704二分查找、27移除元素、209长度最小的子串、59螺旋矩阵、53求最大子数组和、56、合并区间、189.轮转数组
爽啦,今天做了7道题前面一直在停滞中,因为太急功近利了,每天都想做一二十道,妄想立马成为算法高手,导致一做到不会的就特别焦躁。最近开始认识到提升代码能力是一个长期的,循序渐进的过程,只要每天都在自己能力边界进步,专注于自己这一天所做的题,就很布戳啦,加油!!!
2024-08-02 20:11:24
1025
4
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人
RSS订阅