自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(50)
  • 收藏
  • 关注

原创 解决TF-IDF增量学习问题的思路与方案

TF-IDF的传统实现面临增量学习困难,因为IDF计算依赖全局文档统计信息。但是实际的工作当中往往数据是增量的,并且定期增量和不定期增量混合,所以为了实际考虑,还是有必要思考如何解决TF-IDF增量问题的。

2025-04-08 22:11:51 698

原创 JavaScript惰性加载优化实例

这个排查的思路很通用,大部份性能问题都可以从这里着手,如果是前端的新朋友,那么建议从开头编写完代码之后,多依着下面的排查思路看看自己的代码执行步骤,然后思考,会有意想不到的收获。-- 使用原生loading属性 -->

2025-04-08 22:01:05 698

原创 TF-IDF忽略词序问题思考

自从开始做自然语言处理的业务,TF-IDF就是使用很频繁的文本特征技术,他的优点很多,比如:容易理解,不需要训练,提取效果好,可以给予大规模数据使用,总之用的很顺手,但是人无千面好,花无百日红,TF-IDF也有一些局限的地方,这次我们聊聊忽略词序的问题和解决的思路。

2025-04-07 22:01:28 988

原创 昂贵的DOM操作:一次DOM导致的性能问题排查记录

开发完成之后,对接后端连调,由于开始连调的是测试环境,环境当中没有很多数据,所以没有发现问题,于是接入公司真实数据接口,发现确实很卡,尤其是滚动加载的时候,于是测试打回,对于实习生,尤其是妹子,大家开始帮忙看问题。1、使用文档片段,批量插入DOM,这个需要和产品沟通,滚动同时一条一条加载如果性能没有问题,那么用户体验肯定最好,但是卡了之后,用户体验只会更糟糕,所以滚动定长之后加载下面一页,然后批量生成文档片段,统一插入。2、减少用户操作频率,这个自然不能要求用户慢慢的来,那么就寄出大招,节流/防抖。

2025-04-07 21:37:55 700

原创 SQLServer 2022 采用增强型触发器解决数据同步问题

聊一个之前生产环境遇到的问题,当时项目有一批客户的信息,很细致,包括了客户的喜好和业务关系等等,但是由于当时的数据市场的同事们是手动录入的,由于录入的人和时间不同,导致格式上并不统一,所以给阅读和具体使用增加了很大的困难,所以在项目升级的时候,大佬提议对数据格式化,然后构建业务关系图。

2025-04-06 20:35:35 926

原创 使用私有知识库取消歧义思考

在全文检索或者实体抽取这个类型开发认为的时候,经常会遇到一词多义或者特意词,尤其是设备名称,人物名称,建筑地址,专业名称,我生活当中经历过的最惨痛的歧义就是:mac(他可以是一个笔记本电脑,也可以是一支口红,)这些,就需要构建知识库提供给检索服务或者实体抽取服务作为实体识别的凭证。

2025-04-06 20:13:05 750

原创 基于sklearn实现文本摘要思考

和各位小伙伴分享一下使用sklearn进行文本摘要的思考。

2025-04-05 22:05:45 925 1

原创 SQL Server 2022 数据同步到 Elasticsearch 思考

公司的老项目了,采用的是sqlserver 2022作为数据卡做的,但是产品对接客户,发现对搜索的要求很高,尤其是全文检索,考虑到ES采用倒排所以效率上的优势和整体开发的成本,大佬们商量之后,果断的采用了Elasticsearch作为搜索引擎的策略,那么剩下的就是如何将数据同步到ES的问题了,这个的一部分也就是我的工作了,所以分享一下自己工作过程当中的思路和遇到的问题。

2025-04-05 21:49:55 1368 1

原创 公司论坛数据构建情感标注数据集思考

公司论坛有一个评论区,会有小伙伴在上面进行评论,聊天,大部份都是积极向上的,但是也有小小的一部分消极的言论,“就像白纸上的一个黑点”,和产品对接的大佬如是说。所以想思考做一个情感标注数据集,对负面的言论有快的处理方案,当然公司采用了一套成熟的流程,但是作者本人也进行了思考

2025-04-04 21:19:32 729

原创 SQL Server 2022 脏读问题排查与思考

总结sqlserver的使用,总是会回想起很多开发过程当中加班努(拼)力(命)的场景,今天,就把之前一个由于数据库脏读到这的OA系统员工请假流程状态不一致问题和解决思路分享一下。

2025-04-04 20:49:51 908

原创 使用python完成手写数字识别

入门图像识别的第一个案例,看到好多小伙伴分享,也把自己当初的思路捋捋,写成一篇博客,作为记录和分享,也欢迎各位交流讨论。

2025-04-03 21:47:50 3006 1

原创 SQL Server 2022 读写分离问题整合

跟着热点整理一下遇到过的SQL Server的问题,这篇来聊聊读写分离遇到的和听说过的问题。

2025-04-03 21:27:58 999

原创 一文搞定SQLServer 2022中文编码问题

编码问题不是大问题,但是解决不完的问题,尤其涉及到所个数据源跨部门数据操作的项目,那么编码一定会有问题,最近接触到SQLServer项目就是如此,花了一天,解决问题,花了一天沟通上下游,确定之后的流程,最后的感触,沟通能力>编码能力

2025-04-02 22:43:45 1398

原创 从入门到入土,SQLServer 2022慢查询问题总结

列为,由于公司原因,作者接触了一个SQLServer 2022作为数据存储到项目,可能是上一任的哥们儿离开的时候带有情绪,所以现在项目的主要问题就是,所有功能都实现了,但是就是慢,列表页3s打底,客户很生气,经过几周摸爬滚打,作以下总结,作为自己的成长记录。

2025-04-02 22:37:21 1037

原创 07-11-自考数据结构(20331)- 排序-内部排序例题分析

今天系统归纳了内部排序六大高频考点:①排序过程模拟题要求分步演示算法执行(如展示直接插入排序前3趟结果);②算法实现题包含代码填空与改写(如补全快速排序分区函数);③性能分析题需计算时间/空间复杂度;④综合应用题考查实际场景的算法选择;⑤改进类题目聚焦优化方案设计;⑥概念证明题需论证算法特性。特别强调排序过程可视化、稳定性分析和时间复杂度比较三大核心难点,帮助快速掌握排序算法考点。

2025-04-01 22:16:21 305

原创 07-01-自考数据结构(20331)- 排序-内部排序知识点

内部排序算法是数据结构核心内容,主要包括插入类(直接插入、希尔)、交换类(冒泡、快速)、选择类(简单选择、堆)、归并和基数五大类排序方法。

2025-04-01 22:04:29 154

原创 06-31-自考数据结构(20331)- 查找技术-哈希表例题分析

哈希表考题主要涵盖四大类型:1)函数设计类(如除留余数法计算地址,需掌握质数p的选择技巧);2)冲突处理类(线性探测法要解决堆积现象,链地址法需绘制链表结构);3)性能分析类(重点计算ASL,理解装填因子α的影响规律);4)综合应用类(如设计ISBN查询系统,需结合实际问题选择哈希方案)。典型例题包括构造哈希表、计算查找长度、比较不同处理方法的效率等,解题关键在于熟练掌握哈希函数构建、冲突处理实现以及性能公式应用。所有题型都要求将理论知识与C++实现相结合。

2025-03-31 21:20:18 704

原创 06-03-自考数据结构(20331)- 查找技术-哈希表知识点

哈希表是一种通过哈希函数将关键字直接映射到存储位置的高效数据结构,理想情况下可实现O(1)时间复杂度的查找。核心包含哈希函数设计(如除留余数法、平方取中法)和冲突处理(链地址法、开放定址法)。性能受装填因子α影响,链地址法成功查找ASL≈1+α/2,线性探测法≈½(1+1/(1-α))。C++实现通常采用vector+list(链地址法)或线性探测数组。适用于字典、缓存等需要快速查找的场景,但不适合范围查询。关键要选择适合的哈希函数和处理方法以平衡空间和时间效率。

2025-03-31 21:11:40 193

原创 06-21-自考数据结构(20331)- 查找技术-动态查找例题分析

总结了数据结构 - 动态查找的出题方向,并且给出了例题和解题思路,抛砖引玉,期待各位的反馈。

2025-03-30 21:24:43 126

原创 06-02-自考数据结构(20331)- 查找技术-动态查找知识点

自考数据结构动态查找算法主要讲二叉树和平衡二叉树,但是感觉到了,就又续接了一部分,所以这篇备考的小伙伴着重看前两种就可以了。

2025-03-30 21:13:07 239

原创 06-11-自考数据结构(20331)- 查找技术-静态查找知识点分析

静态查找章节的高频题型、典型例题及详细解法,按照考试命题规律整理,掌握这些题型及解法,可覆盖自考静态查找90%的题目。建议结合历年真题练习,特别注意判定树绘制和非均匀概率ASL计算两类高频难题。

2025-03-29 22:15:41 119

原创 06-01-自考数据结构(20331)- 查找技术-静态查找

按照考试要求分类归纳,查找技术-静态查找-包含概念、算法、计算题型,我们先从知识点开始梳理,最后出一些例题。

2025-03-29 22:04:31 168

原创 (051)图结构计算题总结

这里总结一下一下图结构可能出现的大题(主要计算题)的类型和计算思路,但是这里需要有矩阵的知识点,可以先查查,做准备。

2025-03-28 23:28:55 34

原创 05 - 自考数据结构(20331) - 图结构

这章主要记录了自考数据结构图结构的知识点,包含完整定义、算法步骤、示例、对比表格及注意事项,可直接用于深度复习。

2025-03-28 23:07:36 33

原创 (041)05-01-自考数据结构(20331)树与二叉树大题总结

实际考试中,计算题约占40%,推理题约占30%,算法设计题约占30%。建议重点练习遍历序列相关的递归分治解法,

2025-03-27 22:52:59 689

原创 04 - 自考数据结构(20331) - 树与二叉树

树在所有的模拟题里面包括编程实践当中是提到的最多的,所以有理由怀疑,这一章的考题会很多,首先需要掌握好树的定义。

2025-03-27 22:36:42 52

原创 (031)线性结构计算题总结

线性表虽然被放到了第一讲,也是比较容易直观理解的一讲,但实际上还是有很多知识点可以作为计算题的出题材料,小的可以作为选择题,大的可以作为计算或者代码填空等

2025-03-26 22:57:55 387

原创 (03)自考数据结构(20331)- 线性结构

这里主要说四大模块:线性表(顺序表与链表的存储实现、操作及对比)、栈(LIFO特性、顺序/链式实现及表达式求值应用)、队列(FIFO特性、循环队列解决假溢出问题)和串(BF/KMP模式匹配算法)。文档通过C语言代码示例、时间复杂度分析、对比表格和真题解析,重点突出线性结构的存储原理、基本操作实现(如链表插入删除、栈的括号匹配)以及典型应用场景(如递归调用、BFS算法)

2025-03-26 22:55:48 211

原创 (02)自考数据结构(20331)- 基础概念

基础概念部分主要涉及的知识点包括数据结构基本概念、逻辑结构、存储结构、抽象数据类型、算法分析这几个部分。需要记忆和理解的比较多,比如数据、数据元素的概念。有一些如果理解不了,建议直接背死,比如常见算法的时间复杂度。

2025-03-25 22:48:21 193

原创 (01)自考数据结构(20331)- 课程介绍

课程包含基本的数据结构和排序查找算法知识点,对于程序员自考来说,学习一遍除了通过考试,实际上对自己本身的业务能力也是有提升的,基于自己备考和给之后的小伙伴提供哪怕一丢丢丢帮助,在自己学习的同时,整理笔记,作下记录。

2025-03-25 22:23:08 102

原创 10分钟入门Pandas(一)

自 pandas文档(https://pandas.pydata.org/docs/user_guide/10min.html)这里只是一个简单的介绍,面向初学的小伙伴,如果想要学习更多的pandas知识点,请看文档当中的cookiebook部分,当然,后续也会进行翻译。官方文档当中使用了numpy结合pandas使用,我们在举例子的过程当中,保留文档案例的同时采用一个新的案例,商品关系数据结构:商品表:id商品名称商品价格商品产地商品上架时间商品类型1山东红富士12

2022-03-07 22:13:27 951

原创 OA任务思考

OA任务思考最近一年在授课之余,也参与到了一些管理工作当中,在这个过程当中,作为一个标准的程序猿果然不负众望,犯了很多低级的错误,回顾一年,结合最近一直做的OA系统,有些思考,就想记录下来:OA系统,在我的理解当中是一个办公管理系统,在做开发的过程当中逐渐有了一种思路,凡是用到管理系统这样的东西无非以下的需求:1、大量的数据需要批量处理,比如: 企业资源批量管理,这里的资源可以是企业的设备也可以是人力资源2、复杂的流程,比如:跨部门协作,基于项目的跨部门虚拟团队沟通。3、自动化的操作,比如:周报,

2020-12-30 18:02:14 261 1

原创 圣杯布局思考

前端思考圣杯布局思考最近从新巩固了一遍前端的HTML+CSS学习,发现好多知识点记忆是没有问题的,但是在页面布局的时候,还是有瑕疵,所以在这里总结一下前端常用的布局思路,我本人基础最早的是圣杯布局,所以先在这里介绍一下:结构圣杯布局是我接触到网站布局之后的第一个完整页面布局的思路,大概如图:这种布局主要显示内容的部分在顶部和中间部分,强调的点是中间部分优先加载,左右后加载的问题,并且从结构上要求:左右部分固定宽度,中间部分100%。所以分为下面的三个步骤进行思考:基础结构写出结构,并且,给他

2020-12-20 16:38:09 224

原创 Django 接口开发思考_接口分页

Django DRF 分页分页在DRF当中可以一共有三种,可以通过setttings设置,也可也通过自定义设置PageNumberPagination使用URL http://127.0.0.1/CarApi/?page=2&page_size=2这种分页是按照页码和每页条数进行分页的,需要指定页码和每页条数常用参数方法描述page_size每页数据条数,默认位空,如果settings当中设置了,价值settings当中的配置django_paginator

2020-12-16 18:02:19 456

原创 django DRF理解

django restframework(DRF)最近的开发过程当中,发现restframework的功能很强大,所以尝试解读了一下源码,写篇博客分享给大家,有错误的地方还请各位多多指出视图部分视图部分,主要负责查询方法,在编写代码的过程当中,按照具体功能和请求动作进行了拆分,方便开发者进行自定义的拼接。mixinMixin 即 Mix-in,常被译为“混入”,是一种编程模式,像C或C++这类语言都支持多重继承,一个子类可以有多个父类,这样的设计常被人诟病。因为继承应该是个”is-a”关系。比

2020-12-16 16:43:57 736

原创 Django+FastDFS文件管理系统搭建

FastDFS 介绍简介FastDFS是一款类Google FS的开源分布式文件系统,它用纯C语言实现,支持Linux、FreeBSD、AIX等UNIX系统。它只能通过 专有API对文件进行存取访问,不支持POSIX接口方式,不能mount使用。准确地讲,Google FS以及FastDFS、mogileFS、 HDFS、TFS等类Google FS都不是系统级的分布式文件系统,而是应用级的分布式文件存储服务。FastDFS 是一个开源的高性能分布式文件系统(DFS)。 它的主要功能包括:文件存储

2020-12-16 10:14:13 2627

原创 利于爬虫理解协程

当前代码在工作当中没有太大的含义,但是对于大家理解协程的基础概念是相当有好处的 协程最直接的可以理解为程序当中一个没有返回的功能块儿 我们之前有学过多线程,所谓的多线程不论是异步并发,还是并发强调的时候将功能放到不同的线程上分别运行的过程 但是协程不是这样的,协程强调的是在同一个线程上进行运行,这样免去了线程生产、消费、抛弃的损耗 站在生产消费者模式来看 多线程主张的是 生产者生产 生产的内容放入...

2018-11-29 11:46:36 457

原创 基于Python的大数据的分页模型代码

最近在写一个cmdb系统的分页,尽管Django本身有分页的模块儿,但是还是想实现一下自己心中想的分页的一种逻辑因为,在我们工作当中,当我们的数据量超级大的时候,其实我们每次分页查询都不必将所有的数据查询出来,而是可以按阶段的查询,举个例子每次查询5页数据,当需要第六页的时候,再次进行加载,为了更加明了,做了举例首先我们规定好每次查询5页,每页4条数据  1 db_data = ...

2018-11-22 12:01:54 294

原创 白手起家Django项目发布下篇_Django项目nginx部署

上一篇完成了python的安装,接下来安装python的依赖包和项目的依赖包1、  python-devel命令:yum -y install python-devel          安装Django1.8.2 pillow django-ckeditor5.4.0pip3 install django==1.8.2          pip3 install ...

2018-11-04 23:13:19 311

原创 白手起家Django项目发布中篇_Centos下Python2和3并存环境部署

python环境部署我们今天学习的内容是如何将Django项目部署到linux服务器上,我们部署的linux系统是centos7首先,我们先在linux上搭建我们的Python3环境:在这里首先强调一下,Centos7系统自带的Python2我们不要删除,我们要做的是在Python2和python3并存。1、  安装Python3的依赖包2、  命令:[root@localho...

2018-11-04 23:12:59 203

【Python后端开发】一次面试的面试题详解

内容概要:本文档《Python后端开发面试题及解析.pdf》涵盖了Python后端开发中的多个重要主题,包括Python基础、Web框架、数据库、系统设计、并发编程以及调试与优化。对于Python基础部分,文档详细介绍了GIL的概念及其对多线程的影响,并给出了替代方案;同时讲解了装饰器的原理并展示了计时装饰器的实现方法。在Web框架方面,重点比较了Django ORM中`select_related`和`prefetch_related`的区别,以及Flask中请求上下文和应用上下文的不同之处。数据库章节讨论了SQL注入的防护措施和数据库连接池的作用及其实现方式。系统设计部分探讨了短链接服务的设计思路和接口限流的实现方法。并发编程板块解释了Python中的协程和异步IO的基本概念,并介绍了多进程间通信的方式。最后,在调试与优化方面,文档列举了常用的性能分析工具,并深入浅出地讲述了Python的内存管理机制。 适合人群:有志于提升Python后端开发技能的工程师,特别是那些正在准备面试或者希望深入了解Python后端技术栈的开发者。 使用场景及目标:①帮助面试者掌握Python后端开发的核心知识点,提高面试成功率;②为实际项目开发提供理论支持和技术指导,解决开发过程中遇到的问题;③通过学习Python的底层机制,优化代码质量和系统性能。 阅读建议:建议读者根据自身的技术水平和需求选择性阅读,对于不熟悉的领域可以重点研读,并结合实际案例进行练习,加深理解。此外,还可以利用文档提供的代码示例进行实践操作,以巩固所学知识。

2025-04-02

《数据结构》(02331)基础概念

内容概要:本文档《数据结构》(02331)第一章主要介绍数据结构的基础概念,涵盖数据与数据元素的定义及其特性,详细阐述了数据结构的三大要素:逻辑结构、存储结构和数据运算。逻辑结构分为线性结构(如线性表、栈、队列)、树形结构(涉及根节点、父节点、子节点等术语)和其他结构。存储结构对比了顺序存储和链式存储的特点,包括访问方式、插入删除操作的时间复杂度以及空间分配方式,并介绍了索引存储和散列存储的概念。最后讲解了抽象数据类型(ADT)的定义及其组成部分,并探讨了算法分析中的时间复杂度计算方法。 适合人群:计算机相关专业学生或初学者,对数据结构有一定兴趣并希望系统学习其基础知识的人群。 使用场景及目标:①理解数据结构的基本概念,掌握逻辑结构和存储结构的区别与联系;②熟悉不同存储方式的特点及应用场景;③学会分析简单算法的时间复杂度,为后续深入学习打下坚实基础。 阅读建议:本章节内容较为理论化,建议结合实际案例进行理解,尤其是对于逻辑结构和存储结构的理解要深入到具体的应用场景中,同时可以尝试编写一些简单的程序来加深对抽象数据类型的认识。

2025-04-01

自考数据结构(20331)知识点大纲

自考数据结构(20331)知识点大纲xmind版本,可以按照这个文件的知识结构梳理知识点

2025-04-01

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除