小小她爹-优快云博客

原创机器学习分类模型评估指标

1、背景传统的机器学习分类一般按照有监督和无监督来进行区分，有监督主要是各种分类和回归的算法，无监督主要是聚类。新的机器学习方法主要包括：深度学习和强化学习。深度学习中可以做分类和回归的无监督算法，在无监督学习方法主要还是做分类，深度学习的无监督主要是生成模型GAN。强化学习是一种激励性的学习方式，其评价方式也比较独特。本文主要讲解有监督学习中的分类各种评价指标以及如何判断新旧模型的好坏。分类问题包括：二分类，多分类，多标签分类，二分类和多分类最终的分类只有一个类别标签，多标签分类是一个元素对应

2021-02-08 14:46:33 4111 2

原创对话系统中的槽和槽位

主体转：https://blog.youkuaiyun.com/u010159842/article/details/80759428基本概念：1、槽可以理解为实体已明确定义的属性，例如打车中的，出发地点槽，目的地槽，出发时间槽中的属性分别是“出发地点”、“目的地”和“出发时间”2、语义槽是指NLU模块从句子中抽取出的特定概念3、填槽指的是为了让用户意图转化为用户明确的指令而补全信息的过...

2018-10-11 18:29:22 11530 3

原创数据标准化和归一化

1、综述 1.1原理介绍归一化方法： 1、把数变为（0，1）之间的小数主要是为了数据处理方便提出来的，把数据映射到0～1范围之内处理，更加便捷快速。 2、把有量纲表达式变为无量纲表达式归一化是一种简化计算的方式，即将有量纲的表达式，经过变换，化为无量纲的表达式，成为纯量。用途归一化是为了加快训练网络的收敛性归一化的具体作用是归纳统一

2016-12-09 22:27:55 6723

原创 dify新版本1.1.3的一些问题

window版本上1.13构建dify，采用docker方法启动的一些问题

2025-04-03 16:36:09 422

原创智能体Agent综述论文

Agent的综述论文

2025-04-01 11:12:39 103

原创从架构角度谈谈云原生架构

随着云服务商的成熟，客户面临着将服务直接使用云平台的服务部署在云平台上，或者采用本地和云上混合部署的模式来对外提供服务，从解决方案的角度来说，采用云原生架构的优点有：可以利用云服务的管理，方便的的针对特定服务进行收缩和扩容可以利用云服务的成熟的监控，针对服务做全链路的监控当然，采用云原生的架构也有缺点，比如：数据的安全问题，怎么样保证数据不被泄露数据迁移问题，如果要更换一个服务提供商怎么迁移，如果要不想使用云服务了，后续数据怎么迁移到本地，作为一个完整的解决方案，都需要对应的策略。

2025-03-31 14:28:15 719

原创 huggingface无法访问的解决方法

做大模型应用中，huggingface无法访问，导致很多时候运行程序加载模型和数据的时候报错，有一些解决方法。

2025-03-13 14:49:12 382

原创提示器框架CO-STAR介绍以及如何工程化

提示器框架CO-STAR介绍以及如何工程化，方便快速了解提示工程做工程化需要考虑的相关问题

2025-03-11 14:06:50 397

原创一道满二叉树遍历的面试题

一道满二叉树遍历的面试题

2025-03-11 13:04:43 188

原创软件架构师日常工作和核心技能

软件架构师核心工作、必备技能和常见挑战，不适合AI系统架构、硬件系统架构、大数据架构。AI系统架构和大数据架构和分布式架构有相似之处，但是基础支撑理论体系不一样，硬件系统架构更加特殊，偏体系结构和操作系统的底层更相关。

2025-03-04 22:39:54 601 1

原创大模型学习相关资料

1、学习资料2、常见论文和工具2、最近认为比较好的文章3、工具和文档后续持续补充和修订。

2025-03-03 11:26:01 968

原创大模型根据用户输入选择提示模板的技术方法

采用混合方案（FastText初筛 + Cross-Encoder精排），模板匹配F1值可提升15-20%。需建立模板有效性监控体系，自动淘汰点击率持续低于阈值的过时模板。

2025-03-03 10:12:10 326

原创 2025我回来啦

2021年底去一家传统的to B的公司，行业不好，经济情况不好，组织架构调整背了裁员指标，友好协商分手，去年底失业了，前东家给的补偿相对来说也比较到位，当前的情况只能gap一段时间找工作了。1、技术发展的趋势，虽然AI热但是也不一定适合所有人。3、我们的一些应对策略。

2025-02-21 15:37:17 121

原创 centos 7.4 中默认python安装pip

centos中默认python安装pip

2022-12-16 18:55:54 448

原创关于http测试总结

http接口测试，尤其通过postman或者swagger进行测试，需要将chrome中的接口可以快速的放到测试工具中，本文进行了简单的总结

2022-11-06 21:59:38 1111 1

原创 openresty更改状态码

因为以前restful返回用了http的状态码4xx，在有些环境中，slb会根据状态码来进行拦截汇总处理，只好在openresty将对应的状态码更改为200，绕过这个限制，主要增加配置： header_filter_by_lua ' if ngx.status >= 400 and ngx.status < 500 then ngx.status = 200 --修改状态码 ...

2022-02-09 17:41:41 1844

原创 RestTemplate深入浅出

springboot RestTemplate深入浅出

2022-01-16 11:31:35 2177

原创 2021总结

2021年总结

2022-01-09 22:54:53 1121

原创流程引擎使用总结

Activiti流程引擎的概念、使用和一些简单的扩展

2021-12-12 22:53:41 717

原创 nginx使用与服务发现

参考资料：序 · OpenResty最佳实践Nginx中的Rewrite的重定向配置与实践 - 龙恩0707 - 博客园Nginx开发从入门到精通 — Nginx开发从入门到精通https://wsgzao.github.io/post/nginx/Welcome to NGINX Wiki! | NGINX基础使用常见命令：1. rewrite根据正则表达式重写或重定向URI，按照配置顺序依次执行，格式：rewrite regex replacement flag，其..

2021-12-12 19:33:15 2395

原创 spring二次开发能力指的是什么

一些比较大的公司要求有spring二次开发能力，到底要求的什么能力呢，其实也很简单，就是基于spring的核心功能实现一个框架，类同：spring mvc，或者比较牛的springboot其实核心的要求是，你要熟悉容器的生命周期和bean的生命周期，在生命周期初始化整个过程做一些框架的工作。比如：spring mvc上将url请求映射到对应bean上，并且接收对应的web请求，这个本身是无法通过注解配置出来的，需要将相关的映射关系，拦截器处理等都接管过来。...

2021-10-19 17:59:21 821

原创数据库技术资源

1、顶级会议ACM SIGMOD（Special Interest Group On Management Of Data）由美国计算机协会（ACM）数据管理专业委员会（SIGMOD）发起、在数据库领域具有最高学术地位的国际性学术会议。会议的目的是在全球范围内为数据库领域的研究者、开发者以及用户提供一个探索最新学术思想和研究方法、交流开发技巧、工具以及经验的平台，引导和促进数据库学科的发展。数据库的最好会议,也是最好的系统类的会议之一。已经有30年的历史。一般在美国开,加拿大开过两次。最近开...

2021-10-19 14:40:14 177

原创 2021年读书流水账

1、文学类《目光》陶勇《人生海海》麦加2、计算机linux内核深入Linux内核架构Linux设备驱动程序Linux内核源代码情景分析深入理解LINUX网络技术内幕程序员的自我修养--链接、装载与库企业架构Spring Cloud微服务实战作者对应网站：程序猿DD | Java | Spring Boot | Spring Cloud | 最新干货分享...

2021-10-15 18:35:21 193

原创刷题和基本概念资源

主要是B站的资源1到300题目详解Leetcode力扣 1-300题视频讲解合集｜手画图解版+代码【持续更新ing】_哔哩哔哩_bilibili301+题目详解Leetcode力扣 301+题视频讲解合集｜手画图解版+代码【持续更新ing】_哔哩哔哩_bilibili手把手带你刷Leetcode力扣手把手带你刷Leetcode力扣｜各个击破数据结构和算法｜大厂面试必备技能【已完结】_哔哩哔哩_bilibili最热100题：LeetCode 最热门 10.

2021-09-12 18:52:44 202

原创自动化运维的资料整理

持续集成、持续交付、持续部署简介 http://www.fblinux.com/?p=646内容：1、持续集成是指软件个人研发的部分向软件整体部分交付，频繁进行集成以便更快地发现其中的错误。“持续集成”源自于极限编程（XP），是 XP 最初的 12 种实践之一。2、持续交付在持续集成的基础上，将集成后的代码部署到更贴近真实运行环境的「类生产环境」（production-like environments）中。持续交付优先于整个产品生命周期的软件部署，建立在高水平自动化持续集成之上。3、持续部

2021-09-02 19:21:54 233

原创推荐系统之Bloom Filter 过滤

1、背景推荐系统中的经常出现的情况是，可能在召回的过程中将已经推给过用户的数据召回过来，如果直接推送给用户的话，会引起用户的反感，如何一好的过滤系统也是推荐系统设计的一部分。网上一搜索的话很多人就会说用Bloom Filter，但是你是真正了解Bloom Filter？直接使用Bloom Filter就能解决问题，其实不然，要充分考虑到Bloom Filter的特性和应用场景才能够用好。2、为什么要Bloom Filter从推荐的角度来说，要推荐出的东西，从程序员的角度来将，最直接的方式是...

2021-08-25 16:57:08 736 1

原创关于推荐中的过滤

数据量大的情况下使用布隆过滤器，可以采用的方案包括：方案1：直接将布隆过滤器的value存起来因为布隆过滤器的value比较大，那么可以选择的key-value存储就要支持value比较大，显然redis不是好的选择，因为redis是单线程，容易阻塞，另外，value大的情况下，容易导致集群的负载不均衡，那么可以选择的有hbase和Rocksdb针对hbase来说，支持多版本比较好，高并发读取的性能其实并不是特别好Rocksdb 只是引擎，现在虽然有Rocksdb Secondary I.

2021-08-17 23:43:59 220

原创关于推荐中的召回和实时推荐思考

1、推荐的召回是否要记录对应的pos？ <1>数据变化快，这个位置经常失效；如果变化不大，那么使用数据结构可以加速查找，比如： skiplist或者支持o(1)的list <2>部分刷新和全部刷新，局部数据+整体数据，每个用户保留一个局部数据版本号，如果版本号变化，说明缓冲区刷新，否则的话，可以直接使用加速查找2、关于item2vec： <1>通过传统的word2vec方法，依据上下文获得embeding <2>直...

2021-08-13 16:20:03 278

原创性能分析点滴

因为是做java开发，熟悉jvm，单纯的使用系统做性能分析已经很久没做了，07年左右和sun合作做过一项目，对系统性能测试有了一些较深入理解，当时的感觉sun的dtrace是真强啊，linux上还是vmstat,

2021-06-04 18:38:14 343

原创一个场景测试hive的sql能力

1、场景app上一个用户的登录讯息，包括：uid vist_time其中vist_time是精确到时分秒的记录2、问题问题1：每个用户在每个月的访问次数问题2：每个用户在每个月中天访问最高次数，比如：一月，用户A，day1访问2次，用户A，day2访问3词，那么输出为：用户A 一月 3..........问题3:每个用户在每个月，连续登陆最大次数问题4：如何计算用户登录的7日留存2、总结以上的问题循序渐进，...

2021-05-14 14:21:51 227 1

原创 sql解析项目

从传统的数据库来说，分为前端和后端，后端主要是引擎的部分，前端主要是sql解析，分析到执行计划上，本文对开源的sql解析项目做个简单的介绍：1、发现一个sql解析很好的项目，apache顶级项目：calcite，有整体的框架官方地址：https://calcite.apache.org/csdn上一博客解析比较好的项目：https://blog.youkuaiyun.com/qxc1281/category_8479654.html2、sql解析知乎上给出的建议：https://ww...

2021-04-29 11:40:03 457 2

原创细粒度分类数据集汇总

医疗图像更多的是小样本学习，那么如何选择一个小样本数据集来针对各个算法进行比较，从而选择最好的算法，故整理了小样本学习相关的数据，也就是常用的细粒度分类数据本文内容主要来自于：https://zhuanlan.zhihu.com/p/1011586311、CUB-200-2011 鸟类数据集：数据集地址：http://www.vision.caltech.edu/visipedia/CUB-200-2011.htmlCaltech-UCSD Birds-200-2011 (CUB-200-.

2021-04-09 18:24:41 4305 3

原创 windows下lightgbm安装

1、windows下使用whl安装从https://github.com/microsoft/LightGBM/releases 下载lightgbm-3.2.0-py3-none-win_amd64.whlpip install lightgbm-3.2.0-py3-none-win_amd64.whl2、简单例子测试报错：OSError: [WinError 126] 找不到指定的模块。[couln’t find the module]1>怀疑dll和exe不匹配，从https://

2021-04-01 18:41:04 1596

原创深度学习论文阅读摘要

1、基础方向1.1、小样本学习1、Learning to Compare: Relation Network for Few-Shot Learning cvpr2018相关资源：中文概要说明：https://zhuanlan.zhihu.com/p/35379027github实现：https://github.com/floodsung/LearningToCompare_FSL总结：做一个embedding的模型，和要识别的图像拼接起来进行预测，用来判断类别。其中预训练模型可以采用大

2021-02-18 17:50:19 726 2

翻译 Resnet模型如何共享权重

引用：https://discuss.pytorch.org/t/share-weight-in-resnet-model/21371Share weight in Resnet model提问：答案：I’m not sure if you will train the share weight twice in one forward action, if it is , I think the forward code should be something like followi

2021-02-09 17:16:34 730

原创机器学习评估指标网络资源汇总

聚类评价指标： https://zhuanlan.zhihu.com/p/53840697机器学习：回归模型的评价指标： https://blog.youkuaiyun.com/chao2016/article/details/84960257强化学习评价方法： https://www.cnblogs.com/devilmaycry812839668/p/14322015.htmlkappa系数简介： https://zhuanlan.zhihu.com/p/67844308【机器学习理论】分类问题中常用

2021-02-08 17:34:40 125

空空如也

空空如也