- 博客(320)
- 收藏
- 关注

原创 机器学习分类模型评估指标
1、背景传统的机器学习分类一般按照有监督和无监督来进行区分,有监督主要是各种分类和回归的算法,无监督主要是聚类。新的机器学习方法主要包括:深度学习和强化学习。深度学习中可以做分类和回归的无监督算法,在无监督学习方法主要还是做分类,深度学习的无监督主要是生成模型GAN。强化学习是一种激励性的学习方式,其评价方式也比较独特。本文主要讲解有监督学习中的分类各种评价指标以及如何判断新旧模型的好坏。分类问题包括:二分类,多分类,多标签分类,二分类和多分类最终的分类只有一个类别标签,多标签分类是一个元素对应
2021-02-08 14:46:33
4111
2

原创 对话系统中的槽和槽位
主体转:https://blog.youkuaiyun.com/u010159842/article/details/80759428基本概念:1、槽可以理解为实体已明确定义的属性,例如打车中的,出发地点槽,目的地槽,出发时间槽中的属性分别是“出发地点”、“目的地”和“出发时间”2、语义槽是指NLU模块从句子中抽取出的特定概念3、填槽指的是为了让用户意图转化为用户明确的指令而补全信息的过...
2018-10-11 18:29:22
11530
3

原创 数据标准化和归一化
1、综述 1.1原理介绍 归一化方法: 1、把数变为(0,1)之间的小数 主要是为了数据处理方便提出来的,把数据映射到0~1范围之内处理,更加便捷快速。 2、把有量纲表达式变为无量纲表达式 归一化是一种简化计算的方式,即将有量纲的表达式,经过变换,化为无量纲的表达式,成为纯量。 用途 归一化是为了加快训练网络的收敛性 归一化的具体作用是归纳统一
2016-12-09 22:27:55
6723
原创 从架构角度谈谈云原生架构
随着云服务商的成熟,客户面临着将服务直接使用云平台的服务部署在云平台上,或者采用本地和云上混合部署的模式来对外提供服务,从解决方案的角度来说,采用云原生架构的优点有:可以利用云服务的管理,方便的的针对特定服务进行收缩和扩容可以利用云服务的成熟的监控,针对服务做全链路的监控当然,采用云原生的架构也有缺点,比如:数据的安全问题,怎么样保证数据不被泄露数据迁移问题,如果要更换一个服务提供商怎么迁移,如果要不想使用云服务了,后续数据怎么迁移到本地,作为一个完整的解决方案,都需要对应的策略。
2025-03-31 14:28:15
719
原创 huggingface无法访问的解决方法
做大模型应用中,huggingface无法访问,导致很多时候运行程序加载模型和数据的时候报错,有一些解决方法。
2025-03-13 14:49:12
382
原创 软件架构师日常工作和核心技能
软件架构师核心工作、必备技能和常见挑战,不适合AI系统架构、硬件系统架构、大数据架构。AI系统架构和大数据架构和分布式架构有相似之处,但是基础支撑理论体系不一样,硬件系统架构更加特殊,偏体系结构和操作系统的底层更相关。
2025-03-04 22:39:54
601
1
原创 大模型根据用户输入选择提示模板的技术方法
采用混合方案(FastText初筛 + Cross-Encoder精排),模板匹配F1值可提升15-20%。需建立模板有效性监控体系,自动淘汰点击率持续低于阈值的过时模板。
2025-03-03 10:12:10
326
原创 2025我回来啦
2021年底去一家传统的to B的公司,行业不好,经济情况不好,组织架构调整背了裁员指标,友好协商分手,去年底失业了,前东家给的补偿相对来说也比较到位,当前的情况只能gap一段时间找工作了。1、技术发展的趋势,虽然AI热但是也不一定适合所有人。3、我们的一些应对策略。
2025-02-21 15:37:17
121
原创 关于http测试总结
http接口测试,尤其通过postman或者swagger进行测试,需要将chrome中的接口可以快速的放到测试工具中,本文进行了简单的总结
2022-11-06 21:59:38
1111
1
原创 openresty更改状态码
因为以前restful返回用了http的状态码4xx,在有些环境中,slb会根据状态码来进行拦截汇总处理,只好在openresty将对应的状态码更改为200,绕过这个限制,主要增加配置: header_filter_by_lua ' if ngx.status >= 400 and ngx.status < 500 then ngx.status = 200 --修改状态码 ...
2022-02-09 17:41:41
1844
原创 nginx使用与服务发现
参考资料:序 · OpenResty最佳实践Nginx中的Rewrite的重定向配置与实践 - 龙恩0707 - 博客园Nginx开发从入门到精通 — Nginx开发从入门到精通https://wsgzao.github.io/post/nginx/Welcome to NGINX Wiki! | NGINX基础使用常见命令:1. rewrite根据正则表达式重写或重定向URI,按照配置顺序依次执行,格式:rewrite regex replacement flag,其..
2021-12-12 19:33:15
2395
原创 spring二次开发能力指的是什么
一些比较大的公司要求有spring二次开发能力,到底要求的什么能力呢,其实也很简单,就是基于spring的核心功能实现一个框架,类同:spring mvc,或者比较牛的springboot其实核心的要求是,你要熟悉容器的生命周期和bean的生命周期,在生命周期初始化整个过程做一些框架的工作。比如:spring mvc上将url请求映射到对应bean上,并且接收对应的web请求,这个本身是无法通过注解配置出来的,需要将相关的映射关系,拦截器处理等都接管过来。...
2021-10-19 17:59:21
821
原创 数据库技术资源
1、顶级会议ACM SIGMOD(Special Interest Group On Management Of Data)由美国计算机协会(ACM)数据管理专业委员会(SIGMOD)发起、在数据库领域具有最高学术地位的国际性学术会议。会议的目的是在全球范围内为数据库领域的研究者、开发者以及用户提供一个探索最新学术思想和研究方法、交流开发技巧、工具以及经验的平台,引导和促进数据库学科的发展。数据库的最好会议,也是最好的系统类的会议之一。已经有30年的历史。一般在美国开,加拿大开过两次。最近开...
2021-10-19 14:40:14
177
原创 2021年读书流水账
1、文学类《目光》 陶勇《人生海海》 麦加2、计算机linux内核深入Linux内核架构Linux设备驱动程序Linux内核源代码情景分析深入理解LINUX网络技术内幕程序员的自我修养--链接、装载与库企业架构Spring Cloud微服务实战作者对应网站:程序猿DD | Java | Spring Boot | Spring Cloud | 最新干货分享...
2021-10-15 18:35:21
193
原创 刷题和基本概念资源
主要是B站的资源1到300题目详解Leetcode力扣 1-300题视频讲解合集|手画图解版+代码【持续更新ing】_哔哩哔哩_bilibili301+题目详解Leetcode力扣 301+题视频讲解合集|手画图解版+代码【持续更新ing】_哔哩哔哩_bilibili手把手带你刷Leetcode力扣手把手带你刷Leetcode力扣|各个击破数据结构和算法|大厂面试必备技能【已完结】_哔哩哔哩_bilibili最热100题:LeetCode 最热门 10.
2021-09-12 18:52:44
202
原创 自动化运维的资料整理
持续集成、持续交付、持续部署简介 http://www.fblinux.com/?p=646内容:1、持续集成是指软件个人研发的部分向软件整体部分交付,频繁进行集成以便更快地发现其中的错误。“持续集成”源自于极限编程(XP),是 XP 最初的 12 种实践之一。2、持续交付在持续集成的基础上,将集成后的代码部署到更贴近真实运行环境的「类生产环境」(production-like environments)中。持续交付优先于整个产品生命周期的软件部署,建立在高水平自动化持续集成之上。3、持续部
2021-09-02 19:21:54
233
原创 推荐系统之Bloom Filter 过滤
1、背景推荐系统中的经常出现的情况是,可能在召回的过程中将已经推给过用户的数据召回过来,如果直接推送给用户的话,会引起用户的反感,如何一好的过滤系统也是推荐系统设计的一部分。网上一搜索的话很多人就会说用Bloom Filter,但是你是真正了解Bloom Filter?直接使用Bloom Filter就能解决问题,其实不然,要充分考虑到Bloom Filter的特性和应用场景才能够用好。2、为什么要Bloom Filter从推荐的角度来说,要推荐出的东西,从程序员的角度来将,最直接的方式是...
2021-08-25 16:57:08
736
1
原创 关于推荐中的过滤
数据量大的情况下使用布隆过滤器,可以采用的方案包括:方案1: 直接将布隆过滤器的value存起来因为布隆过滤器的value比较大,那么可以选择的key-value存储就要支持value比较大,显然redis不是好的选择,因为redis是单线程,容易阻塞,另外,value大的情况下,容易导致集群的负载不均衡,那么可以选择的有hbase和Rocksdb针对hbase来说,支持多版本比较好,高并发读取的性能其实并不是特别好Rocksdb 只是引擎,现在虽然有Rocksdb Secondary I.
2021-08-17 23:43:59
220
原创 关于推荐中的召回和实时推荐思考
1、推荐的召回是否要记录对应的pos? <1>数据变化快,这个位置经常失效;如果变化不大,那么使用数据结构可以加速查找,比如: skiplist或者支持o(1)的list <2>部分刷新和全部刷新,局部数据+整体数据,每个用户保留一个局部数据版本号,如果版本号变化,说明缓冲区刷新,否则的话,可以直接使用加速查找2、关于item2vec: <1>通过传统的word2vec方法,依据上下文获得embeding <2>直...
2021-08-13 16:20:03
278
原创 性能分析点滴
因为是做java开发,熟悉jvm,单纯的使用系统做性能分析已经很久没做了,07年左右和sun合作做过一项目,对系统性能测试有了一些较深入理解,当时的感觉sun的dtrace是真强啊,linux上还是vmstat,
2021-06-04 18:38:14
343
原创 一个场景测试hive的sql能力
1、场景app上一个用户的登录讯息,包括:uid vist_time其中vist_time是精确到时分秒的记录2、问题问题1:每个用户在每个月的访问次数问题2:每个用户在每个月中天访问最高次数,比如:一月,用户A,day1访问2次, 用户A,day2访问3词,那么输出为:用户A 一月 3..........问题3:每个用户在每个月,连续登陆最大次数问题4:如何计算用户登录的7日留存2、总结以上的问题循序渐进,...
2021-05-14 14:21:51
227
1
原创 sql解析项目
从传统的数据库来说,分为前端和后端,后端主要是引擎的部分,前端主要是sql解析,分析到执行计划上,本文对开源的sql解析项目做个简单的介绍:1、发现一个sql解析很好的项目,apache顶级项目:calcite,有整体的框架官方地址:https://calcite.apache.org/csdn上一博客解析比较好的项目:https://blog.youkuaiyun.com/qxc1281/category_8479654.html2、sql解析知乎上给出的建议:https://ww...
2021-04-29 11:40:03
457
2
原创 细粒度分类数据集汇总
医疗图像更多的是小样本学习,那么如何选择一个小样本数据集来针对各个算法进行比较,从而选择最好的算法,故整理了小样本学习相关的数据,也就是常用的细粒度分类数据本文内容主要来自于:https://zhuanlan.zhihu.com/p/1011586311、CUB-200-2011 鸟类数据集:数据集地址:http://www.vision.caltech.edu/visipedia/CUB-200-2011.htmlCaltech-UCSD Birds-200-2011 (CUB-200-.
2021-04-09 18:24:41
4305
3
原创 windows下lightgbm安装
1、windows下使用whl安装从https://github.com/microsoft/LightGBM/releases 下载lightgbm-3.2.0-py3-none-win_amd64.whlpip install lightgbm-3.2.0-py3-none-win_amd64.whl2、简单例子测试报错:OSError: [WinError 126] 找不到指定的模块。[couln’t find the module]1>怀疑dll和exe不匹配,从https://
2021-04-01 18:41:04
1596
原创 深度学习论文阅读摘要
1、基础方向1.1、小样本学习1、Learning to Compare: Relation Network for Few-Shot Learning cvpr2018相关资源:中文概要说明:https://zhuanlan.zhihu.com/p/35379027github实现:https://github.com/floodsung/LearningToCompare_FSL总结:做一个embedding的模型,和要识别的图像拼接起来进行预测,用来判断类别。其中预训练模型可以采用大
2021-02-18 17:50:19
726
2
翻译 Resnet模型如何共享权重
引用:https://discuss.pytorch.org/t/share-weight-in-resnet-model/21371Share weight in Resnet model提问:答案:I’m not sure if you will train the share weight twice in one forward action, if it is , I think the forward code should be something like followi
2021-02-09 17:16:34
730
原创 机器学习评估指标网络资源汇总
聚类评价指标: https://zhuanlan.zhihu.com/p/53840697机器学习:回归模型的评价指标: https://blog.youkuaiyun.com/chao2016/article/details/84960257强化学习评价方法: https://www.cnblogs.com/devilmaycry812839668/p/14322015.htmlkappa系数简介: https://zhuanlan.zhihu.com/p/67844308【机器学习理论】分类问题中常用
2021-02-08 17:34:40
125
原创 MathType使用技巧
1、如何写分段函数1、添加大括号2、大括号后增加矩阵3、矩阵中写分段函数2、word中LaTeX公式与MathType公式如何快速转换将MathType公式转换为LaTex公式在Word文档中选中用MathType编辑的公式,按住“Alt+\”键,可以将 MathType 公式快速转换成 LaTex 格式**提示:**也可以在MathTye编辑窗口中直接将公式转化为LaTex,具体方法请参考教程:如何实现MathType公式转换为LaTex代码。将LaTex公式转换为MathType公式将
2021-02-08 17:31:12
4343
原创 keras中plot_model报Failed to import pydot. You must `pip install pydot` and install graphviz问题解决
参考的解决方法是:https://blog.youkuaiyun.com/sinat_40282753/article/details/85046871,实际上参考方案只是提供了思路,按照参考方案并未解决。步骤1:简单处理1.pip3 install pydot2.pip3 install graphviz3.Windows 安装 graphviz-install-2.44.1-win64.exe4.将安装bin路径添加进环境的Path,如知乎专栏所述。5.步骤4功能同在代码中添加:import
2020-12-04 10:31:33
2372
原创 Milvus 在启动时返回 “Illegal instruction”?
Milvus版本的使用的0.7.0报错:在启动时返回 “Illegal instruction”?1、Milvus版本硬件的支持Milvus为海量向量搜索场景而设计。Milvus不但集成了业界成熟的向量搜索技术如Faiss和SPTAG,Milvus也实现了高效的NSG图索引。同时,Milvus团队针对Faiss IVF索引进行了深度优化,实现了CPU与多GPU的融合计算,大幅提高了向量搜索性能。Milvus可以在单机环境下完成SIFT1b十亿级向量搜索任务。划重点: 在官方站点r...
2020-09-19 15:57:57
499
转载 常用的数据分析方法
1、公式分解所谓公式拆解法就是针对某个指标,用公式层层分解该指标的影响因素。举例:分析某产品的销售额较低的原因,用公式法分解2、对比分析对比法就是用两组或两组以上的数据进行比较,是最通用的方法。我们知道孤立的数据没有意义,有对比才有差异。比如在时间维度上的同比和环比、增长率、定基比,与竞争对手的对比、类别之间的对比、特征和属性对比等。对比法可以发现数据变化规律,使用频繁,经常和其他方法搭配使用。3、A/BtestA/Btest,是将Web或App界面或流程的两个或多个版本.
2020-09-14 17:07:08
244
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人