
机器学习
文章平均质量分 64
userkang
这个作者很懒,什么都没留下…
展开
-
买鞋理解推荐系统
我去商场买鞋子,店员问我想买什么样的鞋子?具体有哪些要求?这其实是数据收集的过程。我说:“我想买一双穿着舒服,价格在200元左右,可以水洗的鞋子”。说完店员就从店里挑选了几双鞋给我,这其实是召回的过程。然后店员按照我刚才的描述加上这几双的鞋的销量给排了个序。这个挑选和排序其实就是推荐的过程。原创 2024-07-15 16:22:33 · 353 阅读 · 0 评论 -
联邦学习
联邦学习的本质本质上是一种分布式机器学习的技术/框架。解决什么问题?解决数据孤岛的问题为什么会存在数据孤岛的问题?机器学习需要大量的数据来训练模型,但是为了满足数据安全、保护用户隐私以及政法合规等要求。数据的流动越来越受到限制,因此就产生了数据孤岛。联邦学习为什么能解决数据孤岛的问题?相比于传统机器学习,需要对先对各种样本数据进行中心化处理,然后用于模型训练。但在联邦学习的机制下,各参与者的身份和地位相同,让参与着在不共享数据的基础上就能进行联合建模。具体怎么解决的(学习过程介绍)?1原创 2021-05-31 17:34:29 · 685 阅读 · 0 评论 -
通过预测选择性测试—一种更高效的确保代码更改可靠性的方法
传统的回归测试1、依赖收集,构建依赖拓扑。2、如果依赖文件发生改变,所有受到关联的模块,都需要进行回归测试。如图:蓝色菱形文件发生改变,最终导致 1、2、3、4 都需要进行回归测试。缺点:受到依赖影响的地方,都得进行回归测试。而其中有些回归测试 Duck 不必。新的方式:预测测试选择思路:哪些代码更改后,通常会导致哪些测试用例不通过?我们有大量这样的历史数据。那么通过机器学习建模,能不能训练出一个预测模型,用来预测一段代码更改后,最高概率出问题的测试用例有哪些?然后按这个概率我们去进原创 2021-03-26 17:36:47 · 411 阅读 · 0 评论 -
这句话“信息量”好大
平时大家常说:这句话信息量好大,那么从科学的角度,怎么解释这句话呢?首先,信息的载体是消息,那么对于不同的消息,带给我们的直观感受也是不一样的。比如,“国足获得世界杯冠军”的信息显然要比“国乒获得世界杯冠军”的信息量要大得多。究其原因,国足勇夺世界杯是如假包换的小概率事件(如果不是不可能事件的话),发生的可能性微乎其微;而男乒夺冠已经让国人习以为常,丢掉冠军的可能性才是意外。因此,以不确定性来度量信息是一种合理的方式。不确定性越大的消息可能性越小,其提供的信息量就越大。信息论的鼻祖香农对信息的量原创 2021-01-29 14:57:04 · 605 阅读 · 0 评论 -
余弦相似度
大部分程序员由于理工科的背景,有一些高数、线性代数、概率论与数理统计的数学基础。所以当机器学习的热潮来临的时候,都跃跃欲试,对机器学习的算法以及背后的数学思想有比较强烈的探索欲望。本文的作者就是其中的一位。然而实践的过程中,又发现数学知识的理解深度有些欠缺,在理解一些公式背后的意义时,有些力不从心的感觉。因此梳理了一些数学上的知识盲点,理顺自己的知识脉络,顺便分享给有需要的人。本文主要讲解余弦相似度的相关知识点。相似度计算用途相当广泛,是搜索引擎、推荐引擎、分类聚类等业务场景的核心点。为了理解清楚余弦相原创 2021-01-29 11:14:44 · 3172 阅读 · 0 评论 -
从机器学习谈起
在本篇文章中,我将对机器学习做个概要的介绍。本文的目的是能让即便完全不了解机器学习的人也能了解机器学习,并且上手相关的实践。这篇文档也算是EasyPR开发的番外篇,从这里开始,必须对机器学习了解才能进一步介绍EasyPR的内核。当然,本文也面对一般读者,不会对阅读有相关的前提要求。在进入正题前,我想读者心中可能会有一个疑惑:机器学习有什么重要性,以至于要阅读完这篇非常长的文章呢?我并不直接回答...转载 2019-10-22 17:08:26 · 380 阅读 · 0 评论