
机器学习
文章平均质量分 95
远洋之帆
机器学习 人工智能 数学 数据可视化 机器人
展开
-
根据参考风格进行矢量图绘制
利用机器学习根据给定的文本描述生成图像的技术已经取得了显著的进步,例如CLIP图像-文本编码器模型的发布;然而,当前的方法缺乏对生成图像风格的艺术控制。我们提出了一种方法,用于为给定的文本描述生成指定风格的绘图,用户可以通过一个样本图像来指定所需的绘图风格。受到艺术理论的启发,该理论认为在创作过程中风格和内容通常是不可分割的,我们提出了一个耦合的方法,称为StyleCLIPDraw,通过在整个过程中同时优化风格和内容来生成绘图,而不是在创建内容后应用风格转移。原创 2024-05-15 10:01:33 · 478 阅读 · 0 评论 -
物理学视角讲解diffusion生成模型——数学基础和一维度实现
从物理学的视角来看扩散过程模型。之所以整理这个系列是因为现在大部份讲生成模型的教程都是直接从加噪、去噪、然后代码实现角度来讲。然而为什么要这么加噪、去噪、为什么要高斯拟合,如果我不这么做会怎么样,后续我要优化我的代码要从那下手呢。这些原理层面的东西基本没有讲,这就相当于给了一套生产流程,我们并不知道这套流程是怎么设计背后思想是什么。我们后续碰到问题如果要升级改造这个流程和链路要从何下手呢。要怎么接续上这套流程的设计思路呢。所以这个系列就是从这个视角切入,来讲解物理学家视角的扩散过程。以及当时为什么选择了扩散原创 2024-04-17 16:35:05 · 1831 阅读 · 0 评论 -
prompt learning受控文本生成作诗
小样本学习难点在于:1.数据量较少,比如10-16个样本2.fintune后接后置任务模型层,参数比较多可以把这个问题看成是矩阵求解时候的,函数参数比较多、但是方程等式较少,这样求解方程组会导致方程组的解有很多种,那如何选出符合业务最优解就是个难题,如果随机的选很容易出现选出一个泛化力不够的解。针对这种问题一般的解法有三:1.增加更多的等式——>增加数据量2.增加约束条件,让函数参数减少——>引入注意力机制3.正样本数据少,但有负样本拒绝条件——>数据增强+拒绝采样历史的fintune,就相当于用足够多的样原创 2022-07-04 14:46:05 · 1186 阅读 · 0 评论 -
基于图的分词方法
基于有向图的中文分词算法,该算法首先构造中文分词有向图,然后计算中文分词有向图)所有可能的切分路径,最后利用了最少分词原则、汉字之间的互信息和词语的频率等信息给中文分词有向图)的每条切分路径打分,分数最高的路径就对应正确的切分结果。中文分词是中文信息处理中的重要环节。它在中文搜索引擎、机器翻译、智能检索中有着相当重要的地位,也是智能计算、文献标引、自然语言理解和处理的基础。文中提出了一种...原创 2020-02-09 13:00:23 · 610 阅读 · 0 评论 -
EM算法原理讲解
本文尝试着从解题的思路来讲解EM算法。从一个多分类问题入手,然后讲解朴素的解题思路,逐步过渡到EM算法。构建完EM算法给出了算法合理的推导,文章的亮点在于对问题提出,和从朴素算法到理论算法的导引。问题所在:已知有一堆样本,这堆样本点是属于K个高斯分布,现在可以得到样本点的坐标数据;求这k个高斯分布概率函数。进阶问题:求样本中每个点属于每个高斯分布的概率,以及属于哪个高斯分布概率原创 2015-12-02 15:59:34 · 2331 阅读 · 0 评论 -
基于集成学习——Adaboost算法
Adaboost算法讲解,具体推到且看系列下篇文章原创 2015-12-01 17:16:19 · 517 阅读 · 0 评论 -
hadoop和spark超大矩阵点乘思路在多源数据POI融合中应用
最近碰到一个奇葩需求,需要通过各种特征做多数据源poi数据融合。说白了就是要把各家图商以及网路上扒下来数据合成到一张表里,去掉冗余数据,增加各图商特性数据。这个问题乍看起来不难,里面其实挺大坑。首先,需要找到一个在个数据源都可行的唯一ID,作为数据挂接的唯一标识,然而这样的标识是不存在的。解决思路就是通过多个特征,计算他们之间相似度找到最可能的数据融合点。做相似度计算是个经典问题,有很多种行之...转载 2018-12-05 20:33:27 · 556 阅读 · 0 评论 -
文本多任务分类
文本分类是一个很普遍问题,但是往往同一个数据源有多个category需要进行分类。面对这样问题,人本能会只看一次数据,同时对两个任务做分类,那么机器学习的方法是否也可以实现“看一样做多个任务分类”任务呢。答案当然是可以,本文只负责实现没有考虑多任务分类是否效果优于多个单任务分类。导入工具包:import h5pyimport jieba as jbimport numpy as np...原创 2019-01-02 19:39:46 · 1813 阅读 · 0 评论 -
基于gbdt+lr的酒店竞争圈模型
背景介绍:公司业务需要提供商户竞争对手服务,对手应该是彼此相似的,只有相互理解所以才能不相上下成为对手找对手就是找相似酒店相似酒店只有在彼此影响范围夺食才是敌人,否则他们就是陌人或者盟友携程美团的做法:记录用户浏览酒店行为预测相似酒店+规则预测我们无法得到用户浏览行为,所以另辟蹊径:A.对手应该处在彼此影响区域——空间信息B.对手是相似的——价格、用户群(用户评...原创 2019-10-10 19:01:25 · 615 阅读 · 0 评论