
机器学习
文章平均质量分 54
szZack
写一点过往的积累。
展开
-
【AI实战】机器学习数据处理之数据归一化、标准化
机器学习数据处理之数据归一化、标准化原创 2022-06-10 11:31:30 · 1311 阅读 · 1 评论 -
【AI实战】xgb.XGBRegressor之多回归MultiOutputRegressor调参2(GPU训练模型)
xgb.XGBRegressor之多回归MultiOutputRegressor调参2(GPU训练模型)原创 2022-06-09 20:30:00 · 5385 阅读 · 2 评论 -
【AI实战】xgb.XGBRegressor之多回归MultiOutputRegressor调参1
xgb.XGBRegressor之多回归MultiOutputRegressor调参原创 2022-06-08 19:30:00 · 1852 阅读 · 0 评论 -
【AI实战】XGBRegressor模型加速训练,使用GPU秒级训练XGBRegressor
XGBRegressor 训练加速原创 2022-06-07 11:31:38 · 2159 阅读 · 0 评论 -
AI实战:基于深度学习的空气质量预测模型开源代码汇总
基于深度学习的空气质量预测模型开源代码汇总一、传统机理空气质量模型空气质量模型是基于人类对大气物理和化学过程科学认识的基础上,运用气象学原理及数学方法,从水平和垂直方向在大尺度范围内对空气质量进行仿真模拟,再现污染物在大气中输送、反应、清除等过程的数学工具,是分析大气污染时空演变规律、内在机理、成因来源、建立“污染减排”与“质量改善”间定量关系及推进我国环境规划和管理向定量化、精细化过渡的重要技术方法。二、基于深度学习的空气质量预测模型ST-CausalConvNetA Spatiotempo原创 2021-10-07 16:26:46 · 7313 阅读 · 3 评论 -
深度/机器学习基础知识要点:CTC算法
Connectionist Temporal Classification (CTC)CTC适合语音识别和手写字符识别任务定义输入表示:符号序列 X=[x1,x2,...,xT]X=[x_{1},x_{2},...,x_{T}]X=[x1,x2,...,xT]输出表示:符号序列Y=[y1,y2,...,yU]Y=[y_{1},y_{2},...,y_{U}]Y=[y1,y2...原创 2020-03-14 19:57:32 · 1712 阅读 · 0 评论 -
深度/机器学习基础知识要点:SVM、Clustering、LR、GBDT
SVMSVM(Support Vector Machines)定义一个能使两类之间的空间大小最大的一个超平面。这个超平面在二维平面上看到的就是一条直线,在三维空间中就是一个平面…。因此,我们把这个划分数据的决策边界统称为超平面。离这个超平面最近的点就叫做支持向量,点到超平面的距离叫间隔。支持向量机就是要使超平面和支持向量之间的间隔尽可能的大,这样超平面才可以将两类样本准确的分开,而保证间隔...原创 2020-03-06 20:19:37 · 1058 阅读 · 0 评论 -
5个常用机器学习Python库:Scikit-Learn、Orange3、XGBoost、NuPIC、Milk
Python目前集成了大量的机器学习框架,5个常用机器学习Python库如下:1、Scikit-LearnScikit-Learn基于NumPy和SciPy,是专门为机器学习建造的一个Python模块,提供了大量用于数据挖掘和分析的工具,包括数据预处理、交叉验证、算法与可视化算法等一系列接口。集成了大量分类、回归和聚类的算法,包括:支持向量机逻辑回归朴素贝叶斯随机森林Gradie...原创 2019-11-09 15:58:41 · 3810 阅读 · 0 评论 -
3个常用数值计算Python库:NumPy、SciPy、Pandas
Python作为一个设计优秀的程序语言,现在已广泛应用于各种领域,依靠其强大的第三方类库,Python在各个领域都能发挥巨大的作用。Python提供多种强大的扩展库用于数值计算,常用的数值计算库如下所示。1、NumPy支持多维数组与矩阵运算,也针对数组运算提供大量的数学函数库。官方教程:点击查看教程菜鸟教程:点击查看教程2、SciPy在NumPy库的基础上增加了众多的数学...原创 2019-11-03 10:16:51 · 1777 阅读 · 0 评论 -
【告别调参!】google开源“权重无关”神经网络(Weight Agnostic Neural Networks,WANN)
前言谷歌大脑备受关注的“权重无关神经网络”(《Weight Agnostic Neural Networks》)终于开源了!《Weight Agnostic Neural Networks》是谷歌大脑 David Ha 等人所著。其关键思想是通过不再强调权重来搜索网络结构,仅使用随机共享的权重,也可以执行各种任务的神经网络。github地址github地址:https://git...原创 2019-08-28 20:59:36 · 1041 阅读 · 0 评论 -
AI实战:推荐系统之矩阵分解算法(Matrix Factorization)
前言前面2篇‘推荐系统之影视领域用户画像’的文章:AI实战:推荐系统之影视领域用户画像——数据采集内容 AI实战:推荐系统之影视领域用户画像——标签数据清洗 本文介绍推荐系统中常见的方法:矩阵分解 Matrix Factorization,Matrix Factorization分为python实现和tensorflow实现。实战一、用户行为数据矩阵分解 (Matrix Fa...原创 2019-08-18 14:25:34 · 3922 阅读 · 2 评论 -
用深度学习做垂直领域的句子主题模型
用深度学习做垂直领域的句子主题模型经典的篇章级的主题模型LDA已经被证明是行之有效的,这里我介绍一下项目中做过的句子级的主题管理,其目的是识别当前的句子属于某个话题。我的基本思想是:一句话的中心意思可以用句子主干来表示,多句话的中心意思则可以用每句话的中心意思叠加起来表示。先看几个例子,以下的句子都是单句,复合句也类似:A.我听的歌很好听B.我要听很好听的歌C.我听歌后心情很...原创 2018-04-07 10:06:19 · 5426 阅读 · 0 评论 -
NLP进化史系列之语言模型
前言:从20世纪70年代的统计语言模型,到2003年的神经网络语言模型,再到2018年刷新各种NLP任务记录的BERT,再到今年6月份的XLNet再次刷新各种记录,带你一起领略其中奥妙。目录1、N-gram语言模型2、神经网络语言模型(NNLM)3、One-hot4、Word2vec5、ELMo6、Open AI GPT7、BERT8、XLNet9、Attention机制...原创 2019-06-27 21:38:20 · 6603 阅读 · 0 评论 -
转:机器学习中降维的十个技巧
前言由于“维度灾难”(curse of dimensionality)的存在,很多统计方法难以应用到高维数据上。虽然收集到的数据点很多,但是它们会散布在一个庞大的、几乎不可能进行彻底探索的高维空间中。在分析高维数据时,降维(Dimensionality reduction,DR)方法是我们不可或缺的好帮手。通过降低数据的维度,你可以把这个复杂棘手的问题变得简单轻松。除去噪音但保存了所关注信息...转载 2019-07-11 23:00:03 · 4206 阅读 · 0 评论 -
Github上评分最高的四大深度学习项目
前言Github堪称是世界上最大的开源项目托管平台,受到了千百万名开发人员的关注,也因此有许多高质量代码展示于其中。下面,就让我们来看看5个评分很高的深度学习相关项目吧。五大深度学习项目1)face-recognition——26.1k★这是世界上最简单的面部识别工具,它为Python和命令行提供了一个应用程序编程接口(API)。它对识别和处理图像中的人脸很有用。它是使用的最先进的...原创 2019-08-03 08:49:36 · 2656 阅读 · 0 评论 -
NLP实战:财经新闻热点发现
前言话题发现和跟踪是指新闻专线和广播新闻等来源的新闻数据流中自动地发现话题并把话题相关的内容组织到一起的技术。通过增量的文档聚类的方法,信息流被聚集到有限的话题类簇中,类内高度相似,不同的类间相似度较低,以此进行海量数据的融合。热点舆情话题是话题舆情中受关注度最大,影响也较为突出的舆情,旨在从半结构化海量Web数据中获取相应的主题并进行整合,以新的热点事件分析并了解热点话题事件的发展。热点话题分...原创 2019-08-03 10:59:01 · 7723 阅读 · 1 评论 -
NLP实战:财经新闻热点跟踪
前言随着网络舆情及预警机制研究的广泛深入和迫切性,话题发现和跟踪的研究已经成为当前的研究热点。本文给出一个财经新闻热点跟踪的技术架构。实战前一篇文章NLP实战:财经新闻热点发现涉及技术NLP爬虫技术架构要点说明爬虫、关键词、特征见我的上一篇文章:NLP实战:财经新闻热点发现时间间隔:可设为4小时或者6小时文章相似度计算1、tf-i...原创 2019-08-03 20:58:47 · 5007 阅读 · 0 评论 -
AI实战:推荐系统之影视领域用户画像——数据采集内容
前言用户画像就是根据用户特征、业务场景和用户行为等信息,构建一个标签化的用户模型。了解用户画像架构:构建用户画像三部曲:一、数据收集数据收集主要包括用户行为数据、用户基础数据。下面是某跨境电商平台的例子:二、搭建用户画像标签体系通过对用户行为数据进行分析和计算,为用户打上标签,可得到用户画像的标签建模,即搭建用户画像标签体系。标签建模主要是基于原始数据进行统计、分...原创 2019-08-10 11:14:06 · 4807 阅读 · 0 评论 -
AI实战:推荐系统之影视领域用户画像——标签数据清洗
前言用户画像就是根据用户特征、业务场景和用户行为等信息,构建一个标签化的用户模型。先回顾下构建用户画像三部曲:一、数据收集二、搭建用户画像标签体系三、构建用户画像上一篇文章 AI实战:推荐系统之影视领域用户画像 中介绍了影视领域用户画像数据采集内容,本文简要介绍搭建用户画像标签体系中的数据清洗。数据清洗回顾数据采集内容:标签清洗一、数据清洗常用方法...原创 2019-08-11 10:44:35 · 5144 阅读 · 0 评论 -
Ubuntu16.10安装python3-tk
Ubuntu16.10安装python3-tk问题说明 在python3下安装好matplotlib后,准备训练模型时,终端报错提示需要安装python3-tk,ImportError: No module named ‘_tkinter’按照提示终端输入:sudo apt-get install python3-tk 不行,说是找不到对应的资源。换源这下好办了,...原创 2018-03-21 18:04:11 · 9577 阅读 · 0 评论