
machine learning
文章平均质量分 92
Li Kang
这个作者很懒,什么都没留下…
展开
-
Coursera 吴恩达 DeepLearning Sequence model 第二周作业 Emojify - v2(多分类问题,有彩蛋,性能超过预期)
自动表情符号在这个练习中,首先要完成基准模型Emojifier-V1,仅仅使用word embeddings,通过输入的句子输出一个表情符号。这个模型无法识别单词的顺序和复杂的句子结构。然后将会结合LSTM来建立一个更加复杂的模型Emojifier-V2.第一部分的总结即使只有127个training examples,我们仍然能够得到一个相当好的模型。这得益于word vect...翻译 2018-04-08 08:49:28 · 2740 阅读 · 0 评论 -
隐马尔可夫模型学习笔记(之一,概率计算问题)
隐马尔可夫模型是关于时序的概率模型,描述由一个隐藏的马尔可夫链随机生成不可观测的状态随机序列,再由各个状态生成一个观测而产生观测随机序列的过程。隐马尔可夫链随机生成的状态的序列,称为状态序列(state sequence);每个状态生成一个观测,而由此产生的观测的随机序列,称为观测序列(observation sequence)。序列的每一个位置又可以看作是一个时刻。原创 2018-06-15 13:58:10 · 2860 阅读 · 0 评论 -
week1-MultilabelClassification (Natural language processing, 第一周作业,配图,注释)
这是俄罗斯高等经济学院的系列课程第四门,Natural language processing,第一周编程作业。任务是利用**BOW**(bag of words)模型和TF-IDF( term frequency- inverse document frequency)模型对数据进行建模。本节作业的数据来自stackoverflow。建模之后开始学习从title到tags的映射关系。这个作业一共三个部分,难易程度:简单。1. Text preparation & wordsTags c翻译 2018-06-24 16:55:27 · 2490 阅读 · 0 评论 -
一文读懂特征值和特征向量
本文用一个实例来说明特征值和特征向量的起因和实际意义,然后给出定义,计算方法,python代码以及其他解释。原创 2018-06-26 16:48:23 · 2095 阅读 · 0 评论 -
RNN来解决命名实体识别问题(week2-NER,HSE-AML,Natural language processing, 第一周作业,配图,注释)
使用RNN来解决命名实体识别(NER)是NLP的常见问题。它能够将文字中的实体提取出来,比如人名,组织,地名等。这次作业的训练集来自Twitter,使用的结构是Bi-Directional Long Short-Term Memory Networks (Bi-LSTMs)。作业可以分成三个部分。原创 2018-07-06 18:57:33 · 3699 阅读 · 1 评论 -
Predict Future Sales 预测未来销量, Kaggle 比赛,LB 0.89896 排名6%
预测未来销售该项目来源于kaggle中的一场比赛的赛题,数据是由日常销售数据组成的时间序列数据集,该数据集由俄罗斯最大的软件公司之一 - 1C公司提供。提供了包括商店,商品,价格,日销量等连续34个月内的数据,要求预测第35个月的各商店各商品的销量。评价指标为RMSE,Baseline是1.1677,我的成绩是0.89896,目前排名178/3200。原创 2019-10-08 13:25:55 · 18048 阅读 · 52 评论 -
Credit Fraud信用卡欺诈数据集,如何处理非平衡数据
数据集源自位于比利时布鲁塞尔ULB(Université Libre de Bruxelles) 的研究小组Worldline and the Machine Learning Group。数据集包含由欧洲持卡人于2013年9月使用信用卡在两天内发生的交易,284,807笔交易中有492笔被盗刷,正类(被盗刷)占所有交易的0.172%,数据集非常不平衡。它只包含作为PCA转换结果的数字输入变量。由于保密问题,特征V1,V2,… V28是使用PCA获得的主要组件,只有“交易时间”和“交易额”是原始特征。原创 2019-10-24 09:47:14 · 6431 阅读 · 1 评论 -
Home Credit Default Risk 违约风险预测,kaggle比赛,初级篇,LB 0.749
数据由Home Credit提供,Home Credit致力于向无银行账户的人群提供信贷。任务要求预测客户是否偿还贷款或遇到困难。使用AUC(ROC)作为模型的评估标准。本篇博客只对 application_train, application_test的数据进行分析,使用Logistic Regression进行分类预测。原创 2020-03-10 13:10:36 · 7681 阅读 · 3 评论 -
Introduction to Advanced Machine Learning, 第六周,week6_final_project_image_captioning_clean(答案)
这是俄罗斯高等经济学院的系列课程第一门,Introduction to Advanced Machine Learning,第六周编程作业。任务是利用pre-trained InceptionV3架构对图片进行编码,这个是预先训练好的架构。我们要使用的是通过这个编码训练一个RNN,来生成图片的标题,即描述图片的内容。其原理和机器翻译类似,相当于训练一个sequence model,输入和输出是不等长的。而这里输入是CNN的编码,输出是RNN的译码。翻译 2018-06-01 14:11:14 · 2984 阅读 · 0 评论 -
隐马尔可夫模型学习笔记(之二,学习算法)
隐马尔可夫模型的学习,根据训练数据是包括观测序列和状态序列还是只有观测序列,可以分别由监督学习与非监督学习实现。由于监督学习需要使用训练数据,而人工标注训练数据往往代价很高,有时就会利用非监督学习的方法,即Baum-Welch算法(也就是EM算法)。在介绍学习算法之前,先介绍一些概率和期望值的计算。这些计算会成为Baum-Welch算法公式的基础。原创 2018-06-21 09:41:02 · 1393 阅读 · 0 评论 -
Introduction to Advanced Machine Learning, 第三周,week3_task2_fine_tuning_clean(hse-aml/intro-to-dl 答案)
这是俄罗斯高等经济学院的系列课程第一门,Introduction to Advanced Machine Learning,第三周编程作业。任务是利用pre-trained InceptionV3架构,使用花朵分类训练集,经过fine tune之后,能够用于花朵的识别。翻译 2018-05-23 07:27:41 · 1360 阅读 · 0 评论 -
Introduction to Advanced Machine Learning, 第一周, week01_pa(hse-aml/intro-to-dl,简单注释,答案,附图)
这是俄罗斯高等经济学院的系列课程第一门,Introduction to Advanced Machine Learning,第一周编程作业。 这个作业一共六个任务,难易程度:容易。 1. 计算probability 2. 计算loss function 3. 计算stochastic gradient 4. 计算mini-batch gradient 5. 计算momentum gra...翻译 2018-04-14 14:56:24 · 1161 阅读 · 0 评论 -
Introduction to Advanced Machine Learning, 第二周,基于TensorFlow的MNIST实战(my1stNN)
这是HSE系列课程第一门,Introduction to Advanced Machine Learning. 第二周第二个编程作业,难易程度:中等。 使用TensorFlow对MNIST数据集图片进行分类,是一个多类分类问题。 本篇笔记对这个任务分成三个部分。 1. 实现一个二类分类问题 2. 实现一个多类分类问题,使用softmax回归,没有隐层。 3. 实现一个多类分类问题,使...原创 2018-04-30 15:04:37 · 987 阅读 · 0 评论 -
Introduction to Advanced Machine Learning, 第二周,Tensorflow-task(hse-aml/intro-to-dl,简单注释,答案,附图)
这是俄罗斯高等经济学院的系列课程第一门,Introduction to Advanced Machine Learning,第二周第一个编程作业。 这个作业一共两个任务,难易程度:容易。 1. 熟悉TensorFlow,计算RMS 2. 使用Logistic Regress对MNIST图片进行分类,是一个二元分类问题。Going deeper with TensorflowI...翻译 2018-04-21 14:53:59 · 1204 阅读 · 0 评论 -
Introduction to Advanced Machine Learning, 第四周,Autoencoders-task(hse-aml/intro-to-dl,简单注释,答案,附图)
这是俄罗斯高等经济学院的系列课程第一门,Introduction to Advanced Machine Learning,第四周第一个编程作业。 这个作业一共四个任务,难易程度:容易。 0. 使用dense做autoencoder,不用写代码。MSE为0.0065。 1. 使用conv+pool做autoencoder,评分部分。MSE为0.0056。在同样的codesize下,con...翻译 2018-05-05 15:53:27 · 1280 阅读 · 0 评论 -
Coursera 吴恩达 DeepLearning Sequence model 第二周 Operations on word vectors
Operations on word vectorsWelcome to your first assignment of this week! Because word embeddings are very computionally expensive to train, most ML practitioners will load a pre-trained set of emb...翻译 2018-04-06 08:21:47 · 690 阅读 · 0 评论 -
Introduction to Advanced Machine Learning, 第五周,RNN-task(hse-aml/intro-to-dl,简单注释,答案,附图)
这是俄罗斯高等经济学院的系列课程第一门,Introduction to Advanced Machine Learning,第五周第一个编程作业,目的是通过训练一个language model,用来生成名字。翻译 2018-05-19 13:41:10 · 1514 阅读 · 0 评论 -
Introduction to Advanced Machine Learning, 第二周,NumpyNN (honor)(hse-aml/intro-to-dl,简单注释,答案)
这是俄罗斯高等经济学院的系列课程第一门,Introduction to Advanced Machine Learning,第二周荣誉作业,任务是仅仅基于numpy建立一个NN,对MNIST图片进行识别。 本次作业只有一个任务,难易程度:中等。 Your very own neural networkIn this notebook, we’re going to build a ne...翻译 2018-05-19 16:22:10 · 1895 阅读 · 4 评论 -
基于XGBOOST的电能消耗预测
PJM INT.,L.L.C.(以下简称为PJM)是经美国联邦能源管制委员会(FERC)批准,于1997的3月31日成立的一个非股份制有限责任公司,它实际上是一个独立系统运营商(ISO)。PJM目前负责美国13个州以及哥伦比亚特区电力系统的运行与管理。作为区域性ISO,PJM负责集中调度美国目前最大、最复杂的电力控制区,其规模在世界上处于第三位。PJM控制区人口占全美总人口的8.7%(约2300万人),负荷占7.5%,装机容量占8%(约58698MW),输电线路长达12800多公里。原创 2019-10-21 21:53:31 · 4763 阅读 · 1 评论