
案例
小刘要努力。
未来不担心,过去不后悔,现在不犹豫。
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
近邻算法分类
scikit-learn已经封装好很多数据挖掘的算法现介绍数据挖掘框架的搭建方法转换器(Transformer)用于数据预处理,数据转换流水线(Pipeline)组合数据挖掘流程,方便再次使用(封装)估计器(Estimator)用于分类,聚类,回归分析(各种算法对象)所有的估计器都有下面2个函数fit() 训练用法:estimator.fit(X_train, y_train...原创 2019-06-03 22:52:24 · 1328 阅读 · 0 评论 -
电影推荐系统
本代码应用movielens 的数据集,讲解如何利用深度学习构造推荐系统模型。推荐系统的目标函数有很多,比如推荐评分最高的,或者推荐点击率最高的等等。有时候我们还会兼顾推荐内容的多样性。在这里使用的是最根本的基于用户给内容打分的情形。这里的核心思想是对用户和内容建模,从而预测用户对未看过内容的打分。推荐系统进而会把预测的高分内容呈现给用户。数据集下载链接http://files.grouple...原创 2019-05-12 16:50:38 · 3454 阅读 · 0 评论 -
文本分类实战(下)
我真的生气了,将所有的模型训练LSTM模型from keras.layers import Dense, Activation, Dropout, LSTMfrom keras.optimizers import Adammodel = Sequential()model.add(layers.Embedding(vocab_size, embedding_dim, ...原创 2019-05-14 18:50:03 · 1486 阅读 · 0 评论 -
文本分类实战(中)
之前用了词袋,逻辑回归,keras的词嵌入都不怎么行,都出现了过拟合怎么解决过拟合Dropout抑制过拟合正则化抑制过拟合数据增强之前的模型model = Sequential()model.add(layers.Embedding(input_dim=vocab_size, # 2575 output_dim=embedd...原创 2019-05-14 18:34:24 · 1361 阅读 · 0 评论 -
文本分类实战(上)
数据集介绍其中0表示消极,1表示积极,主要处理 ‘data/yelp_labelled.txt’, ‘data/amazon_cells_labelled.txt’, ‘data/imdb_labelled.txt’import pandas as pd"""数据读取,其中0表示消极,1表示积极,合并数据集"""filepath_dict = {'yelp': 'data...原创 2019-05-14 18:05:00 · 2562 阅读 · 2 评论 -
时间序列模型(ARIMA模型)
时间序列分析?时间序列,就是按时间顺序排列的,随时间变化的数据序列。生活中各领域各行业太多时间序列的数据了,销售额,顾客数,访问量,股价,油价,GDP,气温。。。常用的时间序列模型常用的时间序列模型有四种:自回归模型 AR§移动平均模型 MA(q)自回归移动平均模型 ARMA(p,q)自回归差分移动平均模型 ARIMA(p,d,q),随机过程的特征有均值、方差、协方差等。如...原创 2019-05-09 17:46:10 · 4114 阅读 · 0 评论 -
使用LSTM进行情感分析
案例流程1) 制作词向量,可以使用gensim这个库,也可以直接用现成的2) 词和ID的映射,常规套路了3) 构建RNN网络架构4) 训练我们的模型5) 试试咋样导入数据首先,我们需要去创建词向量。为了简单起见,我们使用训练好的模型来创建。作为该领域的一个最大玩家,Google 已经帮助我们在大规模数据集上训练出来了 Word2Vec 模型,包括 1000 亿个不同的词!在这个模...原创 2019-05-19 12:50:25 · 3253 阅读 · 0 评论 -
HMM 股票案例
from __future__ import print_functionimport datetimeimport numpy as npimport pandas as pdfrom matplotlib import cm, pyplot as pltfrom matplotlib.dates import YearLocator, MonthLocatorfrom hmmlea...原创 2019-05-19 00:04:21 · 3473 阅读 · 0 评论 -
SVM实现人脸识别
人脸识别作为支持向量机实际应用的一个例子,让我们来看看面部识别问题。我们将使用Wild数据集中的贴有标签的人脸,它由数千张整理过的各种公众人物照片组成。数据集的获取器内置在SciKit中:# 需要下载 from sklearn.datasets import fetch_lfw_peoplefaces = fetch_lfw_people(min_faces_per_person=6...原创 2019-05-12 21:54:38 · 2569 阅读 · 0 评论 -
sklearn 聚类 实例
来源:https://www.icourse163.org/course/BIT-1001872001K-means应用使用算法: K-means聚类算法完整代码import numpy as npfrom sklearn.cluster import KMeans def loadData(filePath): fr = open(filePath,...原创 2019-05-26 18:01:08 · 2068 阅读 · 0 评论 -
pytorch 和nltk 结合训练的例子
对于任何一个深度学习的框架,都能够训练文本数据,当然NLTK在自然语言处理也占有一定的名声和权重任何东西都离不开你我来源 github# 导入torch的模块import torchimport torch.nn as nnfrom torch.autograd import Variableimport torch.optim as optimimport torch.nn.fu...原创 2019-06-02 17:23:52 · 1922 阅读 · 0 评论 -
贝叶斯算法对文本进行分类实例
贝叶斯算法中最重要用的用的最广的是使用多项式朴素贝叶斯的地方是文本分类,其中特征与待分类文档中的字数或频率有关。将使用20个新闻组语料库中的稀疏字数功能来将这些短文档分类。数据集的介绍使用 sklearn.datasets中的 fetch_20newsgroups该数据集介绍20 newsgroups数据集18000篇新闻文章,一共涉及到20种话题,所以称作20 newsgroups...原创 2019-06-02 00:08:16 · 1705 阅读 · 0 评论 -
kda 处理曲面地图绘制的问题
basemap工具包的缺点之一 (作为地图上密度的平滑指示)平面展示的kde最常用的用法是以图形方式表示点的分布利用Scikit Learn可载入的一些地理数据:记录的两种南美哺乳动物的地理分布,斑纹海狸(褐喉树懒)和小米鼠(森林小米鼠) 大约6mimport numpy as np%matplotlib inlineimport matplotlib.pyplot as pltfr...原创 2019-06-01 19:59:09 · 1306 阅读 · 0 评论 -
sklearn 分类(上证指数涨跌预测)
来源https://www.icourse163.org/course/BIT-1001872001上证指数涨跌预测数据介绍: 网易财经上获得的上证指数的历史数据,爬取了20年的上证指数数据。实验目的: 根据给出当前时间前150天的历史数据,预测当天上证指数的涨跌。import pandas as pdimport numpy as npfrom sklearn im...原创 2019-05-27 16:04:19 · 2775 阅读 · 2 评论 -
自然语言处理美国政客的社交媒体消息分类
数据简介: Disasters on social media美国政客的社交媒体消息分类内容:收集了来自美国参议员和其他美国政客的数千条社交媒体消息,可按内容分类为目标群众(国家或选民)、政治主张(中立/两党或偏见/党派)和实际内容(如攻击政敌等)社交媒体上有些讨论是关于灾难,疾病,暴乱的,有些只是开玩笑或者是电影情节,我们该如何让机器能分辨出这两种讨论呢?import kerasimp...原创 2019-05-05 12:50:50 · 2276 阅读 · 5 评论 -
jieba分词小案例
源数据集import jieba.possegif __name__ == "__main__": f = open('novel.txt', encoding='utf-8') str = f.read() f.close() seg = jieba.posseg.cut(str) for s in seg: print(s.word...原创 2019-05-04 11:20:41 · 1423 阅读 · 0 评论 -
基于word2vec的分类任务
# bs4 nltk gensimimport osimport reimport numpy as npimport pandas as pdfrom bs4 import BeautifulSoupfrom sklearn.feature_extraction.text import CountVectorizerfrom sklearn.ensemble import R...原创 2019-04-22 22:05:15 · 2405 阅读 · 1 评论 -
波士顿房价预测
import numpy as npimport matplotlib as mplimport matplotlib.pyplot as pltfrom sklearn.model_selection import train_test_splitfrom sklearn.linear_model import ElasticNetCVimport sklearn.datasetsf...原创 2019-04-22 17:54:08 · 1512 阅读 · 0 评论 -
线性回归实例
#!/usr/bin/python# -*- coding:utf-8 -*-import csvimport numpy as npimport matplotlib as mplimport matplotlib.pyplot as pltimport pandas as pdfrom sklearn.model_selection import train_test_spl...原创 2019-04-22 17:36:30 · 3486 阅读 · 0 评论 -
自然语言处理实例
自然语言处理实例数据简介: Disasters on social media社交媒体上有些讨论是关于灾难,疾病,暴乱的,有些只是开玩笑或者是电影情节,我们该如何让机器能分辨出这两种讨论呢?import kerasimport nltkimport pandas as pdimport numpy as npimport reimport codecsquestions =...原创 2019-04-22 16:55:06 · 2670 阅读 · 0 评论 -
汽车购买分类
原数据根据 ‘buy’, ‘maintain’, ‘doors’, ‘persons’, ‘boot’, ‘safety’, ‘accept’购买”、“维护”、“门”、“人”、“系统”、“安全” 来判断顾客是否接受买车# -*- coding:utf-8 -*-import pandas as pdimport numpy as npfrom sklearn.linear_mode...原创 2019-04-26 10:09:46 · 1702 阅读 · 0 评论 -
回归:预测燃油效率
回归:预测燃油效率在一个回归问题中,我们的目标是预测一个连续值的输出,比如价格或概率。这与一个分类问题形成对比,我们的目标是从一系列类中选择一个类(例如,一张图片包含一个苹果或一个橘子,识别图片中的水果)。本笔记本使用经典的[auto-mpg](https://archive.ics.uci.edu/ml/datasets/auto+mpg)数据集,建立了预测70年代末和80年代初汽车燃油效率...原创 2019-04-21 22:25:42 · 2093 阅读 · 0 评论 -
文本分类案例
文本分类实例import jiebaimport gensimimport scipyimport numpyimport sklearnfrom sklearn.tree import DecisionTreeClassifierfrom sklearn.naive_bayes import BernoulliNB# 读取停用词stop = ''with open('s...原创 2019-05-02 21:18:46 · 1804 阅读 · 0 评论 -
主题模型LDA的实现
数据集位于lda安装目录的tests文件夹中,包含三个文件:reuters.ldac, reuters.titles, reuters.tokens。reuters.titles包含了395个文档的标题reuters.tokens包含了这395个文档中出现的所有单词,总共是4258个reuters.ldac有395行,第i行代表第i个文档中各个词汇出现的频率。以第0行为例,第0行代表的是第0...原创 2019-05-04 09:13:30 · 1280 阅读 · 0 评论 -
gensim实例-------网易新闻语料
import numpy as npfrom gensim import corpora, modelsimport timeimport warningsdef load_stopword(): f_stop = open('stopword.txt') sw = [line.strip() for line in f_stop] f_stop.clos...原创 2019-05-04 09:12:52 · 1349 阅读 · 0 评论 -
制作签名小案例
效果图:网站:http://www.uustv.com/思路先设计窗口,在通过爬虫得到图片,保存并放在窗口中,此爬虫完全没有加密from tkinter import *from tkinter import messageboxfrom PIL import Image,ImageTkimport requestsimport re #模拟浏览器发送请求def ...原创 2019-04-28 18:55:14 · 1127 阅读 · 0 评论 -
搭建问答系统
数据描述import docximport jiebafrom gensim.models import Word2Vecimport osimport numpy as npimport pickle as pkimport warningsfrom copy import deepcopywarnings.filterwarnings("ignore")from mu...原创 2019-05-04 09:14:56 · 1631 阅读 · 0 评论 -
GAN处理手写图片数据集
GAN生成式对抗网络(GAN, Generative Adversarial Networks )是一种深度学习模型,是近年来复杂分布上无监督学习最具前景的方法之一。模型通过框架中(至少)两个模块:生成模型(Generative Model)和判别模型(Discriminative Model)的互相博弈学习产生相当好的输出。原始 GAN 理论中,并不要求 G 和 D 都是神经网络,只需要是能拟...原创 2019-05-03 21:14:39 · 2045 阅读 · 0 评论 -
CNN处理图片分类
这是一个CNN大project先看下数据集每个文件夹有1942张图片,分别是anchor给与人安全感的人,negative坏人,positive 好人,以及测试数据集预处理图片DataLoader.pyimport cv2import numpy as npimport os# 建立数据集anchor_path = "./Data/anchor/"pos_path= "....原创 2019-05-03 20:42:31 · 2441 阅读 · 1 评论 -
采用statsmodels处理多元回归问题
import numpy as npimport pandas as pdfrom scipy import statsimport statsmodels.api as sm import matplotlib.pyplot as pltdata = pd.read_excel('Housing.xlsx')data.head() ...原创 2019-05-03 17:22:32 · 2912 阅读 · 1 评论 -
酒店推荐系统案例
基于酒店文本描述来推荐相似酒店import pandas as pdimport numpy as npfrom nltk.corpus import stopwordsfrom sklearn.metrics.pairwise import linear_kernelfrom sklearn.feature_extraction.text import CountVectorizer...原创 2019-05-03 12:00:36 · 2247 阅读 · 0 评论 -
人脸识别
当你点击文章时,就被我骗了,其实我不会什么牛逼的人脸识别不是那些复杂的CNN卷积神经网络,使用的时简单的接口来实现人脸识别先去找几张范冰冰的图片和Angelababy图片1,2,3是范冰冰近期的图片4 是范冰冰小时候的图片5 是范冰冰弟弟的图片6 和7 是Angelababy图片只是用了人脸识别的API# -*- coding:utf-8 -*-# time :2019/4...原创 2019-04-18 22:10:37 · 1189 阅读 · 0 评论 -
记录处理搜狗新闻分类
import pandas as pdimport jieba#pip install jieba数据源:http://www.sogou.com/labs/resource/ca.phpdf_news = pd.read_table('./data/val.txt',names=['category','theme','URL','content'],encoding='utf-8'...原创 2019-04-21 09:06:07 · 1278 阅读 · 0 评论