豆乳_艾米-优快云博客

原创在anaconda中建立自己的项目环境

在不同python项目中，全部使用anaconda环境过于庞杂，envs对不同项目可进行不同的环境管理十分方便。1、在创建python project ： project_A时，选择new environment using中Conda环境，自需选择Location、Python version，这样可在anaconda\envs\project_A产生针对project_A的环境，内...

2019-12-05 17:03:46 1605

tsfresh是开源的提取时序数据特征的python包，能够提取出超过64种特征，堪称提取时序特征的瑞士军刀。最近有需求，所以一直在看，目前还没有中文文档，有些特征含义还是很难懂的，我把我已经看懂的一部分放这，没看懂的我只写了标题，待我看懂我添加注解。 => 感谢这位作者的帖子，在这位作者基础上，增加了一些内容原贴：https://blog.youkuaiyun.com/xindoo/articl...

2019-06-19 13:05:04 8214 1

原创机器学习大牛的网站

http://www.gitxiv.com/https://simons.berkeley.edu/workshopshttps://arxiv.org/list/stat.ML/recent

2018-03-27 15:57:25 469

原创网格搜索随机森林

import pandas as pdimport numpy as npfrom sklearn.model_selection import train_test_splitfrom sklearn.ensemble import RandomForestClassifierfrom sklearn.model_selection import GridSearchCVfrom sk

2017-11-13 17:22:41 5772 2

原创 lianxi

#Dodger促销和上座率的预测模型library(car) # 线性回归的包library(lattice) # 绘图软件包# 读入数据，并建立数据框导入dodgers <- read.csv("/Users/lily/Documents/model_predict/Chapter_2/dodgers.csv")print(str(dodgers)) # 查看数据结构'data.

2017-08-12 21:32:46 336

原创乱七八糟

>>> dta = [44,43,18,18,45,36,87,43,45,17,17,47,42,42,43,47,17,17,45,44,44,47,46,16,16,64,42,41,40,45,15,16,47,42,42,44,41,18,16,44,44,42,44]>>> dta = np.array(dta, dtype = np.float)>>> dtaarray(

2017-07-18 11:14:46 395

转载天善智能网络爬虫学习~

#http://www.maoyan.com-榜单-top100，通过改变offset=10、20...这个参数实现翻页#1、抓取单页内容：利用requests请求目标站点，得到单个网页HTML代码，返回结果#2、正则表达式：根据HTML代码分析得到电影的名称、主演、上映时间、评分、图片链接等信息#3、保存至文件：通过文件的形式结果保存，每一部电影一个结果一行Json字符串#4、开启循环及

2017-07-10 21:04:32 569

原创小甲鱼课程学习028-040

028文件：因为懂你，所以永恒>>> f = open('E:\\zetianji.txt')>>> f>>> #f.read()读取>>> f.read(5)'\n《择天记'>>> f.tell()#返回当前文件中的位置10>>> lines = list(f)>>> for each_line in lines: print(each_line)# 效率

2017-07-10 08:52:35 646

原创小甲鱼课程学习016-027

016 序列序列！>>> a = list()>>> a[]>>> b = "I love fishC.com!">>> b = list(b)>>> b['I', ' ', 'l', 'o', 'v', 'e', ' ', 'f', 'i', 's', 'h', 'C', '.', 'c', 'o', 'm', '!']>>> c = [1, 1, 2, 3, 8, 13, 2

2017-07-07 08:43:12 640

原创小甲鱼课程学习001-015

003 改进之前的游戏import randomsecret = random.randint(1, 10)temp = input("猜猜小鱼心里想的是哪个数字：")guess = int(temp)while guess != secret: temp = input("哎呀，猜错了，重新输入吧：") guess = int(temp) if guess =

2017-07-06 09:35:16 509

原创 0基础Python实战：爬虫计划---第一课

网页基本知识标签，区域框架 WOW!标签，文字内容列表图片 h1-h6不同层标题链接下载html编辑器,chorme第二课 BeautifulSoup解析网页Soup = BeautifulSoup(html, 'lxml')点一张图片右键代码，copy Xpath谁在哪第几个 / Selector谁在哪第几个长什么样

2017-07-05 15:41:34 417

原创网易云课堂 python网络爬虫实战

import requestsnewsurl = 'http://news.sina.com.cn/china/'res = requests.get(newsurl)res.encoding = 'utf-8'print res #print res.text# 乱码，应为utf-8print type(res) # print res.encoding# ISO-8859-1

2017-07-05 13:00:49 2251

原创 python自然语言处理第四章基本语法

#赋值foo = 'Monty'bar = foofoo = 'Python'bar# 'Monty'foo = ['Monty', 'Python']bar = foofoo[1] = 'Bodkin'bar# ['Monty', 'Bodkin']empty = []nested = [empty, empty, empty]nested# [[], [], []]ne

2017-07-03 15:11:59 651

原创 python自然语言处理第二章（上）

古腾堡语料库import nltknltk.corpus.gutenberg.fileids()Out[78]: [u'austen-emma.txt', u'austen-persuasion.txt', u'austen-sense.txt', u'bible-kjv.txt', u'blake-poems.txt', u'bryant-stories.txt', u'b

2017-06-30 11:23:54 437

原创 python自然语言处理第一章

import nltknltk.download()showing info https://raw.githubusercontent.com/nltk/nltk_data/gh-pages/index.xmlOut[2]: True*** Introductory Examples for the NLTK Book ***Loading text1, ..., text9

2017-06-30 09:39:29 415

原创第十章时间序列（中）

#带有重复索引的时间序列dates=pd.DatetimeIndex(['1/1/2000','1/2/2000','1/2/2000','1/2/2000','1/3/2000'])dup_ts=Series(np.arange(5),index=dates)#检查索引的is_unique属性dup_ts.index.is_uniqueFalsegrouped=dup_ts.gr

2017-06-28 13:27:32 460

原创第十章时间序列

from datetime import datetimenow=datetime.now()nowOut[3]: datetime.datetime(2017, 6, 28, 9, 15, 30, 916000)now.year,now.month,now.dayOut[4]: (2017, 6, 28)delta=datetime(2017,6,28)-datetime(2

2017-06-28 09:54:23 323

原创第九章数据分组与聚合（下）

import pandas as pdfrom pandas import Seriesfec=pd.read_csv("e:/P00000001-ALL.csv")fec[:2] cmte_id cand_id cand_nm contbr_nm contbr_city \0 C00410118 P20002978 Bachm

2017-06-27 15:01:41 856

原创第九章数据分组与聚合（中）

close_px=pd.read_csv('e:/stock_px.csv',parse_dates=True,index_col=0)close_px[-4:]#计算日收益率与SPX年度相关系数组成的DataFramerets=close_px.pct_change().dropna()spx_corr=lambda x:x.corrwith(x['SPX'])by_year=rets

2017-06-26 15:23:07 646

原创第九章数据分组和聚合（上）

import numpy as npfrom pandas import DataFramedf=DataFrame({'key1':['a','a','b','b','a'], 'key2':['one','two','one','two','one'], 'data1':np.random.randn(5),'data2':np.ra

2017-06-26 09:26:57 633

原创第八章 matplotlib画图

#数据读取df.iloc[:,0:2]#选取第一列和第二列df.iloc[[1,3],:]#选取第一行和第四行的全部列df.iloc[[1,3],0:2]#选取第二行和第四行的第一列到第二列df.iloc[[1,3],[0,3]]#选取第二行和第四列的第一列和第四列df.iat[2,2]#只能是某行某列的一个数dfdf.loc[[[10,30],['A','C']]#读

2017-06-23 09:47:12 608

原创第七章食物数据库例子

In [3]: import jsonIn [4]: db=json.load(open('E:/foods-2011-10-03.json'))In [5]: len(db)Out[5]: 6636In [6]: db中的每条目都是一个含有某种食物全部数据的字典，nutrients是字典的一个列表，其中每个字典对应一种营养成分：db[0].keys()Out[6]:

2017-06-22 15:20:34 2050

原创第二章 numpy库中的全美婴儿案例

#全美婴儿案例数据集可以做很多事儿： 1、计算指定名字（可以是自己的，也可以是别人的）的年度比例 2、计算某个名字的相对排名 3、计算各年度最流行的名字，以及增长或减少最快的名字 4、分析名字趋势：元音、辅音、长度、总体多样性、拼写变化、首尾字母等 5、分析外源性趋势：圣经中的名字、名人、人口结构变化等#为什么用read_table

2017-06-22 13:14:27 1310 2

转载 python爬虫得到《三国演义》

第一天重拾信心开始学习爬虫！这是看了简书一位作者的文章感觉很详细，参照人家的文章自己跑了一遍。原文链接为：http://www.jianshu.com/p/23070977f63c 首先安装好bs4，import urllib.request>>> import chardet>>> from bs4 import BeautifulSoup>>> url="h

2017-03-27 15:29:16 1705

原创简单介绍堆叠的编码器

require(SAENET)aburl='http://archive.ics.uci.edu/ml/machine-learning-databases/abalone/abalone.data'names=c('sex','length','diameter','height','whole.weight','shucked.weight', 'viscera.weigh

2017-03-08 15:00:38 1102

原创 chapter5 自编码的秘密

自编码使得训练出的y直接对着自己的输入层x自编码是由编码器和解码器组成的，编码器是输入层映射到隐藏层，解码器是隐藏层映射到输出层。编码器将输入层向量通过。。函数转移至隐藏层转换成新功能。解码器转移这些功能回到原始的输入层。require(autoencoder)require(ripa)data(logo)image(logo)> logosize: 77 x 101

2017-03-08 10:36:41 334

原创 Chapter4 Jordan 神经网络

这个elman神经网络很像，require(RSNNS)data("nottem",package = "datasets")require(quantmod)nottem Jan Feb Mar Apr May Jun Jul Aug Sep Oct Nov Dec1920 40.6 40.8 44.4 46.7 54.1 58.5 57.7 56

2017-03-08 10:13:06 2034 1

原创 chapter3 递归神经网络

输入层-隐藏层-背景层-输出层极限天气预报模型：预测每天的最高温度、最低温度、风速。数据集包含一年的日观测值，前十一个月训练，最后一个月的数据用来测试，45个隐藏层。如何马上发现一个严重的错误：提高水的质量。。。。。require(RSNNS)require(quantmod)library(quantmod)data("UKLungDeaths",package = "da

2017-03-08 09:01:40 469

原创集体编程智慧--第五章：优化算法

import mathpeople=[('Seymour','BOS'), ('Franny','DAL'), ('Zooey','CAK'), ('Walt','MIA'), ('Buddy','ORD'), ('Les','OMA')]#New York的LaGuardia机场destination='LGA

2017-03-07 09:11:51 879

原创 R做神经网路可视化

library(clusterGeneration)seed.val<-2set.seed(seed.val)num.vars<-8num.obs 这是学习了一位大神的文章，原文地址https://beckmw.wordpress.com/2013/11/14/visualizing-neural-networks-in-r-update/十分感谢！总共讲了三种神经网络的包，

2017-03-06 14:42:49 3205 2

原创 R深度学习笔记

library(mlbench)data("PimaIndiansDiabetes2",package = "mlbench")ncol(PimaIndiansDiabetes2)nrow(PimaIndiansDiabetes2)str(PimaIndiansDiabetes2)sapply(PimaIndiansDiabetes2,function(x) sum(is.na(x)))

2017-03-06 13:47:27 462

原创 deep learning with R

require(RSNNS)library(neuralnet)set.seed(2016)attribute<-as.data.frame(sample(seq(-2,2,length=50),50,replace=F),ncol=1)response<-attribute^2data<-cbind(attribute,response)colnames(data)<-c("attr

2017-02-28 14:24:28 1336

原创 K-Means

K-均值聚类算法优点：容易实现，不足之处可能收敛到局部最小值，在大规模数据集上收敛较慢，适用于数值型数据。工作流程如下：创建k个点作为起始质心（经常是随机选择）当任意一个点的簇分配结果发生改变时对数据集中的每个数据点对每个质心计算质心与数据点之间的距离将数据点分配到距其最近的簇对每

2017-02-28 09:20:54 475

转载 spark安装及环境搭建

安装版本配套Spark: 1.6.2Scala: 2.12.1软件安装1、安装JDK手工配置JAVA_HOME环境变量，并将JDK的bin目录加入Path环境变量中。2、安装Scala Windows版通过.msi软件包安装。安装完成后自动配置环境变量SCALA_HOME，并将scala下的bin目录加入Path环境变量中。下载地址：htpp://w

2017-02-17 15:31:38 1210

yunini2的博客