- 博客(34)
- 收藏
- 关注
原创 在anaconda中建立自己的项目环境
在不同python项目中,全部使用anaconda环境过于庞杂,envs对不同项目可进行不同的环境管理十分方便。1、在创建python project : project_A时,选择new environment using中Conda环境,自需选择Location、Python version,这样可在anaconda\envs\project_A产生针对project_A的环境,内...
2019-12-05 17:03:46
1605
原创 python tsfresh特征中文详解(更新中)
tsfresh是开源的提取时序数据特征的python包,能够提取出超过64种特征,堪称提取时序特征的瑞士军刀。最近有需求,所以一直在看,目前还没有中文文档, 有些特征含义还是很难懂的,我把我已经看懂的一部分放这,没看懂的我只写了标题,待我看懂我添加注解。 => 感谢这位作者的帖子,在这位作者基础上,增加了一些内容原贴:https://blog.youkuaiyun.com/xindoo/articl...
2019-06-19 13:05:04
8214
1
原创 机器学习大牛的网站
http://www.gitxiv.com/https://simons.berkeley.edu/workshopshttps://arxiv.org/list/stat.ML/recent
2018-03-27 15:57:25
469
原创 网格搜索随机森林
import pandas as pdimport numpy as npfrom sklearn.model_selection import train_test_splitfrom sklearn.ensemble import RandomForestClassifierfrom sklearn.model_selection import GridSearchCVfrom sk
2017-11-13 17:22:41
5772
2
原创 lianxi
#Dodger促销和上座率的预测模型library(car) # 线性回归的包library(lattice) # 绘图软件包# 读入数据,并建立数据框导入dodgers <- read.csv("/Users/lily/Documents/model_predict/Chapter_2/dodgers.csv")print(str(dodgers)) # 查看数据结构'data.
2017-08-12 21:32:46
336
原创 乱七八糟
>>> dta = [44,43,18,18,45,36,87,43,45,17,17,47,42,42,43,47,17,17,45,44,44,47,46,16,16,64,42,41,40,45,15,16,47,42,42,44,41,18,16,44,44,42,44]>>> dta = np.array(dta, dtype = np.float)>>> dtaarray(
2017-07-18 11:14:46
395
转载 天善智能网络爬虫学习~
#http://www.maoyan.com-榜单-top100,通过改变offset=10、20...这个参数实现翻页#1、抓取单页内容:利用requests请求目标站点,得到单个网页HTML代码,返回结果#2、正则表达式:根据HTML代码分析得到电影的名称、主演、上映时间、评分、图片链接等信息#3、保存至文件:通过文件的形式结果保存,每一部电影一个结果一行Json字符串#4、开启循环及
2017-07-10 21:04:32
569
原创 小甲鱼课程学习028-040
028文件:因为懂你,所以永恒>>> f = open('E:\\zetianji.txt')>>> f>>> #f.read()读取>>> f.read(5)'\n《择天记'>>> f.tell()#返回当前文件中的位置10>>> lines = list(f)>>> for each_line in lines: print(each_line)# 效率
2017-07-10 08:52:35
646
原创 小甲鱼课程学习016-027
016 序列序列!>>> a = list()>>> a[]>>> b = "I love fishC.com!">>> b = list(b)>>> b['I', ' ', 'l', 'o', 'v', 'e', ' ', 'f', 'i', 's', 'h', 'C', '.', 'c', 'o', 'm', '!']>>> c = [1, 1, 2, 3, 8, 13, 2
2017-07-07 08:43:12
640
原创 小甲鱼课程学习001-015
003 改进之前的游戏import randomsecret = random.randint(1, 10)temp = input("猜猜小鱼心里想的是哪个数字:")guess = int(temp)while guess != secret: temp = input("哎呀,猜错了,重新输入吧:") guess = int(temp) if guess =
2017-07-06 09:35:16
509
原创 0基础Python实战:爬虫计划---第一课
网页基本知识标签,区域框架 WOW!标签,文字内容 列表图片 h1-h6不同层标题链接下载html编辑器,chorme第二课 BeautifulSoup解析网页Soup = BeautifulSoup(html, 'lxml')点一张图片右键代码,copy Xpath谁在哪第几个 / Selector谁在哪第几个长什么样
2017-07-05 15:41:34
417
原创 网易云课堂 python网络爬虫实战
import requestsnewsurl = 'http://news.sina.com.cn/china/'res = requests.get(newsurl)res.encoding = 'utf-8'print res #print res.text# 乱码,应为utf-8print type(res) # print res.encoding# ISO-8859-1
2017-07-05 13:00:49
2251
原创 python自然语言处理 第四章基本语法
#赋值foo = 'Monty'bar = foofoo = 'Python'bar# 'Monty'foo = ['Monty', 'Python']bar = foofoo[1] = 'Bodkin'bar# ['Monty', 'Bodkin']empty = []nested = [empty, empty, empty]nested# [[], [], []]ne
2017-07-03 15:11:59
651
原创 python自然语言处理 第二章(上)
古腾堡语料库import nltknltk.corpus.gutenberg.fileids()Out[78]: [u'austen-emma.txt', u'austen-persuasion.txt', u'austen-sense.txt', u'bible-kjv.txt', u'blake-poems.txt', u'bryant-stories.txt', u'b
2017-06-30 11:23:54
437
原创 python自然语言处理 第一章
import nltknltk.download()showing info https://raw.githubusercontent.com/nltk/nltk_data/gh-pages/index.xmlOut[2]: True*** Introductory Examples for the NLTK Book ***Loading text1, ..., text9
2017-06-30 09:39:29
415
原创 第十章 时间序列(中)
#带有重复索引的时间序列dates=pd.DatetimeIndex(['1/1/2000','1/2/2000','1/2/2000','1/2/2000','1/3/2000'])dup_ts=Series(np.arange(5),index=dates)#检查索引的is_unique属性dup_ts.index.is_uniqueFalsegrouped=dup_ts.gr
2017-06-28 13:27:32
460
原创 第十章 时间序列
from datetime import datetimenow=datetime.now()nowOut[3]: datetime.datetime(2017, 6, 28, 9, 15, 30, 916000)now.year,now.month,now.dayOut[4]: (2017, 6, 28)delta=datetime(2017,6,28)-datetime(2
2017-06-28 09:54:23
323
原创 第九章 数据分组与聚合(下)
import pandas as pdfrom pandas import Seriesfec=pd.read_csv("e:/P00000001-ALL.csv")fec[:2] cmte_id cand_id cand_nm contbr_nm contbr_city \0 C00410118 P20002978 Bachm
2017-06-27 15:01:41
856
原创 第九章 数据分组与聚合(中)
close_px=pd.read_csv('e:/stock_px.csv',parse_dates=True,index_col=0)close_px[-4:]#计算日收益率与SPX年度相关系数组成的DataFramerets=close_px.pct_change().dropna()spx_corr=lambda x:x.corrwith(x['SPX'])by_year=rets
2017-06-26 15:23:07
646
原创 第九章 数据分组和聚合(上)
import numpy as npfrom pandas import DataFramedf=DataFrame({'key1':['a','a','b','b','a'], 'key2':['one','two','one','two','one'], 'data1':np.random.randn(5),'data2':np.ra
2017-06-26 09:26:57
633
原创 第八章 matplotlib画图
#数据读取df.iloc[:,0:2]#选取第一列和第二列df.iloc[[1,3],:]#选取第一行和第四行的全部列df.iloc[[1,3],0:2]#选取第二行和第四行的第一列到第二列df.iloc[[1,3],[0,3]]#选取第二行和第四列的第一列和第四列df.iat[2,2]#只能是某行某列的一个数dfdf.loc[[[10,30],['A','C']]#读
2017-06-23 09:47:12
608
原创 第七章 食物数据库例子
In [3]: import jsonIn [4]: db=json.load(open('E:/foods-2011-10-03.json'))In [5]: len(db)Out[5]: 6636In [6]: db中的每条目都是一个含有某种食物全部数据的字典,nutrients是字典的一个列表,其中每个字典对应一种营养成分:db[0].keys()Out[6]:
2017-06-22 15:20:34
2050
原创 第二章 numpy库中的全美婴儿案例
#全美婴儿案例 数据集可以做很多事儿: 1、计算指定名字(可以是自己的,也可以是别人的)的年度比例 2、计算某个名字的相对排名 3、计算各年度最流行的名字,以及增长或减少最快的名字 4、分析名字趋势:元音、辅音、长度、总体多样性、拼写变化、首尾字母等 5、分析外源性趋势:圣经中的名字、名人、人口结构变化等#为什么用read_table
2017-06-22 13:14:27
1310
2
转载 python爬虫得到《三国演义》
第一天重拾信心开始学习爬虫!这是看了简书一位作者的文章感觉很详细,参照人家的文章自己跑了一遍。原文链接为:http://www.jianshu.com/p/23070977f63c 首先安装好bs4,import urllib.request>>> import chardet>>> from bs4 import BeautifulSoup>>> url="h
2017-03-27 15:29:16
1705
原创 简单介绍堆叠的编码器
require(SAENET)aburl='http://archive.ics.uci.edu/ml/machine-learning-databases/abalone/abalone.data'names=c('sex','length','diameter','height','whole.weight','shucked.weight', 'viscera.weigh
2017-03-08 15:00:38
1102
原创 chapter5 自编码的秘密
自编码使得训练出的y直接对着自己的输入层x自编码是由编码器和解码器组成的,编码器是输入层映射到隐藏层,解码器是隐藏层映射到输出层。编码器将输入层向量通过。。函数转移至隐藏层转换成新功能。解码器转移这些功能回到原始的输入层。require(autoencoder)require(ripa)data(logo)image(logo)> logosize: 77 x 101
2017-03-08 10:36:41
334
原创 Chapter4 Jordan 神经网络
这个elman神经网络很像,require(RSNNS)data("nottem",package = "datasets")require(quantmod)nottem Jan Feb Mar Apr May Jun Jul Aug Sep Oct Nov Dec1920 40.6 40.8 44.4 46.7 54.1 58.5 57.7 56
2017-03-08 10:13:06
2034
1
原创 chapter3 递归神经网络
输入层-隐藏层-背景层-输出层极限天气预报模型:预测每天的最高温度、最低温度、风速。数据集包含一年的日观测值,前十一个月训练,最后一个月的数据用来测试,45个隐藏层。如何马上发现一个严重的错误:提高水的质量。。。。。require(RSNNS)require(quantmod)library(quantmod)data("UKLungDeaths",package = "da
2017-03-08 09:01:40
469
原创 集体编程智慧--第五章:优化算法
import mathpeople=[('Seymour','BOS'), ('Franny','DAL'), ('Zooey','CAK'), ('Walt','MIA'), ('Buddy','ORD'), ('Les','OMA')]#New York的LaGuardia机场destination='LGA
2017-03-07 09:11:51
879
原创 R做神经网路可视化
library(clusterGeneration)seed.val<-2set.seed(seed.val)num.vars<-8num.obs 这是学习了一位大神的文章,原文地址https://beckmw.wordpress.com/2013/11/14/visualizing-neural-networks-in-r-update/十分感谢!总共讲了三种神经网络的包,
2017-03-06 14:42:49
3205
2
原创 R深度学习笔记
library(mlbench)data("PimaIndiansDiabetes2",package = "mlbench")ncol(PimaIndiansDiabetes2)nrow(PimaIndiansDiabetes2)str(PimaIndiansDiabetes2)sapply(PimaIndiansDiabetes2,function(x) sum(is.na(x)))
2017-03-06 13:47:27
462
原创 deep learning with R
require(RSNNS)library(neuralnet)set.seed(2016)attribute<-as.data.frame(sample(seq(-2,2,length=50),50,replace=F),ncol=1)response<-attribute^2data<-cbind(attribute,response)colnames(data)<-c("attr
2017-02-28 14:24:28
1336
原创 K-Means
K-均值聚类算法 优点:容易实现,不足之处可能收敛到局部最小值,在大规模数据集上收敛较慢,适用于数值型数据。工作流程如下: 创建k个点作为起始质心(经常是随机选择)当任意一个点的簇分配结果发生改变时 对数据集中的每个数据点 对每个质心 计算质心与数据点之间的距离 将数据点分配到距其最近的簇 对每
2017-02-28 09:20:54
475
转载 spark安装及环境搭建
安装版本配套Spark: 1.6.2Scala: 2.12.1软件安装1、安装JDK手工配置JAVA_HOME环境变量,并将JDK的bin目录加入Path环境变量中。2、安装Scala Windows版通过.msi软件包安装。安装完成后自动配置环境变量SCALA_HOME,并将scala下的bin目录加入Path环境变量中。下载地址:htpp://w
2017-02-17 15:31:38
1210
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人