- 博客(22)
- 收藏
- 关注
原创 github相关
如何编写发布博客?$ git add _posts/2017-08-15-how-to-setup-your-github-io-blog.md$ git commit -m "Add how to setup your github.io blog"$ git push origin master
2020-06-22 11:06:13
232
原创 SkLearn 初学
通过手写数字数据初步学习 sklearn一、使用 matplotlib 视觉化手写数字图片1、基本实现# 从 `sklearn` 载入 `datasets`from sklearn import datasets# 载入 matplotlibimport matplotlib.pyplot as plt# 载入 `digits`digits = datasets.load_digits()# 设定图形的大小(宽、高)fig = plt.figure(figsize=(4, 2)) #
2020-06-19 15:18:57
400
原创 keras 时间序列预测
keras 时间序列预测num表示自行车数量,weekday表示星期几,hour表示小时。一共45949条数据,这些数据是按一分钟一次的顺序排列的。用RNN进行预测的话,实际上用num字段就够了,其他两个字段作为额外的参考信息,读者不妨利用这两条信息构建更复杂的模型,提高预测精度。接下来我们将用多层LSTM 的RNN神经网络去预测这些序列的值,简单来说,我们有9个连续的num,那么如何预测第10个num是多少?(知道前九分钟的num,预测下一分钟的num)# 加载依赖库import matplot
2020-06-19 15:15:11
853
原创 利用 keras 进行点评评论情感分析
利用 keras 进行点评评论情感分析一、准备工作1、数据导入import pandas as pddata = pd.read_csv('/Users/liming/Downloads/review.csv')print(data.shape)data.head()(100000, 3) reviewid reviewbody star 0 661913194
2020-06-19 15:13:18
742
1
原创 Matplotlib可视化图表
可视化入门import numpy as npimport pandas as pdimport matplotlib as mplimport matplotlib.pyplot as pltimport seaborn as snsimport warnings; warnings.filterwarnings(action='once')large = 22; med = 16; small = 12params = {'axes.titlesize': large,
2020-06-19 15:05:25
975
原创 决策树
一、CART算法1、基于iris数据集,构造CART分类树# encoding=utf-8from sklearn.model_selection import train_test_splitfrom sklearn.metrics import accuracy_scorefrom sklearn.tree import DecisionTreeClassifierfrom sklearn.datasets import load_iris# 准备数据集iris=load_iris()
2020-06-19 14:57:29
835
原创 01 最近邻
一、k近邻算法实战之约会网站配对效果判定(手写实现)模块一:准备数据import numpy as npfr = open("/Users/liming/Downloads/machinelearninginaction-master/Ch02/datingTestSet.txt")#读取文件所有内容arrayOLines = fr.readlines()#得到文件行数numberOfLines = len(arrayOLines)#返回的NumPy矩阵,解析完成的数据:numberOfL
2020-06-19 14:55:58
187
原创 Pyspark 学习
from pyspark.sql import SparkSession## 设置要连接的Spark主节点URL,"local"表示在本地运行,"local[2]"表示在本地调用2个核心运行spark = SparkSession.builder.master('local[2]').appName('Basics').getOrCreate()一、Spark SQLdf = spark.read.csv('appl_stock.csv',inferSchema=True,header=True
2020-06-19 14:52:16
548
1
原创 Pyspark 机器学习
一、SparkSessionfrom pyspark.sql import SparkSessionspark = SparkSession.builder.appName('test').getOrCreate()1、回归(Regression)df = spark.read.csv('cruise_ship_info.csv',inferSchema=True,header=True)df.show(5)+-----------+-----------+---+-----------
2020-06-19 14:50:48
1222
原创 Pyspark 基础
一、SparkSessionfrom pyspark.sql import SparkSession## 设置要连接的Spark主节点URL,"local"表示在本地运行,"local[2]"表示在本地调用2个核心运行spark = SparkSession.builder.master('local[2]').appName('Basics').getOrCreate()二、DataFrameDataFrame 是带有 schema 信息的 RDD,类似于传统数据库中的二位表格。## 从
2020-06-19 14:49:03
341
原创 Spark 实战
这里写自定义目录标题第一部分 使用 Scala 语言开发 Spark 应用程序新的改变功能快捷键合理的创建标题,有助于目录的生成如何改变文本的样式插入链接与图片如何插入一段漂亮的代码片生成一个适合你的列表创建一个表格设定内容居中、居左、居右SmartyPants创建一个自定义列表如何创建一个注脚注释也是必不可少的KaTeX数学公式新的甘特图功能,丰富你的文章UML 图表FLowchart流程图导出与导入导出导入第一部分 使用 Scala 语言开发 Spark 应用程序你好! 这是你第一次使用 Markd
2020-06-19 11:00:17
3169
转载 【机器学习】一题看懂反向传播与梯度下降
这里写自定义目录标题一题看懂反向传播与梯度下降从PayPal的一道填空题说起梯度下降反向传播算法一题看懂反向传播与梯度下降接下来一段时间可能会好好看一下机器学习了,加油鸭(ง •_•)ง从PayPal的一道填空题说起今天刷牛客,看到了如下一道题:以神经网络使用了如下结构:输入层有三个节点,隐藏层有一层且有两个节点,输出层有一个节点。隐藏层使用relu作为输出函数,输出层的损失函数为12(...
2020-03-11 23:43:05
433
1
转载 plink格式的map文件和ped文件
.map文件格式说明链接:linkmap格式的文件, 主要是图谱文件信息, 主要包括染色体名称, 所在的染色体和所在染色体的坐标.map文件包括:染色体编号(数字), 未知为0SNP名称(字符或数字), 如果不重要, 可以从1编号, 注意要和bed文件SNP列一一对应染色体的摩尔位置(可选项, 可以用0)SNP物理坐标Example1 snp1 0 11 snp2 0 2...
2019-12-01 15:23:18
13625
1
原创 R studio中配置git与删除git远程地址
初始git地址并上传R包git initgit add *git commit -m “first commit”git remote add origin https://github.com/【github用户名】/【repository名称】.gitgit push -u origin master删除git远程地址git remote rm origin查看git远...
2019-11-30 10:34:51
290
转载 git push 报错:remote: Permission to A/cc.git denied to B
在使用git push项目的时候,遇到上面的报错,说明访问被拒绝。问题原因?由于电脑使用git bash配过SSH,系统已经将指向github.com的用户设置为了userB,每次push操作的时候,默认读取保存在本地的用户userB。最简单有效的解决办法?——Windows操作系统移除计算机中的userB即可。重新提交的时候,git会要求你输入新的用户名和密码,输入后就可以成功提...
2019-11-30 10:29:12
390
原创 小波分析
在介绍小波分析之前,我们需要了解一个问题:小波为什么出现?简单来说,小波分析的出现是为了解决傅里叶变换没有时间信息的不足(当信号不平稳时,通过傅里叶变换得到的频域信息可能是相同的)。本文首先简单回顾一下傅里叶变换,然后引入介绍小波。时域、频域和傅里叶变换傅里叶变换是在信号处理中最常用的变换。我们通常得到的信号是时域中的信号(x轴为时间,y轴为振幅)。虽然时域中绘制信号通常是可视化的好方法,但...
2019-06-30 16:15:08
15356
4
原创 【Foundation of data science】
【Foundation of data science】Clustering一、聚类的两种常用的假设1、基于中心的聚类(Center-based clusters)k-center clustering: 最小化数据点到其中心的最大距离,即minimizeΦkcenter(C)=maxj=1maxai∈Cjd(ai,cj)\Phi_{k c e n t e r}(\mathcal{...
2019-04-21 21:26:26
865
转载 (Pythont日志)Day2 Python中的算术运算符
Python中的算术运算符+++ 加−-− 减∗*∗ 乘/// 除% 取模(相除后的余数)∗∗**∗∗ 取幂(注:^并不执行这样的运算)////// 相除后向下取整到最接近的整数...
2019-01-23 10:46:43
158
转载 (Pythont日志)Day1 Python介绍
学习Python的N个理由在Python的交互式解释器中输入「import this」,就会显示 Tim Peters 的一首小诗《The Zen of Python (Python 之禅)》,这首诗里传达的所有意思,都阐述了 Python 这门语言的迷人之处——优雅、明确、简单、灵活。这或许也能解释,Python 为什么成为了受全球程序员追捧的编程语言。Beautiful is better...
2019-01-23 10:17:22
183
原创 (数据库日志)Day1 什么是数据库?
终于放寒假了,趁这个时间可以补补之前一直没时间看的各种知识了。希望这件事可以坚持的久一点。什么是数据库?数据库是计算机系统中一种用于存取数据的程序。数据库的分类关系型数据库(sql数据库):MySQL、Oracle、SQL Server、PostgreSQL非关系型数据库 (no-sql数据库):hadoop、mongoDB、redis、Cassandra...
2019-01-23 09:50:42
447
原创 R学习笔记:记录程序运行时间
#查看系统运行时间的两种方法ptm <- proc.time()for (i in 1:10000) x <- rnorm(1000)proc.time()-ptmsystem.time(for (i in 1:10000) x <- rnorm(1000))结果为:用户 系统 流逝0.04 0.03 0.10用户”是消耗在应用程序(非操作系统部分)执行的时间...
2018-11-25 21:27:21
2982
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人