TristaCchi-优快云博客

原创 python实现时间序列分析1：传统时间序列分析法

本文将针对时间序列方法的python实现进行系统的介绍。文章目录1 移动平均法系列1.1 朴素预测法1.2 简单移动平均法1.3 加权移动平均法1.4 指数平滑法2 传统时间序列分析方法2.1 ARIMA2.2 Holt2.3 灰色预测3 传统机器学习方法（以xgboost为例）4 总结1 移动平均法系列移动平均法是指在当前时间添加时间窗口，取窗口内平均值，或者加权平均值。1.1 朴素预测法朴素预测法是指直接使用前一时刻的时序值作为后一个时刻的预测值。1.2 简单移动平均法#读取数据impo

2020-12-30 14:41:27 1945 3

原创 python 查看包的版本

python查看包的版本导入包，输入包名.__version__即可如：import statsmodelsstatsmodels.__version__再如：import scipyscipy.__version__注：（1）version前后是双下划线（2）机器学习相关的一些包不同版本预测结果不一致，包在不停更新，预测能力不断提升...

2020-12-08 10:34:05 35121

原创 Spark单机版安装及配置（win10）

写在前面：本篇博文记录在win10上安装spark单机版的过程，需要安装的软件有：Java JDK、Scala、Hadoop、Spark，本次安装的版本以及版本之间的对应要求如下：在安装之前，新建一个spark文件夹，除了java之外其他软件都放在这个文件夹下，方便管理。1 安装java1.1 查看java是否安装及版本信息如果已经安装了java,需要查看版本，Java版本最好是1.8或者11，查看方法，使用cmd打开命令行，输入java -version：1.2 下载安装java如果不

2020-10-21 16:36:59 2805 4

原创 2020研究生数模整理（3）:决策树可视化

本文为随机森林/决策树的决策过程可视化展示，在数模整理（1）中粗略介绍过，这里将简述库export_graphviz的安装，并结合随机森林对决策树的绘制过程进行详细的介绍。1 export_graphviz安装1.1 下载在官网中下载：http://www.graphviz.org/download/；我是win10,使用的是graphviz-2.38，百度云提取：链接：https://pan.baidu.com/s/1BsJLL0QqhXruEXCiqMH9QQ提取码：trst1.2 安装

2020-10-11 17:14:47 952 1

原创 2020研究生数模整理（2）:plotly双坐标轴绘制多个轨迹

B题最后一题为可视化，绘制各个变量的变动对产品辛烷值和硫的值的影响。由于变量有将近30个，为了节省论文的长度，我们选择双坐标绘图。这里选择的plotly是plotly.offline。1 载入包import pandas as pdimport numpy as npimport matplotlib.pyplot as plt%matplotlib inlineimport plotly.offline as py #主角，绘图的库import plotly.graph_objs as g

2020-09-27 23:54:32 2617

原创 2020研究生数模整理（1）:机器学习回归+GridSearch参数调优+AutoML(TPOT)+模型评估+决策树绘制

本文将简单介绍以下三点内容：（1）三种回归模型：线性回归、随机森林(输出决策树图)、梯度提升回归（2）使用GridSearch对机器学习模型进行参数调优（3）自动机器学习包:TPOT1 三种回归模型1.1 线性回归线性回归的原理比较简单，不多说，直接上代码。1.2 随机森林随机森林是基于树的回归，这里会介绍1.2.1 模型1.2.2 决策树输出1.3 梯度提升回归2 GridSearch参数调优3 自动机器学习包：TPOT...

2020-09-21 19:53:45 1769

原创中文文本分析工具总结

本篇博客主要介绍几个中文文本分析的工具。1 百度API百度智能云上讲自然语言处理分成了四个模块，如下图所示，分别为语言处理基础技术，语言处理应用技术，智能对话定制平台，文本审核。每一个模块都有很多功能，大家可以自行进入网页进行查看，根据自己的需求选取。百度API 的使用方法（Python调用）前边已经整理好，参考网址：https://blog.youkuaiyun.com/weixin_4067826...

2020-04-26 13:20:46 16724 85

原创 Python中文文本分词、词频统计、词云绘制

本文主要从中文文本分词、词频统计、词云绘制方面介绍Python中文文本分词的使用。会使用到的中文文本处理包包括：wordcloud,jieba，re（正则表达式）,collections。1 准备工作导入相关的包，读取相关数据。#导入包import pandas as pd #数据处理包import numpy as np ...

2020-04-15 21:17:21 8814

原创百度API调用方法

本文将介绍百度API的调用方法。先介绍一下百度API叭。通俗点讲，平时用得到的大多数算法百度API都有，而且还非常好用，比如人脸识别、自然语言处理，这些都属于百度智能云的人工智能部分。百度API可以在云端使用，也可以下载部署到本地服务器，本文将以自然语言处理为例，介绍百度API在云端的使用方法。Step1：获取API Key&Secret Key打开百度智能云主页：https://c...

2020-04-13 13:15:04 10870

原创 Endnote文献管理软件基本操作

最近在学习使用Endnote，以下为学习笔记(没错，在本该交流技术的地方交流科研，向毕业低头)。Endnote是一款支持国外文献的文献管理软件，如果你要发外刊或者有大量阅读外文文献的需要，向大家推荐endnote来管理文献，尤其是文章的参考文献，整理起来太麻烦啦！！！本文为入门级的基础操作，主要是文献检索和插入参考文献。写在前边：该笔记适用Endnote X9.1版本~关于安装可以参考链接：h...

2020-01-31 17:24:26 971

原创 Endnote安装及与word关联

1 安装安装版本：EndnoteX9链接：https://pan.baidu.com/s/1vwhbds_o-W7tko7APvw1Cg提取码：g4xj下载并打开，点击next即可顺利安装成功。2 关联word使用管理员身份运行word, 点击文件——选项——加载项，如下：点击下方的转到（注意选择COM加载项），确定，然后勾选Endnote就可以啦。效果:打开word可以在工具栏...

2020-01-31 16:32:51 1724 1

原创 neo4j使用教程（数据的导入和简单的语句）

写在前面：在前边出了一个详细的neo4j安装教程之后，写一个简单的neo4j使用教程。1 数据的导入数据的导入这里介绍两个常用的方法，语句导入和用cmd命令行导入。1.1 创建数据例如，创建两个同学（nodes），属性有学号、姓名、性别和年龄，关系为classmate(relationship)。//nodeCREATE (student1:Person {sid:'1001', na...

2019-11-21 18:34:58 43513 1

原创 win10环境下Neo4j社区版安装（含neo4j安装包，超详细）

写在前边：在安装了neo4j桌面版后发现发现打开需要很久，偶尔还会闪退，因此决定安装社区版，用浏览器打开会流畅一点，这个情况可能并不普遍，但是社区版的安装过程一定是具有普适性另外，参考链接：参考链接https://www.cnblogs.com/AbsolutelyPerfect/p/10498002.html1 java安装1.1 java是否安装先以管理员身份打开cmd检查是否安装了j...

2019-11-19 13:59:35 13312 11

原创 Python装包报错：无法定位程序输入点OPENSSL_sk_new_reserve于动态链接库

用一台新电脑装tensorflow的时候报错：无法定位程序输入点OPENSSL_sk_new_reserve于动态链接库解决：把Anaconda/DLLS 目录下的libssl-1_1-x64 dlls文件复制到 Anaconda/Library/bin 目录下就好了，具体目录到自己的安装目录找哦。...

2019-11-16 19:09:32 3281 14

原创 jupyter notebook关联R语言

用Python比较多，习惯性用jupyter notebook敲代码，由于最近一些统计工作R语言更好用，于是决定将jupyter notebook与R语言关联。1 准备工作下载安装 Anoconda， R语言，Rstudio，Git，都可以在官网找到并安装。anoconda下载地址：https://www.anaconda.com/Git下载地址：https://git-scm.com/d...

2019-11-12 14:45:18 1569 2

原创用python做三维图（数模整理1）

数模比赛结束啦，在这里整理一下自己当时的代码。今天先分享怎么用python画三维图。任务简介：绘制加拿大不同地区（province）不同时间（year）的温度（temperature）变化图，不多说直接上代码。1 导入相关库#导入库import numpy as np #多维数组必备库import matplotlib.pyplot as plt #绘图必备from matplot...

2019-11-11 21:34:19 5896 2

原创 pip升级报错（权限问题）

pip升级报错今天升级pip的时候发生以下报错：看到拒绝访问应该是权限的问题，想起安装的时候选择谁可以使用软件（大概是这样的一个选项），选择了“只有我”，选择所有用户应该就不会存在这个问题了，那么怎么解决呢？敲黑板！在安装包或者升级的时候在install后边添加 --user就好啦，贴图看结果：...

2019-08-26 16:03:50 2813

原创 UnicodeDecodeError: 'utf-8' codec can't decode byte 0xd1 in position 0: invalid continuation byte

今天读取csv时遇到了报错如下：nicodeDecodeError: ‘utf-8’ codec can’t decode byte 0xd1 in position 0: invalid continuation byte原本的代码doctor_info = pd.read_csv("F:/master/offline_of_teamwork/team_doctor_infomation....

2019-07-15 21:29:41 3542

原创 Pandas DataFram常用操作总结

最近经常用到dataframe，经常用的时候百度，用完就忘了，下次用的时候还要再次百度，所以在这里整理一下，以备后需。1 dataframe列操作首先新建一个dataframe,读取文件import pandas as pddf_test = pd.DataFrame("D:/data/test.csv")1.1 列命名假设有五行df_test.columns = ["id","...

2019-04-01 19:41:25 4586

原创 python networkx网络分析库

1、载入networkx包import networkx as nx 2、创建网络2.1 创建空的无向图G = nx.Graph()2.2 添加两类节点#分别用不同颜色表示两类节点for item in list_user1: G.add_node(item,node_color = "b") for item in list_user2: G.ad...

2019-03-07 11:29:15 1112

原创解决报错DtypeWarning: Columns (2) have mixed types.

解决报错DtypeWarning: Columns (2) have mixed types。今天在使用pandas读取csv的时候，语句为：df_question1 = pd.read_csv("D:/data/final/question20181201.csv",usecols=[2,4,15])出现了类型报错，报错内容如下：D:\Anaconda\lib\site-package...

2019-02-06 09:26:49 15152

原创 spark中间结果的存储

spark中如果有中间结果（如抽样结果）需要存储，有两种方式，直接存为rdd，或者collect出来，再存储。存储为rddrdd.saveAsPickleFile("hdfs://ip/rdd")可直接使用。存储为dataframeimport picklerdd_collect = rdd.collect()f1 = open("/root/rdd_collect ....

2018-09-10 13:07:07 5038

原创 mapreduce(pyspark)

本人刚接触spark，最先学的就是map-reduce,跟大家分享一下对map-reduce的理解。1.Map首先是map,我认为map就是对数据列的处理：抽取或者添加列，下边是例子：1.1 提取rdd1是某用户数据，我们想提取其中的几列用来做分析，先看一下rdd1 的数据print rdd1.take(1)打印结果：[（u’id_first’, u’001’, ...

2018-08-23 16:27:16 1575

Trista的博客