
数据分析
文章平均质量分 51
不要怂,就是干
渣渣挂机升级中
展开
-
半量化交易(二)
个人交易中的专业背景限制、资金成本限制、对股市的理解限制等等,使个人在进行量化交易时,可能出现程序推荐股票不是自己像买股票这种情况,由于投资者自身能力有限,不能全面的考虑可能出现的各种可能,所有在选择上可能存在异常的偏差。因此,本问将为个人投资者介绍另一种简单容易实现的方法,半量化交易。本文接下来也将对半量化股票的选股、指标建立、模型搭建、数据存储进行研究。原创 2022-09-05 18:03:11 · 649 阅读 · 1 评论 -
半量化交易(一)
程序自动选优质股,再判断是否有买入卖出信号进行操作原创 2022-08-06 16:18:24 · 964 阅读 · 0 评论 -
数据分析师之路
简介:目前在整理个人的项目中,将写过的项目整理了一下。以后也会持续更新。。。。一、网络爬虫https://gitee.com/zcy4747/internet-worm.git1. 当当网数据爬虫2. 链家网络爬虫3. 眼电影数据爬虫4. 汽车之家网络爬虫5. 微博爬虫及热度跟踪二、数据分析https://gitee.com/zcy4747/data-analysis.git1. 安居客二手房数据分析2. 购物栏分析-关联规则3...原创 2021-04-03 16:49:46 · 395 阅读 · 0 评论 -
dataZoom 参数
dataZoom=[ //区域缩放 { id: 'dataZoomX', show:true, //是否显示 组件。如果设置为 false,不会显示,但是数据过滤的功能还存在。 backgroundColor:"rgba(47,69,84,0)", //组件的背景颜色 type: 'slid.原创 2020-06-14 16:58:27 · 517 阅读 · 0 评论 -
numpy的操作笔记
import numpy as npfrom numpy.linalg import *创建一个数值范围为0-1,间隔为0.01的数组my_array1 = np.arange(0,1,0.01)print(my_array)print('my_array的个数:',np.size(my_array)) 创建100个服从正态分布的随机数。 my_array2 = np...原创 2019-10-13 17:17:26 · 4468 阅读 · 0 评论 -
kaggle 房价预测 (菜鸟求组队)
第一次参加,还在更大佬们学习,写点笔记自己看。(排名182,0.11341)开始把。。。。#i导入需要用的库import pandas as pdimport matplotlib.pyplot as pltimport seaborn as snsimport numpy as npfrom scipy.stats import norm,ske...原创 2019-05-23 21:06:56 · 588 阅读 · 0 评论 -
缺失值可视化展示
#缺失值的展示 def plot_missing(df): # 对缺失值列进行计数 missing = df.isnull().sum() missing = missing[missing > 0] #missing.sort_values(inplace=True) # 通过计数绘制缺失值 missing.plot.bar(f...原创 2019-06-02 20:34:03 · 1216 阅读 · 0 评论 -
微博数据的爬取,并对某一段时间热度进行检测
有网友反应数据不能再爬了,这里代码又更新了一次。已经能继续爬取。如还不能,可以联系。###导入模块import requestsfrom lxml import etreeimport timeimport os###网址url="https://s.weibo.com/top/summary?Refer=top_hot"###模拟浏览器header={'User-Age...原创 2019-09-23 16:29:24 · 2406 阅读 · 0 评论 -
码云入门,上手下载第一个和上传项目
以前都是自己吧代码保存在自己电脑,要是电脑和U盘奔了就好玩了,还是玩一下代码托管吧。第一步:卸载git,下载完一直next就行。注册一个码农账号注册这里提醒一下,记住自己的注册名,还有密码,等下要用到.第二步:简单完善一下自己的个人信息。然后开始准备创建一个仓库点击加号创建仓库给你的仓库建立一个名称。给你的仓库介绍写点东东,不写也行,然后直接点创...原创 2019-09-23 21:07:59 · 201 阅读 · 0 评论 -
将本地项目上传到码云仓库
找到在建立仓库时候联系的文件价1.初始化,git init2.git remote add origin 码云上面https哪个链接,复杂过来3. git pull origin master4. 将要上传的文件准备好放置在上面那个文件价中5. git add . //点代表所有,也可以写某个文件名称6. git commit -m "注释:第二次下载"7...原创 2019-09-24 21:56:08 · 531 阅读 · 0 评论 -
python listdir 函数的使用
#返回trainingDigits目录下的文件名trainingFileList = listdir('trainingDigits')#返回文件夹下文件的个数m = len(trainingFileList)原创 2019-09-27 22:10:09 · 610 阅读 · 0 评论 -
机器学习实战篇-----1(KNN算法)
一、kNN 本章主要介绍KNN算法,也称为K-近邻算法。简单的说,knn算法采用测量不同特征值间的距离来对数据进行分类,即我们初中时候学过的两点之间的距离公式,有没有想起来,根号下(A-B)**2,这就是欧氏距离,简单吧。 现在来介绍一下KNN的计算的过程,①计算测试集与与训练集数据的距离...原创 2019-09-28 18:32:46 · 1226 阅读 · 1 评论 -
juoyter notebook里面运行R的方法
默认已经安装R,首先,install.packages(c('repr', 'IRdisplay', 'evaluate', 'crayon', 'pbdZMQ', 'devtools', 'uuid', 'digest'))devtools::install_github('IRkernel/IRkernel')运行它,如果出现错误,请把那个包手动安装,安装方式是,点击pack...原创 2019-10-11 12:05:19 · 268 阅读 · 0 评论 -
数据列中,缺失值的处理
我在这次学习中,学习到,缺失值类型为数值型数据,则填补中位数,类别型数据就填补众数。。比较笨,所以我直接写了个方法先来找到每一列数据的中位数和众数。def mode_and_median(train): list1=[] list2=[] list3=[] list4=[] for col in train.columns:#对每一列数据进行循环...原创 2019-05-18 21:35:37 · 3732 阅读 · 2 评论 -
获取列数据重复的比例
我们在数据清洗过程中,需要去除一些无关的变量。来减低数据的维度。处理csv数据,本次遇见列数据非常的多,手动寻找数据重复比例非常麻烦,所以我写了个方法。自动来计算数据列中大范围重复的数据,输出该数据,并显示,该数据占总数的比例。#定义一个函数,对数据的列进行测试,吧列数据中一些占比出现异常的选项def count_data(train): list1=[] list2=...原创 2019-05-18 21:26:19 · 760 阅读 · 1 评论 -
python 交叉分析 笔记
import pandas as pdimport numpy as npimport scipy.stats as ssimport matplotlib.pyplot as pltimport seaborn as sns#交叉分析df = pd.read_csv('HR_comma_sep.csv')dp_indices = df.groupby(by="sales").in...原创 2019-04-29 22:22:52 · 751 阅读 · 0 评论 -
数学归纳与迭代法的区别?
递归把计算交给计算机,归纳把计算交给⼈,前者是拿计算机的计算成本换⼈的时间,后者是拿⼈的时间换计算机的计算成本。数学归纳法:证明基本情况(n=1)是否成立,假设n=k-1成立,证明n=k也是成立。递归调用和数学归纳的逻辑是一样的!数学归纳正确,递归调用逻辑也正确。...原创 2019-05-05 21:16:55 · 1241 阅读 · 1 评论 -
python 计算棋盘第几个格子的米数。
def get_result(n): return True if n== 1 else get_result(n-1)*2+1超级简洁。逆向递推,到为1时候停止,把值返回。有个很古老的传说,那时候象棋刚刚发明出来,阿拉伯的一个国王一下就迷上了,觉得应该重奖发明这个游戏的人,结果发明者来了,他让人家提要求,人家说棋盘上第一个格放1粒麦子,第二个格2粒,第三格4粒,第四格8粒...原创 2019-05-05 21:36:54 · 5042 阅读 · 0 评论 -
迭代与递归的简单理解
迭代,即利用已有的变量去推算接下来的变量。例如:Fibonacci数列:第3个数等于前面2个数字之和。递归,即函数自己调用自己。例如阶乘函数,#例如x=5,即求5的阶乘def fact(x): if x==1: return 1 else: return x*fact(x-1)...原创 2019-05-05 22:15:16 · 1042 阅读 · 0 评论 -
ipython 和pycharm运行结果不一样
ipython和pycharm运行结果不一样的时候,一般情况下是你对应的数据在ipython和pycharm中被识别为不同的类型。你可以尝试打印输出一些该数据的类型,可以发现数据类型是不一样的。通常的解决方法是,在ipython中转换数据类型,使数据变得一致,可以进行操作。...原创 2019-05-19 10:11:12 · 1955 阅读 · 0 评论 -
快速引库,sklearn(自用)
from sklearn.linear_model import ElasticNet, Lasso, BayesianRidge, LassoLarsICfrom sklearn.ensemble import RandomForestRegressor,GradientBoostingRegressorfrom sklearn.kernel_ridge import KernelRidge...原创 2019-05-19 15:58:49 · 235 阅读 · 0 评论 -
模型训练,基于Skearn.learn。学习理解
1.https://blog.youkuaiyun.com/weixin_42013825/article/details/90142840根据上面的数据清洗流程,对数据集进行处理。2.定义交叉函数。3.对数据集进行特征的选择4. 确定模型: 套索回归:Lasso regression 弹性网络回归:Elastic NET Regression ...原创 2019-05-14 21:12:02 · 228 阅读 · 0 评论 -
python set() 函数
使用set()函数可以创建一个无序不重复的集合。例如:a = ''hhoollwwoorrd''b=set(a)返回 b{'w', 'd', 'h', 'l', 'r', 'o'}无序不重复,主要是为了去除重复选项。一般和len一起时候,用来判断数据集中有多少个不重复的数据...原创 2019-05-12 11:47:15 · 186 阅读 · 0 评论 -
python numpy 的shape,以及元组tuple的理解 。
>>> a = np.array([1,2,3,4,5,6,7,8,9])>>>aarray([1, 2, 3, 4, 5, 6, 7, 8, 9])>>>a.shape(9,)>>> a.shape[0]9>>>type(a.shape)<class 'tuple'>...原创 2019-05-12 12:14:23 · 17851 阅读 · 0 评论 -
train.loc[:, "Alley"]
选择所有行,取Alley列数据。train.loc[:, "Alley"] = train.loc[:, "Alley"].fillna("None")把Alley列数据中为却是值的数据填为None.原创 2019-05-12 14:35:16 · 858 阅读 · 0 评论 -
(mu, sigma) = norm.fit(数据列)
线性的模型需要正态分布的目标值才能发挥最大的作用。所以在处理数据时候,需要对数据列进行处理,获取数据列正太分布的均值和标准差。原创 2019-05-12 15:07:07 · 4617 阅读 · 0 评论 -
数据清洗的一般流程(特征工程)
1.获取输出目标数据的describe()。这包括数据的count,mean,std,min,median。然后获取输出数据的skew,kurt2.绘制主要影响因素的图像,例如房子价格的主要影响因素是面积,即绘制面积与价格的图像。通过观察图像,查看异常值,并对异常值进行处理。一般异常值即为离群点数据3.将训练集数据与测试集数据进行联合起来进行特征处理。4.绘...原创 2019-05-12 17:56:43 · 14219 阅读 · 1 评论 -
python中,iloc[] 与loc[]的区别
iloc[]是取几行,例如,iloc[:5],取前5行loc[]是取到第几行,例如,loc["left],表示按顺序,取到 left 这一行。原创 2019-04-28 22:36:58 · 8327 阅读 · 1 评论