- 博客(22)
- 资源 (1)
- 收藏
- 关注
原创 format常用操作
#字符串print('name = {},path = {}'.format('Jane','c/b/a'))#精度print('{:.2f}'.format(3.154159))#保留两位小数print('{:,}'.format(10000000))#千位分隔符print('{:.2%}'.format(0.892378))#百分数
2021-07-28 11:34:42
264
原创 R studio Shiny (1)
1. Basic information1.1 Shiny layout布局主要分成三部分,如下图:library(shiny)# Define UI ----ui <- fluidPage( titlePanel("title panel"), sidebarLayout( sidebarPanel("sidebar panel"), mainPanel("main panel") ))# Define server logic ---..
2021-07-26 15:50:04
412
原创 Python datetime 时间的格式转换及运算
1. 转换格式import datetimetoday = '2021-07-19'print('Original string'+ ': ' , today , type(today))#转变为时间格式today1 = datetime.datetime.strptime(today,'%Y-%m-%d')print('Change to datetime'+ ': ',today1,type(today1))#转变为字符串today2 = datetime.datetime.strf
2021-07-19 16:31:33
3411
原创 Python 正则表达式+字符串分割(数字/字母/汉字/特殊字符)
1. 基本知识函数 说明 \u0041-\u005a 大写字母unicode范围 \u0061-\u007a 小写字母unicode范围 \u0041-\u007a 英文字母unicode范围 \u0030-\u0039 数字unicode范围 \u4e00-\u9fa5 汉字unicode范围 import restring = "12345 abcde 武汉加油! aBCD ??//"print(string)# 提取数字pr
2021-07-19 13:40:48
10251
原创 PySpark DataFrame 常用操作
1. 导出为csv文件df_by_trucks.toPandas().to_csv('/dbfs/FileStore/static.csv', encoding='gb2312', index=False)2. 创建DF或读入DFfrom pyspark.sql import SparkSessionfrom pyspark.sql import Rowfrom pyspark.sql.types import *from pyspark.sql.functions import *
2021-07-16 11:34:49
522
原创 XGBoost、LightGBM和CatBoost实战
1. 数据(1) 数据2015年航班延误的Kaggle数据集(官方地址:https://www.kaggle.com/usdot/flight-delays#flights.csv),其中同时包含类别型变量和数值型变量。数据集中一共有约500万条记录,本文使用了1%的数据:5万条记录。(2)建模使用特征•目标变量:到达延误情况(以航班是否延误超过10分钟转化为二值变量)•解释变量:月、日、星期、航线、航班号、出发机场、到达机场、出发时间、距离和飞行时间(加粗表示类别特征,标红表示需要由.
2021-04-08 12:04:52
962
原创 文本分词处理+机器学习模型
1. 目标情感分类2. 数据来源12000条美团外卖平台收集的用户评价(正向4000 条,负向约 8000 条)https://github.com/SophonPlus/ChineseNlpCorpus/blob/master/datasets/waimai_10k3. 数据预处理(1)读入数据+拆分训练集和测试集import numpy as npimport pandas as pdimport matplotlib.pyplot as pltfrom time
2021-04-03 12:15:48
2359
1
原创 蒙特卡洛期权价格模拟(包括最小二乘美式期权模拟)
1. 蒙特卡洛期权定价理论概述(1)风险定价原理(2)标的资产价格路径模拟(3)期权到期回报贴现(4)模拟运算次数与精度(5)方差减少技术——对偶变量(6)评价2. 代码实现蒙特卡洛模拟欧式期权价格(1)蒙特卡洛模拟欧式期权价格#蒙特卡洛模拟看涨期权价格def call_MonteCarlo(S,K,T,r,sigma,n): z = standard_normal(n) St = S*np.exp((r-0.5*sigma
2021-03-29 20:27:40
7116
1
原创 BSM期权定价
1. BSM期权定价公式2. 代码实现import pandas as pdimport numpy as npfrom math import sqrt,logfrom scipy import statsdef BSM(S0,K,T,r,sigma): ''' S0: 股票价格; K: 执行价格; T: 期权期限; r: 无风险利率 sigma: 波动率 ''' S0 = float(S0) d1 = (np.
2021-03-28 14:38:09
6683
原创 二叉树期权定价
1. 以两步二叉树欧式看涨期权定价为例2. 代码实现(1)欧式看涨期权(2)欧式看跌期权(3)美式看涨期权(4)美式看跌期权
2021-03-28 14:25:17
10685
2
原创 python pandas基本操作练习50题
数据来源:https://www.kesci.com/mw/project/604db88774dfc60016e29d56/dataset一、例题1:探索快餐数据1. 数据预览变量 含义 order_id 订单id quantity 数量 item_name 商品名称 choice_description 详情 item_price 商品单价 2. 代码练习#导入pandasimport pandas as pd..
2021-03-15 10:05:35
4232
2
原创 mysql必会50题详解
1. 插入数据CREATE TABLE `student`( `s_id` VARCHAR(20), `s_name` VARCHAR(20) NOT NULL DEFAULT '', `s_birth` VARCHAR(20) NOT NULL DEFAULT '', `s_sex` VARCHAR(10) NOT NULL DEFAULT '', PRIMARY KEY(`s_id`));--课程表CREATE TABLE `course`( `c_id` VARCHAR(20
2021-03-12 19:31:38
243
原创 python基础操作
1. pandas.date_range常用参数解释pandas.date_range(start=None, end=None, periods=None, freq=’D’) 参数解释 start 表示日期起点,如'20160101' end 表示日期终点,如'20160106' periods 如果start和end是None或'today',它表示产生多少个日期索引值 freq 默认值是'D',表示自然日,'B'表示工作日 pd.dat.
2021-03-07 23:01:56
298
原创 python groupby分组取每组最大或最小的topN条记录
import pandas as pddata = {'id':['A','A','A','B','B','C','C','C'],'grade':[6,7,8,5,6,4,8,9],'time':['0102','0203','0304','0405','0506','0607','0708','0809']}data = pd.DataFrame(data)print(data) id grade time0 A 6 01021 A 7 02032 .
2021-03-07 13:34:39
2545
原创 python实现CAPM模型
一、CAPM模型理论1. 提出背景2. 基本假设3. 引入无风险借贷后的投资组合选择4. 资本市场线(CML)5. 证券市场线(SML)6. 系统风险与非系统风险二、代码实现1. 导入包+获取数据import tushare as tsimport pandas as pdimport matplotlib.pyplot as pltimport statsmodels.api as smsh =...
2021-03-06 23:51:44
5874
9
原创 python pandas和numpy练习
1. 从字典对象创建Dataframeimport pandas as pdimport numpy as npdata = {'animal':['cat','cat','snake','dog','god','cat','snake','cat','dog','dog'],'age':[2.5,3,0.5,np.nan,5,2,4.5,np.nan,7,3],'visits':[1,3,2,3,2,3,1,1,2,1],'priority':['yes','yes','no','yes','n
2021-03-06 16:40:44
1314
原创 Python实现马科维茨投资组合有效前沿
一、理论介绍二、代码实现1. 导入包并设置中文字体import numpy as npimport pandas as pdimport pandas_datareader.data as webfrom datetime import dateimport numpy.random as nprimport matplotlib.pyplot as pltfrom pylab import mplimport scipy.optimize as scopl
2021-03-05 12:50:18
9113
1
原创 利用几何布朗运动对招商银行2021年进行股价预测
1、布朗运动2、广义维纳过程3、几何布朗运动4、用几何布朗运动模拟招商银行股价(1)导入相关包并设置中文字体import numpy as npimport pandas as pdimport pandas_datareader.data as webfrom datetime import dateimport numpy.random as nprimport matplotlib.pyplot as pltfrom pylab imp...
2021-03-03 21:15:14
2578
3
原创 爬虫:豆瓣电影top250
1.目标爬虫豆瓣电影top250(https://movie.douban.com/top250?start=0)2. 代码实现观察到页面切换仅是start参数变化,第一页:start=0,第二页:start = 25。因此可以这样写url:for i in range(10): url = 'https://movie.douban.com/top250?start={}'.format(i*25)剩下的就可以通过xpath定位电影信息的标签,全部代码如下: 一
2021-02-18 15:26:53
890
1
原创 读取json文件
尝试了多种办法读取这个json文件,都失败了,然后用了下面的方法成功读取。逐hang读取+使用pd.concat拼接import jsonimport pandas as pd#建立存放样本的空数据框d = pd.DataFrame(columns=['labels','sentence'])#逐行读入json文件并存入数据框with open('/Users/harper/Desktop/python/law/divorce.json','r',encoding = 'utf.
2021-02-16 19:27:02
537
原创 爬虫:起点中文网
1. 目标:练习爬取起点中文网24小时热销榜(https://www.qidian.com/rank/hotsales)小说名称、作者、类型、状态、剧情介绍、最新更新章节和最新更新时间,并存储到csv中。2. 代码实现import requestsfrom lxml import etreeimport timeimport pandas as pdheaders = { 'User-Agent':'Mozilla/5.0 (Macintosh; Intel Mac OS
2021-02-13 19:18:14
1429
1
原创 爬虫:12306模拟登陆
步骤一:获取12306登陆页面并输入账号和密码from selenium import webdriverfrom lxml import etreefrom time import sleepfrom PIL import Imageimport requestsfrom selenium.webdriver import ActionChainsfrom hashlib import md5#封装超级鹰打码识别函数#executable_path输入谷歌驱动的位置bro = we
2021-02-10 20:42:47
1012
2
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人