
1.
# #********** Begin **********#
# 1.去掉指标值小于0和存在空值的记录
# 2.去掉存在异常值的记录,指标取值大于或等于8倍均值视为异常值
# 3.对指标值进行均值-方差标准化处理
# 4.对标准化后的指标值进行k-均值聚类分析,k=5,即聚为5类
# 5.返回聚类结果,用序列Fs来表示,index为股票代码、值为聚类标签值(0~4),
# 并按聚类标签值从小到大排序
def return_values():
import pandas as pd
import numpy as np
#1.数据预处理,即清洗掉<0,nan,异常值,标准化
dta=pd.read_excel('data.xlsx')
#dta=pd.to_numeric(dta.iloc[:,1],errors = 'coerce')
#dta=dta[dta.iloc[:,1].values>='0']
#dta=dta[dta.iloc[:,2].values>='0']
#dta=dta[dta.iloc[:,3].values>='0']
#dta=dta[dta.iloc[:,1]>0]
dta=dta[dta.iloc[:,2]>0]
&
使用Python进行上市公司聚类分析与量化投资研究

该博客介绍了如何使用Python进行上市公司数据预处理,包括去除负值、异常值,然后进行标准化处理。接着,应用k-均值聚类算法(k=5)对数据进行聚类,并返回聚类结果。此外,还展示了如何根据聚类结果构建投资组合,计算持有期收益率,以评估不同组合的绩效。
最低0.47元/天 解锁文章
2227

被折叠的 条评论
为什么被折叠?



