多元统计分析与NFL选秀联合数据可视化
1. 多元统计基础方法与新兴工具
在多元统计领域,基础的入门方法十分重要。不过,先进的方法也在不断涌现。例如,均匀流形近似与投影(Uniform Manifold Approximation and Projection)正成为一种流行的基于距离的新工具,而拓扑数据分析(Topological Data Analysis)则利用几何性质而非距离进行分析。理解基础方法能让学习这些新工具变得更容易,还能为比较新方法提供基准。
2. 网页抓取与NFL选秀联合数据可视化
要获取NFL选秀联合数据,可使用类似之前的网页抓取工具。注意URL代码中从“draft”到“combine”的变化,且数据需要清理,有时数据包含额外的标题,可通过移除值等于标题的行(如“Ht != ‘Ht’”)来处理。同时,身高(Ht)需要从英尺 - 英寸转换为英寸。
2.1 Python实现
import pandas as pd
import seaborn as sns
import matplotlib.pyplot as plt
combine_py = pd.DataFrame()
for i in range(2000, 2023 + 1):
url = (
"https://www.pro-football-reference.com/draft/" +
str(i) +
"-combine.htm"
)
web_data = pd.read_html(url)[
超级会员免费看
订阅专栏 解锁全文
15

被折叠的 条评论
为什么被折叠?



