数据准备与探索:从格式到分析的全面指南
在数据处理和分析的领域中,数据的准备和探索是至关重要的步骤。本文将详细介绍数据的不同格式、来源,以及如何进行初步的数据分析。
1. 数据格式
1.1 XML
XML 是一种常用的数据格式,可使用 R 中的 XML
和 plyr
包将其转换为数据框。以下是一个示例:
library(XML)
library(plyr)
xml:data <-xmlToList("marathon.xml")
#Excluding "description" from print
ldply(xml:data, function(x) { data.frame(x[!names(x)=="description"]) } )
输出结果如下:
|.id | name | age | awards | titles |
| — | — | — | — | — |
| athletes | Mike | 25 | \n Two times world champion. Currently, worlds No. 3\n | 6 |
| athletes | Usain | 29 | \n Five times world champion. Currently, worlds No. 1\n | 17 |
1.2 HTML
HTML 用于创建网页,结合 CSS 可生成漂亮的静态网页,再嵌入 JavaScr