网络爬虫、Pandas

最新推荐文章于 2023-09-23 09:44:08 发布

原创最新推荐文章于 2023-09-23 09:44:08 发布 · 222 阅读

0 ·

CC 4.0 BY-SA版权

文章标签：

#爬虫 #python #机器学习

本文介绍了如何使用Pandas库中的DataFrame方法，通过不同类型的数据如列表、ndarrays和字典创建数据表格，包括设置索引、列标签和数据类型。实例演示了如何使用loc属性按行获取数据。

DataFrame 构造方法如下：

pandas.DataFrame( data, index, columns, dtype, copy)
参数说明：

data：一组数据(ndarray、series, map, lists, dict 等类型)。

index：索引值，或者可以称为行标签。

columns：列标签，默认为 RangeIndex (0, 1, 2, …, n) 。

dtype：数据类型。

copy：拷贝数据，默认为 False。

Pandas DataFrame 是一个二维的数组结构，类似二维数组。
实例 - 使用列表创建

import pandas as pd

data = [['Google',10],['Runoob',12],['Wiki',13]]

df = pd.DataFrame(data,columns=['Site','Age'],dtype=float)

print(df)
以下实例使用 ndarrays 创建，ndarray 的长度必须相同，如果传递了 index，则索引的长度应等于数组的长度。如果没有传递索引，则默认情况下，索引将是range(n)，其中n是数组长度。

ndarrays 可以参考：NumPy Ndarray 对象

实例 - 使用 ndarrays 创建

import pandas as pd

data = {'Site':['Google', 'Runoob', 'Wiki'], 'Age':[10, 12, 13]}

df = pd.DataFrame(data)

print (df)
还可以使用字典（key/value），其中字典的 key 为列名:

实例 - 使用字典创建
import pandas as pd

data = [{'a': 1, 'b': 2},{'a': 5, 'b': 10, 'c': 20}]

df = pd.DataFrame(data)

print (df)
没有对应的部分数据为 NaN。

Pandas 可以使用 loc 属性返回指定行的数据，如果没有设置索引，第一行索引为 0，第二行索引为 1，以此类推：

实例
import pandas as pd

data = {

"calories": [420, 380, 390],

"duration": [50, 40, 45]

}

# 数据载入到 DataFrame 对象

df = pd.DataFrame(data)

# 返回第一行

print(df.loc[0])

# 返回第二行

print(df.loc[1])