Python数据分析中常用的语法要点及讲解

原创已于 2024-01-11 10:22:41 修改 · 186 阅读

0 ·

CC 4.0 BY-SA版权

文章标签：

#python #数据分析 #windows

于 2023-10-27 17:10:51 首次发布

本文详细介绍了Python数据分析中常用的关键语法和概念，包括导入模块、变量和数据结构、控制流、列表推导、函数、异常处理、文件操作、NumPy、pandasDataFrame、数据可视化以及机器学习相关库的使用。

Python数据分析中

常用的语法要点及讲解

导入包（Importing Libraries）

【是什么】

import 语句用于导入模块或包，使其功能和定义可以在当前代码中使用。

【为什么用】

实现Python代码重用，使数据分析人员编写的程序代码更加简明、易于维护。

【如何用】

使用import关键字和包名即可。例如，如果想使用 Pandas 包，可以如下导入：

import pandas as pd

注：可以用别名 pd 来缩短代码和提高可读性。

【注意事项】

当试图使用一个没有被导入的模块或包时，Python会抛出ModuleNotFoundError或ImportError。

变量赋值及定义（Variable Assignment）

【是什么】

用 = 符号将某个值赋给一个变量名。

【为什么用】

变量用于存储和管理数据，以便后续使用或操作。

【如何用】

例如，将整数 10 赋给变量 x 可以这样写：

x = 10

【注意事项】

如果试图访问一个没有赋值的变量，Python将会报一个NameError——NameError: name '变量名' is not defined。

for 循环（For Loops）

【是什么】

for 关键字用于在Python中创建循环。

【为什么用】

循环通常用于重复执行某个操作，例如遍历列表或执行一个代码块多次。

【如何用】

for i in range(5):

print(i)

注：打印出从0到4的整数。

【注意事项】

初学者有时会忘记Python索引从0开始，并错误地使用 range(1, 5) 以为会得到 [1, 2, 3, 4, 5]，但实际上是 [1, 2, 3, 4]。

if-elif-else条件语句(Conditional Statements)

【是什么】

if, elif, 和 else 用于基于特定条件执行代码。

【为什么用】

这些语句允许创建多条分支的逻辑，只有当特定条件满足时，相应的代码块才会执行。

【如何用】

if x > 10:

print("大于10")

elif x == 10:

print("等于10")

else:

print("小于10")

注：根据 x 的值打印相应的语句。

【注意事项】

初学者有时会因为不正确的缩进或条件设置而导致逻辑错误。例如，将 elif 和 else 的缩进设置错误，可能会导致这些部分的代码块永远不会执行。

列表推导式（List Comprehensions）

【是什么】

一种简洁而快速的方式来创建列表的方法。

【为什么用】

列表推导式提供了一种比传统 for 循环更加简洁的方式来创建列表。

【如何用】

squares = [x*x for x in range(5)]

注：创建一个包含 [0, 1, 4, 9, 16] 的列表。

【注意事项】

初学者有时会在复杂的逻辑中使用列表推导式，这会使代码难以阅读和维护。

函数自定义（Function Definitions）

【是什么】

用 def 关键字来定义一个函数。

【为什么用】

函数允许封装代码逻辑，使其可重用和更易于管理。

【如何用】

def square(x):

return x * x

注：该函数接受一个参数 x，并返回它的平方。

【注意事项】

初学者有时可能忘记包括 return 语句，导致函数返回 None。或者在函数体内部使用了全局变量，导致全局状态被不当地修改。

Lambda 函数（Lambda Functions）

【是什么】

一个创建匿名函数（没有名字的函数）的方式。

【为什么用】

Lambda 函数通常用于执行简单任务，尤其是当不想用 def 定义完整的函数时。

【如何用】

f = lambda x: x * x

注：创建了一个可以计算平方的 lambda 函数。

【注意事项】

初学者可能过度使用 lambda 函数，导致代码难以阅读和调试，尤其是当逻辑变得复杂时。

切片（Slicing）

【是什么】

用于从序列类型（如列表、元组、字符串）中提取子集。

【为什么用】

切片非常有助于数据清洗和预处理。

【如何用】

lst = [0, 1, 2, 3, 4]

sub_lst = lst[1:4]

注：创建一个新列表 sub_lst，包含 lst 中索引从 1 到 3 的元素。

【注意事项】

初学者可能会弄错索引的结束位置。在Python中，切片是左闭右开的，所以 lst[1:4] 实际上只会到索引为 3 的元素。

字典（Dictionaries）

【是什么】

字典是一个键-值对的集合。

【为什么用】

字典用于存储和检索键-值对，特别是当需要快速查找数据时。

【如何用】

my_dict = {'name': 'Alice', 'age': 30}

注：创建了一个包含名字和年龄的字典。

【注意事项】

初学者可能会使用不可哈希的对象作为字典的键，例如列表，这会导致运行时错误。

try-except 语句（Try-Except Blocks）

【是什么】

用于异常处理。

【为什么用】

当遇到可能出现错误或异常时，try-except 语句可以帮助优雅地处理这些情况，而不是让整个程序崩溃。

【如何用】

try:

result = 10 / 0

except ZeroDivisionError:

result = 'undefined'

注：由于试图除以零，代码会触发 ZeroDivisionError。except 块捕获这个异常，并将 result 设置为 'undefined'。

【注意事项】

初学者有时可能过度使用 try-except，或者在 except 块中使用过于宽泛的异常类型，这样可能会捕获到意料之外的异常，导致难以调试的问题。

引用外部模块中的特定函数或类

（From Import Statements）

【是什么】

用于从外部包中导入特定的函数或类。

【为什么用】

可以减少不必要的包加载，并使代码更简洁。

【如何用】

from math import sqrt

注：可以直接使用 sqrt() 函数，而不需要像 math.sqrt() 那样调用。

【注意事项】

初学者可能会误用通配符，例如 from math import *，这样会导入所有的函数和变量，但这通常是不推荐的，因为它可能导致名称冲突和不可预见的行为。

字符串格式化（String Formatting）

【是什么】

用于创建和组装字符串。

【为什么用】

字符串格式化能够轻松地插入变量或表达式的值到字符串中。

【如何用】

name = "Alice"

greeting = f"Hello, {name}"

注：创建一个字符串 greeting，其值为 "Hello, Alice"。

【注意事项】

初学者可能会混淆不同类型的字符串格式化，例如 % 格式化和 str.format()，或者不正确地使用转义字符。

类定义（Class Definitions）

【是什么】

用于定义一个新的类（数据结构）。

【为什么用】

类是面向对象编程的基础，用于创建具有特定属性和方法的对象。

【如何用】

class Person:

def __init__(self, name, age):

self.name = name

self.age = age

注：定义了一个具有 name 和 age 属性的 Person 类。

【注意事项】

初学者可能会忽略初始化方法 __init__，或者错误地添加或缺少 self 参数，导致运行时错误。

文件读写（File I/O）

【是什么】

用于读取或写入文件。

【为什么用】

文件操作是数据持久化和数据分析中常见的需求。

【如何用】

with open('file.txt', 'r') as f:

content = f.read()

注：打开名为 file.txt 的文件并读取其内容。

【注意事项】

初学者可能会忘记使用 with 语句，导致文件未正确关闭。或者在打开文件时使用错误的模式（如 'w' 而不是 'r'），导致数据丢失或覆盖。

函数参数（Function Arguments）

【是什么】

用于给函数传递信息。

【为什么用】

参数使函数更加灵活和可重用。

【如何用】

def greet(name, greeting='Hello'):

print(f"{greeting}, {name}")

注：该函数接受一个必须参数 name 和一个可选参数 greeting。

【注意事项】

初学者可能会混淆位置参数和关键字参数，或者在函数定义和函数调用时不匹配参数数量，导致错误。

NumPy 数组（NumPy Arrays）

【是什么】

多维数组对象。

【为什么用】

NumPy 数组是科学计算和数据分析中的核心数据结构。

【如何用】

import numpy as np

arr = np.array([1, 2, 3])

注：创建一个包含三个元素的一维数组。

【注意事项】

初学者可能会混淆Python原生的列表和NumPy数组，或者在不支持的数据类型之间进行操作，导致错误。

pandas DataFrame

【是什么】

二维标记数据结构。

【为什么用】

DataFrame 是数据分析和处理中最常用的数据结构之一。

【如何用】

import pandas as pd

df = pd.DataFrame({'A': [1, 2, 3], 'B': [4, 5, 6]})

注：创建一个包含两列和三行的DataFrame。

【注意事项】

初学者可能会在列选择或数据操作时使用错误的语法。例如，使用方括号而不是 .loc 或 .iloc，或者在没有排序的DataFrame上进行索引操作。

Matplotlib：数据可视化

【是什么】

Matplotlib 是一个数据可视化包。

【为什么用】

数据可视化有助于更好地理解和解释数据。

【如何用】

import matplotlib.pyplot as plt

plt.plot([1, 2, 3], [1, 4, 9])

plt.show()

注：绘制一个简单的折线图。

【注意事项】

初学者可能会忘记调用 plt.show()，导致图像不显示。或者使用不恰当的图形类型来表示数据。

scikit-learn（sklearn）：机器学习

【是什么】

scikit-learn 是一个用于数据挖掘和数据分析的机器学习包。

【为什么用】

用于构建和评估复杂的数据模型。

【如何用】

from sklearn.linear_model import LinearRegression

X = [[1], [2], [3]]

y = [1, 2, 3]

model = LinearRegression().fit(X, y)

注：使用线性回归模型对数据进行拟合。

【注意事项】

初学者可能会在没有进行数据预处理（如标准化或归一化）的情况下直接应用模型，导致模型性能不佳。

statsmodels：统计和经济学模型

【是什么】

statsmodels 是用于估计和检验统计模型的包。

【为什么用】

常用于更为正式的统计分析和假设检验。

【如何用】

import statsmodels.api as sm

X = [[1], [2], [3]]

y = [1, 2, 3]

X = sm.add_constant(X)

model = sm.OLS(y, X).fit()

注：使用普通最小二乘法（OLS）进行线性回归分析。

【注意事项】

初学者可能会忽略添加常数项（即截距），或者在没有充分理解模型假设的情况下应用模型。

关于Python技术储备

学好 Python 不论是就业还是做副业赚钱都不错，但要学会 Python 还是要有一个学习规划。最后大家分享一份全套的 Python 学习资料，给那些想学习 Python 的小伙伴们一点帮助！

一、Python所有方向的学习路线

Python所有方向的技术点做的整理，形成各个领域的知识点汇总，它的用处就在于，你可以按照上面的知识点去找对应的学习资源，保证自己学得较为全面。

在这里插入图片描述

二、Python必备开发工具

三、Python视频合集

观看零基础学习视频，看视频学习是最快捷也是最有效果的方式，跟着视频中老师的思路，从基础到深入，还是很容易入门的。

四、实战案例

光学理论是没用的，要学会跟着一起敲，要动手实操，才能将自己的所学运用到实际当中去，这时候可以搞点实战案例来学习。

五、Python练习题

检查学习结果。

六、面试资料

我们学习Python必然是为了找到高薪的工作，下面这些面试题是来自阿里、腾讯、字节等一线互联网大厂最新的面试资料，并且有阿里大佬给出了权威的解答，刷完这一套面试资料相信大家都能找到满意的工作。

最后祝大家天天进步！！

上面这份完整版的Python全套学习资料已经上传至优快云官方，朋友如果需要可以直接微信扫描下方优快云官方认证二维码免费领取【保证100%免费】。