1.机器学习的一般流程与Numpy安装
numpy库:用于高性能科学计算和数据分析,是常用的高级数据分析库的基础包。
pip3 install numpy
解决no module named 'numpy':
第一种方式在venv里面将numpy安装一遍。
第二种方式使用系统的python程序,获取python位置which python3,pycharm-file-default settings-project interpreter-setting-add-system interpreter-粘贴确定,
run-edit configurations-python interpreter-选择系统的解释器。
2.Numpy的数组与数据类型
import numpy as np
arr1 = np.array([2, 3, 4]) #列表经过numpy封装,效率远远高于python的列表
print(arr1)
print(arr1.dtype)
arr2 = np.array([1.2, 2.3, 3.4])
print(arr2)
print(arr2.dtype)
print(arr1 + arr2) #实现列表累加
3.numpy数组和标量的计算
print(arr2 * 10) #数组直接与标量相乘
data = [[1, 2, 3], [2, 3, 4]]
arr3 = np.array(data) #将data转化为二位矩阵
print(arr3)
print(arr3.dtype)
print(np.zeros(10)) #定义一维数组,全都是0,长度10
print(np.zeros((3,5))) #定义二维数组
print(np.ones((4,6))) #定义二维数组,全都是1
print(np.empty((2, 3, 2))) #定义多维空矩阵,打印出来实际上是有值得,因为矩阵完全设为空值,对于矩阵运算是不安全的,会填充随机的值
4.numpy数组的索引和切片
arr4 = np.arange(10)
print(arr4)
print(arr4[5:8]) #切片操作
arr4[5:8] = 10 #切片赋值
print(arr4)
arr_slice = arr4[5:8].copy() #切片副本操作
arr_slice[:] = 15 #全部赋值为15
print(arr_slice)
print(arr4)
5.Pandas安装与Series结构
Pandas库:数据预处理和数据清洗。
pip3 install pandas
from pandas import Series,DataFrame
import pandas as pd
pandas自动或自定义进行数据对齐,灵活处理缺失数据,进行连接操作。
obj = Series([4, 5, 6, -7]) #用Series创建一维数组
print(obj) #对numpy.array进行封装,自动添加索引,使用索引方便的访问到相应数据
print(obj.index) #取出索引
print(obj.values) #取出值
#字典当中的key不能重复,key进行哈希映射
#{'a':1, 'b':2, 'c':3}
#a-> aasd2345
#b-> asdegt35
#c-> dfgbuyt21
#新添加元素哈希相同,value会进行覆盖