python数据挖掘学习笔记

最新推荐文章于 2024-07-30 13:41:33 发布

Jerry Lee の blog

最新推荐文章于 2024-07-30 13:41:33 发布

阅读量737

点赞数 2

CC 4.0 BY-SA版权

分类专栏：复试

本文链接：https://blog.youkuaiyun.com/yinghuoai/article/details/88392141

本文介绍了Python数据挖掘的基础知识，包括Python语法基础、网络爬虫的原理与应用、正则表达式及其在数据筛选中的作用，以及使用re模块进行正则匹配。还提到了正则表达式的贪婪匹配和分组功能，以及正则在数据验证中的局限性。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

python数据挖掘学习笔记

1.python基础知识；
2.python爬虫技术；
3.python数据分析与数据挖掘。

1.python基础
1.输出 print()
2.注释
1.单行注释#
2.多行注释’’’
3.变量
例：a = 5
python中由于没有显示的规定死a的变量类型
所以在a=5之后，
再a = “hello world”
同样可以正确运行

4.数据类型
	数、字符串、列表（list、元祖（tuple、集合（set、字典（dictionary

	1.列表[]:abc=["you","me"]
	abc->列表abc里面的全部内容；
	abc[0]->you
	同时，列表里面的数据类型可以多种多样的组合
	如abc = ["you",11,14.22]
	同时列表里面的内容支持修改。

	2.元祖():cde = ("you",12,111.1)
	访问的时候同样用[]:cde[1]
	元祖里面的内容不支持修改，常量！！！final


	3.集合
		可以联想数学中的集合，一个数字最多只会保存一次。
		例子：  >>> a = "adfagfjagpijg"
				>>> b = "dfjaifjierjjo"
				>>> sa = set(a)
				>>> sb = set(b)
				>>> sa
				{'p', 'i', 'g', 'd', 'j', 'a', 'f'}
				>>> sb
				{'o', 'i', 'r', 'd', 'j', 'e', 'a', 'f'}
				>>> sa&sb
				{'i', 'd', 'j', 'a', 'f'}
				>>> 

		&求交集，|求并集。

	4.集合{} 
		内部存储是键值对key-value
		{key1:value1,key2:vlaue2}

		>>> a = {"11":11,"name":"hh"}
		>>> a
		{'11': 11, 'name': 'hh'}
		>>> a["name"]
		'hh'
		>>> 

注意：python是一门强制缩进的语言

	分支：if():
		  elif():
		  else:
	循环：while():

		for i in a:
			print(i)

	range(0,10):从0开始到9，左闭右开。


	中断结构:
		break，continue
		
	print(i,end=""):控制不换行

5.函数def func():

6.模块：
	多种功能函数组合在一起，形成模块。
	系统中自带的模块在安装目录的lib目录中。
	导入模块

>>> import urllib
>>> from urllib.request import urlopen
>>> data1=urllib.request.urlopen("http://www.baidu.com").read()
>>> print(data1)

>>> print(len(data1))
153494
>>> 

	总结，也就是每次定位，需要定位到具体的一个py文件
	或者py文件中的具体函数
	只定位到urllib是不行的。

7.文件的操作。
	python进行文件的打开、关闭、读取、写入
	python可以合并多个Excel表的内容
	通过句柄来控制。
	1.打开文件：open(“文件路径”,"文件操作方式")：文件的创建并打开。
	fh=open("D:/pytest/file1.txt","w")
	
	
	2.文件的写入和关闭
	>>> fh=open("D:/pytest/file1.txt","w")
	>>> context="我是文件的内容"
	>>> fh.write(context)
	7
	>>> fh.close()

	3.文件的读取：
	>>> fh=open("D:/pytest/file1.txt","r")
	>>> data=fh.read()
	>>> print(data)
	asdfjfojajfjaffdsafdsafdaskfdsaf
	>>> line=fh.readline()
	>>> print(line)

	>>> fh.read()
	''
	>>> print(data)
	asdfjfojajfjaffdsafdsafdaskfdsaf


8.python的异常处理
	python程序在执行的时候，经常会遇到异常，
	如果中间异常不处理，经常会导致程序崩溃。
	比如后面我们写爬虫的时候，如果不进行异常处理，
	很可能虫怕了一半，直接崩溃了。

	异常处理实战
	try:
		...
	except Exception as err:
		print(err)

	比如在for循环中，某一次循环出现异常，
	可以在except块中，设置i+1，直接开始下一轮操作。
	这是一种处理异常的操作。

	而且有了异常处理部分，即使程序出现异常
	程序也不会崩溃，而是继续运行下去。

！！！调试：
可以自己采用二分法设置断点，快速找bug

网络爬虫：
就是自动从互联网中定向或不定向地采集信息的一种程序。
常用的有通用网络爬虫、聚焦网络爬虫

爬虫经常用在：
1.搜索引擎；
2.采集金融数据；
3.采集商品数据；
4.自动过滤广告；
5.采集竞争对手的客户数据；
6.采集行业相关数据，进行数据分析。

正则表达式：
正则表达式是进行数据筛选的一种表达式。

1.原子：
原子是正则表达式中最基本的组成单位，
每个正则表达式中至少要有一个原子。
常见的原子类型：
	1.普通字符作为原子；
	>>> import re
	>>> pat="yue"
	>>> string="http://yum.iqianyue.com"
	>>>

最低0.47元/天解锁文章

200万优质内容无限畅学