python数据挖掘学习笔记

本文介绍了Python数据挖掘的基础知识,包括Python语法基础、网络爬虫的原理与应用、正则表达式及其在数据筛选中的作用,以及使用re模块进行正则匹配。还提到了正则表达式的贪婪匹配和分组功能,以及正则在数据验证中的局限性。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

python数据挖掘学习笔记

1.python基础知识;
2.python爬虫技术;
3.python数据分析与数据挖掘。

1.python基础
1.输出 print()
2.注释
1.单行注释#
2.多行注释’’’
3.变量
例:a = 5
python中由于没有显示的规定死a的变量类型
所以在a=5之后,
再a = “hello world”
同样可以正确运行

4.数据类型
	数、字符串、列表(list、元祖(tuple、集合(set、字典(dictionary

	1.列表[]:abc=["you","me"]
	abc->列表abc里面的全部内容;
	abc[0]->you
	同时,列表里面的数据类型可以多种多样的组合
	如abc = ["you",11,14.22]
	同时列表里面的内容支持修改。

	2.元祖():cde = ("you",12,111.1)
	访问的时候同样用[]:cde[1]
	元祖里面的内容不支持修改,常量!!!final


	3.集合
		可以联想数学中的集合,一个数字最多只会保存一次。
		例子:  >>> a = "adfagfjagpijg"
				>>> b = "dfjaifjierjjo"
				>>> sa = set(a)
				>>> sb = set(b)
				>>> sa
				{'p', 'i', 'g', 'd', 'j', 'a', 'f'}
				>>> sb
				{'o', 'i', 'r', 'd', 'j', 'e', 'a', 'f'}
				>>> sa&sb
				{'i', 'd', 'j', 'a', 'f'}
				>>> 

		&求交集,|求并集。

	4.集合{} 
		内部存储是键值对key-value
		{key1:value1,key2:vlaue2}

		>>> a = {"11":11,"name":"hh"}
		>>> a
		{'11': 11, 'name': 'hh'}
		>>> a["name"]
		'hh'
		>>> 

注意:python是一门强制缩进的语言

	分支:if():
		  elif():
		  else:
	循环:while():

		for i in a:
			print(i)

	range(0,10):从0开始到9,左闭右开。


	中断结构:
		break,continue
		
	print(i,end=""):控制不换行

5.函数def func():

6.模块:
	多种功能函数组合在一起,形成模块。
	系统中自带的模块在安装目录的lib目录中。
	导入模块

>>> import urllib
>>> from urllib.request import urlopen
>>> data1=urllib.request.urlopen("http://www.baidu.com").read()
>>> print(data1)

>>> print(len(data1))
153494
>>> 

	总结,也就是每次定位,需要定位到具体的一个py文件
	或者py文件中的具体函数
	只定位到urllib是不行的。

7.文件的操作。
	python进行文件的打开、关闭、读取、写入
	python可以合并多个Excel表的内容
	通过句柄来控制。
	1.打开文件:open(“文件路径”,"文件操作方式"):文件的创建并打开。
	fh=open("D:/pytest/file1.txt","w")
	
	
	2.文件的写入和关闭
	>>> fh=open("D:/pytest/file1.txt","w")
	>>> context="我是文件的内容"
	>>> fh.write(context)
	7
	>>> fh.close()

	3.文件的读取:
	>>> fh=open("D:/pytest/file1.txt","r")
	>>> data=fh.read()
	>>> print(data)
	asdfjfojajfjaffdsafdsafdaskfdsaf
	>>> line=fh.readline()
	>>> print(line)

	>>> fh.read()
	''
	>>> print(data)
	asdfjfojajfjaffdsafdsafdaskfdsaf


8.python的异常处理
	python程序在执行的时候,经常会遇到异常,
	如果中间异常不处理,经常会导致程序崩溃。
	比如后面我们写爬虫的时候,如果不进行异常处理,
	很可能虫怕了一半,直接崩溃了。

	异常处理实战
	try:
		...
	except Exception as err:
		print(err)

	比如在for循环中,某一次循环出现异常,
	可以在except块中,设置i+1,直接开始下一轮操作。
	这是一种处理异常的操作。

	而且有了异常处理部分,即使程序出现异常
	程序也不会崩溃,而是继续运行下去。

!!!调试:
可以自己采用二分法设置断点,快速找bug

网络爬虫:
就是自动从互联网中定向或不定向地采集信息的一种程序。
常用的有通用网络爬虫、聚焦网络爬虫

爬虫经常用在:
1.搜索引擎;
2.采集金融数据;
3.采集商品数据;
4.自动过滤广告;
5.采集竞争对手的客户数据;
6.采集行业相关数据,进行数据分析。

正则表达式:
正则表达式是进行数据筛选的一种表达式。

1.原子:
原子是正则表达式中最基本的组成单位,
每个正则表达式中至少要有一个原子。
常见的原子类型:
	1.普通字符作为原子;
	>>> import re
	>>> pat="yue"
	>>> string="http://yum.iqianyue.com"
	>>>
Python数据挖掘学习笔记主要包括以下几个方面的内容:Python基础知识、Python爬虫技术、Python数据分析与数据挖掘。其中,Python基础知识部分介绍了Python编程语言的基本语法、数据类型、流程控制等内容,为数据挖掘的学习打下了基础。Python爬虫技术部分介绍了如何使用Python编写爬虫程序,从网页中获取所需数据。Python数据分析与数据挖掘部分则介绍了使用Python进行数据分析和数据挖掘的相关技术和工具。 在Python数据挖掘中,还涉及到一些扩展库的使用,可以使用pip或apt-get进行安装,例如numpy库可以使用命令"sudo pip install numpy"或"sudo apt-get install python-numpy"进行安装。 另外,Matplotlib是Python中最常用的绘图库之一,主要用于绘制二维图形,也可以绘制简单的三维图形。下面是一个使用Matplotlib进行简单绘图的示例代码: ```python import numpy as np import matplotlib.pyplot as plt x = np.linspace(0, 10, 1000) y = np.sin(x) z = np.cos(x ** 2) plt.figure(figsize=(8, 4)) plt.plot(x, y, label='$\sin x$', color='red', linewidth=2) plt.plot(x, z, 'b--', label='$\cos x^2$') plt.xlabel('Time(s)') plt.ylabel('Volt') plt.title('A Simple Example') plt.ylim(0, 2.2) plt.legend() plt.show() ``` 这段代码使用了numpy库生成了一组x轴的数据,然后分别计算了对应的y轴和z轴的数值。接下来使用Matplotlib进行绘图,其中plt.plot函数用于绘制曲线,plt.xlabel和plt.ylabel分别设置x轴和y轴的标签,plt.title设置图的标题,plt.ylim设置y轴的范围,plt.legend用于显示图例,plt.show用于显示图形。 通过学习这些内容,你可以掌握Python数据挖掘的基本知识和常用技术,为进一步的学习和实践打下坚实的基础。<span class="em">1</span><span class="em">2</span><span class="em">3</span> #### 引用[.reference_title] - *1* [python数据挖掘学习笔记](https://blog.youkuaiyun.com/yinghuoai/article/details/88392141)[target="_blank" data-report-click={"spm":"1018.2226.3001.9630","extra":{"utm_source":"vip_chatgpt_common_search_pc_result","utm_medium":"distribute.pc_search_result.none-task-cask-2~all~insert_cask~default-1-null.142^v93^chatsearchT3_1"}}] [.reference_item style="max-width: 50%"] - *2* *3* [python数据挖掘笔记](https://blog.youkuaiyun.com/djm82755/article/details/101452842)[target="_blank" data-report-click={"spm":"1018.2226.3001.9630","extra":{"utm_source":"vip_chatgpt_common_search_pc_result","utm_medium":"distribute.pc_search_result.none-task-cask-2~all~insert_cask~default-1-null.142^v93^chatsearchT3_1"}}] [.reference_item style="max-width: 50%"] [ .reference_list ]
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值