python数据挖掘学习笔记
1.python基础知识;
2.python爬虫技术;
3.python数据分析与数据挖掘。
1.python基础
1.输出 print()
2.注释
1.单行注释#
2.多行注释’’’
3.变量
例:a = 5
python中由于没有显示的规定死a的变量类型
所以在a=5之后,
再a = “hello world”
同样可以正确运行
4.数据类型
数、字符串、列表(list、元祖(tuple、集合(set、字典(dictionary
1.列表[]:abc=["you","me"]
abc->列表abc里面的全部内容;
abc[0]->you
同时,列表里面的数据类型可以多种多样的组合
如abc = ["you",11,14.22]
同时列表里面的内容支持修改。
2.元祖():cde = ("you",12,111.1)
访问的时候同样用[]:cde[1]
元祖里面的内容不支持修改,常量!!!final
3.集合
可以联想数学中的集合,一个数字最多只会保存一次。
例子: >>> a = "adfagfjagpijg"
>>> b = "dfjaifjierjjo"
>>> sa = set(a)
>>> sb = set(b)
>>> sa
{'p', 'i', 'g', 'd', 'j', 'a', 'f'}
>>> sb
{'o', 'i', 'r', 'd', 'j', 'e', 'a', 'f'}
>>> sa&sb
{'i', 'd', 'j', 'a', 'f'}
>>>
&求交集,|求并集。
4.集合{}
内部存储是键值对key-value
{key1:value1,key2:vlaue2}
>>> a = {"11":11,"name":"hh"}
>>> a
{'11': 11, 'name': 'hh'}
>>> a["name"]
'hh'
>>>
注意:python是一门强制缩进的语言
分支:if():
elif():
else:
循环:while():
for i in a:
print(i)
range(0,10):从0开始到9,左闭右开。
中断结构:
break,continue
print(i,end=""):控制不换行
5.函数def func():
6.模块:
多种功能函数组合在一起,形成模块。
系统中自带的模块在安装目录的lib目录中。
导入模块
>>> import urllib
>>> from urllib.request import urlopen
>>> data1=urllib.request.urlopen("http://www.baidu.com").read()
>>> print(data1)
>>> print(len(data1))
153494
>>>
总结,也就是每次定位,需要定位到具体的一个py文件
或者py文件中的具体函数
只定位到urllib是不行的。
7.文件的操作。
python进行文件的打开、关闭、读取、写入
python可以合并多个Excel表的内容
通过句柄来控制。
1.打开文件:open(“文件路径”,"文件操作方式"):文件的创建并打开。
fh=open("D:/pytest/file1.txt","w")
2.文件的写入和关闭
>>> fh=open("D:/pytest/file1.txt","w")
>>> context="我是文件的内容"
>>> fh.write(context)
7
>>> fh.close()
3.文件的读取:
>>> fh=open("D:/pytest/file1.txt","r")
>>> data=fh.read()
>>> print(data)
asdfjfojajfjaffdsafdsafdaskfdsaf
>>> line=fh.readline()
>>> print(line)
>>> fh.read()
''
>>> print(data)
asdfjfojajfjaffdsafdsafdaskfdsaf
8.python的异常处理
python程序在执行的时候,经常会遇到异常,
如果中间异常不处理,经常会导致程序崩溃。
比如后面我们写爬虫的时候,如果不进行异常处理,
很可能虫怕了一半,直接崩溃了。
异常处理实战
try:
...
except Exception as err:
print(err)
比如在for循环中,某一次循环出现异常,
可以在except块中,设置i+1,直接开始下一轮操作。
这是一种处理异常的操作。
而且有了异常处理部分,即使程序出现异常
程序也不会崩溃,而是继续运行下去。
!!!调试:
可以自己采用二分法设置断点,快速找bug
网络爬虫:
就是自动从互联网中定向或不定向地采集信息的一种程序。
常用的有通用网络爬虫、聚焦网络爬虫
爬虫经常用在:
1.搜索引擎;
2.采集金融数据;
3.采集商品数据;
4.自动过滤广告;
5.采集竞争对手的客户数据;
6.采集行业相关数据,进行数据分析。
正则表达式:
正则表达式是进行数据筛选的一种表达式。
1.原子:
原子是正则表达式中最基本的组成单位,
每个正则表达式中至少要有一个原子。
常见的原子类型:
1.普通字符作为原子;
>>> import re
>>> pat="yue"
>>> string="http://yum.iqianyue.com"
>>>