
Python学习笔记
文章平均质量分 79
个人学习笔记
onlywishes
我不知道路途的前方究竟有什么,但还是迈出了步伐,我们仍在旅途之中。
展开
-
jieba库和wordcloud库
jieba 库1、jieba(“结巴”)是Python中一个重要的第三方中文分词函数库,能够将一段中文文本分割成中文词语的序列。jieba()库安装指令:pip3 install jieba2、jieba库的分词原理是利用一个中文词库,将待分词的内容与分词词库进行比对,通过图结构和动态规划方法找到最大概率的词组。除了分词jieba还提供增加自定义中文单词的功能。3、jieba库支持三种分词模式:精确模式,将句子最精确地切开,适合文本分析;全模式,把句子中所有可以成词的词语都扫...原创 2022-01-14 21:52:46 · 4281 阅读 · 0 评论 -
数据的格式化
1.一维数据的存储1、一维数据是最简单的数据组织类型,由于是线性结构,在Python语言中主要采用列表形式表示。一维数据的文件存储有多种方式,总体思路是采用特殊字符分隔各数据。常用存储方法包括4种。 (1)采用空格分隔元素,例如: 李信 赵云 韩信 李白(2)采用逗号分隔元素,例如: 李信,赵云,韩信,李白(3)采用换行分隔包括,例如: 李信赵云韩信...原创 2022-01-13 21:05:40 · 1775 阅读 · 0 评论 -
Python爬虫third day之正则表达式
正则表达式的简单使用在下面附上详细用法操作符 说明 举例 . 表示任何单个字符 [ ] 字符集,对单个字符给出取值范围 abc 表示a b c a-z 表示a到z单个字符 [^ ] 非字符集,对单个字符给出排除范围 ^abc 表示非a或b或c的单个字符 * 前一个字符o次或无限次扩展 abc*表示ab abc abcc abccc等 + 前一个字符1次或无限次扩展 abc+表示abc abcc abcc..原创 2022-01-05 23:30:46 · 791 阅读 · 0 评论 -
Python爬虫之”靓汤“(beautiful soup)
Beautiful Soup自动将输入文档转换为Unicode编码,输出文档转换为utf-8编码。BeautifulSoup4将复杂HTML文档转换成一个复杂的树形结构,每个节点都是Python对象,所有对象可以归纳为4种:beautiful soup简单使用from bs4 import BeautifulSoupfile = open("./baidu.html","rb")html = file.read().decode("utf-8")bs = BeautifulSou.原创 2022-01-04 21:16:52 · 831 阅读 · 0 评论 -
Python爬虫first day之urllib库
urllib库的认识1.urllib.request——请求模块1.1 urlopenurlopen是urllib.request模块提供的最基本的构造HTTP请求的方法,可以模拟浏览器的一个请求发起过程1.1.1 获取一个get请求import urllib.request#获取一个get请求response = urllib.request.urlopen("http://www.baidu.com")print(response.read().decode("utf-..原创 2022-01-03 23:57:58 · 200 阅读 · 0 评论 -
python学习forth day之不求甚解
事情多今天只看了文件文件的使用文件是存储在辅助存储器上的一组数据序列,可以包含任何数据内容。文件包括文本文件和二进制文件两种类型。1.文件类型1、 文本文件一般由单一特定编码的字符组成,如 UTF-8编码,内容容易统一展示和阅读。 2、 二进制文件直接由比特0和比特1组成,文件内部数据的组织格式与文件用途有关。二进制是信息 按照非字符但特定格式形成的文件,例如,png 格式的图片文件、avi格式的视频文件3、二进制文件和文本文件最主要的区别在于是否有统一的字符编码。4、无论文原创 2022-01-02 23:20:09 · 442 阅读 · 0 评论 -
python学习third day之不求甚解
今天的内容主要是昨天的一些未完成练习1.如何将8个字母随机分配到三个房间里import randomoffices=[[],[],[]]names=["A","B","C","D","E","F","G","H"]for name in names : index = random.randint(0,2) offices[index].append(name)i=1for office in offices : print("办公室%d的人数为:%d"%(i原创 2022-01-01 21:18:43 · 293 阅读 · 0 评论 -
Python学习second day之不求甚解
1.字符串2.列表3.元组4.字典5.集合1.字符串用一对双引号(" ")或一对单引号(' ')括起来。多行字符串用三对双引号(""" """)或者三对单引号(''' ''')表示.注:英文字符和中文字符都记作一个字符,长度为1字符串的索引与切片 反斜杠( \ )是一个表示转义的字符,\n 表示换行、\\表示反斜杠、\'表示单引号字符、\t表示制表符。在输出时在字符前面加上字符 r 会把里面的内容都输出。如...原创 2021-12-31 23:01:26 · 291 阅读 · 0 评论 -
python学习first day之不求甚解
基本的输入输出函数input()函数 print()函数 eval()函数input()函数 : 无论输入什么内容,都会以字符串类型返回结果.print()函数既可以打印输出一个字符串,也可以打印输出变量对应的值。打印输出时会在最后默认增加一个换行,如果需要更改结尾,可对end参数进行修改。即print(<待输出内容>,end="<增加输出结尾>")对end进行修改...原创 2021-12-30 21:20:28 · 414 阅读 · 0 评论