制作错误集合真的很重要!现在才慢慢看懂pythonshell是怎么报错的。总结方法:
- l 语法错!还好IDLE定位准确,python语法结构清晰(严格使用换行、缩进、冒号表示代码的层次与嵌套。你说c类语言的花括号完全可以去掉嘛)。易于排查
- l 一旦看不懂错误代码,马上百度之。
- l 在爬虫期间常与http协议的错误打交道,常常是打不开网页,由urlopen()函数抛出错误,HTTP Error ,比如404、403等,以4、5开头。
- l 在抓取网页、清洗文本时,折腾了编码半天。笨笨的ascii编码器老是不会识别要写入文件的流中的某某字节。于是懂得了要用chardet、decode()、encode()。要r’’才能保全字符串,否则有\或者有数字,容易被转义。
- l 在文本挖掘期间,错误为文件操作。多为windows的错误,想到os课上学到,操作系统有文件管理的功能
- n 记得及时file.close()每一个open()的文件!否则,忘了的话,轻则在shell中人工输入命令行file.close(),重则丢失该文件的数据!未关就write(),会读写冲突,所以才丢失数据?