- 博客(16)
- 收藏
- 关注
原创 python脚本判断文件字符集参数的选择
常常在处理文件时,会出现错误如下:UnicodeDecodeError: 'utf-8' codec can't decode byte 0xea in position 626: illegal multibyte sequence或者其它数据编码出现的报错,比如:UnicodeDecodeError: 'gb2312' codec can't decode byte 0xea ...
2019-04-23 16:21:36
580
原创 正则表达式汇总(笔记)
正则表达式的用途场景有搜索和替换。正则表达式是一些用来匹配和处理文本的字符串。清单如下:*本文不限语言,各编译语言略有差异。单个字符列表 .(英文句号) 可以匹配任何一个单一的字符 \ 元字符。表示“这个字符由特殊含义,而不是字符本身含义”。举例(\.对.进行转义,表示.本身) - (连字符)在字符集合之内,作为一个特殊的元字符。字符集合之外,是一个普通字符,等于...
2019-04-22 15:57:15
229
原创 scala报错:java.lang.UnsupportedOperationException: empty.max
println(it.max)println(it.max)在scala编程的时候,遇到如上问题,报错为:java.lang.UnsupportedOperationException: empty.max查阅得知,scala使用Iterator的min和max方法时,迭代器遍历查到到最大和最小元素,但是同一个迭代器只能使用一次,所以当第二次调用同一个方法的时候(或连续调用max...
2018-11-29 16:10:45
4607
转载 转载:hive 的四种排序
原文章地址:https://blog.youkuaiyun.com/do_what_you_can_do/article/details/53192071对自己目前学习很有帮助的内容order byorder by 会对输入做全局排序,因此只有一个reducer(多个reducer无法保证全局有序)只有一个reducer,会导致当输入规模较大时,需要较长的计算时间。set hive.mapre...
2018-07-31 16:39:24
543
原创 python 的venv使用注意事项
在Windows下运行python的venv环境,必须事先安装好python环境。没有安装的话,激活venv(venv\Scripts\activate)没有问题,但是没法运行python文件。 python3.5下编译的venv可以运行在python2.7的环境。 从其它地方拷贝过来的工程因为工程路径发生改变,需要做修改,需要修改venv\Scripts下的Activate和activa...
2018-07-29 13:02:00
11836
原创 hadoop :1130-host ... is not allowed to connect to this MySql server
windows 使用 Navicat for MySql查看Hive数据时无法连接这是由于mysql数据库的进入mysql:mysql -uroot -proot执行命令:#( *.*:所有库下的所有表 %:任何IP地址或主机都可以连接)mysql>GRANT ALL PRIVILEGES ON *.* TO 'root'@'%' IDENTIFIED BY...
2018-07-26 10:09:21
291
原创 Hadoop下的mysql rpm版安装
hadoop 2.6.4 ,系统是centos 6.4首先查看系统位数是32位还是64位:(位数没确定好,后面都是白费)getconf LONG_BIT然后下载对应的mysql版本号:官网下载进入后下拉>选择版本、系统、位数,下载:下载后>放到自己想放的位置。 [hadoop@hadoop mysql]$ ll总用量 22696-rw-rw-r-- ...
2018-07-26 09:39:19
205
原创 hadoop 启动hive报错:Found class jline.Terminal, but interface was expected
报错截图如下:java.lang.IncompatibleClassChangeError: Found class jline.Terminal, but interface was expected at jline.TerminalFactory.create(TerminalFactory.java:101) at jline.TerminalFact...
2018-07-26 09:18:13
292
原创 Hadoopb 设置时间同步报错:name server cannot be used, reason: Temporary failure in name resolution
当我在Hadoop2.6.4集群上设置时间同步是,发生了以下错误:输入为:# /usr/sbin/ntpdate cn.pool.ntp.org错误为:name server cannot be used, reason: Temporary failure in name resolution解决办法:# sudo vi /etc/resolv.conf ...
2018-07-23 17:38:00
4153
原创 hadoop报错:org.apache.hadoop.yarn.exceptions.YarnException: Unauthorized request to start container.
当我在hadoop2.6.4上运行MR程序时,发生了如下错误:org.apache.hadoop.yarn.exceptions.YarnException: Unauthorized request to start container.内容:18/07/23 10:49:30 INFO mapreduce.Job: Task Id : attempt_1532301779475_...
2018-07-23 11:33:28
2690
原创 Python 爬虫 Urllib2库的变更
urllib2 的一些函数在更新之后,调用发生了变化,改为放入到urllib.request的子库当中:Previous Replacement Urllib2.Urlopen() urllib.request.urlopen() Urllib2.Request() urllib.request.Request() ...
2018-07-21 15:47:55
172
原创 python-Pandas sorting API更新
当阅读《利用Python进行数据分析》,原书中sort API的调用,因为Python3的缘故发生了更改:查阅官方文档: The API of sorting is changed, things becaome cleaner and more pleasant. To sort by the values, both Series.sort() and Seri...
2018-07-21 15:40:00
160
原创 Python pandas.io.data 模块迁移
The pandas.io.data module is moved to a separate package.As follow:old:import pandas.io.datanew:import pandas_datareader.data as web
2018-07-21 15:30:56
422
转载 Python包的相对导入时出现错误的解决方法
在练习Python中package的相对导入时,即from . import XXX 或者 from .. import XXX 时会遇到这样两个错误:SystemError: Parent module ''not loaded, cannot perform relative import 和ValueError: attempted relative i...
2018-07-21 15:19:44
4061
1
原创 python2.7 报错 Input 'split_dim' of 'Split' Op has type float32 that does not match expected type of
原因分析:Tensorflow更新后,tf.split参数做调整。tf.split(0, n_steps, x) 更新为:tf.split(x, n_steps, 0) 位置做调整即可。
2018-05-22 17:33:52
2158
原创 python3 Categorical对象更新
在用pandas中cut对数据进行操作时发现,原《利用python进行数据分析》书中使用的Categorical对象属性有误,书中使用的Categorical对象的lables属性和levels属性已被DEPRECATED,变成codes和categories,在此做记!Categorical.labes--->Categorical.codesCategorical.levels---&g...
2018-04-09 22:22:39
1106
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人