文章目录
一、字符型数据操作
1)主要清洗方法
- 少量非法值检查
- FREQ过程
*1.2
- FREQ过程
- 非法值检查输出
- DATA_null_步+file print +PUT语句输出 (字符数据模式判别)
*1.4-1.5
- PRINT过程步+WHERE语句输出
*1.6
- FORMATS自定义格式 (将数据格式化合法、非法和缺失值三类) (可以创建永久型格式,优选)
*1.7-1.9
- DATA_null_步+file print +PUT语句输出 (字符数据模式判别)
- 非法值处理
- 大小写转换 (upcase函数等)
*1.3
- 消除单位和字符数据中无法打印的字符 (compress函数)
*1.10
- 大小写转换 (upcase函数等)
2)字符型函数
大小写转换函数 | |
---|---|
upcase | 小写转换成大写 |
lowcase | 大写转换成小写 |
propcase | 每个单词首字母变成大写,其他为小写(有第二个可选参数作为单词之间的分隔符,默认为空格) |
判断和搜索函数 | 前三个函数都有第二个可选参数用于指定搜索的初始位置(-n表示在位置n从右向左搜索),搜索失败返回0 |
---|---|
notdigit | 搜索非数字字符首次出现的位置并返回整数值 |
notalpha | 搜索非字母字符首次出现的位置并返回整数值 |
notalnum | 搜索非字母数字字符首次出现的位置并返回整数值 |
findc | (<.source><,chars><,modifiers>) 用于搜索source的值是否出现chars设定的字符列表,modifier同compress |
missing | 判断缺失 |
空格去除函数 | |
---|---|
compbl | 字符串中空格压缩标准化(连续出现的多个空格 |