1:Series的.str属性
下面是一些常用的 .str 属性示例:
lower():将字符串转换为小写。示例:s.str.lower()
upper():将字符串转换为大写。示例:s.str.upper()
strip():去除字符串两端的空格。示例:s.str.strip()
replace(old, new):将字符串中的某个子串替换为另一个子串。示例:s.str.replace('a', 'b')
contains(substring):判断字符串中是否包含某个子串。示例:s.str.contains('abc')
startswith(substring):判断字符串是否以某个子串开头。示例:s.str.startswith('A')
endswith(substring):判断字符串是否以某个子串结尾。示例:s.str.endswith('B')
split(delimiter):按指定分隔符将字符串分割成列表。示例:s.str.split(',')
join(iterable):将列表中的字符串用指定的分隔符连接成一个字符串。示例:s.str.join('-')
len():返回字符串的长度。示例:s.str.len()
1.1:Series文本通过str属性处理方法
# str属性处理文本
series = pd.Series(['a','b','C','D'])
print('大写后的series数据为:\n',series.str.upper())
print('替换a为A后的series数据:\n',series.str.replace(r'A','a')[0])
print('替换a为A后的series数据:\n',series[0].replace(r'a','A'))
series.str.replace(r'A', 'a'):这个语句使用了 .str 属性,将 Series 对象转换为字符串向量(StringDtype),然后调用字符串向量的 .replace() 方法来替换字符串中的子串。
series[0].replace('a', 'A'):这个语句直接作用于字符串对象,调用字符串自身的 .replace() 方法来替换字符串中的子串。
它的索引通过中括号‘[]’即可实现,比如series.str[0:3],就是前三个字符,输入位置超过索引会返回NaN。
1.2:特有文本方法
cat():用于将多个字符串连接在一起。
get():用于获取索引位置上的字符。
get_dummies():用于生成虚拟变量(One-Hot 编码)的 DataFrame。
contains():用于检查每个字符串是否包含指定的子字符串。
repeat():用于重复字符串。
pad():用于在字符串两侧填充指定的字符。
wrap():用于在超过指定宽度的位置处插入换行符。
slice():用于切片提取字符串的子串。
slice_replace():用指定的值替换字符串的子串。
findall():用于在字符串中查找匹配某个正则表达式的所有子串。
match():用于检查每个字符串是否与给定的正则表达式模式匹配。
extract():用于从字符串中提取匹配给定正则表达式模式的第一个字符串。
extractall():用于从字符串中提取匹配给定正则表达式模式的所有字符串。
len():返回字符串的长度。
normalize():用于将字符串转换为指定的 Unicode 标准化形式。