python split

Python中有split()和os.path.split()两个函数:

split():拆分字符串。通过指定分隔符对字符串进行切片,并返回分割后的字符串列表。

os.path.split():将文件名和路径分割开。

1、split()函数
语法:str.split(str=" ",num=string.count(str))[n]

参数说明:
str: 表示为分隔符,默认为空格,但是不能为空串。若字符串中没有分隔符,则把整个字符串作为列表的一个元素。
num:表示分割次数。如果存在参数num,则仅分隔成 num+1 个子字符串。
[n]: 表示选取第n个分片(从0计数

默认情况下,使用空格作为分隔符,则分隔后,空串会自动忽略,如:

>>> s='love    python'

>>> s.split()
['love', 'python']

但若显式指定空格为分隔符,则不会自动忽略空串,如:

>>> s.split(' ')
['love', '', '', '', 'python']

默认的分隔符除了空格,还有 '\n\t\r',分隔后,空串会自动忽略,如下:

>>> s='love \n\t\r  \t\r\n python  \n\t\r'
>>> s.split()
['love', 'python']


>>> s='www.pku.edu.cn'
>>> s.split() #默认空格作为分隔符,但字符串中没有分隔符,因此,把整个字符串作为列表的一个元素
['www.pku.edu.cn']

>>> s.split('.') #以'.'作为分隔符,没有指定分隔次数,则有多少 '.' 就分隔多少次
['www', 'pku', 'edu', 'cn']

>>> s.split('.',0) #分隔0次
['www.pku.edu.cn']

>>> s.split('.',1) #分隔1次
['www', 'pku.edu.cn']

>>> s.split('.',2)#分隔2次
['www', 'pku', 'edu.cn']

>>> s.split('.',2)[1]#分隔2次,取索引为1的项
'pku'

>>> s.split('.',-1) #尽可能多的分隔,与不加num参数相同
['www', 'pku', 'edu', 'cn']

>>> s1,s2=s.split('.',1)#分隔1次,并把分隔后的2个字符串存放在s1和s2中
>>> s1
'www'
>>> s2
'pku.edu.cn'

>>> s='''love
... hello
... python'''
>>> s
'love\nhello\npython'
>>> s.split('\n')#以'\n'作为分隔符,分隔次数尽可能的多
['love', 'hello', 'python']
>>> print s
love
hello
python

练习一下下面的例子:

>>> s='hello python<[www.python.com]>hello python'
>>> s.split('[')[1].split(']')[0]
'www.python.com'
>>> s.split('[')[1].split(']')[0].split('.')
['www', 'python', 'com']


2、os.path.split()函数
语法:os.path.split('PATH')

参数说明:

  1. PATH指一个文件的全路径作为参数:
  2. 如果给出的是一个目录和文件名,则输出路径和文件名
  3. 如果给出的是一个目录名,则输出路径和为空文件名
实际上,该函数的分割并不智能,它仅仅是以 "PATH" 中最后一个 '/' 作为分隔符,分隔后,将索引为0的视为目录(路径),将索引为1的视为文件名,如:

>>> import os
>>> os.path.split('C:/soft/python/test.py')
('C:/soft/python', 'test.py')
>>> os.path.split('C:/soft/python/test')
('C:/soft/python', 'test')
>>> os.path.split('C:/soft/python/')
('C:/soft/python', '')


转载:http://blog.youkuaiyun.com/sxingming/article/details/51475382


glob模块是最简单的模块之一,内容非常少。用它可以查找符合特定规则的文件路径名。跟使用windows下的文件搜索差不多。查找文件只用到三个匹配符:”*”, “?”, “[]”。”*”匹配0个或多个字符;”?”匹配单个字符;”[]”匹配指定范围内的字符,如:[0-9]匹配数字。

glob.glob

返回所有匹配的文件路径列表。它只有一个参数pathname,定义了文件路径匹配规则,这里可以是绝对路径,也可以是相对路径。下面是使用glob.glob的例子:

glob.iglob

获取一个可编历对象,使用它可以逐个获取匹配的文件路径名。与glob.glob()的区别是:glob.glob同时获取所有的匹配路径,而glob.iglob一次只获取一个匹配路径。这有点类似于.NET中操作数据库用到的DataSet与DataReader。下面是一个简单的例子:


### 创建并运行第一个Apache Flink项目 #### 准备工作环境 为了成功创建并运行首个Flink应用,需先安装配置好Java开发环境以及Maven构建工具。确保已设置JAVA_HOME环境变量指向JDK路径,并能通过命令行访问`mvn`命令。 #### 初始化Maven项目结构 使用Maven原型插件来初始化一个新的Flink应用程序骨架: ```bash mvn archetype:generate \ -DgroupId=com.example.flink \ -DartifactId=my-flink-project \ -DarchetypeArtifactId=maven-archetype-quickstart \ -DinteractiveMode=false ``` 这会生成一个基础的Maven工程目录树[^2]。 #### 添加依赖项至pom.xml文件 编辑项目的`pom.xml`文件,加入必要的Flink库依赖声明以便后续编译链接时能够识别这些类库: ```xml <dependencies> <!-- https://mvnrepository.com/artifact/org.apache.flink/flink-streaming-java --> <dependency> <groupId>org.apache.flink</groupId> <artifactId>flink-streaming-java_2.12</artifactId> <version>1.14.0</version> </dependency> <!-- Other dependencies... --> </dependencies> ``` 上述XML片段展示了如何引入用于流处理的核心模块版本号为1.14.0的具体实例[^1]。 #### 编写简单的Word Count程序作为入门案例 在src/main/java下新建名为`com/example/flink/WordCount.java`源码文件,输入如下所示的基础代码实现单词计数逻辑功能: ```java package com.example.flink; import org.apache.flink.api.common.functions.FlatMapFunction; import org.apache.flink.api.java.tuple.Tuple2; import org.apache.flink.streaming.api.datastream.DataStreamSource; import org.apache.flink.streaming.api.environment.StreamExecutionEnvironment; import org.apache.flink.util.Collector; public class WordCount { public static void main(String[] args) throws Exception { final StreamExecutionEnvironment env = StreamExecutionEnvironment.getExecutionEnvironment(); DataStreamSource<String> text = env.fromElements( "To be, or not to be, that is the question", "Whether 'tis nobler in the mind to suffer" ); text.flatMap(new Tokenizer()) .keyBy(value -> value.f0) .sum(1) .print(); env.execute("Word Count Example"); } public static final class Tokenizer implements FlatMapFunction<String, Tuple2<String, Integer>> { @Override public void flatMap(String value, Collector<Tuple2<String, Integer>> out) { String[] tokens = value.toLowerCase().split("\\W+"); for (String token : tokens) { if (token.length() > 0) { out.collect(new Tuple2<>(token, 1)); } } } } } ``` 这段代码定义了一个基本的数据流水线,它读字符串列表中的句子,将其拆分为单独词语并通过键控窗口聚合统计每个词频次最后打印输出结果。 #### 构建可执行jar包 完成编码后回到IDEA界面依次操作菜单栏选项:File->Project Structure->Artifacts 来指定要被打包的内容;接着选择 Build->Build Artifacts 完成整个过程。 #### 部署到远程集群执行 假设已经有一个正在运行着单节点模式下的Flink集群,则可通过SCP协议把本地生成好的jar复制过去放置于服务器特定位置等待提交任务给JobManager调度器去启动作业流程: ```bash docker cp my-flink-projec2.jar master:/opt/ ``` 随后登录目标机器终端连接进入容器内部利用CLI客户端提交该job请求即可开始正式跑批运算任务。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值