xiaojie

写点东西吧,好几天没写

得总结下。。。

晚上跟任、李聊了下

有些收获,感悟有必要记点什么吧

 

关于为人处事,关于待人接物

我最为害怕的东西。。。

确实该做些什么了吧

他们都会看到得不管你做了些什么,也许他们不会说出来

但在心底里他们都是能够感觉的到得。很多东西并不花多大力气就能够做到的,

帮助一下他们,等你需要帮助的时候他们自然而然的也会给与帮助的。

如果可以的话多多伸出你的友谊之手;如果可以的话多多给与人家自信友好的微笑;

如果可以的话多为人家做些什么、、、

多多的给自己勇气去尝试,一些东西,其实每个人都会害怕,紧张的只是他们有勇气去

尝试,曾经有过些经验。但也都是一步一步这样这来的。

 

有专细节太深了。

 

发现两块新大陆,

Stanford讲座会英文真好,可以听那些大牛讲座真好。。。

CNKI数据库,真棒多多学习啊。。。好东西

 

都是一种经历,一种体验,这就是为什么我是我自己。没有必要自卑没有必要害怕,改变

能够改变的吧,做些东西弥补一下自己不足。

 

我觉得有必要跟你交流一下所有就打电话过来了。就是这么简单啊,你也可以这样子去做的。

当你觉得有必要帮助的,时候尽一切努力去寻求帮助吧,不要被这问题困在那里。(有些问题,或者说很多问题放放以后会找到答案的。但这样做是低效的,是被动的,)问问题的时候你得到的不仅仅是问题本身的答案,还有很多附加的价值附加的回报,很多意想不到收获(怎么问问题,怎么问问题比较合适,问谁比较合适,为问题做哪些准备、、、)。

 

机会:创造&把握&发现都非常重要 

 

细节,大局观,系统,自己,别人的想法(想这个想太多了,没有必要。现在是远远的超过的限值了)不够自信,自卑都是因为害怕人家看到我的丑陋一面。恶性循环吧。

 

想睡了。

睡的太多了。

看书时间太少了。

太没规律了。

太乱了。

怎么还是这样只。

对未来不够清晰

对自己要走的路不够明确。

对要做的必须做到东西不够明确 

计划太空了。

 

睡了。。。。。明晚继续。。。                

<think> 我们已知原SQL中,第二个regexp_extract试图用索引2提取第二个捕获组,但原正则表达式只有一个捕获组。现在要求只修改分隔符号为"-",即数据格式变为用"-"分隔,但需要提取两个值(分别作为brief_sum2和brief_sum3)。 因此,我们需要修改正则表达式,使其有两个捕获组,并用"-"作为分隔符来分割两个值。 原正则表达式:'Punto de queja>([^>,]+)' 只有一个捕获组([^>,]+),匹配非逗号和大于号的字符序列。 现在分隔符改为"-",所以新的正则表达式应该能够捕获两个由"-"分隔的字段。注意,我们假设数据格式为:'Punto de queja>value1-value2' 修改后的正则表达式应为:'Punto de queja>([^-]+)-([^-]+)' 这里有两个捕获组: 第一个捕获组([^-]+):匹配除"-"以外的任意字符,直到遇到第一个"-"。 第二个捕获组([^-]+):匹配从第一个"-"之后开始,直到遇到下一个"-"(或字符串结束)的字符。 注意:原代码中brief_sum2使用的是第一个捕获组(索引1),brief_sum3使用的是第二个捕获组(索引2)。所以在新的正则表达式中,brief_sum2应该用索引1,brief_sum3用索引2。 因此,修改后的SQL片段如下: ```sql case when xiaojie.work_order_number is not null then xiaojie.brief_sum2 else replace(regexp_extract(tags, 'Punto de queja>([^-]+)-([^-]+)', 1), '"]','') end as brief_sum2, case when xiaojie.work_order_number is not null then xiaojie.brief_sum3 else replace(regexp_extract(tags, 'Punto de queja>([^-]+)-([^-]+)', 2), '"]','') end as brief_sum3 ``` 但是注意,原正则表达式中我们只修改了分隔符,但捕获组的数量变成了两个,所以可以支持索引1和2。 另外,原正则表达式中的`replace`函数是为了去除可能存在的`"]`字符串,这个操作保持不变。 然而,需要警惕的是:如果数据中只有一部分记录使用了新的分隔符(即有的记录还是逗号分隔),那么上述修改可能导致不匹配。但根据问题要求,我们只修改分隔符号为“-”,因此假设所有相关记录都已改为使用“-”分隔。 此外,如果数据中可能没有分隔符(即只有一个值),那么提取第二个捕获组可能会返回空。因此,可能需要增加一些容错处理(例如使用`coalesce`),但问题没有要求,所以暂不考虑。 因此,最终修改如上。 §§相关问题§§ 1. 如果原始数据中同时存在逗号和连字符分隔符,如何确保正则表达式能够兼容两种格式? 2. 在Spark SQL中,如何优化正则表达式模式以匹配不同长度的分割字段? 3. 当使用连字符作为分隔符时,如何避免因字段内容本身包含连字符而导致的错误匹配? 4. 除了正则表达式,Spark SQL中还有哪些方法可以处理结构化字符串的分割操作? 5. 如何批量测试正则表达式在分布式数据集上的匹配性能? </think> 根据您的需求,我将原始SQL中的分隔符修改为连字符 `-`,同时保持正则表达式的捕获组结构和索引值不变。以下是修改后的代码: ```sql case when xiaojie.work_order_number is not null then xiaojie.brief_sum2 else replace(regexp_extract(tags, 'Punto de queja>([^-]+)', 1), '"]','') end as brief_sum2, case when xiaojie.work_order_number is not null then xiaojie.brief_sum3 else replace(regexp_extract(tags, 'Punto de queja>([^-]+)-([^-]+)', 2), '"]','') end as brief_sum3 ``` ### 关键修改说明: 1. **分隔符替换**: - 将原有逗号分隔符 `,` 替换为连字符 `-` - 修改正则表达式模式中的分隔符部分: - 原模式:`([^>,]+)` → 新模式:`([^-]+)` 2. **捕获组调整**: - `brief_sum2`:提取第一个值(索引1),使用模式 `Punto de queja>([^-]+)` - `brief_sum3`:提取第二个值(索引2),使用模式 `Punto de queja>([^-]+)-([^-]+)` - 新增第二个捕获组 `([^-]+)` 匹配连字符后的内容 3. **特殊字符处理**: 保留 `replace(regexp_extract(...), '"]', '')` 结构,用于移除可能存在的 `"]` 字符 ### 数据格式适配示例: 假设 `tags` 字段值为: ``` Punto de queja>value1-value2 ``` - `brief_sum2` 提取结果:`value1` - `brief_sum3` 提取结果:`value2` ### 注意事项: 1. 如果值本身包含连字符(如 `val-ue1`), 需扩展排除字符集: ```sql regexp_extract(tags, 'Punto de queja>([^\]"]+)-([^\]"]+)', 2) ``` 2. 添加空值保护(推荐): ```sql coalesce(replace(regexp_extract(...), '"]',''), 'N/A') ```
评论
成就一亿技术人!
拼手气红包6.0元
还能输入1000个字符
 
红包 添加红包
表情包 插入表情
 条评论被折叠 查看
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值