- 博客(150)
- 资源 (1)
- 收藏
- 关注
原创 python 正则-常见题目
常见日期格式:yyyyMMdd、yyyy-MM-dd、yyyy/MM/dd、yyyy.MM.dd。#强密码(以字母开头,必须包含大小写字母和数字的组合,不能使用特殊字符,长度在8-10之间)8位 例如:0511-1234567、021-87654321。
2024-01-04 14:47:47
774
原创 如何删除字符串中的表情符emoji
\p{So}\p{Sk}]+是一个正则表达式,表示匹配一个或多个Unicode符号和特殊字符。\p{So}表示Unicode中的“其他符号”(如音符、货币符号等),\p{Sk}表示Unicode中的“符号标记”(如重音符、变音符等)。+表示匹配一个或多个前面的字符。
2024-01-03 11:05:11
839
原创 python pandas编程知识点20240104
5)取多列 :data.loc[:,[‘col1’, ‘col3’]]、data.loc[:,[‘col2’, ‘col3’]]2)取多行 :data.loc[[‘row1’, ‘row3’]] 、data.loc[[‘row1’, ‘ro3’],:]3)取连续多行 :data.loc[‘row1’:‘row3’] 、data.loc[‘row0’, ‘row3’,:]5)取多列 :data.iloc[:,[0,2]]、data.iloc[:,[0,2]]取多列:data[[‘col1’,‘col2’]]
2024-01-03 10:49:55
548
原创 使用apriori来挖掘关联规则
可以简单理解为:在全集的情况下,尿不湿的概率为80%,而在包含啤酒这个子集中,尿不湿的概率为100%,因此,子集的限定,提高了尿不湿的概率,啤酒的出现,提高了尿不湿的概率。置信度 (Confidence):指的就是当你购买了商品 A,会有多大的概率购买商品 B,在包含A的子集中,B的支持度,也就是包含B的订单的比例。提升度 (Lift):我们在做商品推荐或者风控策略的时候,重点考虑的是提升度,因为提升度代表的是A 的出现,对B的出现概率提升的程度。提升度 (A→B)=1:代表有没有提升,也没有下降;
2023-12-14 15:08:54
164
原创 朴素贝叶斯算法来识别垃圾文本
在电商平台中有大量的垃圾或者欺诈消息msg,如何识别召回这些垃圾消息是风控经常遇到的问题,今天我们来尝试用传统的朴素贝叶斯分类算法来挖掘分类模型来识别垃圾消息下面的样本中,标签1是垃圾消息,标签0是正常消息。
2023-12-06 14:12:00
149
原创 python的制图
plt.bar: 是 Matplotlib 库中用于绘制柱状图的函数之一,它可以接受多组数据作为输入,每组数据可以包含 x 轴和 y 轴的坐标值。width:每个柱子的宽度,可以是一个数字或者一个数组,如果是一个数组,则每个柱子的宽度可以不同。linestyle: 折线的样式,可以是字符串(如 ‘–’)或者一个包含实线、虚线等样式的元组。marker: 数据点的标记样式,可以是字符串(如 ‘o’)或者一个包含圆形、正方形等样式的元组。x:x 轴的标签,可以是一个数组、列表或者 Series 对象。
2023-12-01 17:33:29
798
原创 自编码 欺诈检测代码
数据还是使用信用卡的数据,数据来自于kaggle上的一个信用卡欺诈检测比赛,数据质量高,正负样本比例非常悬殊,很典型的异常检测数据集,在这个数据集上来测试一下各种异常检测手段的效果。当然,可能换个数据集结果就会有很大不同,结果仅供参考。信用卡欺诈是指故意使用伪造、作废的信用卡,冒用他人的信用卡骗取财物,或用本人信用卡进行恶意透支的行为,信用卡欺诈形式分为3种:失卡冒用、假冒申请、伪造信用卡。
2023-12-01 16:54:39
174
原创 Spark RDD、DataFrame和Dataset的区别和联系
RDD可以通过并行化的方式在集群中进行分布式计算,支持多种操作,如转换操作(如map、filter、join等)和行动操作(如count、collect、reduce等)。总之,RDD、DataFrame和Dataset都是Spark中的重要概念,它们各自有不同的优势和适用场景。DataFrame可以通过Spark SQL查询进行操作,支持SQL语句和DataFrame API。是Spark中的三种不同的数据结构,它们都可以用于分布式数据处理,但是它们的实现方式和使用方法略有不同。
2023-11-22 17:35:52
1648
原创 spark如何配置checkpoint
如果你希望先对模型进行优化保存,再将优化后的结果缓存下来,那么就应该先使用 checkpoint() 函数,再使用 cache() 函数。而 cache() 函数是一种缓存方法,可以将模型的某些计算结果缓存下来,以便下次使用时可以直接调用,避免重复计算,提高模型的训练速度。如果你希望先缓存模型的某些计算结果,再对模型进行优化,那么就应该先使用 cache() 函数,再使用 checkpoint() 函数。checkpoint() 函数是一种优化方法,可以。这两个函数的使用顺序取决于具体的场景。
2023-11-22 10:11:41
856
原创 flask模型部署教程
具体参考https://blog.youkuaiyun.com/weixin_42126327/article/details/127642279。
2023-08-18 11:52:52
1525
2
原创 hive 随机抽样 distribute by rand() sort by rand() limit n
hive表随机抽样 distribute by rand() sort by rand() 以及分层抽样
2023-02-08 15:06:12
4325
原创 hive sql 经典题目 连续登陆|间隔连续登陆|行列转换|累加|topN | 炸裂
hive sql的经典题目 连续登陆|间隔连续登陆|行列转换|累加|topN | 炸裂
2023-02-07 15:07:43
2157
1
原创 spark-sql to_unix_timestamp from_unixtime字符串和时间戳的相互转化
spark sql 字符串和时间戳之间的相互转换
2023-02-02 18:25:48
2615
原创 黑产系列02-黑产画像
黑产无利不起早,在利益的驱动下黑产几乎是屡禁不止,作为风控从业人员我们需要全方位的了解黑产,了解我们的对手,才能知己知彼,接下来我将结合我多年风控经验以及查阅的相关的资源,全方位介绍下黑产以及他们的主要攻击手段
2023-01-11 14:46:07
3149
原创 黑产系列01-如何发现黑产情报
作为风控从业人员,及时了解黑产情报或者发现黑产的攻击是我们的必修课,那么如何做到呢?结合我的实战经验,可以从下面的几个方面入手,一般都可以及时发现问题
2023-01-10 18:39:16
1058
原创 社区发现系列04-社区的特征分析
在前面的文章中我们研究了目前最有效的**社区发现算法是Louvain算法**,可以用该算法进行社区发现,得到一个个社区。得到社区后,我们如何从中分析和挖掘我们关注的作弊团伙呢?可能不同的业务场景关注的重点不同,可以去分析下面的一些基本问题
2023-01-09 16:06:36
653
原创 社区发现系列02-算法介绍
今天我们就来聊一聊常用的社区发现算法和原理,以及通过实验来来对比不同社区发现算法划分的效果,选择最优的社区发现算法来挖掘社区吧
2023-01-06 18:11:04
3456
原创 社区发现系列01-复杂网络介绍
作为互联网风控从业人员,我们很难绕开的一个话题就是作弊团伙。我们一般可以碰到的作弊团伙多种多样,比如:薅羊毛团伙、垃圾注册团伙、欺诈团伙、职业打假人团伙等等,虽然每种团伙的特点不同,作弊方式也不同,但是作为风控算法或者策略工程师,我们需要了解他们的共性,深度理解其背后的原理,才能知己知彼,百战百胜。那么这些团伙的共性是啥?首先他们都是社区,属于复杂网络,接下来我们就来聊聊什么是复杂网络,以及复杂网络的特性是什么?我们在风控时如何利用这些特性来打击作弊团伙的攻击
2023-01-05 16:49:41
1198
原创 常用的排序算法
常用的排序算法快速排序思路:以数组中的第一个元素作为基准,对数组进行调整,使得左边的元素都小于基本,右边的元素都大于等于基准;然后再分别对左右两边的数组进行如上方法的排序import numpydef partition(nums, l, r): t = nums[l] start = l l+=1 while l <= r: wh...
2022-11-30 09:45:16
392
原创 使用paddle ernie预训练模型进行中文文本分类代码
使用paddle的预训练模型ernie进行中文文本二分类的代码实现包括:模型训练、模型预测、动静图模型转化、模型的部署和上线预测
2022-06-22 15:41:00
2155
1
原创 lr模型的训练和预测代码demo
1、模型的训练# -*- coding: utf-8 -*-import sysfrom pandas import DataFrame, Seriesfrom sklearn.preprocessing import KBinsDiscretizerimport numpy as npimport mathimport datetimefrom sklearn.linear_model import LogisticRegressionfrom sklearn.model_selecti
2021-11-25 16:24:17
1061
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人