- 博客(44)
- 收藏
- 关注
原创 【无标题】
public class Helloword{ public static void mian(String[] args){ System.out.println('hello world'); }}或者运算符:||注释:单行注释: //多行注释:/* */变量:a. 声明变量,数据类型:变量名变量类型:a. 类变量:独立于方法之外的变量,用static修饰,b. 实例变量:独立于方法之外的变量,不过没有static修饰,跟随对象实例化,实例变量随之确定。
2023-04-24 11:17:36
278
原创 二、特征数据预处理
目录1. 数据加载1.1 Numpy数据1.2 CSV 格式1.2 使用pandas读取数据1.2.1 加载数据集1.2.1 使用tf.data.Dataset 读区数据1. 数据加载1.1 Numpy数据使用 tf.data.Dataset 加载Numpy数据,将(feature_array,label_array)两个数组作为元组传递给tf.data.Dataset.from_tensor_slices以创建tf.data.DatasetBATCH_SIZE=64SHUFFLE_BUFFER_
2022-05-22 14:36:02
729
原创 spark基础知识
目录1. RDD1.1 RDD的创建1.2 持久化1.3 分区1.4 RDD相关的操作1.4.1 转换操作1.4.2 行动操作1.4.3 PairRDD(键值对)1. RDD本质:一个RDD就是一个分布式对象集合,本质上是一个只读的分区记录集合,每个RDD可分成多个分区,每个分区就是一个数据集片段。// 创建一个spark config val sparkConf = new SparkConf().setMaster(config("spark.cores")).setAppName("zh
2022-05-21 11:46:36
1369
原创 scala基础知识
1. 字符串字符串拼接 +str.length(): 获取字符串的长度str_1.concat(str2) : 连接两个字符串 同样可以使用 “+”mkString: 将集合元素转化为字符串采用stripMargin对多行字符串按照某种方式固定对齐,stripMargin默认是“|”作为出来连接符处理字符串中的字符: map、filter、flatmap、foreach// 1. 字符串的打印方式: 1. println 2. printf object PrintDemo
2022-05-18 20:55:12
1137
原创 faiss 稠密向量检索框架
faiss是为稠密向量提供高效相似度搜索和聚类的框架,一下是官网提供的demo# 1. 首先构建训练数据和测试数据import numpy as npd = 64 # dimensionnb = 100000 # database sizenq = 10000 # nb of queriesnp.random.seed(1024) # make reproduciablexb = np.random.random(nb, d).astype("float32") # [10000,
2022-02-24 14:07:46
1391
原创 特征处理之tf.feature_column
feature_column 整体介绍特征数据主要分为categorical和dense两类,可以使用tf.feature_column做相关的处理,它通过对特征处理将数据输入网络中。1.1 功能介绍:用户API返回值离散数值列numeric_column数值指标列indicator_columnone/multi hotemb嵌入列embedding_columnembedding(N)分桶列bucketized_columnone-hot
2022-02-09 18:25:45
1766
原创 用户画像User Profile
文本信息物品这一端也有大量的文本信息,可以用户构建物品画像(Item Profile),并最终帮助丰富用户画像(User Profile),例如:物品的标题、描述;物品本身的内容(一般指新闻资讯类);物品的其他基本属性的文本。从物品端的文本信息,我们可以利用成熟的 NLP 算法分析得到的信息有下面几种。关键字提取:最基础的标签来源,也为其他文本分析提供基础数据,常用TF-IDF 和TextRank。实体识别:人物、位置和地点、著作、影视剧、历史事件和热点事件等,常用基于词典的方式结合CR
2022-02-07 14:56:45
1101
原创 样本采样处理
1. 背景在推荐系统中,常见的目标为ctr和cvr,这两个目标的数据倾斜严重,如果不进行样本采样,模型很容易学偏,导致线上效果不稳定、泛化能力差。2. 样本采样处理2.1 样本净化通常情况下,拉取到的行为数据可能会因为种种原因(埋点、延时上报等),导致样本数据出现一些小问题,最常见的就是同一条数据,会同时出现在正负样本里,这是个比较容易忽略的问题,虽然一般情况下影响不大(量级比较小),但还是尽量规避得好。对于样本重复的,直接丢掉负样本,保留正样本即可;如果样本量足够用,都丢掉也无妨。关联特征时
2022-02-01 11:17:34
355
原创 特征处理总结
特征类别常见的特征类型有:数值特征、类别特征、序列特征、k-v特征、embedding特征、交叉特征等。1. 数值特征数值特征最为常见,如一些统计类特征:ctr、click_num等,不同的业务场景,数值特征量不同,数值特征从特征获得方式上面又可以分成两类:一类是基础的统计特征一类是根据业务场景,按照一定规则计算产出的复合特征通常情况下,复合特征包含的信息会更多,更有效。下面对数值特征的常见处理方式进行总结。1.1 特征分桶像点击量、点赞量、收藏量这类连续型统计特征,直接拿去编码会造成编
2022-02-01 10:49:43
1946
原创 正则匹配详解
1. 元字符字符描述应用\将下一个字符标记为一个特殊字符、或一个原义字符、或一个 向后引用、或一个八进制转义符‘n’ 匹配字符 “n”。’\n’ 匹配一个换行符。序列 ‘\’ 匹配 “” 而 “(” 则匹配 “(”。.匹配除换行符之外的任何单字符^匹配输入字符串的开始例如 ^a ,表示 字符串必须以a开头,才会继续匹配,如果不是以a开始,则返回空$表示匹配字符串的结尾例如 a$ ,表示 字符串必须以a结尾,如果不是以a结尾,则返回空\b匹配一
2022-02-01 09:30:01
25518
3
原创 variable
Create a variableimport tensorflow as tfmy_tensor = tf.constant([[1.0, 2.0], [3.0, 4.0]])my_variable = tf.Variable(my_tensor)# You can reassign the tensor using tf.Variable.assign。a = tf.Variable([2.0, 3.0])a.assign([1, 2]) # This will keep the sa
2022-01-29 20:01:46
375
原创 一、数据加载
1. NumPy dataLoad NumPy arrays with tf.data.DatasetBATCH_SIZE=64SHUFFLE_BUFFER_SIZE=1000# 构建训练集、测试集迭代器train_dataset=tf.data.Dataset.from_tensor_slices((train_examples,train_labels)).\shuffle(SHUFFLE_BUFFER_SIZE).batch(BATCH_SIZE)test_dataset=tf.da
2022-01-29 17:48:44
1854
1
原创 超参数调优
使用 Keras Tuner 帮助模型超参数调优you will use the Keras Tuner to find the best hyperparameters for a machine learning modelimport tensorflow as tffrom tensorflow import kerasimport keras_tuner as kt(img_train, label_train), (img_test, label_test) = keras.dat
2022-01-29 16:51:47
603
原创 五、模型保存
Tensorflow Model 模型保存的两种方式Checkpoints:只保存模型的参数,不保存模型的训练过程使用 tf.keras.Model.save_weights使用 tf.train.Checkpoint() 或者 tf.train.CheckpointManager()SavedModel format,保存完整的tensorflow程序,适用于模型部署 tensorflow servingtf.saved_modeltf.keras.Model构建模型imp
2022-01-29 16:29:36
1393
1
原创 四、模型训练和评估
1. 使用内建方法训练评估模型Model.fit(), Model.evaluate() and Model.predict()构建模型inputs = keras.Input(shape=(784,), name="digits")x = layers.Dense(64, activation="relu", name="dense_1")(inputs)x = layers.Dense(64, activation="relu", name="dense_2")(x)outputs = la
2022-01-29 16:21:55
1733
原创 三、构建模型
Sequential modelA Sequential model is appropriate for a plain stack of layerswhere each layer has exactly one input tensor and one output tensor.import tensorflow as tffrom tensorflow import kerasfrom tensorflow.keras import layers# 方法1: You can cre
2022-01-29 15:21:02
887
原创 tensor and operation
TensorsA Tensor is a multi-dimensional array. Similar to NumPy ndarray objects。维度:一维直接写个数,二维使用【行,列】 多维 [n,m,k,…]1. 创建张量# 1. tf.constant(张量内容,dtype=数据类型(可选)) a = tf.constant(4)b = tf.constant([1,5],dtype=tf.int32) c = tf.constant([[1, 2],
2022-01-29 14:52:28
735
原创 算法面试题
1. 算法模型推荐系统中召回算法有哪些协同过滤(基于共现关系,基于模型)、内容召回和热点召回,标签召回。解析kmeans 算法介绍,K值怎么确定以及改进算法树模型1. bagging 与boosting 的区别2. GBDT原理及与RF的区别3. GBDT与LR的区别,并说说什么情景下GBDT不如LR4. Xgboost与GBDT比较,特征并行化怎么做5. lgb6. 选择决策树做基分类器的原因?7. ID3,c4.5 、cartLSTM与GRU介绍及优化点。反
2021-02-13 19:46:29
171
原创 Spark
spark 是基于内存的计算框架。RDD是分区的,保存在不同的工作节点上,本质上是一个只读的分区记录集合,数据片段,rdd转换的过程中,因此通过生成新的RDD来完成一个数据修改的目的。DAG(directed Acyclic Graph):有向无环图spark集群模式:mesos,yarn,standopyspark命令及其常用的参数如下:pyspark --master # 后面不同的参数,表示可以进入不同的交互式环境(单机还是集群)spark 的运行模式取决于传递给sparkcontext的
2021-01-04 18:21:48
453
原创 Linux总结
快捷键:ctrl +shift +'+' : 放大字体ctrl + '-' 缩小字体/etc 系统配置文件存放的目录/bin 可执行的二进制文件,终端命令参数含义:a:所有目录和文件,包含隐藏的l:详细信息文件操作查询文件 lsls a* :列出当前目录下以字母a开头的文件ls -l *.doc :列出当前目录下以.doc 结尾的所有文件pwd :查看当前所在的文件夹切换路径 cdcd - 当前目录和上一个目录来回切换cd / 回到根目录cd ~ 返回
2020-11-24 17:59:42
565
原创 图
1042. 不邻接植花有 N 个花园,按从 1 到 N 标记。在每个花园中,你打算种下四种花之一。paths[i] = [x, y] 描述了花园 x 到花园 y 的双向路径。另外,没有花园有 3 条以上的路径可以进入或者离开。你需要为每个花园选择一种花,使得通过路径相连的任何两个花园中的花的种类互不相同。以数组形式返回选择的方案作为答案 answer,其中 answer[i] 为在第 (...
2019-08-02 16:19:35
167
原创 Trie 树
Trie 树 ,又叫字典树,前缀树(prefix Tree)、单词查找树 或键树,是一种多叉树结构。如图:表示关键字集合 {‘a’,‘to’,‘tea’,‘ted’,‘i’,‘in’,‘inn’}。Trie树的基本性质:根节点不包含字符,除根节点外的每一个子节点都包含一个字符从根节点到某一个节点,路径上经过的字符连接起来,为该字节对应的字符串。每一节点的所有子节点包含的字符互不相同。...
2019-07-31 16:04:18
254
原创 双指针
知识点:双指针主要用于遍历数组,两个指针指向不同的元素,从而协同完成任务。Two Sum II - Input array is sortedclass Solution(object): def twoSum(self, numbers, target): """ :type numbers: List[int] :type tar...
2019-07-30 18:21:02
157
原创 leetcode数组
数组中重复的数据给定一个整数数组 a,其中1 ≤ a[i] ≤ n (n为数组长度), 其中有些元素出现两次而其他元素出现一次。找到所有出现两次的元素。你可以不用到任何额外空间并在O(n)时间复杂度内解决这个问题吗?代码:class Solution(object): def findDuplicates(self, nums): """ :t...
2019-07-27 14:04:24
910
1
原创 拓扑排序
课程表#参考刷题笔记现在你总共有 n 门课需要选,记为 0 到 n-1。在选修某些课程之前需要一些先修课程。 例如,想要学习课程 0 ,你需要先完成课程 1 ,我们用一个匹配来表示他们: [0,1]给定课程总量以及它们的先决条件,判断是否可能完成所有课程的学习?解题代码:解题思路:1、在开始排序前,扫描对应的存储空间,将入度为 0 的顶点均入队列。2、只要队列非空,就从队首取出...
2019-07-27 12:27:10
170
原创 leetcode回溯法
有效的数独解题思路:记录某行、某列、3x3 宫格内数字class Solution: def isValidSudoku(self, board): """ :type board: List[List[str]] :rtype: bool """ rows = [{} for i in range(9...
2019-07-27 12:19:40
356
1
原创 leetcode 字符串
无重复字符的最长子串、解题代码:class Solution: def lengthOfLongestSubstring(self, s): """ :type s: str :rtype: int """ # 存储历史循环中最长的子串长度 max_len = 0 # ...
2019-07-27 11:39:48
889
原创 leetcode 贪心策略
本质:每步只选择当前最优解贪心:不记录历史状态,只关心当前状态;动态规划:需要记录历史状态,在将来会被用到。1.问题描述(过河问题)在漆黑的夜里,甲乙丙丁共四位旅行者来到了一座狭窄而且没有护栏的桥边。如果不借助手电筒的话,大家是无论如何也不敢过桥的。不幸的是,四个人一共只带了一只手电筒,而桥窄得只够让两个人同时过。如果各自单独过桥的话,四人所需要的时间分别是1、2、5、8分钟;而如果两人同时...
2019-04-25 11:04:27
1029
原创 leetcode动态规划
最优子结构子问题最优问题可导出原问题最优决策无后效性重叠子问题去冗余空间换时间基本步骤:设计暴力算法,找到冗余设计并储存状态递归式(状态转移方程)自底向上计算最优解(编程方式)例题:983. 最低票价在一个火车旅行很受欢迎的国度,你提前一年计划了一些火车旅行。在接下来的一年里,你要旅行的日子将以一个名为 days 的数组给出。每一项是一个从 1 到 365 ...
2019-04-16 21:37:38
750
1
原创 leetcode二叉树
树的属性:层次结构一个节点的所有子节点独立于另一个节点的子节点。二叉树:如果树中的每个节点最多有两个子节点,我们说该树是一个二叉树。1.列表表示的树在列表树的列表中,将根节点的值存储为列表的第一个元素;第二个元素:一个表示左子树的列表;第三个元素:表示右子树的另一个列表。2.节点表示用left 和right 的属性表示其他实例的引用。3 . 树的遍历前序:首先访问根节点,然...
2019-04-08 21:44:54
609
1
原创 leetcode链表
例题2. 两数相加代码如下:# Definition for singly-linked list.# class ListNode(object):# def __init__(self, x):# self.val = x# self.next = Noneclass Solution(object): def addTwoN...
2019-04-03 21:46:50
453
1
原创 leetcode单调栈
定义:单调栈是一种特殊的栈,在这个栈内只储存递增或递减的数组。例题:84.柱状图中最大的矩形给定 n 个非负整数,用来表示柱状图中各个柱子的高度。每个柱子彼此相邻,且宽度为 1 。求在该柱状图中,能够勾勒出来的矩形的最大面积。示例:输入: [2,1,5,6,2,3]输出: 10解题思路:(利用单调栈)首先在数组最后加入0,这是为了方便处理完所有高度数据,假设储存高度坐标的栈为...
2019-03-31 20:59:58
995
原创 《python基础教程》
1.基础知识获取用户输入input('请输入:')幂运算符**计算乘方,函数形式pow(x,n)abs() 取绝对值round()把浮点数四舍五入为最接近的整数值。print(abs(-100))print(round(1.234))1001math实数相关的函数,cmath (complex math 复数),sqrt 计算平方根from math impor...
2019-02-28 13:50:28
364
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人