lieyingkub99-优快云博客

原创计算广告CTR----DeepFM学习笔记

论文：《DeepFM: A Factorization-Machine based Neural Network for CTR Prediction》Abstract CTR预估中，一个很重要的内容就是去挖掘点击背后隐藏的特征交互（interaction），尽管取得了很大的进展，现有的方法似乎对低阶或高阶交互有很大的偏向，或者需要专门的特性工程。文章提出了DeepFM模型，能够实现...

2018-07-29 15:30:07 1169 4

原创 hadoop匹配不连续的日期目录

可以能匹配出2025038、20250309、20250311、20250312 这四天数据。通过{,}匹配比如：202503{07,08,09,11,12}

2025-03-13 20:46:00 110

原创 coalesce函数

最近写SQL的过程中，学习到一个非常有用的函数：coalesce。特别是在做统计的时候，这个函数作为条件可以兼顾到一些特殊情况。这里做一下总结和分享。当success_cnt 为null值的时候，将返回1，否则将返回success_cnt的真实值。（1）：将控制替换成其他值；（2）：返回第一个非空值。

2025-03-13 15:13:35 296

原创 pip指定安装环境

./bin/pip3 install numpy --target=./lib/python3.9/site-packages/

2024-01-15 20:44:36 641

num 列的 5 位、6 位、7 位、8 位，也就是说，不考虑并列名次的情况。例如，前 3 名是并列的名次，排名结果就是正常的 1、2、3、4。，会占用下一名次的位置。例如，正常排名是：1、2、3、4，但是现在前 3 名是并列的名次，结果就是 1、1、1、4。，不占用下一名次的位置。例如，正常排名是：1、2、3、4，但是现在前 3 名是并列的名次，结果就是 1、1、1、2。ranking 列的 5 位、5 位、5 位、8 位，也就是说，如果。rank 列的 5 位、5 位、5 位、6 位，也就是说，如果。

2023-04-03 14:41:53 662

原创 Spark中函数addFile添加tar包

如果想在pyspark中 import tensorflow 来调用pb模型分布式预测，那么将模型pb全部文件打包成tar包sc.addFile即可，spark会自动解析。

2022-11-07 10:13:37 962

原创 code day day up

code code

2022-10-20 20:19:44 196

原创 pyspark本地运行socket.gaierror: [Errno 8] nodename nor servname provided, or not known

解决方法，加一个函数即可：def patch_pyspark_accumulators(): from inspect import getsource import pyspark.accumulators as pa exec(getsource(pa._start_update_server).replace("localhost", "127.0.0.1"), pa.__dict__)patch_pyspark_accumulators()...

2022-04-25 18:40:39 455

原创 pypark本地运行报错Service ‘sparkDriver‘ could not bind on a random free port.

pyspark报错：Service ‘sparkDriver’ could not bind on a random free port. You may check whether configuring an app解决方法：增加.config(“spark.driver.bindAddress”, “127.0.0.1”)

2021-11-30 11:46:27 1042

原创 pyspark添加jars,存tfrecord

直接上代码：spark = SparkSession \ .builder \ .appName("MIND") \ .config('spark.jars', 'xxx/spark-tensorflow-connector_2.11-1.11.0.jar') \ .getOrCreate()xxx为路径。

2020-08-17 15:04:52 1089

原创 linux 下 pip 安装

下载文件wget https://bootstrap.pypa.io/get-pip.py --no-check-certificate执行安装python get-pip.py这就安装好了

2020-07-27 16:56:43 447

原创 pyspark orderBy 后dropDuplicates 保留第一个数据

一、pandas 可以取第一个df = df.sort_values(by=['uid', 'aid']).drop_duplicates(subset=['aid'], keep='first')二、pyspark 无法通过这种方式取第一个orderBy( [ 'uid', 'aid'], ascending=[ 0, 0, 0]).drop_duplicates( [ 'uid'])解决方案：window = Window.partitionBy(['uid']).orde.

2020-07-10 14:41:25 1379 1

原创 macOS中解压缩(unzip)出现illegal byte sequence的解决方案

ditto -V -x -k --sequesterRsrc filename.zip destination// filename为压缩文件的文件名 destination为解压的文件存放的文件夹名

2020-07-02 11:57:03 1391

原创 vim 编程命令

1、设置行号 set nu2、快速定位到最后一行：shift + G 快速定位到第一行：1 + shift +G 快速定位到第x行：40 + shift + G3、ctl+f---->向下翻页 ctl+b----->向上翻页4、打开一个文件时再打开另外一个 vsp filename...

2020-06-19 14:12:11 215

原创 hash编码在tensorflow 深度学习算法中的应用

1、安装mmh3(1) pip intallmmh3如果出现以下的报错：error: command 'g++' failed with exit status 1尝试使用以下命令安装：CFLAGS=-stdlib=libc++ pip install mmh3

2020-06-04 14:36:00 888

原创常用linux命令总结

1、查看file.txt第n列有几种数据awk -F ‘#’ ‘{print $3}’ file.txt | sort -un

2020-05-11 14:19:18 158

原创 C++中static使用--静态成员变量、静态成员函数

而在C++的类中，也有静态成员变量同时还有静态成员函数，先来看看C++中静态成员变量与静态成员函数的语法：//lieyingkub99#include <iostream>#include <string>using namespace std;class myClass{private: static int t_value; ...

2020-04-29 10:50:55 244

原创 Pycharm 搭建pyspark开发环境

一、spark安装spark下载下载地址 http://spark.apache.org/downloads.html export SPARK_HOME=spark目录/spark-2.4.5-bin-hadoop2.7 export PATH=$PATH:$SPARK_HOME/bin验证spark是否安装成功：WARNING: Python 2.7 is not recom...

2020-03-03 22:26:11 1275

原创知识图谱在推荐算法中应用

知识图谱在推荐算法中应用：https://mp.weixin.qq.com/s/ZSNY_EZdi03mWNZsL08_2wwor2vec中文词向量训练方法&增量训练:https://mp.weixin.qq.com/s/3xnY5Z5Fst9gKV8ULnDjbwTensorFlow框架实现DNN:https://mp.weixin.qq.com/s/GUHZxXWSf53Ed...

2019-11-10 15:34:25 1062

原创百科知识图谱三元组实体Embeddig

百度百科三元组实体embedding 可以用于推荐算法、问答系统等

2019-11-04 19:42:50 2414

原创 python实用语法总结

1、字符串数组转成float并保留5位小数import numpy as npdata = [‘1.04545677’,‘2.012411’,‘3.41521552’]data = np.around(np.array(data, dtype=float),decimals=3).tolist()print(data)》》[1.045, 2.012, 3.415]...

2019-05-28 17:51:40 177

原创深度学习笔记整理

深度学习笔记整理：深度神经网络（DNN）https://www.cnblogs.com/pinard/p/6418668.htmlhttps://blog.youkuaiyun.com/smilejiasmile/article/details/80718490youtube基于深度学习的推荐http://d0evi1.com/youtube-recommend2/wide and deep 论文...

2019-04-04 16:50:00 1115

转载 tensorflow学习资料笔记

TensorFlow是谷歌基于DistBelief进行研发的第二代人工智能学习系统，其命名来源于本身的运行原理。Tensor(张量)意味着N维数组，Flow(流)意味着基于数据流图的计算，TensorFlow为张量从流图的一端流动到另一端计算过程。TensorFlow是将复杂的数据结构传输至人工智能神经网中进行分析和处理过程的系统。TensorFlow可被用于语音识别或图像识别等多项机器深度学...

2018-08-19 10:56:31 270

原创 python函数及语法笔记

1、Python中numpy库unique函数对于一维数组或者列表，unique函数去除其中重复的元素，并按元素由大到小返回一个新的无元素重复的元组或者列表。import numpy as npA = [1, 2, 2, 5,3, 4, 3]a = np.unique(A)B= (1, 2, 2,5, 3, 4, 3)b= np.unique(B)C= ['fgfh','asd...

2018-08-18 21:28:01 290

原创 python使用@staticmethod或@classmethod

使用@staticmethod或@classmethod，不需要实例化，直接类名.方法名()来调用。区别： @staticmethod不需要表示自身对象的self和自身类的cls参数。 @classmethod也不需要self参数，但第一个参数需要是表示自身类的cls参数。代码如下：class Task(object): data_p = 1 def func(...

2018-08-16 11:55:32 311

原创 AUC详解与python实现

AUC（Area under curve）是机器学习常用的二分类评测手段，直接含义是ROC曲线下的面积，如下图：要理解这张图的含义，得先理解下面这个表：表中列代表预测分类，行代表实际分类：实际1，预测1：真正类（tp）实际1，预测0：假负类（fn）实际0，预测1：假正类（fp）实际0，预测0：真负类（tn）真实负样本总数=n=fp+tn 真实正样...

2018-07-28 23:24:29 43592 11

原创机器学习算法之LR

说起LR要从极大似然估计说起： 1、极大似然估计： http://www.cnblogs.com/sparkwen/p/3199728.html http://blog.youkuaiyun.com/zouxy09/article/details/8537620(讲的比较好)2、LR模型：回归是一种极易理解的模型，就相当于y=f(x)，表明自变量x与因变量y的关系。最常见问题有如医生治病时...

2018-07-20 23:05:00 5587

原创 spark调优之cache&persist

调优概述Spark性能优化的第一步，就是要在开发Spark作业的过程中注意和应用一些性能优化的基本原则。开发调优，就是要让大家了解以下一些Spark基本开发原则，包括：RDD lineage设计、算子的合理使用、特殊操作的优化等。在开发过程中，时时刻刻都应该注意以上原则，并将这些原则根据具体的业务以及实际的应用场景，灵活地运用到自己的Spark作业中。原则一：避免创建重复的RDD 在开发...

2018-07-20 22:44:12 854

原创阿里天池工业ai大赛季军方案分享

1赛题背景分析及理解 1.赛题背景半导体产业是一个信息化程度高的产业。现有的产品质量检核方案是，生产机器生产完成后，对产品质量做非全面的抽测，一是不能即时的知道质量的好坏，二是在没有办法全面抽测的状况下，存在很大漏检的风险。难点，TFT-LCD的生产过程较为复杂，包含几百道以上的工序，需要考虑的过程变量较多；另外，这些变量的取值可能会存在异常（如测点仪表的波动导致、设备工况漂移等现象）；...

2018-07-20 22:38:21 1835

原创 JSON-handle插件

一.下载地址 http://jsonhandle.sinaapp.com/ 二.安装 1.用chrome浏览器打开：chrome://extensions/ 2.把下载好的文件拖入该页面三.使用粘贴写好的json即可

2018-07-09 19:06:37 3809 1

原创 Hadoop学习笔记之win下安装及使用

一、下载hadoop 下载地址： http://hadoop.apache.org（1）在Getting Started下找到：Download （2）找到To verify Hadoop releases using GPG下的：mirroor site （3)进入连接下载Hadoop：（4）下载winutils.exe,需要对应的版本.地址https://git...

2018-07-08 23:49:55 615

原创 Hadoop学习笔记之Hadoop基本介绍

说到Hadoop的起源，不得不说到一个传奇的IT公司—全球IT技术的引领者Google。Google（自称）为云计算概念的提出者，在自身多年的搜索引擎业务中构建了突破性的GFS（Google File System），从此文件系统进入分布式时代。除此之外，Google在GFS上如何快速分析和处理数据方面开创了MapReduce并行计算框架，让以往的高端服务器计算变为廉价的x86集群计算，也让许...

2018-07-05 00:05:10 400

原创 Python语法之进阶学习

python学习笔记：#@Author：lieying#@Function:Python进阶学习#@Data: 2017-05-01至2017-05-02#@Python:Python课程进阶学习#--------内容------##1、函数式编程#2、面向对象编程#3、能够编写模块化的程序#4、模块和包#5、面向对象#=========================...

2018-07-04 23:50:31 597

原创 Python语法之入门学习

翻看文件夹发现了我之前学习python的笔记分享下：入门学习代码如下#@Author：lieying#@Function: Python学习#@Content: Python入门学习#@Data: 2017-04-30到2017-05-1#@Python版本:Anaconda 4.2.0---Python 3.5.2#=============================...

2018-07-04 23:47:14 279 1

原创 FM算法python实现

在计算广告中，CTR预估(click-through rate)是非常重要的一个环节，对于特征组合来说，FM（因子分解机）是其中较为经典且被广泛使用的模型。 1、FM 算法模型： 2、FM交叉项求解过程代码简单实现：添加依赖项：from __future__ import divisionfrom math import expimport pandas as pdf...

2018-07-03 14:14:53 9552 3

原创二分查找-python

概念及其步骤： 1.二分查找又叫折半查找, 2.前提是有序列表有序表中， 3.取中间记录作为比较对象，若给定值与中间记录的关键码相等，则查找成功；若给定值小于中间记录的关键码，则在中间记录的左半边继续查找；若给定值大于中间记录的关键码，则在中间记录右半边区继续查找。 4.不断重复上述过程，直到查找成功，或所查找的区域无记录，查找失败。二分查找的时间复杂度是O(log(n)...

2018-06-29 10:01:59 179

原创图片清晰度识别之改进ssim算法

针对图片的清晰度识别，针对数据量比较大，对性能要求较高时，简单可靠的算法尤为重要，因此，经过对比，发现SSIM的算法可以在结合图片的结构，亮度，对比度三个条件下对图片进行分析。 step1：先将图片预处理裁剪首先说明下我引用的用的python包：import numpy as npimport mathimport cv2import urllib裁剪图片视情况而定，主要结合业...

2018-06-28 22:07:05 4901 1

机器学习算法之---AFM算法

空空如也