- 博客(267)
- 资源 (5)
- 收藏
- 关注
原创 使用PAI-FeatureStore管理风控应用中的特征
PAI-FeatureStore 是阿里云提供的特征管理平台,适用于风控应用中的离线和实时特征管理。通过MaxCompute定义和设计特征表,利用PAI-FeatureStore SDK进行数据摄取与预处理,并通过定时任务批量计算离线特征,同步至在线存储系统如FeatureDB或Hologres。对于实时特征,借助Flink等流处理引擎即时分析并写入在线存储,确保特征时效性。模型推理方面,支持EasyRec Processor和PAI-EAS推理服务,实现高效且灵活的风险控制特征管理,促进系统迭代优
2025-01-10 09:43:06
267
原创 阿里云人工智能平台图像视频特征提取
图像与视频特征提取技术在人工智能和计算机视觉领域具有重要意义.通过准确提取图像质量分、人脸属性、年龄、图像多标签、图文视频动态分类打标、视频质量评分以及视频分类打标等特征,我们可以为图像与视频的分析、理解和应用提供强有力的支持.随着深度学习等技术的不断发展,特征提取的精度和效率将进一步提升,为相关领域的研究和应用带来更广阔的前景.在图像多标签特征提取中,算法需要对图像的全局和局部特征进行综合分析.全局特征可以反映图像的整体场景和氛围,如通过图像的颜色直方图、纹理特征等来描述图像的宏观特征;
2025-01-08 11:54:26
867
原创 使用EasyRec优化搜索广告推荐深度学习排序模型的性能
通过上述方法,可以在保证模型效果的前提下,有效降低推理服务所需的资源开销。此外,还可以探索更多高级优化策略,比如混合精度推理、异构计算等,进一步提升效率。
2025-01-02 14:00:31
355
原创 PAI-Rec推荐开发平台对新用户、新物品的推荐方案有哪些?
通过上述方案,可以有效地解决新用户和新物品的推荐问题,提升推荐系统的准确性和用户体验。,填写申请单然后自助领取开通(注意区域要选择正确)。请用企业账号主账号操作。
2024-12-02 10:12:59
933
原创 基于 PAI 搭建企业级个性化推荐系统 最佳实践
本方案结合阿里云 PAI 团队预置的基础版算法方案为例,演示如何以阿里云提供的数据、AI 类产品为基础,离线部分采用Maxcompute&Dataworks&PAI的大数据&AI体系,在线服务采用推荐引擎 PAI-REC、A/B 测试系统 PAI-A/B、在线模型服务 PAI-EAS、在线数据服务 Hologres,并通过 PAI-REC 运维与实验操作平台,利用阿里云云速搭 CADT,快速从 0 到 1 搭建一套高效、精准、易用、可扩展的智能推荐系统。⚫ 简单易用:SQL语言,在线开发,全面支持UDX。
2023-04-26 11:02:47
627
原创 pandas read_csv 读取数据中包含双引号
如果数据中的某个字段有引号,引号里面有逗号(逗号也是字段分隔符),如:1,"a,b,c"需要用下面的方法读取:import pandas as pddf=pd.read_csv("complext.csv",skipinitialspace=True,escapechar='\\',quotechar='"')df.to_csv("new.csv",sep="\x01")...
2020-08-08 08:01:57
4964
原创 读取txt中的字段key,然后编号再输出
import pandas as pdsep="|"def read_key(dict_key, arr_fileld, idx=[]): if len(idx) == 0: return for index in idx: keys = arr_fileld[index].split(",") for key in keys: if key not in dict_key: di.
2020-06-21 14:52:50
415
原创 python pip 设置阿里云的源,更新速度超级快
根目录上设置一个文件myhome$ cat .pip/pip.conf[global]trusted-host = mirrors.aliyun.comindex-url = https://mirrors.aliyun.com/pypi/simple
2020-06-15 09:39:37
1000
原创 阿里云endpoint
oss的endpoint:https://help.aliyun.com/document_detail/31837.html?spm=5176.11065259.1996646101.searchclickresult.3c7e7a0d1SQo0Q#title-qvx-r3a-xr4
2020-06-13 12:07:17
2230
原创 tensorflow 的 hashtable 和index table 读取,求均值向量,缺失值处理
import tensorflow as tfprint(tf.__version__)list_arr = [9, 8, 6, 5]value_arr = [0, 1, 2, 3]tf_look_up = tf.constant(list_arr, dtype=tf.int64)tf_value_arr = tf.constant(value_arr, dtype=tf.int64)table = tf.contrib.lookup.HashTable(tf.contrib.lookup.
2020-06-07 17:15:45
1546
原创 tensorflow 通过TextLineDataset dataset.map 读取数据
这样读取数据比较麻烦,因为map是一行行读取,需要自己把数据整理成列的方式。处理起来还是比较麻烦,用decode_csv可以直接把数据处理成列的方式,简单很多。import tensorflow as tffrom tensorflow.contrib.lookup import HashTablefrom tensorflow.contrib.lookup import TextFileIdTableInitializerfrom tensorflow.contrib.lookup im.
2020-06-07 14:50:36
1452
原创 递归遍历子目录改后缀名(批量文本改名rename)
#!/bin/sholdsuffix="txt"newsuffix="sql"dir=$(eval pwd)function getdir(){ for element in `ls $1` do dir_or_file=$1"/"$element if [ -d $dir_or_file ] then getdir $dir_or_file else suf.
2020-06-06 18:57:33
667
原创 样本查询embedding向量
import tensorflow as tf#生成10*5的张量p=tf.Variable(tf.random_normal([10,5]))# 模拟两个样本中的2个稀疏字段的embedding,有4个元素1,3,2,4b = tf.nn.embedding_lookup(p, [[1, 3],[2,4]])# b 的维度是2 * 2 * 5 ,batch=2 ,field s...
2020-05-03 10:36:26
557
原创 深度学习 tensorflow 三维矩阵乘法(batch 迭代必须搞懂的矩阵乘法,维度增加)
import tensorflow as tf# 2 * 2 * 2 的embedding 矩阵 , 一个batch,每个样本有f个字段,每个字段有k维# 那么矩阵的大小就是batch * f * kembedding_index = tf.constant([[[0.1,0.2], [0.3,0.2]], ...
2020-05-03 09:32:40
4133
原创 pandas 对一列做变换,手工版的labelEncoder 和 labelEncoder
import pandas as pddf = pd.DataFrame({"key": ["aa", "bb", "cc"]})dict = {"aa": 1, "bb": 3, "cc": 2}df_map = df["key"].map(dict)print("raw:\n", df.head())print("mapped:\n", df_map)raw: ...
2020-05-03 08:46:14
1797
原创 阿里云提交spark 任务找不到 project,是因为endpoint不对
阿里云提交spark 任务找不到 project,发现是因为spark -odps 的endpoint 不正确,从阿里云project 的配置(https://setting-cn-beijing.data.aliyun.com/#/dataSource)中找到endpoint,然后修改endpoint 之后就正确了。 ./bin/spark-submit --jars cupid/o...
2020-04-29 20:08:47
680
原创 keras的自定义 layer和Model
本文对https://www.cnblogs.com/zdm-code/p/12245906.html 里面的一些细节做了修改,model里面增加了一层softmax。import tensorflow as tffrom tensorflow import kerasfrom tensorflow.keras import layers,Sequential,optimi...
2020-04-19 12:24:37
1494
原创 复旦中文文本分类语料库 结构化解析版本
搜狗新闻文本分类预测没有整理为好用的格式,花了点时间修改为\u0001 分割的数据create table sougou_text( id bigint, cate string, wenxian string, origin_from string, origin_city string, origin_num string,...
2020-04-06 15:11:30
1521
原创 如何在linux命令行(终端)执行ipynb 文件。可以不依赖jupyter。
安装 runipypip install runipy终端执行ipynbrunipy <YourNotebookName>.ipynb在终端命令行执行shell脚本,(也可以在crontab 中执行):(base) [recommend@app-0-5-B-006 script]$ cat run1.sh#!/bin/bashcd /hom...
2020-01-11 10:17:13
23498
4
原创 mac 下brew的源更换为阿里云
# 替换brew.git:cd "$(brew --repo)"git remote set-url origin https://mirrors.aliyun.com/homebrew/brew.git# 替换homebrew-core.git:cd "$(brew --repo)/Library/Taps/homebrew/homebrew-core"git remote set-...
2019-09-03 08:09:39
2043
原创 搜索引擎算法之关键词类目预测
在搜索算法中,关键词类目是非常重要的一个话题,是搜索排序中的一个重要模块。搜索排序可以可以简单的分成几个模块:文本相关性、质量分、转化率。文本相关性可以由粗到细分解为类目相关性、属性相关性、语义相关性几个部分。本文重点解析一下类目相关性。例如用户搜索“连衣裙”,最相关的类目是“女装-连衣裙”、“童装-连衣裙”。而其他类目中包含连衣裙就不是那么相关,例如帽子类目的商品“适合沙滩连衣裙的帽子”。所...
2019-04-29 13:48:29
3957
原创 各公司的机器学习平台的github
linkedin:https://github.com/linkedin/photon-ml/wiki/Photon-ML-Tutorial 我们用了里面的LR算法。奇虎:https://github.com/Qihoo360/XLearning阿里妈妈:https://github.com/alibaba/x-deeplearning...
2019-03-14 09:23:47
630
原创 搜索引擎算法之同义词、近义词、上位词挖掘
在搜索引擎中,我们会碰到大量的同义词需求。用户在描述同一个东西的时候,会有各种各样的描述。 在电商搜索环境中,同义词分成好几类: 1. 品牌同义词:nokia=诺基亚,Adidas=阿迪达斯 2. 产品同义词:投影仪≈投影机,电话≈cell phone;automobile 和car。 3.旧词和新词:自行车 -> 脚踏车 4...
2019-03-14 09:19:58
11861
原创 bert-as-service 尝试
肖涵博士,bert-as-service 作者。现为腾讯 AI Lab 高级科学家、德中人工智能协会主席。启动server:bert-serving-start -model_dir uncased_L-12_H-768_A-12 -num_worker=4/home/zhongling/tensorflow1.4/lib/python3.5/site-packages...
2019-01-26 21:57:21
6250
1
原创 搜索引擎算法之Query Similarity (query relevance、查询的相似性或相关性)
目录介绍: 一、计算相似性的方法很多,最简单是是根据字面的编辑距离来计算相似性。例如: 二、更近一步,很自然想到搜索点击的结果来计算两个Query的相似性。 三、当然我们也可以借助协同过滤的方法,把query和点击item作为一个评分矩阵,按照协同过滤的方法来计算相关性。 四、由于点击数据受到搜索结果的影响,由于排序质量的问题,点击的位置...
2019-01-06 13:54:48
7526
2
原创 搜索引擎算法之 Query Tagging
《Using Search-Logs to Improve Query Tagging》,google论文https://static.googleusercontent.com/media/research.google.com/zh-CN//pubs/archive/38276.pdf根据搜索查询语料来标注词性标签。基于统计的方法来做。搜索:budget rent a car搜...
2019-01-05 14:35:34
1140
原创 搜索引擎算法之 Query Analysis
在搜索引擎的算法优化中,Query分析有相当多的论文,其中主题包括:Query的类目预测。例如搜索“运动鞋”,可能包括:男士运动鞋、女士运动鞋、儿童运动鞋等类目,预测Query所在的类目对提高搜索结果的相关性非常重要。如果能够识别用户或者意图是男性还是女性,搜索结果又可以去掉很多不相关的类目。 Query的相关性计算。用于下拉补全词推荐、相关词推荐。不过补全词和相关词推荐在产品上是不...
2019-01-05 14:05:56
2258
原创 开源报表工具 Metabase 使用技巧- 通过外表解决英文转中文的功能
在管理界面找到具体的报表名称和字段:选择设置: 外表的定义:CREATE TABLE `dim_search_scenario_info` (`scenario` varchar(50) COLLATE utf8mb4_bin DEFAULT NULL,`chinese` varchar(100) COLLATE utf8mb4_bin NOT NULL,PRI...
2018-08-30 13:16:17
4376
原创 开发中常用linux命令
1.找出所有shell 里面,找到所有shellfind /opt/task/ | grep -v pyspark2 | grep ".sh$" > a.sh 2.找出含有cluster 字符串的文件过滤其中有submit 和 cluster 字符串的shell文件:import oswith open("a.sh","r") as f: for ...
2018-07-09 15:27:05
282
原创 图像相似性搜索思路
为什么做图像相似性搜索?通过图像找相似性比较容易。应用场景:通过图片找相似作品。比如足迹可以使用。新发布作品,通过图片找最相似的作品。各种推荐场景,可以把图像相似性的特征用在计算相似作品上面。算法思路:用AutoEncoder,发现用卷积的方法无法降维。放弃。。。搜索是考虑用Resnet之类的算法,尝试发现用倒数n层的特征区分度不大。用基于2-channel network的图片相似度判别, 每次...
2018-06-26 22:48:56
1692
原创 开源报表工具 Metabase 使用技巧-日期筛选实例
很多公司都有大量的数据,要把这些数据做出报表无疑需要大量的时间。虽然有EChart之类的图表工具,无奈开发成本还是太高。 用BDP、Tableau 之类的软件,需要花钱买账号不说,数据安全也不好保证。因此一个开源的数据报表工具就显得非常重要。目前我们开始使用MetaBase这样的工具。 Metabase为什么好用呢?我们看中了它的几大原因。 1、可...
2018-06-26 19:51:17
13429
7
原创 阅读GRU 用于推荐的代码
https://github.com/hidasib/GRU4Rec/blob/master/examples/rsc15/preprocess.pypython preprocess.pyFull train set Events: 31637239 Sessions: 7966257 Items: 37483Test set Events: 71222 Sessions: 15324 Item...
2018-04-17 09:03:11
2255
原创 scala 两个list 拼接 ++:
scala> val x = List(1)x: List[Int] = List(1)scala> val y = LinkedList(2)y: scala.collection.mutable.LinkedList[Int] = LinkedList(2)scala> val z = x ++: yz: scala.collection.mutable.Lin...
2018-03-01 14:07:59
11574
原创 excel 常用技巧
LOOKUP 的注意知识点:1、LOOKUP要查询一个明确的值或者范围的时候(也就是知道在查找的数据列是肯定包含被查找的值),查询列必须按照升序排列。(在EXCEL帮助文档里也是这么说的)如果所查询值为明确的值,则返回值对应的结果行,如果没有明确的值,则向下取的于所查询值最近的值2、查找一个不确定的值,如查找一列数据的最后一个数值,在这种情况下,并不需呀升序排列。(下面有例子特别说明)Mac 的e...
2018-02-11 13:57:19
410
原创 ES增加3个雇员的文档
curl -XPUT 'localhost:9200/megacorp/employee/1' -d '{"first_name" : "John","last_name" : "Smith","age" : 25,"about" : "I love to go rock climbing","interests": [ "sports&q
2018-02-08 20:14:43
552
原创 HUE平台oozie 调度系统设置踩坑记录
通过oozie调用hive和shell脚本都没有问题。shell脚本需要先上传到hdfs 的某个目录下,只要账户对这个目录有读权限就行。Stdoutput Warning: /opt/cloudera/parcels/CDH-5.13.0-1.cdh5.13.0.p0.29/bin/../lib/sqoop/../accumulo does not exist! Accumulo imports
2018-01-18 16:54:15
4042
原创 中文维基百科word2vec训练及其代码
参考文章:中英文维基百科语料上的Word2Vec实验数据来自:https://dumps.wikimedia.org/zhwiki/latest/zhwiki-latest-pages-articles.xml.bz2繁体转为简体: opencc -i zhwiki.txt -o zhwiki.txt.simle -c zht2zhs.ini先把文件拆分为多个文件:split -l 3000
2018-01-05 13:22:30
888
原创 spark 安装standalone 的坑
spark 对应的scala 版本要注意通过spark-shell 来检查:spark 版本和scala的版本不一致,就没有办法运行了。 花了2个多小时发现的坑。命令如下:$ ./bin/spark-shelllog4j:WARN No appenders could be found for logger (org.apache.hadoop.metrics2.lib.Muta
2017-12-26 23:43:27
654
logview里面SourceXML页面,找到 <TaskPlan> </TaskPlan>里面的内容的json格式转换
2023-09-15
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人