- 博客(26)
- 资源 (18)
- 收藏
- 关注
原创 [ICDE‘20] Sequence-Aware Factorization Machines for Temporal Predictive Analytics (SeqFM)
原论文Motivation现有的基于矩阵分解的模型不能捕捉序列信息,于是作者提出了新颖的SeqFM模型,分别学习静态特征(如性别)、动态特征(如交互信息)以及二者之间的关系。Introduction为了避免特征工程中手工设计,FMs (factorization machines) 用来将原始的特征嵌入到隐向量空间,并且通过对emb内积学习特征之间的联系。但是plain FM受限于线性表达能力,DNN-based FM,如Xiangnan He的NFM,学习高阶的联系。FM有两种趋势:一种是.
2020-07-19 22:37:10
542
原创 【创新实训】推荐系统实验2(修改模型、混合数据集)
数据集混合的数据集单独使用douban_imdb训练确实有效果,但是因为是国外的数据集,国外电影占绝大部分,国内电影推荐效果非常差。douban_csdn数据集最稀疏,训练不出效果,mtime、douban_openkg指标还行,单独来用item太少。因此拟将这三个数据集混合在一起。douban_imdb电影频数往往达到五六万往上,其他数据集的频数比较而言太小了,需要删除douban_imdb的部分行。于是,我将所有数量大于1000的item,随机删除记录,只保留(500 + len(group)
2020-07-01 20:34:08
1308
1
原创 【创新实训】BERT4EL,基于文本相似度的实体消歧实现
任务描述现有douban、mtime、maoyan三个来源的电影,包含名称、简介、导演、演员、类型等等属性。需要相同的电影融合为一个电影条目,其中maoyan数量很少,可以合并到mtime中。参照实体消歧(或实体链接)的惯用语,数量最多的douban可以作为知识库中的entity,mtime(+maoyan)作为需要链接到KB的mention。思路事实上,这个任务也相当于文本多分类任务。类别数为KB中的entity数,那么将模型运算得到的mention hidden states输入到最后一层全连
2020-06-28 22:26:47
1679
6
原创 【创新实训】推荐系统之召回池设计
召回池我的想法是,输入形式为batch时模型总计算时间应当比一个一个喂小不少,因此可以建立一个比如200为大小的召回池,最多每隔0.5s送入模型进行计算,当waiting list已经到达了200,立即执行计算,重置定时任务。消息队列python的queue库是一个线程安全的队列,可以用作消息队列。其基本用法参考:Python之queue模块以及生产消费者模型先写一个类包装class Pack: def __init__(self, flag=False, _id=None, seq=
2020-06-21 10:16:04
2991
原创 【创新实训】用户后台
待办事项insertStamp现为字符串,以后需要更新为long类型的timestamp,以减少硬盘占用。注意代码也需更改Useruser为movie数据库下的collection,存放用户注册手机号、用户名、密码(暂hd5加密)、emb、浏览历史class User(Document): _id = ObjectIdField() phone = StringField() name = StringField() pwd = StringField() e
2020-06-20 17:23:16
247
原创 【创新实训】推荐系统模型训练实验
Experimentsdouban_imdb原数据集来自movieLens-25M,为显示反馈,以评分大于等于3作为隐式反馈。筛选出可以映射为douban_id的(最后应当筛选能映射为最终融合id的),去掉user、item频数小于5的,sess长度小于2的,按8:2划分数据集,train 152142条,test 36791条,item 10576个。NARM源码 session_NARMpytorch版本 Neural-Attentive-Session-Based-Recommendati
2020-06-18 22:19:40
590
原创 【创新实训】推荐系统召回学习
Reference个性化推荐系统_召回推荐系统简明教程-召回推荐系统的召回策略架构1.离线方式:离线的model file算出推荐结果,这些推荐结果可以是用户喜欢哪些item,也可以是item之间的相似度文件,然后写入KV存储,在线的server recall部分直接调用这个结果,拿到ID之后访问detail server得到详情,再往rank部分传递。2.半在线模式:将model file算出来的item embedding也存入KV,然后tf-server调用在线model 生成 user
2020-06-10 09:16:29
287
原创 【创新实训】接口约定、需求草稿
接口数据库接口MongoDB的地址:39.106.132.48:27017可以clone下来,也可以直接用如果使用官方GUI(MongoDB Compass),链接的时候使用账号密码user:rootpwd:r****lf(见群,下同)cmd里,use movie(切换到movie集合)之后,db.auth(“usr”, “z****7”)前端和爬虫代码所需账号密码由相对路径下的setting.json(/crawler/ 和/backend/api/ 下)读取,该文件加入了.gitigno
2020-06-06 19:54:56
365
原创 【创新实训】前端开发笔记
电影评价网Vue依赖:Vue 3.x 建议使用脚手架Vue-cliVuex 负责静态存储ElementUI 组件库axios HTTP访问安装脚手架yum install npmnpm install -g vue-cli要求npm > 4.0版本过低建议使用版本管理工具nnpm install -g nn latest启动windows上建议使用 vue ui 命令启动脚手架GUI,然后新建项目。然后安装相应依赖。实现...
2020-06-06 19:54:18
327
原创 【论文精读】门控图神经网络GGNN及SRGNN
GGNNSRGNN是GGNN在推荐系统上的应用,核心网络几乎没有改变。GGNN的核心模型其实非常简单,在计算上和GRU基本没有区别。但为了更好的理解ava_vav是如何构造出来的,我们还得从最基本的思想讲起。信息传播绝大多数GNN的思想在于消息传播(Message Passing)或者说信念传播(Belief Propagation)。很自然的,我们知道一个节点的信息可以根据其邻居节点信息进行更新。初代GNN2009年最早的GNN论文1将这个过程抽象为xn=fw(ln,lco[n],xne
2020-05-30 11:55:00
11204
7
原创 数据科学导论实验:XML及StanfordParser
之前有用过xml.ElementTree包,而且Beautiful Soup的方法也差不多,所以lxml上手也挺快的;另外要注意,文件夹下不能有和包同名的py,比如xml.pyxml解析from lxml import etreeparser = etree.XMLParser(recover=True)tree = etree.parse('reviews/video/reviews...
2020-02-22 11:56:35
794
原创 数据科学导论实验:基于Twitter的网络结构和社会群体演化
分析及预处理查看json结构随便选一个json文件拖入浏览器,借助chrome的开发者工具查看json结构其中,name其实不需要取,nick是唯一的且只允许英文数字下划线 (\w),作为用户的唯一标识迭代取数据先取完再处理耗费内存,故通过yield建立迭代器import jsonimport osdef extract_info(batch): plist = batc...
2020-02-22 11:53:46
1225
2
原创 【MapReduce】表自然连接笔记 Windows环境(HadoopStreaming、mrjob、java api三个版本)
表自然连接student_course表:(SID, CID, SCORE, TID)student表:(SID, NAME, SEX, AGE, BIRTHDAY, DNAME, CLASS)均有表头思路根据文件名添加标记,两个表通过mapper分别转换为 <SID, “S”, others…>和 <SID, “SC”, others> 的形式,然后通过shuf...
2020-02-22 11:48:58
805
原创 Nachos5.0 java版本前三个proj设计报告
Referencenachos-java Task1.1 Join 包括后面几篇,有proj1的5个task讲解Nachos Project2思路、代码操作系统nachoes一些问题与解决方法代码主要参考,但也需要修改 soohyunc/nachos我的实现代码 https://download.youkuaiyun.com/download/weixin_42127182/12105905(p...
2020-01-16 09:26:30
3361
1
原创 GRU4rec与SRGNN之间的比较
SRGNN采用了Attention机制(GRU能够增强或削弱前一时刻的信息,但从整体上考虑并不是很好),而且最后的再次考虑了最后一个点击的重要性SRGNN使用了数据增强(Data augmentation)的方法,一个Session可以切片成多个来训练GRU4rec受序列顺序影响很大,SRGNN直接考虑这个item与所有邻接item之间的关系,邻接顺序并没有影响,并且相比于GRU只考虑了之前...
2019-11-23 18:33:16
3054
原创 视频异常分析论文及源码整理
A Boost Strategy to the Generative Error Based Video Anomaly Detection Algorithmshttps://arxiv.org/ftp/arxiv/papers/1911/1911.08402.pdfhttps://github.com/yiweilu3/CONV-VRNN-for-Anomaly-DetectionA n...
2019-11-23 10:15:45
1063
2
原创 VMware 连不上网问题终极解决(排除Ubuntu本身网络配置问题)
VMWare Ubuntu 连不上网问题解决(问题出现在Ubuntu网络配置上)排查了一下午,把优快云上VMWare连不上网的博客搜了一遍,自己的VM确实配置好了NAT之类的设置,但依然连不上网。(偶尔刚开机时可以打开网站,但是再刷新又连不上了)排除了宿主机的网络设置问题(比如相关服务没打开之类的),问题应该出现在Ubuntu上。于是调用sudo /etc/init.d/networki...
2019-11-18 16:45:35
667
原创 概率图模型入门(隐马尔可夫模型HMM、条件随机场CRF)
隐马尔可夫模型利用先验概率,贝叶斯分类器可以对给定的样本数据进行一次概率估计。而对于序列数据,如天气等时间序列、顾客的购买历史、自然语言的语句等,其变量之间显然具有相关性时,假设各变量始终独立同分布的朴素贝叶斯就不足以完成估计和预测了。对于一组顺序数据即序列,直觉上,我们会猜想,与历史的观测相⽐,当前的观测值会为预测未来值提供更多的信息,为此,我们拓展出了贝叶斯网以解决序列问题。首先需要注意的...
2019-10-20 22:36:44
998
原创 Requests 读取中文乱码
首先,检查所爬取html的编码格式比如<head> <meta http-equiv="Content-Type" content="text/html; charset=gb2312"> ...<head>然后对requests get的结果 r 设置编码格式r.encoding = 'gb2312'如果这样依旧是乱码,很有可能是字符超过了...
2019-08-30 23:32:18
1440
原创 语料库整理(机器翻译等用)
翻译语句对http://www.manythings.org/anki/英语–多国家,其中Chinese - English 21116条
2019-07-30 18:44:07
5594
2
原创 一些CS领域、互联网领域的名词解释,作为知识补充
.so文件对应Windows的dll文件,是linux系统(尤其是安卓开发经常用到)的二进制文件,也即ELF文件。Android中的so文件用作C\C++编译出来的动态链接库,多用于NDK开发中。而jar则是静态库文件。UPnPUPnP通用即插即用(Universal Plug and Play)的目标是使家庭网络(数据共享、通信和娱乐)和公司网络中的各种设备能够相互无缝连接,并简化相关网络...
2019-06-07 22:29:47
7154
转载 Android虚拟机调试Socket使用127.0.0.1无法连接PC端服务器
Android调试Socket使用127.0.0.1无法连接PC端服务器1.首先,在AndroidManifest.xml文件中,必须加入<uses-permission android:name="android.permission.INTERNET"></uses-permission>2.以PC为接收端(服务器Server端),以Android虚拟机为发送端(...
2019-04-29 21:31:49
1705
原创 PS存储为和导出为的区别
主要是CMYK模式下不同做线下物料时,颜色模式要选用CMYK模式。而CMYK模式下,通过“存储为”保存为jpg格式的图片,在电子屏幕上显示会出现色差,与PS工作界面的预览并不一致,但实际打印出来还是正常的。如果是用“导出为”导出,猜测PS会自动进行处理为RGB模式,这样的jpg图片在电子屏幕上没有色差,与工作界面中显示的一致。因此如果是做好了样图要发送给对方浏览,用截图截太粗糙了,可以用“...
2019-03-07 13:10:37
35930
5
原创 树状打印任意形式二叉树
任意二叉树以树形结构打印高度为8的二叉树打印最终效果:二叉树高度大概为6、7时,宽度就超过了控制台的最大宽度,所以没有用cout输出,而是输出为一个文件(下方代码中out_file是之前声明过的一个ofstream)。注:输出后用记事本和sublime都没有预期的显示效果,需要用Notepad打开。为了压缩显示面积,每个节点(节点宽度最好是奇数)之间相隔为1,原本树的三角形表示用_、/、...
2019-02-12 10:26:35
1768
frappe.zip
2020-07-26
中英平行语料库(八万对,句粒度)
2019-08-11
Socket实现的TCP_demo.zip
2019-07-08
飞花令app.zip
2019-07-08
山东大学软件学院机组考点整理复习
2019-07-08
山东大学软件学院17级数据结构实验源码
2019-07-08
Huffman压缩解压系统设计.zip
2019-07-08
山东大学软件学院移动互联开发技术
2019-07-08
山东大学软件学院机组课设(非单总线)
2019-07-08
数据库系统概念第六版(机械工业出版社)
2019-07-08
山东大学软件学院面向对象历年期末考试题.zip
2019-07-08
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人