- 博客(25)
- 资源 (4)
- 收藏
- 关注
原创 字节跳动 [编程题]用户喜好
为了不断优化推荐效果,今日头条每天要存储和处理海量数据。假设有这样一种场景:我们对用户按照它们的注册时间先后来标号,对于一类文章,每个用户都有不同的喜好值,我们会想知道某一段时间内注册的用户(标号相连的一批用户)中,有多少用户对这类文章喜好值为k。因为一些特殊的原因,不会出现一个查询的用户区间完全覆盖另一个查询的用户区间(不存在L1<=L2<=R2<=R1)。输入: 第1行为n...
2019-08-10 00:12:08
472
原创 牛客网——被3整除
小Q得到一个神奇的数列: 1, 12, 123,…12345678910,1234567891011…。 并且小Q对于能否被3整除这个性质很感兴趣。 小Q现在希望你能帮他计算一下从数列的第l个到第r个(包含端点)有多少个数可以被3整除。import syswhile True: x_y=sys.stdin.readline().strip() if x_y=='':...
2019-07-26 21:13:50
415
原创 利用GAN来为冷启动用户生成 行为特征完成yelp数据集上,冷启动垃圾识别的问题。
之前的工作总结一下,收录为2019DASFAA的短文。Generating Behavior Features for Cold-Start Spam Review Detection。文章主要是针对垃圾识别领域中冷启动用户的问题,冷启动用户指刚刚发表一条新评论的用户,此类用户没有大量的文本或者行为特征供我们进行提取。本文通过generative adversarial network(GA...
2019-06-15 16:00:53
636
1
原创 用序列标注Sequence Labeling来做event detection
借鉴Double Embeddings and CNN-based Sequence Labelingfor Aspect Extraction这篇文章,转用序列标注来做,这样可以大幅度减少数据量,但是一个缺陷是一些pooling的改进算法可能会有影响。目前借鉴上文的模型,针对ACE2005的数据集进行了处理,最终的结果大概p=68,recall=62.5,f1=65.2改进待续。...
2019-06-15 15:53:31
559
原创 event detection with CNN 复现Event Detection and Domain Adaptation with Convolutional Neural Networks
Event Detection and Domain Adaptation with Convolutional Neural Networks这篇文章的复现。使用的数据集是ACE2005英文。针对这个数据集,其中包含多个新闻文档,其中sgm为文本描述,apf为每个文档里面event,argument,trigger等的描述。这篇文章模型的主要思路是若有一个句子为L=n1,n2…n50针对...
2019-06-15 15:49:57
883
1
原创 Unigram 和bigram 对yelp数据集进行垃圾评论识别分类 python
依旧是对yelp数据集处理,之前效果不理想,后来仔细看了论文,用的是SVMlight分类器…(使用方法见上一篇文章),效果就差不多了。。。。过程就是对英文进行处理(去停用,去高频和低频),化为词袋模型,处理成SVMlight的格式,进行分类。贴部分代码。对数据处理:for c in cos: cis_2=[] id = c.split(' ')[0] con
2018-01-07 18:57:31
3491
3
原创 SVMLight 在windows下进行二分类的使用和例子 python
后来发现python貌似有接口,但是数据已经处理了就直接用了C版本的exe至于下载去官网 ,下载二进制版本(即exe),然后样例1(example1)。二进制文件夹里面有两个exe,一个是learn,一个为classify,顾名思义,一个用来训练模型,另一个是进行分类。样例1中有train和test两个文件,其中格式为 :标签+特征值 具体理解可以看下面的举例:假如有两个样本
2018-01-07 18:49:33
1102
1
原创 RESCAL+YELP 垃圾评论识别 论文算法实现
咸鱼好久……记录一下最近做的这个论文里面的重现,主要也就是对数据集的处理。论文为Learning to Represent Review with Tensor Decomposition for Spam Detection,主要就是将评论和商品两种实体的关系扩展出11种,每一种为一个三维张量,也就是说会有11个三维张量。然后把这11个三维张量投入RESCAL算法里面分解得到A和R和A^T然后A中
2017-12-19 16:48:58
4241
8
原创 Alias sampling 算法用Python实现
Line论文中采用了alias 采样算法进行优化,其源码为c++,现用Python实现一遍,加深一下印象网上有人已经用C++ 脱离LINE算法,单独实现了这个算法并且测试,可以先看看。而alias算法的原理可以看我的上一篇博客,其中包括C++源码的分析,所以Python就不加注释了。 。python代码:from gensim.models import Word2Vecimport nump
2017-11-23 17:10:59
1256
原创 Line论文中的Alias Sampling Algorithm 分析
http://blog.youkuaiyun.com/haolexiao/article/details/65157026 找了一下这篇写的最清晰了,然后结合Line的源码分析一下。原理: 原文举例如下:比如一个随机事件包含四种情况,每种情况发生的概率分别为: 12,13,112,112,问怎么用产生符合这个概率的采样方法。Alias方法按照均值1/N进行归一化,其总面积为N,并且分为1*N个长方形,每一列
2017-11-20 15:50:35
3151
转载 boost在DevC++中的安装过程
第一种比较简单,在DEV-C++的Tools菜单里选择Check for updates蔡单项,然后在弹出的对话框中选择devpaks.org Community Devpaks, 单击Check for updates按钮几秒钟后下载完毕,在Groups中选择C++ Libraries,然后在Available updates list中选择BOOST, 单击Download selected,
2017-11-13 09:22:47
724
1
原创 Doc2vec对M10语料库进行多分类 python
语料库:是文献引用关系的语料库,将文献分成10类 包含3个txt,一个是文档ID+文档标题信息,一个是文档ID之间的引用关系,一个是文档类别 语料库下载:m10do2vec和word2vec不同,直接是对文档进行训练,得到的就是一个个文档向量。 主要分为三步,一步就是提取文档信息,一步进行训练,最后分类。第一步提取比较简单 主要就是提取文档标题信息做words,然后d
2017-10-25 14:30:03
1244
6
原创 python进行文本分类,基于word2vec,sklearn-svm对微博性别分类
第一个分类任务,记录一下 语料库下载一、进行手工分类 导师给的数据是两个文件夹,一个包含了以用户ID名为标题的一大堆txt(未分类),还有一个文件夹里面是已经分类好的男女性别ID的集合txt。 先要做的任务就是将未分类的txt分成两类(根据给的已经分类的id集合txt),这个分为三步: 1、新建男女分类的空文件夹。 2、提取id集合中的id,存在两个list里面. 3、提取未分类txt的
2017-10-07 12:00:43
19626
13
转载 机器学习中的训练集,验证集及测试集的关系
Training set: A set of examples used for learning, which is to fit the parameters [i.e., weights] of the classifier. Validation set: A set of examples used to tune the parameters [i.e., architecture, n
2017-10-05 22:04:29
861
1
原创 武大计院夏令营记录2017
稍微记录下把,给来年的孩纸们一点福利233333报名方式就不说了。夏令营除了各种讲座外就是笔试+面试。笔试虽然只占20%,但还是挺重要的,因为最后面试分好像都差不多。笔试包括数学(线代、高数、概率论)、C语言程序设计和计算机网络。 其中数学感觉每年重点不一样,今年觉得侧重线代一点,不过都是考的比较简单的题目,一共10题(感觉有一题会比较难,毕竟不能拿满分嘛),其他都是很基础的,比如求逆矩阵、极限,
2017-07-23 16:33:20
904
原创 【Java web】利用eclipse打开并调试Java web项目,包括部署tomcat,连接数据库
(不会写就算了还不会调试 跪) 在网上下载了现成的java web项目,利用eclipse打开后,还需要进行布置环境和配置数据库+连接数据库,当然如果下载的是eclipse ee 的话应该就不用了。 其中包括设置项目的属性,部署tomcat等等。1、导入项目 利用eclipse导入存在的项目就是右键import。 如果用到了servlet包,会发现项目有错,提示没有这个包,这个时候需要下载这
2017-06-21 21:47:41
3147
原创 windows7 C语言打印目前进程列表、删除一个进程、显示一个进程地址。
#include <windows.h>#include <tlhelp32.h> // 声明快照函数的头文件#include <stdio.h>#include <stdlib.h> int main(int argc, char* argv[]){ //用来存放快照进程信息的一个结构体。(存放进程信息和调用成员输出进程信息) PROCESSENTRY32 pe
2017-05-21 20:42:23
1085
原创 windows7 安装python +nltk
安装python的教程很多不赘述 安装nltk先安装pip,可以在官网下载tar.gz结尾的压缩包,然后解压。 下一步用命令行进入解压的文件夹,python setup.py install 。 然后配置环境变量,把python下scripts文件夹的路径添加到path变量中即可。在命令行中Pip一下可以看到Pip已经安装成功~ 接下来pip install nltk即可。 然后进入pyt
2017-04-30 11:23:20
517
原创 windbg查看文件的PTE和PDE
1、下载好windbg,设置好变量symbols(去官网下载对应版本的symbols)2、进入kernel debug模式的本机调试(内核调试模式),我是在xp虚拟机下进行的。3、用!process 0 0命令打印当前所有的进程信息,找到我们的exe信息(这里是hello.exe) 4、先.process 81c39020进入进程5、!pte 81c39020打印此处的PTE和PDE 6、得
2017-04-13 18:22:25
2863
原创 java简易扑克牌游戏,慕课第三季作业
要求:1、创建牌,分四个花色,每个花色13张,没有大小王2、创建玩家,玩家有ID和姓名,每个人两张牌3、洗牌,打乱牌序 利用Collections.shuffle方法,加个随机数循环多次洗牌,保证不重复。4、发牌,发前四张5、游戏规则:每个人选出两张中最大的进行比较,大的胜利(若大小相等则比较花色)过程:1、分为Card类,Player类,Game主类2、Game类中包含CreateCards();
2017-03-26 21:02:04
2850
1
原创 利用winhex在NTFS文件系统下定位文件,找到其目录项和簇号等等
软件安全的实验,记录一下,首先需要对NTFS文件系统有了解,有时间的推荐先看这篇博客一、NTFS需要的基础1、MFT:磁盘上的所有数据都是以文件的形式存储,其中包括元文件。 每个文件都有一个或多个文件记录,每个文件记录占用两个扇区 $MFT元文件就是专门记录每个文件的文件记录。 其中第五个目录是根目录的文件记录。 第一个目录是MFT本身的文件记录。2、簇号: NTFS文件系统使用逻辑簇号(LCN)和
2017-03-26 20:49:48
32014
4
原创 Windows XP下OpenSSL 安装+OPENSSL编程 椭圆曲线ECC函数
非原创,懒得搬运了(泪) 链接留下很详细的讲解了函数Windows XP下OpenSSL 安装,亲测有效(笑哭)
2017-03-26 20:43:53
385
原创 Miracl在VC++6.0中的配置和使用
一、Miracl库是大数运算函数库,用来设计与大数运算相关的密码学之应用,包含了RSA 公开密码学、Diffie-Hellman密钥交换(Key Exchange)、AES、DSA数字签名,还包含了较新的椭圆曲线密码学(Elliptic CurveCryptography)等等。运算速度快,并提供源代码。二、下载Miracl 密码ecee三、配置将Mircal中Include中的miracl.h和m
2017-03-26 20:42:41
3501
1
原创 java_简陋租车系统
终于看完了前两季视频,根据作业要求做出了一个特别丑陋的哒哒租车系统啦~感觉很粗暴,还有很多需要优化的地方,今天先到这里,明天去慕友那看看能不能改进了QAQ 还有一些地方不是很清楚,比如接口,方法、类直接还有点晕QAQ哒哒租车系统功能:1、展示所有可租的车辆 2、选择车型和车量 3、展示租车清单分析:利用父类子类,车作为父类,分为三个子类(载人的车,载货的车,皮卡)。其中父类作为抽象类,只定义规范,子
2017-03-26 20:40:13
480
原创 利用腾讯云1元机和服务市场wordpress快速搭建个人博客
个人博客:http://www.xiaoyatang.cc/ 欢迎交流访问 (发现个人博客很难被百度收录,决定还是在这里继续搭窝)记录一下自己利用腾讯云主机和腾讯服务市场wordpress博客平台,来快速搭建个人博客的过程。作为一个小白,首先做的是网上搜教程啦,然后参考→教程链接,大部分都可以参考,但是最后的wordpress的配置不太一样。具体搭建步骤包括:1、购买腾讯云主机(学生可以享受1元学
2017-03-26 20:35:01
1342
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人