- 博客(60)
- 资源 (5)
- 收藏
- 关注
原创 论文阅读:node2vec: Scalable Feature Learning for Networks
node2vec: Scalable Feature Learning for Networks摘要基于网络中节点和边的预测任务中的特征工程总是很麻烦的。虽然表示学习的自动学习特征已经有很大的帮助,但现有的特征学习方式无法对网络中连接模式的多样性进行足够的捕捉。node2vec是本论文提出的一种对网络中的节点学习连续特征表达的框架。通过将节点映射到maximizes the lik...
2018-08-19 21:52:53
13616
3
原创 知识是系统的
计算机研究生面试准备知识要成体系是非常重要, 这篇文章单纯的收集了许多知识, 但是我不能保证我掌握了这些知识为什么高引知乎,因为人们选择在知乎发文章的时候力求解惑,所以他们更会为读者考虑,而其他博客难免会形式化于自己知识的总结,记录的时候会更符合自己的认知习惯操作系统文件系统和数据库系统的区别,哪个效率更高,为什么? [数据库系统与文件系统的区别 优快云][为什么需要数据库...
2018-07-26 23:52:23
3651
原创 根据取证特征设计训练集进行隐写分析,解决Cover-source mismatch问题
Facing the Cover-Source Mismatch on JPHide using Training-Set Design 论文阅读1. Abstract本论文讨论了图像处理流水线(image processing pipeline)对Jpeg隐写中原图片源不匹配(cover-source mismatch)问题的影响,并提出一个取证和隐写分析结合的方法来解决CSM问题....
2018-07-26 01:02:24
1897
1
原创 对抗样本的一些参考文章和笔记
本文记录了自己准备写一篇介绍对抗样本的科普文章是在YouTube看Ian Goodfellow的一些视频资料学习做的笔记,以及在研究对抗样本(主要)和GAN时看到的技术博客的链接。笔记是随意记的。资料收集博士答辩在Ian博士答辩时总结到’Generative models useful for missing value problems’ in 2014. 和非监督学习....
2018-07-15 13:38:00
2308
原创 对抗样本:知其然,知其所以然
聪明汉斯的故事 在二十世纪初的德国,有一匹名叫汉斯的马非常有名。在主人威廉•冯•奥斯滕的训练下,聪明的汉斯经过了一段时间的训练,掌握了简单的数学运算。当奥斯滕问汉斯“一加一等于几”的时候,它会用蹄子在地上“嗒,嗒,嗒”的敲出答案。围观的群众看到汉斯能够正确的回答各种数学题,都感到惊讶和神奇。同时,人们也疑惑,汉斯是否真的通过训练学会了过去人们认为动物做不到的事情。在一系列的调查中,人们发现,如果...
2018-07-15 13:36:08
26789
6
原创 理解JPEG图像压缩算法,DCT变换
理解JEPG原理JEPG不是一种文件格式,而是一类图像压缩算法.1.彩色图像灰度图像灰度,一个pixel取值0-255. 彩色图像需要比灰度图像更多的存储空间, 事实上, 所有颜色都可以用红绿蓝三原色的组合表示, 彩色图像可用RGB三通道表示.YCbCr研究发现对于图像压缩, RGB的表示不是最佳的. 人脑对亮度(luminance)和色差(...
2018-07-03 11:57:35
18929
2
原创 word2vec: 理解nnlm, cbow, skip-gram
word2vec 论文笔记1 word rep怎么表示词的意思? 传统的想法有查字典. 近义词,缺点:主观,费人力, 难记算相似性 one-hot 缺点:维度灾难,正交,无法计算similarity. 那么,通过借鉴近义词,学习将similarity编码到词向量中去.1.1 one-hotn-gram language model见我之前写的csdn Blog: 1...
2018-06-07 01:50:10
7056
1
原创 随机森林 OOB理解
一个大小为N的数据集.1.有一个问题是, 对于随机森林的每一棵CART树是怎么训练的, 如何划分训练集测试集?Bootstrap, 对数据集随机有放回抽样N次作为一棵CART树的训练集.根据概率论,可知数据集中有大约1/3的数据是没有被选取的(称为Out of bag),所以就是这没被选取的部分作为小树的测试集.2. 接下来的问题是, 怎么测试随机森林的性能, 测试集是什么?留坑....
2018-05-15 09:18:11
17432
原创 [特征工程]Chap4. 特征缩放:TF-IDF
本章通过BOW 到tf-idf的变化,讨论 feature scaling 的效果.TF-IDF: BOW的变种tf-idf可以说就是BOW基础上的变种, 全称: term frequency- inverse document frequency ,中文: 词频-逆文件频率.BOW记录文件中的词频, 明显的问题就是会强调一些没意义的词, 如英文中的 'the' 'and' 'it' 等等词频会很...
2018-05-04 03:31:36
986
原创 【特征工程】Chap3 Text Data: Flatten, Filtering, Chunking
本章介绍文本的特种工程。从最简单的 bag-of-words开始。下一章会介绍tf-idf。Bag of X: Turning Natural Text into Flat Vectors简单而好理解的特征虽然不一定得到最精确的模型,但从简单开始,只有到必须的时候才增加复杂性确实是好主意。bag-of-words,一个词数统计的列表,虽然找不到文本中特殊的词,但可以发现那些多次出现的词。这对解决文...
2018-05-02 01:37:00
686
原创 Caffe入门:Blobs, Layers, and Nets
读一下官方tutorial:Blobs, Layers, and NetsBlobCaffe stores and communicates data using blobs. Blobs provide a unified memory interface holding data; e.g., batches of images, model parameters, and derivativ...
2018-03-14 20:46:07
265
原创 样本不均衡问题
今天看到有人分享的一个CV方面的面试问题:从网上爬来的200W图片数据集和公司自己积累的10W图片数据集,怎么分训练集,测试集?这个问题我之前在deeplearning.ai学习过,还有一点印象,这里引用大树先生的笔记,:方法一:将两组数据合并到一起,总共得到210万张图片样本。将这些样本随机分配到训练、开发、测试集中。好处:三个集合中的数据均来自于同一分布;坏处:我们设立开发集的目的是瞄准目标,...
2018-03-13 22:37:13
845
原创 【特征工程】Chap2数字处理
Numeric data对于数字,不需要从其他形式转化,仍要考虑:magnitude数字量级是否重要?只用考虑正负?粗粒度?scale of the features极大值极小值分布的量级特征的规模对线性模型影响很大,考虑 3x+1.同时对任何用到欧几里得距离的模型,如K-means,KNN,RBF等,一般需要标准化。logical functions:不需要scaleDistribution o...
2018-03-08 19:29:54
513
原创 【特征工程】Chp1 介绍
机器学习使用数学模型对数据进行拟合来做预测或者帮助理解。模型以特征作为输入。特征是原始数据的一种数字表达,从数据到模型的中间过程,就是特征工程。特种工程是将原始数据提取出来,然后转换为适合机器学习模型的形式。这一步骤非常关键,优秀的特种工程可以有效的降低建模难度。虽然在建立一个ML流水线的时候,大部分时间都是用来做特种工程和数据清洗的,但是因为数据和模型的多样,很难泛化这一过程。尽管如此,本书会逐...
2018-03-03 12:02:00
735
原创 【特征工程】为什么我要记录我学习特征工程的过程
坊间常说:数据和特征决定了机器学习的上限,而模型和算法只是逼近这个上限而已。确实在实践过程中,数据处理和特征选择占据了整个项目大部分的时间,模型和算法就那么几个,训练的时候往上套就行。比如说Kaggle的入门比赛Titanic问题,要求对各种特征及其间关系有深刻的理解,合理的处理数据,模型预测效果才够好。xgboost是个非常强大的工具,但我简单的特征工程之后xgboost预测的效果还没有只用性别...
2018-03-03 11:04:43
448
原创 DB 复习
点击打开链接jsoncreate function one() returns integer as $$ select 1 as result; $$ language sql;create function add_int(integer,integer) returns integer as $$ select $1 + $2; $$ language sql;
2018-01-12 15:29:10
296
原创 DB lab7
CREATE TABLE table_name (json_value json);INSERT INTO table_name VALUES ('{"name":"me"}');delete from table_name;UPDATE table_name SET json_value = '{"name":"you"}';select * from table_name;CRE
2018-01-12 15:19:09
343
原创 DB exam2
-- PART1 2‘-- 1 psql -U postgres -d postgres-- 2CREATE DATABASE testdb;-- 3CREATE USER Bob WITH PASSWORD '20171203';ALTER USER Bob superuser;CREATE USER Alice WITH PASSWORD '20171203' superus
2018-01-12 15:18:01
433
原创 DB exam1
-- 9:50 zhengli daan-- PART1-- 8:10psql -U postgres -d postgresCREATE DATABASE bookdb WITH OWNER postgres;CREATE USER xiaoyubei PASSWORD '15331324';alter user xiaoyubei createdb;psql -U xiaoyub
2018-01-12 15:16:36
431
原创 NP完全问题 8.12
8.12.The k-spanning Tree problem is the following:Input: An undirected graph G=(V,E)Output: A spanning tree of G in which each node has degreeshow that for any k>=2:(a)k-spanning tree is a sea
2017-07-10 19:29:27
319
原创 算法
1000.函数求值定义超级和函数F如下:F(0, n) = n,对于所有的正整数n..F(k, n) = F(k – 1, 1) + F(k – 1, 2) + … + F(k – 1, n),对于所有的正整数k和n. 请实现下面Solution类中计算F(k, n)的函数(1 class Solution {public:
2017-06-24 16:17:59
250
原创 210. Course Schedule II
There are a total of n courses you have to take, labeled from 0 to n - 1.Some courses may have prerequisites, for example to take course 0 you have to first take course 1, which is expressed as
2017-06-22 16:25:25
188
原创 Add to List 310. Minimum Height Trees
For a undirected graph with tree characteristics, we can choose any node as the root. The result graph is then a rooted tree. Among all possible rooted trees, those with minimum height are called mini
2017-06-22 15:29:38
218
原创 332. Reconstruct Itinerary
Given a list of airline tickets represented by pairs of departure and arrival airports [from, to], reconstruct the itinerary in order. All of the tickets belong to a man who departs from JFK. Thus
2017-06-22 14:44:32
172
原创 55. Jump Game
Given an array of non-negative integers, you are initially positioned at the first index of the array.Each element in the array represents your maximum jump length at that position.Determine i
2017-05-08 15:17:39
227
原创 455. Assign Cookies
GreedyAssume you are an awesome parent and want to give your children some cookies. But, you should give each child at most one cookie. Each child i has a greed factor gi, which is the minimum
2017-04-18 11:32:38
204
原创 347. Top K Frequent Elements
Given a non-empty array of integers, return the k most frequent elements.For example,Given [1,1,1,2,2,3] and k = 2, return [1,2].Note: You may assume k is always valid, 1 ≤ k ≤ number
2017-04-11 11:43:56
197
原创 451. Sort Characters By Frequency
Given a string, sort it in decreasing order based on the frequency of characters.Example 1:Input:"tree"Output:"eert"Explanation:'e' appears twice while 'r' and 't' both appear once.So 'e
2017-04-11 11:26:29
247
原创 102. Binary Tree Level Order Traversal & 107. Binary Tree Level Order Traversal II & 103. Binary Tre
102. Binary Tree Level Order TraversalGiven a binary tree, return the level order traversal of its nodes' values. (ie, from left to right, level by level).For example:Given binary tree [3,9,20
2017-04-02 21:48:10
238
原创 111. Minimum Depth of Binary Tree & 104. Maximum Depth of Binary Tree
111. Minimum Depth of Binary TreeGiven a binary tree, find its minimum depth.The minimum depth is the number of nodes along the shortest path from the root node down to the nearest leaf node
2017-04-02 19:05:23
337
原创 101. Symmetric Tree
Given a binary tree, check whether it is a mirror of itself (ie, symmetric around its center).For example, this binary tree [1,2,2,3,4,4,3] is symmetric: 1 / \ 2 2 / \ / \3 4 4 3
2017-04-02 13:37:59
227
原创 207. Course Schedule
There are a total of n courses you have to take, labeled from 0 to n - 1.Some courses may have prerequisites, for example to take course 0 you have to first take course 1, which is expressed as
2017-03-26 20:29:04
211
原创 399. Evaluate Division
Equations are given in the format A / B = k, where A and B are variables represented as strings, and k is a real number (floating point number). Given some queries, return the answers. If the answ
2017-03-26 20:27:34
251
原创 241. Different Ways to Add Parentheses
Given a string of numbers and operators, return all possible results from computing all the different possible ways to group numbers and operators. The valid operators are +, - and *.Example
2017-03-12 23:42:27
288
原创 215. Kth Largest Element in an Array
Find the kth largest element in an unsorted array. Note that it is the kth largest element in the sorted order, not the kth distinct element.For example,Given [3,2,1,5,6,4] and k = 2, return 5.
2017-03-05 21:44:31
192
原创 Implement Trie (Prefix Tree)
tire tree 实现定义:(wiki)In computer science, a trie, also called digital tree and sometimes radix tree or prefix tree (as they can be searched by prefixes), is a kind of search tree—an ordered
2017-02-26 16:29:01
374
原创 qhy数据结构期末复习题
configuration:#include #include #include #include #include #include #include using namespace std;1001. The first quartileDescriptionIn descriptive statistics, the quarti
2017-01-02 15:47:39
879
原创 LinkedList 单向链表
实现:拷贝构造函数,赋值构造函数(同)析构函数,头插入#includeusing namespace std; template class LinkedList{private: // inner class: linked-list node class Node { public: E data; Node * next; };
2017-01-01 17:16:57
808
原创 Compute the height of a binary search tree
Given a list of integers, we can build a binary search tree by inserting them one by one, then compute the height. The input has two lines: the first line is an integer n, the second line contains n i
2016-12-19 15:30:20
524
原创 Compute the height of a binary tree
#include #include #include #include using namespace std;typedef int T;struct BinaryNode{ T data; BinaryNode *left, *right; BinaryNode(T d, BinaryNode *l=NULL, BinaryNode* r=NULL):data(
2016-12-19 15:28:55
400
计算机体系结构:量化研究方法(中文第五版).pdf
2017-09-04
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人