
数据处理
BrotherDongDong
这个作者很懒,什么都没留下…
展开
-
开发中遇到的XML问题
在微软做知识图谱语义网项目时遇到的RDF(XML)方面的问题:xmlns = XML Namespace1、xmlns:prefix-name="namespaceURI"表示普通命名空间在子元素中用prefix-name作为namespaceURI的缩写2、xmlns="namespaceURI" 表示默认命名空间。 表示每个子元素都带有一个省略的namespaceURI前缀。详见 http:/...原创 2018-07-10 15:33:32 · 219 阅读 · 0 评论 -
数据处理经验总结·大数据文件处理参考值
打印在控制台的字符串类型如果两边带有引号的话,说明字符串存储的时候就有引号。 经验:在对大测试数据进行转化前,先自己编写样例数据文件,确保样例数据文件对所有测试对象(数据库)能跑通,本质上是确保1、原始数据能够转换出我们要的各种数据;2、转换出的各种数据能够适用各种对象,关键是1,然后再编程对大测试数据进行统一转化。三元组语义网数据处理时间和资源估算4g文本文件,Java按行读写进...原创 2018-07-04 11:02:45 · 941 阅读 · 0 评论 -
[Java数据处理]4GB文本文件处理一例
问题模型: 4GB文本文件in.triple每行包含两个顶点,一个边 : node1String, edgeString,node2String。输出node.csv文件:node1Id,edgeString,node2Id。 算法流程 随机按行读in.triple,对每个nodeString去hash表查,获取或生成ID后把相关数据写入(随机写)node.csv和...原创 2018-06-29 11:25:14 · 717 阅读 · 0 评论 -
微软第37天· RDF(N-Triples/.ttl) TO Neo4j-CSV
问题源数据文件F中k千万条记录,可以分为n类,每个类可以映射为一种类,最后要它们写入n个对应的文件。F的数据相对于用户是黑盒,只知道F的schema。所以,用户不能提前知道n个文件的名字,但是程序可以自己去解析F。巧妙的解法是,构造一个Baseclass存储所有n个类对应的k千万个对象,BaseClass有一个Map来序列化对象的所有属性名和属性值。然后利用排序接口将所有对象存入有序列表,...原创 2018-07-19 19:00:41 · 1983 阅读 · 1 评论 -
[总目录]Java集合进阶笔记
Map、Set Java中Key值允许重复的Map:IdentityMap HashMap,LinkedHashMap,TreeMap的有序性 HashMap。同一个HashMap多次遍历的结果key的顺序不唯一确定。 HashMap 的一个功能缺点是它的无序性,被存入到 HashMap 中的元素,在遍历 HashMap 时,其输出...原创 2018-07-19 22:01:57 · 405 阅读 · 0 评论 -
HashMap最佳实践经验
实验1(主实验)-HashMap最大承载数据量测试实验概述: 将n条随机生成的KV插入一个hashMap。 实验配置: 物理内存-24GB。 JVM使用默认配置,即最大堆内存默认为6GB(物理内存的四分之一)。KV的长度设定和大小估算: 每个key 20个字符 , value 80个字符 , 一个KV约为2KB。实验...2018-07-20 00:33:27 · 418 阅读 · 0 评论