
大数据
文章平均质量分 58
nanoleak coding
这个作者很懒,什么都没留下…
展开
-
层级或多时间序列
Facebook Prophethttps://medium.com/swlh/facebook-prophet-426421f7e331How To Predict Multiple Time Series At Once With Scikit-Learn (With a Sales Forecasting Example)https://www.mariofilho.com/how-to-predict-multiple-time-series-with-scikit-lear...原创 2021-01-15 18:04:53 · 374 阅读 · 0 评论 -
知识图谱--实体关系抽取,依存句法分析
我爱自然语言处理https://www.52nlp.cn/tag/%E4%BE%9D%E5%AD%98%E5%8F%A5%E6%B3%95%E5%88%86%E6%9E%90基于Hanlp的依存句法分析https://github.com/jsksxs360/AHANLP#4-%E4%BE%9D%E5%AD%98%E5%8F%A5%E6%B3%95%E5%88%86%E6%9E%90https://github.com/mengxiaoxu/entity_relation_extrac.原创 2021-01-15 17:56:25 · 3141 阅读 · 0 评论 -
sparkling-water使用的笔记
RSparkling > The best of R + H2O + SparkWhat you get from R + H2O + Spark?R is great for statistical computing and graphics, and small scale data preparation, H2O is amazing distributed machine learning platform designed for scale and speed and Spark翻译 2020-12-28 17:37:53 · 1842 阅读 · 0 评论 -
phoenix建表映射有命名空间的hbase表
1.先开启schema与namespace的对应关系在phoenix中与hbase的命名空间相对应的是schema概念,默认是没有开启的,需要在hbase的hbase-site.xml中增加以下配置项<property> <name>phoenix.schema.isNamespaceMappingEnabled</name> <value>true</value></property><property&g转载 2020-09-27 11:57:00 · 1277 阅读 · 0 评论 -
HBase多条件及分页查询的一些方法
HBase是Apache Hadoop生态系统中的重要一员,它的海量数据存储能力,超高的数据读写性能,以及优秀的可扩展性使之成为最受欢迎的NoSQL数据库之一。它超强的插入和读取性能与它的数据组织方式有着密切的关系,在逻辑上,HBase的表数据按RowKey进行字典排序, RowKey其实是数据表的一级索引(Primary Index),因为HBase自己没有二级索引(Secondary Index)机制,基于索引检索数据只能单纯地依靠RowKey。也只有使用RowKey查询数据才能获得很是高的效率。固然,转载 2020-09-23 10:15:48 · 1429 阅读 · 0 评论 -
用户企业画像相关调研
用户画像连载一:用户画像建设过程简析http://www.woshipm.com/user-research/778660.html有关标签划分的用户画像连载二:时尚全媒体用户画像建模http://www.woshipm.com/user-research/778704.html有关模型的。...原创 2020-08-27 13:40:37 · 961 阅读 · 0 评论 -
通过使用flink cep进行网站的监控报警和恢复通知
package cepengine.app;import org.apache.flink.api.java.tuple.Tuple4;import org.apache.flink.cep.PatternSelectFunction;import org.apache.flink.cep.pattern.Pattern;import org.apache.flink.cep.pattern.conditions.IterativeCondition;import org.apache.fli.原创 2020-07-08 09:58:02 · 593 阅读 · 1 评论 -
flink sql-clent MATCH_RECOGNIZE kafka 例子
环境 flink1.7.2python 增长flink1.7.2 的lib 中的jar, 不然会报类找不到sql avro-1.8.2.jar flink-connector-kafka-0.10_2.12-1.7.2.jar flink-connector-kafka-base_2.12-1.7.2.jar flink-json-1.7.2.jar kafka-clients-0.11.0.0.jarflink-avro-1.7.2.jar转载 2020-06-23 15:46:06 · 540 阅读 · 0 评论 -
flink 加载外部cep规则
主程序代码:package cepengine.App;import cepengine.domain.Event;import cepengine.domain.InputEventSchema;import cepengine.domain.OutputEventSchema;import groovy.lang.GroovyClassLoader;import groovy.lang.GroovyObject;import org.apache.flink.cep.CEP;imp原创 2020-06-23 09:17:39 · 2094 阅读 · 11 评论 -
Flink-Kafka指定offset的五种方式
本文转自:https://zhuanlan.zhihu.com/p/94592509默认:从topic中指定的group上次消费的位置开始消费。所以必须配置group.id参数从消费者组提交的偏移量开始读取分区(kafka或zookeeper中)。如果找不到分区的偏移量,auto.offset.reset将使用属性中的设置。如果是默认行为(setStartFromGroupOffsets),那么任务从检查点重启,按照重启前的offset进行消费,如果直接重启不从检查点重启并且group.id不变,程转载 2020-06-19 12:38:40 · 4445 阅读 · 0 评论 -
Fast JDBC access in Python using pyarrow.jvm
While most databases are accessible via ODBC where we have an efficient way viaturbodbcto turn results into apandas.DataFrame, there are nowadays a lot of databases that either only come solely with a JDBC driver or the non-JDBC drivers are not part of ...翻译 2020-06-12 10:03:37 · 227 阅读 · 0 评论 -
联邦学习-隐私保护数据科学解释 PRIVACY-PRESERVING DATA SCIENCE, EXPLAINED
我们今天要用数据科学解决的许多问题都需要访问敏感的个人信息-无论是我们的病史,财务记录还是个人习惯。每天,像您和我这样的人都会在我们的智能手机,电子设备或医疗设备上生成大量数据。但是由于隐私或专有方面的考虑,用于解决有意义的问题的数据可能会很有限且难以访问。我们可以在不侵犯个人隐私的情况下进行数据科学吗?如果是这样,我们可以结合哪些技术使其成为可能?传统上,训练模型将需要将此数据传输到中央服务器,但这引起了对数据隐私和安全性的众多担忧。数据泄漏和滥用造成的风险已导致世界各地立法制定数据保护法。为了在翻译 2020-05-26 16:11:25 · 1719 阅读 · 1 评论 -
什么是联邦学习
在有关私有ML的入门系列文章中,我们将介绍联邦学习(FL),解释什么是FL,何时使用它以及如何使用OpenMined工具实现它。本文中的信息将为广泛的读者所理解,但逐节地,我们将深入研究和理解联邦学习。有关该系列的更多信息,请查看介绍性文章或查看其他文章,以了解更多有关可通过OpenMined的库启用隐私保护ML的技术的信息。介绍联邦学习最初于2015年提出,它是一种算法解决方案,可通过将模型的副本发送到数据驻留的地方并在边缘进行训练来训练ML模型,从而消除了将大量数据移到中央的必要性服务器用于翻译 2020-05-25 16:01:59 · 3877 阅读 · 0 评论 -
基于spark实现的全同态数据计算框架sparkfhe实现思路
Follow the SparkFHE project at https://github.com/SpiRITlab or http://sparkfhe.slack.comTry it out at https://github.com/SpiRITlab/SparkFHE-Examples/wiki翻译 2020-05-20 17:55:51 · 562 阅读 · 0 评论 -
Gandiva, using LLVM and Arrow to JIT and evaluate Pandas expressions
从11年前开始,我就一直是LLVM的忠实拥护者,那时我开始使用LLVM处理JIT数据结构(例如AVL),然后使用JIT限制的AST树和TensorFlow图中的JIT本机代码。从那时起,LLVM演变为最重要的编译器框架生态系统之一,如今已被许多重要的开源项目使用。我最近意识到的一个很酷的项目是Gandiva。Gandiva由Dremio开发,然后捐赠给Apache Arrow(为此向Dremio团队表示敬意)。Gandiva的主要思想是提供一个编译器来生成LLVM IR,该LLVM IR可以在批处理的A翻译 2020-05-19 09:59:06 · 1009 阅读 · 0 评论 -
MAINTAINING PRIVACY IN MEDICAL DATA WITH DIFFERENTIAL PRIVACY(通过差分隐私维护医疗数据的隐私)
通过差分隐私维护医疗数据的隐私想象一下,您在一家医院担任DL研究人员,而您的工作是寻找帮助医生抗击疾病的方法。由于冠状病毒(无形的敌人)大流行,越来越多的患者和大量CT影像等待被诊断。您决定创建一个图像分类器,这不仅可以减轻临床医生的负担,并帮助他们做出更明智的决定,还可以加快诊断速度并可能挽救生命。但是,这是一个挑战。您的CT图像未标记。 引起您注意的是,其他5家医院都对CT扫描进行了注释(对于COVID 19,“阳性”或“阴性”),这正是您所需要的。尽管这些医院愿意提供帮助,但它们在共享患者信息方.翻译 2020-05-19 09:42:45 · 1270 阅读 · 0 评论 -
Apache Arrow开源项目生态
参考:https://www.slidestalk.com/AliSpark/ApacheSpark57985https://arrow.apache.org/blog/2019/10/13/introducing-arrow-flight/https://www.infoq.cn/article/zT4Y91uhy84a2UGUK91Rhttps://www.influxdata.com/blog/apache-arrow-parquet-flight-and-...原创 2020-05-13 22:34:13 · 814 阅读 · 0 评论 -
公钥可搜索加密-双线性对
我们将大数据存储在云服务器上,为了保护数据隐私,通常会选择先将数据加密后再上传。可搜索加密(Searchable Encryption)研究如何在密文上进行关键字搜索,分为对称可搜索加密(Searchable Symmetric Encryption)和公钥可搜索加密(Public-key Encryption with Keyword Search,PEKS)。 虽然对称可搜索加密比较快,但在多用户数据共享方面,公钥可搜索加密的应用场景比对称可搜索加密更为广阔。双线性对(Bilinea...转载 2020-05-13 15:40:17 · 2904 阅读 · 5 评论 -
Weld: 高性能数据分析的公共运行时,spark sql, pandas ,numpy,tensorflow等的Common IR
一直在找一个大数据领域的通用编译优化器,最近注意到weld,这东西2017年就出来了,看着实在太强大。回头把相关论文撸一把,很hgih。官网:https://www.weld.rs/论文:https://cs.stanford.edu/~matei/papers/2017/cidr_weld.pdf数砖的介绍https://www.slideshare.net/databricks/composable-parallel-processing-in-apache-spark-a.原创 2020-05-13 11:44:21 · 783 阅读 · 0 评论 -
使用Apache Spark创建多语言管道或避免将spaCy重写为Java
In this guest post,Holden Karau,Apache Spark Committer, provides insights on how to create multi-language pipelines with Apache Spark and avoid rewritingspaCyinto Java. She has already written acomplementary blog post on using spaCy to process text da...翻译 2020-05-12 16:51:31 · 369 阅读 · 0 评论 -
翻译--PySpark: Java UDF Integration
PySpark is the Spark API implementation using the Non-JVM language Python. Though developers utilize PySpark by implementing Python Code using Spark API’s (Python version of Spark API’s), internally, Spark uses data to be cached in JVM.The Python Driver翻译 2020-05-12 14:51:21 · 309 阅读 · 0 评论 -
pyspark SparkSession及dataframe基本操作
pyspark SparkSession及dataframe基本操作 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 ...转载 2020-05-12 11:21:37 · 955 阅读 · 0 评论 -
翻译--什么是数据虚拟化及其如何直接从源系统中解锁实时见解
在当今快速发展的业务环境中,有许多报告要求,它们不能等待批处理过程从操作系统中加载数据。业务用户需要其本地ERP,CRM或任何云系统中当前的数据。例如,在一个财政季度末,销售和财务负责人希望实时了解订单预订,以便他们有一个好主意是否打算“按季度”实现收入。他们无法等待4–8个小时的延迟才能完成ETL作业。数据虚拟化(DV)是一种通过“虚拟”连接到各种源系统并“虚拟”组合或连接它们以为BI系统或企业应用程序提供统一数据层以供查询的方法来构建“逻辑”仓库的方法。数据虚拟化的高级架..翻译 2020-05-11 09:27:37 · 865 阅读 · 0 评论 -
翻译--ASYNCHRONOUS FEDERATED LEARNING IN PYSYFT(PYSYFT中的异步联邦学习)
在这篇文章中,我们提供了使用PySyft应用联邦学习的展示。PySyft是一个开源python库,用于从OpenMined社区进行安全和私有的深度学习。它将私人数据与模型训练分离。在联邦学习中,每个边缘设备都处理自己的数据以进行训练,避免将其发送给另一个实体,从而保护了隐私。此外,训练阶段的主要处理工作是在设备上完成的,因此与在数据中心进行训练相比,减少了必要的带宽和数据处理。所有设备都可以通过组合其AI模型相互学习,这可以由可以放置在云中或边缘的中央协调节点完成。由于从设备发出的信息是最终的AI模型更翻译 2020-05-10 23:58:56 · 1334 阅读 · 1 评论 -
翻译--USE CASES OF DIFFERENTIAL PRIVACY(差分隐私用例)
在此博客文章中,我们将介绍从生物医学数据集分析到地理位置定位的差分隐私(DP)的一些用例。有关为SG OpenMined Explorers研究组创建的与该帖子相关的幻灯片,请参阅@Ria的“差分性隐私和联邦学习用例”。让我们从将差分隐私应用于基因组学开始。基因组学机器学习对基因组学应用具有重要意义,例如对于精密医学(即针对患者的临床/遗传特征进行定制的治疗)1以及检测从不同人群中收集的数据中的细微见解2。鉴于快速创建了许多基因组数据集以促进这些应用程序的统计分析和机器学习研究,此类应用程.翻译 2020-05-10 23:06:08 · 902 阅读 · 0 评论 -
翻译-TOWARDS PRIVACY WITH RSTUDIO: ENCRYPTED DEEP LEARNING WITH SYFT AND KERAS
注意:这篇文章首先出现在RStudio AI博客(以前是RStudio TensorFlow博客)上,致力于R的所有深度学习,概率建模和分布式计算。假定原始读者熟悉R包tensorflow和keras,旨在允许以惯用的,类似于R的方式设计和训练TensorFlow / Keras模型,以及网状结构(这种巧妙的助手),它使我们能够将Python功能直接集成到R中。简而言之深度学习不必与隐私保护保持一致。联邦学习可实现设备上的分布式模型训练;加密使模型和渐变更新不公开;差分隐私可防止训练数据泄漏。到目前为止翻译 2020-05-10 22:46:19 · 1035 阅读 · 0 评论 -
找一个差分隐私sql封装,相关论文和实现简单调研
最开始想找基于spark实现的差分隐私框架,找到了Shade: A Differentially Private Wrapper Around Apache Spark 这篇论文https://dspace.mit.edu/bitstream/handle/1721.1/119522/1066694305-MIT.pdf?sequence=1&isAllowed=y实现架构:这个框架的代码找不到开源的看到里面介绍了微软的PINQ/wPINQ,是LINQ的扩展以及A..原创 2020-05-09 20:11:28 · 693 阅读 · 5 评论 -
使用pysyft发送模型给带数据集的远端WebsocketServerWorker作联合训练
WebsocketServerWorker端代码:start_worker.pyimport argparseimport torch as thfrom syft.workers.websocket_server import WebsocketServerWorkerimport syft as sy# Argumentsparser = argparse.ArgumentParser(description="Run websocket server worker.")parser原创 2020-05-09 17:23:14 · 1434 阅读 · 2 评论 -
什么是omid?数据库的乐观事务管理
What is Omid?Apache Omid (Optimistically transaction Management In Datastores)is a flexible, reliable, high performant and scalable transactional framework that allows Big Data applications to execute ACID transactions on top of MVCC key/value NoSQL dat.原创 2020-05-09 15:24:25 · 1382 阅读 · 0 评论 -
pygrid:用于私有数据科学和联邦学习的p2p平台
如果您可以训练世界上所有数据,而又不会将这些数据留给设备,同时又将这些数据保密,该怎么办? PyGrid是用于私有数据科学和联合学习的对等平台。借助PyGrid,数据所有者可以提供,监视和管理对自己私有数据集群的访问。数据不会离开数据所有者的服务器。 然后,数据科学家可以使用PyGrid对私有数据集进行私有统计分析,甚至可以跨多个机构的数据集进行联合学习。 该博客...翻译 2020-05-08 09:47:03 · 1321 阅读 · 0 评论 -
通过联合学习PySyft和Pygrid来预测涡轮风扇发动机的维护
无需直接访问数据就能从机器学习的奇迹中受益吗?如今,机器学习可用于准确预测和预防发动机故障。但是,如果不允许访问传感器数据,如何防止昂贵,重要的机械故障呢?机器学习在行业中变得越来越重要,例如通常用于降低成本和提高效率,或者专门用于预测性维护。预测性维护是确定设备状况的一种做法,以便估计何时应该执行维护-不仅可以预防灾难性故障,还可以避免不必要的维护,从而节省了时间和金钱。但是在许多情况下...翻译 2020-04-18 20:57:23 · 1440 阅读 · 0 评论 -
pygrid教程3--本地部署pygrid 网络
https://github.com/OpenMined/PyGrid/blob/dev/examples/Part%202%20-%20Launch%20a%20PyGrid%20Network%20Locally.ipynb在本地启动网格网络在本教程中,您将学习如何将网格网络部署到本地计算机,然后使用PySyft与之交互。警告:网格节点在线发布数据集,仅供实验使用。部署节点需要您自担...翻译 2020-05-03 21:01:20 · 921 阅读 · 0 评论 -
在android上实现联邦学习--迁移学习方式
Implementation of federated learning on Android前言时隔一年之久再次更新博文。????记录近来的项目经历,留作以后参考,也希望能够帮到有需要的人。本项目的需求如下:搭建实际的联合学习(Federated Learning)场景,主要包括两个组成部分:服务器与客户端。两者的角色分别是:服务器:集中处理由客户端上传的更新后的机器学习模型之权重,并...转载 2020-05-07 22:08:21 · 1975 阅读 · 0 评论 -
区块链与机器学习整合随想
使用waterdrop 对接mpcsql模型直接给出结果部署到区块链,服务bi或者区块链浏览器。使用waterdrop 对接训练联邦模型过程,把训练模型部署到区块链,服务预测服务或者用于买卖。启发于,机器学习训练过程其实和etl很相似,transform连接。这种模式比较偏预言机场景,只是对结果和模型进行了简单验证,依赖外部各方的可信信任进一步实现区块链上全局信任,需要使用更严格的验证模型,...原创 2020-05-07 18:04:46 · 1127 阅读 · 0 评论 -
SMCQL 、 ObliVM 与 conclave 多方安全计算框架调研
1、SMCQLSMCQL将SQL语句转换为ObliVM程序,以进行安全的查询。相关介绍:https://inst.eecs.berkeley.edu/~cs294-163/fa19/slides/SMCQL.pdf代码仓库:https://github.com/smcql/smcql/论文:http://www.vldb.org/pvldb/vol10/p673-roger...原创 2020-05-03 20:24:54 · 2051 阅读 · 0 评论 -
pygrid教程2--本地部署pygrid 节点
第1部分:本地启动网格节点在本教程中,您将学习如何将网格节点部署到本地计算机,然后使用PySyft与之交互。警告:网格节点在线发布数据集,仅供实验使用。部署节点需要您自担风险。不要将OpenGrid与您希望保持私有的任何数据/模型一起使用。为了在本地运行节点,您需要做的就是运行一个应用程序,然后开始通过Grid Worker与之通信。在本教程中,我们将使用websocket应用程序第1...翻译 2020-04-28 21:36:22 · 867 阅读 · 2 评论 -
pygrid教程1--pygrid介绍
什么是PyGrid?PyGrid(也称为Grid)是一个面向数据所有者和数据科学家的协作网络平台,他们可以使用PySyft库集体训练和共享AI模型,该库扩展了PyTorch和Tensorflow等深度学习库。介绍内容包括1、介绍2、目标3、实作介绍PyGrid平台旨在成为用于训练,管理和共享模型的安全对等平台。网格是可以透明地交换消息和张量的工作人员的集合。GRI...翻译 2020-04-25 22:53:45 · 1860 阅读 · 0 评论 -
在大数据工作流中集成安全多方计算
原文ppthttp://www.bu.edu/macs/files/2016/09/Volgushev-MPC.pdf...翻译 2020-04-25 21:46:15 · 235 阅读 · 0 评论 -
chAIn--一种无中心人工智能的初步实现
chAIn--一种无中心人工智能的初步实现本文提炼自https://github.com/Riksi/chAIn什么是chAIn?chAIn项目的目标是开发一个AI+Blockchain 赋能的去中心化数据和模型银行。把数据和模型资产化。初期我们希望专注于开发一个真正的点对点数据和模型借贷平台,去把不同实体间的利益整合起来。依赖于普通的智能合约可以做到这一点,但任然有风险。智...原创 2020-04-18 18:59:28 · 194 阅读 · 0 评论 -
大数据与区块链相关好文章整理
有关数据治理的本质及实践,看这一篇就够了https://www.infoq.cn/article/UBch5BDK2TWGdo5x*UzN建设企业的数据化引擎,网易严选数据中台的经验和方法论https://www.infoq.cn/article/Zyq4a*yEI1Uz2iwHFJuF大数据架构如何做到流批一体?https://www.infoq.cn/article/...原创 2020-04-17 21:17:02 · 574 阅读 · 0 评论