- 博客(69)
- 资源 (33)
- 收藏
- 关注
原创 浅谈数字化管道建设-胜利油田集输信息中心
胜利油田现有较为重要的联合站外输管道有近40条,全长1000多公里,管道在油田生产中的作用不言而喻,可以说是油田的生命线。因此管道的数字化建设也是数字油田建设的重要内容。数字管道,实际上就是信息化的管道——建立在网上的虚拟管道。数字管道将有关管道的全部信息,包括管道本身的静态信息和运行的动态信息,并按照地理坐标加以整理,然后构成一个管道的信息集合。这样,生产管理人员就可以快速、完整地掌握管道上任何一点的全方位的信息,从而实现“信息就在手中”。当然,管道的数字化并不是目的,而只是手段,是实现安全、经济、高效
2021-05-13 16:54:45
2603
1
原创 数据类别不平衡/长尾分布?不妨利用半监督或自监督学习
于类别不均衡的学习问题,利用1.半监督学习 --- 也即利用更多的无标签数据;2.自监督学习 --- 不利用任何其他数据,仅通过在现有的不平衡数据上先做一步不带标签信息的自监督预训练(self-supervised pre-training)都可以大大提升模型的表现,并且对于不同的平衡/不平衡的训练方法,从最基本的交叉熵损失,到进阶的类平衡损失[1][2],重采样[3],重加权[4][5],以及之前的state-of-the-art最优的decouple算法[6]等,都能带来一致的&.
2020-10-15 10:51:54
1757
1
原创 建立管道大数据的可行性分析
建立管道大数据的可行性分析 我国石油天然气管道在线路规划选址、设计等方面积累了大量的地理信息、物料、工艺等数据。大数据技术可以更加充分地利用这些数据,通过相关性分析对今后油气管道规划、设计进行更优化的选择。道大数据主要包括管道基础数据、管道外检测数据、管道内检测数据、管道评价数据、管道建设期数据等。下面将对这些数据获取的可能性进行阐述以论证建立管道大数据的可行性。管道基础数据 管道基础数据包括管道材质、生产工艺、连接方式、镀涂特征、内外径、壁厚等管道制造参数,输送介质、设计压力、最...
2020-10-13 15:15:18
770
原创 Tachyon
Tachyon是一个分布式文件系统,提供了一种可靠的方式,可以以访问内存的速度在不同的分布式计算框架之间共享数据。Tachyon使用lineage技术实现容错,并通过一种检查点(checkpoint)算法来确保恢复以及资源开销在一定范围之内。据作者测试,Tachyon的写性能超过in-memory hbase 110倍,能为实际端到端工作流提高4倍性能。Tachyon目前已经开源并且在多个不同的企业、组织部署。近些年已经出现了大量计算框架,大规模并行数据处理的速度和复杂度都有极大的提升,但其中很大一部.
2020-09-04 10:40:02
301
原创 数据分析平台
•全通道数据同步显同步显示三维漏磁数据(轴向、径向和周向)、IDOD数据、 变形数据和分析结果总览视图。•曲线图 /灰度图 /彩色图切换显曲线图、灰度图、彩色图可进行切换显示,方便用户识别各种管道特征。•数据预处理原始数据经坏通道处理、滤 波降噪和均一化后、信号特征更加明显和易于识别。•漏磁检测数据和变形检测数据自动分析自动分析环焊缝、 管节、壁厚、缺陷等管道信息,识别和度量精度高•内外数据归一化支持外检...
2020-06-12 17:52:29
388
原创 漏磁内检测的方法
漏磁检测为无损检测技术的一种,属于间接测量技术。漏磁检测的理论 基础是铁磁材料的高磁导率。被测材料在外加磁场作用下被磁化。当材料内 部有缺陷时,缺陷切割磁力线,由于缺陷的磁导率小,磁阻很大,使磁力线 在被测材料中改变路径。部分磁力线就会泄漏出材料表面,当越过缺陷后进 入被测材料中,因而形成缺陷漏磁场。漏磁技术根据磁力线分布在管道内壁 与外壁的泄露信号数值检测缺陷,属于间接测量,适用于各种腐蚀状态的管 道。可用于各种杂质的原油、成品油的管道检测,目前天然气管道唯一可靠 的检测技术。有缺陷时,磁感线强度变化
2020-06-12 17:51:10
5262
1
原创 Parquet列式存储格式
列式存储列式存储和行式存储相比有哪些优势呢?可以跳过不符合条件的数据,只读取需要的数据,降低IO数据量。压缩编码可以降低磁盘存储空间。由于同一列的数据类型是一样的,可以使用更高效的压缩编码(例如Run Length Encoding和Delta Encoding)进一步节约存储空间。只读取需要的列,支持向量运算,能够获取更好的扫描性能。当时Twitter的日增数据量达到压缩之后的100...
2020-03-19 16:29:15
308
原创 数据仓库中的拉链表(hive实现)
数据仓库中的拉链表(hive实现)前言本文将会谈一谈在数据仓库中拉链表相关的内容,包括它的原理、设计、以及在我们大数据场景下的实现方式。全文由下面几个部分组成:先分享一下拉链表的用途、什么是拉链表。通过一些小的使用场景来对拉链表做近一步的阐释,以及拉链表和常用的切片表的区别。举一个具体的应用场景,来设计并实现一份拉链表,最后并通过一些例子说明如何使用我们设计的这张表(因为现...
2020-03-19 15:54:35
417
原创 hadoop shell 命令
hadoop fs -count -q /gac 查看hdfs 使用情况hadoop fask /gac -files -blocks -locations -racks fsck命令,用于检查HDFS上文件和目录的健康状态、获取文件的block块信息和位置信息等。hadoop fs -du /显示目录中所有文件的大小,或者当只指定一个文件时,显示此文件的大小...
2020-02-26 12:06:49
184
原创 ERROR 1148 (42000): The used command is not allowed with this MySQL version mysql shell input data
当mysql执行以下语句(将一个文本文件导入mysql)时mysql> LOAD DATA LOCAL INFILE 'F:/pet.txt' INTO TABLE pet ;出现了错误ERROR 1148 (42000): The used command is not allowed with this MySQL version解决方法:1、mysql版本是5....
2019-12-12 15:13:57
299
原创 去除表中 前后空格,Tab、 回车等字符
UPDATE wda_car_info SET vin = REPLACE(REPLACE( vin , CHAR(9), ''), CHAR(13), '');
2019-12-05 10:07:03
711
转载 理解Flink中的状态实现
state的层次结构 keyedState => windowState OperatorState => kafkaOffset stateBackend snapshot/restore internalTimerService RocksDB操作的初探 state ttL state local recovery QueryableState increame...
2019-08-22 14:45:39
1009
原创 Flink 的checkpoint 基于Chandy-lamport算法
CheckPoint 基于Chandy-Lamport算法, 实现了分布式一致性快照,提供了 一致性的语义。Spark 的 Structured Streaming 的 Continuous Processing Mode 的容错处理使用了分布式快照(Distributed Snapshot)算法 Chandy-Lamport 算法,那么分布式快照算法可以用来解决什么问题呢?A...
2019-08-22 14:28:09
859
原创 工作感悟
1. 做事情之前,多沟通,多问,多反馈,不要想当然,不要想当然,不要想当然。自己认为的不一定符合客户或老板要求。2. 上周做个数据导入,利用Kittle,数据插入.SET @sqlstr = CONCAT('ALTER TABLE ods_carbond_nev_device RENAME ','ods_carbond_nev_device', DATE_FORMAT(CURDATE()...
2019-08-22 06:59:35
255
原创 【git】强制覆盖本地代码(与git远程仓库保持一致)
git强制覆盖:git fetch --allgit reset --hard origin/mastergit pullgit强制覆盖本地命令(单条执行):git fetch --all &&git reset --hard origin/master &&git pull...
2019-08-01 18:39:25
1627
原创 sqoop 从mysql oracle 数据库导入数据 到 hive
定时 增量 导入数据sqoop job --create sqoop_job_incremental -- import --connect jdbc:mysql://192.168.1.87:3306/world --username root --password 123456 --table sqoop_job_incremental --hive-import --hive-table...
2019-04-25 19:43:36
254
原创 Sqoop报错accumulo does not exist
Warning: /opt/cloudera/parcels/CDH-5.13.3-1.cdh5.13.3.p0.2/bin/../lib/sqoop/../accumulo does not exist! Accumulo imports will fail.Please set $ACCUMULO_HOME to the root of your Accumulo installation...
2019-04-18 10:42:04
2956
原创 postgresql时区问题,系统时间和pg时间不一致
1、问题描述:昨天开发同事遇到一个时间转换的问题提交到测试环境发现pg的时间和系统的时间不一致,相差十多个小时时区不一致,在此简单记录一下2、查系统时间pg时间发现不一致#datepg上查询:selectnow();show time zone;US/Pacific 在设置set time zone 'PRC';重新查询及时生效3、要想永久生效到pgdata...
2019-03-12 17:42:04
2963
原创 Postgresql数据类型之UUID
1.UUID概述数据类型uuid存储由RFC 4122、ISO/IEC 9834-8:2005以及相关标准定义的通用唯一标识符(UUID)(某些系统将这种数据类型引用为全局唯一标识符GUID)。这种标识符是一个128位的量,它由一个精心选择的算法产生,该算法能保证在已知空间中任何其他使用相同算法的人能够产生同一个标识符的可能性非常非常小。因此,对于分布式系统,这些标识符相比序列生...
2019-03-08 16:43:28
2568
原创 PostgreSql 使用自定义序列(Sequence)向表插入数据 id 自增长
按照以往Oracle建表的流程,我们来新建表,并且向表中导入数据。1.创建Book表CREATE TABLE book( id INTEGER PRIMARY KEY , name CHARACTER VARYING(50), price DOUBLE PRECISION, author CHARACTER VARYING(20));PRIMARY KEY 将id设置为主...
2019-03-06 14:00:26
2573
原创 hadoop测试实战
1.运行MapReducehadoop jar /opt/cloudera/parcels/CDH/lib/hadoop-mapreduce/hadoop-mapreduce-examples.jar wordcount input/test1.txt /mrout2 . 测试 sparkspark-submit --master local --class org.apa...
2019-03-04 14:50:46
130
原创 hadoop 问题汇总
cdh hiveMetaException(message:Version information not found in metastore修改conf/hive-site.xml 中的 “hive.metastore.schema.verification” 值为 false 即可解决 “Caused by: MetaException(message:Version informa...
2019-02-28 10:34:34
674
转载 ssh: connect to host hadoop000 port 22: Connection timed out
报错如下:[hadoop@hadoop000 sbin]$ ./start-dfs.sh18/01/24 22:46:38 WARN util.NativeCodeLoader: Unable to load native-hadoop library for your platform... using builtin-java classes where applicableStar...
2019-02-18 17:39:58
1852
原创 ORA-01940 删除当前已连接用户, 导入新数据
1)查看用户的连接状况select username,sid,serial# from v$session------------------------------------------如下结果: username sid serial#----------------------------------------N...
2018-11-22 17:24:13
222
转载 归一化 (Normalization)、标准化 (Standardization)和中心化/零均值化 (Zero-centered)
1 概念 归一化:1)把数据变成(0,1)或者(1,1)之间的小数。主要是为了数据处理方便提出来的,把数据映射到0~1范围之内处理,更加便捷快速。2)把有量纲表达式变成无量纲表达式,便于不同单位或量级的指标能够进行比较和加权。归一化是一种简化计算的方式,即将有量纲的表达式,经过变换,化为无量纲的表达式,成为纯量。 标准化:在机器学习中,我们可能要处理不同种类的资料,例如,音讯和图片上的像素...
2018-10-09 18:08:05
5021
原创 python 生成exe 遇到no module named "typedefs"
pyinstaller的命令如下pyinstaller -F forecast.py遇到了no module named typedefs这个问题解决的时候需要在刚才的命令后面加 --hidden-import sklearn.neighbors.typedefs 将含有pandas、numpy 等c源码包的代码打包为exe时出现错误的解决方法 应为pandas nu...
2018-09-27 15:30:34
2719
2
转载 pandas取出表中一列数据所有的值并转换为array类型
# -*-coding: utf-8 -*-import pandas as pd#读取csv文件df=pd.read_csv('A_2+20+DoW+VC.csv')#求‘ave_time’的平均值aveTime=df['ave_time'].mean()#把ave_time这列的缺失值进进行填充,填充的方法是按这一列的平均值进行填充df2=df.fillna(aveTime)#...
2018-09-14 09:15:35
12980
原创 安装jdk后出现bash: ./java: /lib/ld-linux.so.2: bad ELF interpreter: 没有那个文件或目录
安装过程没有出什么问题,但是配置完环境变量后用java -version测试出现“bash: ./java: /lib/ld-linux.so.2: bad ELF interpreter: 没有那个文件或目录”的问题“,于是到网上搜了下,用sudo yum install glibc.i686命令安装好glibc之后问题就解决了。
2017-11-29 09:22:39
465
原创 It's possible your PC or network is sending automatic requests. To continue, please enter following
朋友网站打开时为何提示要输入验证码后才能访问,经过分析原来是防火墙里 深度学习 设置造成的。网站打开时为何提示要输入验证码后才能访问?取消 深度学习,或者 把学习时间设置较长即可。弹出框消失。
2017-11-24 17:30:30
863
转载 TensorFlow使用的一个小案例
#导入依赖库import numpy as np #这是Python的一种开源的数值计算扩展,非常强大import tensorflow as tf #导入tensorflow##构造数据##x_data=np.random.rand(100).astype(np.float32)#随机生成100个类型为float32的值y_data=x_data*
2017-11-09 09:54:40
357
原创 tensorflow 解决SyntaxError: invalid syntax
File "", line 6 print sess.run(hello) ^SyntaxError: invalid syntax这个报错是因为python3中print变成了一个方法,需要带括号当参数传入值。print(sess.run(hello))即可解决!
2017-11-09 09:40:15
14571
原创 Tensorflow安装
Tensorflow安装先安装 anaconda退出命令行,打开新的命令行在终端或cmd中输入以下命令搜索当前可用的tensorflow版本$ anaconda search -t conda tensorflowUsing Anaconda API: https://api.anaconda.orgRun 'anaconda show ' to get
2017-11-08 16:45:29
493
转载 数据仓库简介---概况
1、数据仓库的定义 数据仓库是一个面向主题的、集成的、稳定的、反映历史变化的、随着时间的流逝发生变化的数据集合。它主要支持管理人员的决策分析。 数据仓库收集了企业相关内部和外部各个业务系统数据源、归档文件等一系列历史数据,最后转化成企业需要的战略决策信息。面向主题:根据业务的不同而进行的内容划分;集成特性:因为不同的业务源数据具有不同的数据特点,当业务源
2017-10-24 09:55:24
2109
转载 ORA-00704和ORA-39700错误
查看alert文件,显示ORA-00704: bootstrap process failureORA-39700: database must be opened with UPGRADE option因为数据库升级以后数据字典的内容被修改了,需要运行catalog.sql和catproc.sql这两个脚本再更新数据字典。处理方法如下:SQL>startup upgrade;
2017-10-17 16:26:32
1021
原创 ora 06026 06023
如果备份文件没有问题,那么问题出在If we start a RESTORE database with a BACKUP controlfile and FlashRecovery Area is defined, RMAN execute and implicit crosscheck and catalog of all the objects in the Flash Reco
2017-09-22 15:50:21
964
原创 oracle 错误总结
C:\Users\bim>impdp nskftest/kingdee@dms directory=db_bak dumpfile=weiyan170424.dmp logfile=testimpdp.logImport: Release 11.2.0.4.0 - Production on 星期五 8月 4 15:19:40 2017Copyright (c) 1982,
2017-08-07 16:38:26
5891
原创 echarts之bootstrap选项卡不能显示其他标签echarts图表
在echarts跟bootstrap选项卡整合的时候,默认第一个选中选项卡可以正常加载echarts图表,但是切换其他选项的时候不能渲染出其他选项卡echarts图表。解决办法:在scripts中:var Echart_01 = echarts.init(document.getElementById("chart"));$('a[data-toggle="tab"]').o
2017-07-11 19:09:37
1166
原创 python读取数据分析数据保存数据
import pandas as pd import matplotlib.pyplot as pltdf = pd.read_csv('E:/biaohao_shuijiaobi_qiangdu - 2.csv',header=None,names=["SJQD","SJB","QIANGDU"])#print dfgrouped=df["SJQD"].groupby(d
2017-06-14 15:59:22
449
【ApacheCN】Kaggle - 泰坦尼克号 - 灾难中的机器学习 - 思维导图 - v1.2.2.
2018-10-12
python线性回归
2018-09-29
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人