自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(28)
  • 收藏
  • 关注

原创 AWS S3的费用优化

之前启用将超过360天的数据,自动转入Glacier, 以此来节省成本,看到费用确实下来了,如下图,5月份相比4月份立即少了2K多,但是最近检查发现费用又快速上升到7K以上,数据量剧增,因此想继续优化S3的费用。根据目前情况,衡量了实际使用,发现如下方式更适合,IA的话也能保证数据能即时读取不像Glacier到等待3~5小时恢复,虽然去读取IA数据的时候会产生额外费用,但是相对于存储量来说,检索量其实不多。查询的S3的技术文档,主要是不同存储级别的价格和特性。这样的话,30天后的数据存储费用能节省46%。

2025-01-22 12:54:08 329

原创 AWS IAM用户启用MFA认证

7. 然后用这个用户登陆的时候,除了第一个页面的用户名密码之后,就会出现第二个MFA验证,此时需要打开Google Authenticator输入当前显示的6位数字。5. 用户创建后,进入点击用户名进入Security credentials 页面,找到Assigned MFA device,然后点Manage。4. 用手机下载MFA软件,进入App Store搜索mfa即可得到Google Authenticator,点击安装。3. 添加用户权限,例如这里赋予power user权限。

2025-01-21 15:13:42 485

原创 AWS S3存储桶数据加密设定

但是这种方式就无法授权第三方AWS账户来访问,因为KMS下这个系统自带的S3 key是无法编辑的,也就是无法添加其他AWS账户的访问。完成后,客户端,如果是用IAM用户访问,就需要把这个用户id添加到KMS 这个key的policy里面才可以,不然会提示拒绝访问。对S3桶进行数据加密,最简单的方式就是通过AWS KMS自带的aws/s3托管方式。这个完成后,到S3 bucket属性去启用S3加密并选择这个自己创建的key。第二种方式是生成和使用一个自己的key来加密这些数据,步骤如下,进入KMS。

2025-01-20 11:00:50 313

原创 将AWS S3设置为类SFTP服务用于数据上传

注意的点,对于中国区S3 policy的权限设定,与外国区有点区别,具体policy如下。完成后即可通过S3客户端,例如Cloudberry, Cyberduck访问,把产生的用户IAM key添加到软件即可,如下是Cloudberry界面截图,跟SFTP访问文件夹类似。S3的一个好用的功能是能设置为类似SFTP的共享文件夹让用户上传数据,由于S3不是一部机器而是云原生服务,因此在维护上非常简单,而且价钱便宜,非常适合于大量文件保存和共享。6. 完成后可以开始创建添加用户,返回IAM,点用户。

2025-01-20 10:36:26 548

原创 AWS S3 跨账户访问 Cross Account Access

arn:aws:iam::123456789:root --> 123456789替换为对方aws 账户id。进入S3对应的存储桶,上面选项选权限,存储桶策略 -- 编辑,输入对应的policy。arn:aws:s3:::bucket --> bucket替换为共享的S3存储桶名。然后对方账户下即可通过IAM或者Role访问这个S3。

2025-01-17 11:18:21 492

原创 AWS上搭建Storage Gateway并创建SMB和NFS服务

6. Security Group填写要开放的端口,这个111和20048尤其重要,如果没有的话,SMB和NFS挂载会失败,而对于这两个端口,官方文档也没写清楚,文档新旧间也存在差异,我是尝试了好几遍才搞清楚一定要添加这2个端口,而对于允许访问这些端口的IP,建议设置为后续需要访问的EC2的内网IP,因为后续激活Gateway要通过HTTP,尤其对于中国区,因为默认禁止公网http访问,因此通过内网IP EC2才能可以访问并激活Gateway,这个也让我绕了圈子才想到。

2025-01-14 16:09:39 1103

原创 Ubuntu Server挂载AWS S3成一个本地文件夹

如下是另外一种方式,通过s3fs-fuse 这个工具。

2025-01-13 15:09:56 577

原创 EC2 Windows Instance忘记密码如何重置

AWS EC2 Windows重置用户密码

2025-01-10 09:13:09 935

原创 在AWS上配置CodeCommit

CodeCommit的配置相对简单,首先登陆到AWS Console界面,到CodeCommit出,点Create Repository,给个名字,即可完成Repository的创建。然后就是配置客户端连接,这个比较麻烦。我选用的是HTTPS连接方式和Windows客户端,然后AWS给出连接步骤:1. Install Git (1.7.9 or later supported) wit

2017-11-01 12:33:36 2508

原创 Mac OS安装使用ODBC

需要用到JMP连接数据库,我们的数据库是RDS(MySQL),在windows环境安装MySQL ODBC驱动即可,可是Mac OS下就比较复杂,因为Mac OS把ODBC管理组件去掉了,所以除了安装驱动外,还要安装管理包,然后做些修改,因为这个第三方的ODBC管理器版本很旧而且有bug。1. 下载安装Mac OS MySQL ODBC驱动https://dev.mysql.c

2017-10-27 08:33:24 16962 3

原创 AWS S3 三个常用的客户端软件使用方式Cloudberry, CyberDuck, S3Fox

CloudBerry S3 Explorer Freewarehttp://www.cloudberrylab.com/free-amazon-s3-explorer-cloudfront-IAM.aspxSupport OS: Microsoft Windows1.   File -> Amazon S3 Account2.  Add -> Enter Use

2017-10-16 09:34:36 28406 1

原创 配置AWS Simple EMail Service (SES)作SMTP服务器

系统需要自动发邮件,之前只知道用外部邮箱的SMTP,看同事用SES觉得恰好符合我的要求,因此立即尝试配置了下,原来这么简单。AWS技术文档写得太多,其实搭建2步就完成了。1. 登陆AWS进入SES服务,然后点击SMTP Settings,创建SMTP账户:Create My SMTP Credentials,按提示操作生成username and password,这个看起来类似IAM

2017-09-29 11:00:13 14406

原创 Pentaho PDI对于错误信息的处理

导入一批数据时提示错误,提示有一个序列号的数据有问题,可用信息包含一个产品序列号和对应的时间戳,可是我导入的是csv文件,有几百个,根本不知道这个产品包含在那个csv文档中。查找后,PDI对于错误日志的处理可以用如下方式:1. 打开log level,让log的输出内容更丰富2. 鼠标右键点选对应步骤,选择Error Handling3. 加

2017-09-27 18:26:16 795

原创 几个有用的bat脚本

最近在测试数据生成与转移的问题,下面这些bat脚本对于测试非常有用。1. 生成指定数量的txt文件@echo offset /p a=how many txt files you want:for /l %%i in (1,1,%a%) do (echo.>>%%i.txt)2. 将当前目录下的txt重命名为bak格式for /f %%i in ('dir

2017-09-27 17:55:49 6178

原创 Pentaho PDI用Kitchen自动运行job

脚本如下,其中文件路径是比较tricky的地方,在windows下要这样写:/file:D:\AA\bbb\,全部连在一起没有空格,前面的参数是/file跟网上写的不同,我用的是PDI 7.1以下为bat文件内容:----------------------------D:cd "\data-integration"call kitchen.bat /file:

2017-09-27 14:06:24 511

原创 Pentaho PDI Job通过Gmail发邮件的设定

网上查询了一轮,原来最关键的是在gmail账户上安全设定要调低。1. 登陆Gmail账户,到账户 - > 登陆与安全,将Allow less secure apps调为On,我之前没打开这个时,gami立即收到安全警告邮件,说阻止了一个不安全登陆。PDI mail也无法发送邮件,提示错误。2. PDI Job Mail设定如下:

2017-09-27 09:17:57 1110

原创 对于数据去重的处理-PDI导入前及数据库端的双重设定

数据重复是一个比较麻烦的问题,影响数据质量,这个问题困扰了我好一阵子,研究后,用以下方法解决。首先是PDI导入前,在写入数据库之前增加一步Sort Rows来过滤数据,如果发现有重复的则只导入一条记录,用序列号和时间戳来检验数据唯一性,总体步骤如下:数据库端的话,采用类似的方法,用indexs的方法,锁定序列号+时间戳为唯一值,这样如果有重复的话,数据也无法导入而报

2017-09-25 21:25:11 843

原创 Pentaho PDI 数据导入关于时间格式及重复数据处理这2个问题的解决方法

最近处理数据,遇到这2个问题,思考了很久,最近突然开窍把问题解决了,记录如下:第一个问题,如下图所示,数据生成的csv文件只有时分秒,而数据库设定的格式为年月日时分秒,因此导入数据库是提示出错,那年月日那里去了?原来写软件的工程师把年月日作为文件名了这样用PDI处理的话,可以用如下方式解决,整体过程如下:1. 读取文件时,将文件名一起读入,这

2017-09-25 14:37:53 741

原创 用S3Browser对S3做数据同步

参考文档:https://s3browser.com/s3cmd.aspx#sync首先下载安装S3 Browser, 然后添加S3账户信息保存后试试看能否访问bucket及文件成功后就可以开始写脚本,比较简单:s3browser-con.exe sync your-s3-broswer-account-name s3:bucket/folder/s

2017-09-25 13:32:23 5803

原创 qcadoo开源MES的初始配置

启动qcadoo,登陆后只能看到一个很简单的页面,如下,根本没有看到那些功能选项,自己尝试查了很久,baidu google都翻了一遍,没有什么收获,倒是见到几个跟我一样在问同样问题的人。后来脸皮厚,发了封邮件给qcadoo的support team,他们CEO Marcin Perłak 专门回复邮件,说没想到我们这样一家大公司会去玩他们的小玩意,想了解我的需求,同时让他们的support te

2017-09-15 22:50:09 15291 7

原创 安装qcadoo开源MES的几个坑

导入数据库:CMD切换到C:\Program Files\PostgreSQL\9.4然后运行下面的命令:psql -U postgres -d mes C://mes-application//webapps//ROOT//WEB-INF//classes//schema//demo_db_en.sql

2017-09-14 21:23:45 21191 4

原创 安装SQL Server Express及用SQL Server Management Studio连接

下载Microsoft SQL Server 2012 Expresshttps://www.microsoft.com/en-us/download/details.aspx?id=29062下载SQL Server Management Studio (SSMS)https://docs.microsoft.com/en-us/sql/ssms/download-sql-s

2017-09-12 16:11:36 6866

原创 EC2 Ubuntu Server 16.04 初始化配置相关文档

1. 安装Putty,将pem转换为ppk (Putty 只支持Private key登陆)https://docs.aws.amazon.com/AWSEC2/latest/UserGuide/putty.html2. 安装pipsudo apt install python-pip完成后检查pip --versionpython --version

2017-09-07 10:55:20 608

原创 为AWS EC2配置公网IP (Elastic IP)

EC2机器launch后只有一个VPC内网IP,外网访问的话,需要设定公网IP,步骤如下:选定Instance -> Action -> Networking -> Manage IP AddressAllocate an Elastic IPClass -> Allocate, 这样就获取了一个IP选定IP,然后Associate addres

2017-09-07 10:46:41 24615

原创 Ubuntu Server 16.04 安装Pentaho PDI 7.1

参考: http://fcorti.com/2016/12/05/installing-pentaho-data-integration-7/1. 安装JAVA运行环境sudo add-apt-repository ppa:webupd8team/javasudo apt-get updatesudo apt-get install oracle-java8-installers

2017-09-06 14:14:08 1837

原创 用Notepad++录制宏

我们需要将csv文档的表头变成MySQL DB的栏位,这样导入csv数据的时候,能根据设定好的栏位来处理和导入对应栏位的数据,用Notepad++可以实现这半自动化的功能。步骤如下:将需要处理的csv表头复制粘贴到Notepad++:Ctrl+F,调出Find,然后用正则表达式处理:复制空格,Replace with用 \r然后用^及$在前面及后

2017-08-23 10:01:53 5715 1

原创 工作10年后转行

以前我只在51CTO上写博客,那里记录的是我作为IT Support和SA的知识和经验汇总。这些年,我由一个非专科出身的毕业生,在IT行业摸爬滚打,由一个小兵到成为一个小头目,从几个人的小民企,到工厂,到500强,再到世界级企业一路走来,个人点滴成长,尤记在心。在公司,工作内容我已非常熟悉,反而随着对公司业务的了解,我发觉在数据处理这一领域却没人去做,或者说很多人想做,也尝试去做,可是却没有做好。

2017-08-23 08:14:54 2491 1

原创 测试

第一个博客

2017-08-22 18:11:29 294

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除