- 博客(61)
- 收藏
- 关注
转载 Hadoop组件----HDFS架构及原理
学习博客:https://blog.youkuaiyun.com/kezhong_wxl/article/details/76573901 官方文档:http://hadoop.apache.org/docs/stable/hadoop-project-dist/hadoop-hdfs/HdfsDesign.html 一、介绍 DFS(Distributed File System)分布...
2018-08-03 20:53:00
238
转载 hadoop---运行自带的MapReduce WordCount程序
MapReduce入门程序:WordCount hadoop的share目录下 创建一个HDFS数据目录,用于保存mapreduce的输入文件 创建一个目录,用于保存mapreduce的任务输出文件 创建一个单词文件,并上传到HDFS上面 上传该文件到HDFS上在文件所在目录下, 运行wordcount程序 查...
2018-08-03 20:52:00
235
转载 Tomcat启动时自动运行某程序
项目需要和tmall实现长连接,接收tmall推送的Order消息,然后对消息进行逻辑处理。 目前写了一个servlet,实现了permit的验证,然后对tmall进行长连接操作,启动后,只要tomcat一直运行着,长连接就不会断掉。现在的需求是tomcat启动后我这个servlet自己就运行起来,不用我自己再去访问一下配置的servlet路径。 资料: http://www.cn...
2018-07-18 12:01:00
262
转载 sql语句---存在即更新,否则insert
项目中遇到的需求: 处理tmall推送来的order信息时,要实时更新table里面的信息,这种情况下会涉及到: 若是订单生成的消息,那么推送来的id在table里面是没有的,就应该执行insert操作 若不是订单生成的消息,则执行更新 如果记录存在就更新,不存在就插入。sql如下: IF EXISTS ( SELECT 1 FROM ...
2018-07-17 19:26:00
232
转载 java long型数字和时间date的转换
项目中从tmall推来的时间是一串数字,如下 需要进行转换然后存入数据库 时间格式转换类如下:SimpleDateUtil package cn.tmall.Intermediate_system.utils; import org.apache.commons.lang.StringUtils; import java.sql.Date; import ja...
2018-07-16 19:32:00
267
转载 IDEA moven导入本地jar
项目需要用到从tb下载的的sdk,在加入到tomcat项目里头的时候,需要在pom文件里面配置依赖 第一步:下载好sdk 第二步:moven生成本地仓库文件 cmd命令窗口中,进入到Jar存放的目录下 运行命令: mvn install:install-file -Dfile=taobao-sdk-java-auto_1531705364550-20180...
2018-07-16 15:51:00
170
转载 Centos7 安装hadoop2.7.3和jdk1.8
下载好hadoop和jdk软件包,传到虚拟机上 第一步:安装jdk并配置环境变量 解压 tar -xvf 配置环境变量 vim /etc/profile #set java environment export JAVA_HOME=/home/java/jdk1.8.0_171 export JRE_HOME=/home/javaa/jdk1.8.0...
2018-07-15 19:19:00
191
转载 查看centos上安装了哪些软件
一、查看centos上安装了多少个软件 二、查看安装了的软件包 acl-2.2.51-12.el7.x86_64 aic94xx-firmware-30-6.el7.noarch alsa-firmware-1.0.28-2.el7.noarch alsa-lib-1.1.3-3.el7.x86_64 alsa-tools-firmware-1.1.0-...
2018-07-11 22:13:00
537
转载 将本地jar包导入moven
测试tmall接口的时候,,刚开始只是写的方法,所以之前直接是将下载好的sdk导入本地的jdk/lib下的,然后在Idea里加入进去 ctrl+shift+alt+s 单独写一个class在main方法里面是可以走通的,请求如下: response的结果如下: 但是放在tomcat下,通过servlet来测试调用, 启动tomcat,报错找不...
2018-07-11 20:58:00
108
转载 爬虫---概念理解
整理之前的学习笔记,看的某视频的记录 爬虫:自己取抓取互联网上的信息的程序。 爬虫价值:爬取数据 爬虫的架构 爬虫调度段:启动爬虫,监视爬虫 URL管理器: 网页下载器(urllib) 网页解析器(BeautifulSoup) 运行的流程 URL管理器:管理待抓取URL集合和已经抓取URL集合 ---防止重复抓取/循环抓取...
2018-07-10 20:28:00
166
转载 数据库--数据库事务
事务是用户定义的一个数据库操作序列,这些操作要么全做,要么全不做,是一个不可以分割的工作单位。 定义事务的语句 begin transaction; commit;----提交事务的所有操作 rollback;----回滚:在事务云彩的过程中发生了某种故障,事务不能继续执行,系统将事务中对数据的所有已完成的操作全部撤销,回滚到事务开始时的状态。 事...
2018-07-04 21:20:00
134
转载 数据库---触发器trigger
触发器是用户定义在关系表上的一类由事件驱动的特殊过程。 触发器:事件-条件-动作规则。当特定的系统事件(如对一个表的增删改操作,事务的结束等)发生时,对规则的条件进行检查,如果条件成立则执行规则中的动作,否则不执行该动作。 create trigger <触发器名> {before|after}<触发事件>on<表名> referenci...
2018-07-03 19:49:00
148
转载 数据库---授权:grant && revoke
数据库管理员可以授予用户对数据的操作权限 GRANK:授予权限 GRANK <权限>[,<权限>...] ON<对象类型><对象名>[,<对象类型><对象名>...] TO <用户>[,<用户>] [WITH GRANK OPTION]; -----获得某种权限的...
2018-07-02 19:19:00
210
转载 数据分析--pandas DataFrame
pandas DataFrame是一个表格类型的数据,含有一组有序的列,每列可以是不同的值类型(数值,字符串,布尔值)。DataFrame即有行索引,也有列索引,可以看作由Series组成的字典(公用同一个索引)。 DataFrame是以一个或者多个二维块存放的(而不是列表,字典或别的一维数据结构) 构建DataFrame 传入一个等长列表或Numpy数组组成的字典 Da...
2018-07-01 21:41:00
132
转载 数据分析----pandas Series
series是一类类似于一维数组的对象,由一组数据以及一组与之相关的数据标签组组成 如下图:索引在左边,值在右边。没有指定索引就会自动创建一个0到N-1的整数型索引 可以通过series的index和values属性获取数组索引对象和数组表示形式 自定义索引 可以通过索引选取Series里的值 可以将python...
2018-07-01 20:44:00
88
转载 爬虫-处理html的转义字符
爬到的书店的名称里面有如下情况: 这是HTML转义字符的原因导致的, 如下: 解决方法 方法一-----------------------采用正则---如下,有问题,这样变成一个一个字符了,还要进行拼接处理 方法二--------------------使用html模块里面的方法-html.unescape() 欧克 转载于:https://www....
2018-06-28 15:39:00
552
转载 order by后面加多个字段的情况
处理爬虫程序的时候,需要对书籍信息的出版日期,爬取优先级同时进行排序----即order by后面加两个字段。 order by后面加两个字段,用英文逗号隔开 若出版日期pubdate升序,优先级降序 order by pubdate,priority DESC 若出版日期,优先级都降序,需要这样写 order by priority DESC,pubdate DESC 转载...
2018-06-28 15:29:00
574
转载 bat----服务器重启后爬虫自动运行
项目中维护爬虫 由于服务器会不定期的给重启一下,这样每次都要登录服务器去手动在schedule下爬虫很麻烦,所以想办法在服务器重启后自己去调取起爬虫的程序。 首先,爬虫是用scrapyd管理调度的,所以服务器启动后,先执行scrapyd.exe 然后,再调度spider 第一步:start_scrapyd.bat 第二步:schedule.bat 第三步:...
2018-06-27 22:58:00
273
转载 pymmsql安装报错及处理
数据库迁移到了sql server上面,忘记了,还在用pymsql写了再搞,后来才反应过来。。。。笨 关于pymmsql模块的安装 正常思维 第一 在pycharm里面安装 进入settings里面,点击+ 搜索要安装的模块,点击下面的install按钮安装 这个时候问题就来了 首先来的是pip版本不够,本人当时的是9.0.1的,所以立马用...
2018-05-31 15:34:00
264
转载 python 正则提取img标签和src
需要用python写个脚本出来提取img标签和src的内容,在存数据的时候,搞藤了很久,原因是把list类型的数据直接放入sql语句里面了,一直报下面这个错误 脑子抽了,以为是src里面转义字符的问题,就一直往这个方向整 后面才发现,是直接把list类型放sql format里面了,然后将[]一起转成了字符串 如 '[' http://www.baidu.com ']' ...
2018-05-31 15:17:00
2689
转载 HTML页面加载和layer层冲突问题
关于HTML页面加载完成后执行,有以下几种方式: 第一种 用js加载:window.onload 第二种 用Jquery加载 $(document).ready() 第二种方法也可以简写为下面的方式: 这样,当html页面加载成功后执行相应的动作。 在写项目的时候,我需要在页面加载完成后点击按钮弹出layer,这个动作却和上面两个方法写的h...
2018-05-29 15:47:00
252
转载 转载 有用的WSDL资源
转载自:https://blog.youkuaiyun.com/wugang8023/article/details/38121325 天气预报Web Service,数据来源于中国气象局 Endpoint Disco WSDL IP地址来源搜索Web Service(是目前最完整的IP地址数据) Endpoint Disco WSDL 随机英文、数字和中文简体字Web Servi...
2018-04-26 16:38:00
125
转载 web service----查看股票走势
接前面两个记录 项目需要用到web service相关技术,调研过程中的实例学习记录。 第一步:需要有股票服务的网址。。。网上自己百度 http://www.webxml.com.cn/webservices/ChinaStockSmallImageWS.asmx 第二步:在刚才的网址后面加?wsdl 第三部:找到资源后,开始建立项目 n...
2018-04-26 16:35:00
229
转载 web service 入门实例
创建服务端 new 一个webservice 项目 在src/***.***.server包下创建一个类 编译 测试发布结果 有如下结果表示发布成功 创建客户端 创建一个webservice 项目,project名****_client 在命令提示窗口生成客户端‘ 刷新,检查生成的类 ...
2018-04-25 20:44:00
82
转载 ideal 创建web service项目
测试 出现这个问题是因为没有在web.xml里面映射路径 2017 idea 创建的项目默认没有生成web.xmlwenjian,自己添加 配置web.xml里面的内容 <?xml version="...
2018-04-25 20:33:00
214
转载 win10上配置hadoop环境
直接将hadoop解压在某盘上 配置hadoop的HADOOP_HOME 和 PATH两个环境变量 HADOOP_HOME PATH 测试 cmd命令行输入hadoop JAVA_HOME没有设置对 在hadoop-evn.cmd文件里面设置JAVA_HOME路径 这是之前添加的JAVA_HOME的路径 ...
2018-04-19 21:41:00
133
转载 hadoop-----slaves集中管理与SSH免密登录
slaves集中管理 在master上对多个slaves进行集中管理的时候,需要修改下面的配置文件 在该文件里添加所有的slaves 添加信息 之后就可以通过一条命令启动或关闭所有node start-dfs.sh 启动 stop-dfs.sh 关闭 这里我们会注意到,当我们敲入这两个条命令的时候,所让我们输入很多密码的 ...
2018-04-18 10:10:00
145
转载 关系的完整性
实体完整性 规则: 若属性A(一个或一组)是基本关系R的主属性,则A不能取空值(null) 规则说明: 实体具有某种唯一性标识 关系模型中以主码作为唯一标识 主码属性不能取空,若取空,则说明存在某个不可标识的实体,即存在不可区分的实体 create table中用了primary key定义了关系主码,每当用户程序对基本表插入一条记录或对主码进行更新...
2018-04-14 22:39:00
172
转载 关系数据库-----SQL标准语言
关系数据库三级模式结构 外模式:视图,基本表导出的表,数据库中只存放视图的定义而不存放视图对应的数据。 模式:基本表 内模式:存储文件 数据定义 操作对象 创建 删除 修改 模式 create schema drop schema 表 create table drop table alter table ...
2018-04-14 22:29:00
104
转载 mysql导入excel文件---打开文件失败
在mysql里面把表设计好后,导入数据,发现不能打开excel文件 解决: 要先把excel文件打开。。。。。 导入的excel文件,里面的数字太长,在mysql里面显示为科学计数的形式。 解决: 将excel转成cvs格式重新导入 转载于:https://www.cnblogs.com/taoHongFei/p...
2018-04-12 16:34:00
323
转载 scrapyd在window上的部署
上午胡乱的弄,没有做记录,导致下午删掉了东西过后scrapy发布不上去了,现在卸载了scrapyd,scrapyd-client重新安装 安装scrapyd scrapyd模块是专门用于部署scrapy项目的,可以部署和管理scrapy项目 在scrapySpider虚拟环境下面安装scrapyd 在e盘建一个文件夹,scrapydtest 进入到该文件夹下面运...
2018-04-11 21:12:00
124
转载 anaconda创建虚拟环境
为了部署scrapyd项目,建立一个虚拟环境方便管理。 查看anaconda的版本 查看anaconda上面安装了哪些包 创建好后,激活该虚拟环境 对虚拟环境安装额外的包 使用命令conda install -n your_env_name [package]即可安装package到your_env_n...
2018-04-11 19:54:00
117
转载 Scrapy----Settings文件
在Settings.py里面,提供了提取以key-value映射的配置值的的全局命名空间(namespace)。可以通过多种机制进行设置 如何获取设定的值 命令行 项目模块 如何进行访问 通过crawler 转载于:https://www.cnblogs.com/taoHongFei/p/8724367.html...
2018-04-05 21:30:00
72
转载 Scrapy在PyCharm里面运行,调试
首先通过csrapy shell命令创建一个scrapy项目。 scrapy startproject projectname 会生成如下文件 进入spider_405文件夹 我们自己写的爬虫项目就放在spiders文件夹里面 items.py是用来保存你爬取的数据的数据结构 在scrapy.cfg同目录下新...
2018-04-05 12:31:00
137
转载 scrapy(一)
创建scrapy项目 命令:scrapy startproject dirctory_name 可以发现在tm_spider目录下创建了一个文件夹:spider_402,文件夹结构如下 定义一个spiders爬虫class(类) ,该class是scrap.Spider的subclass(子类)。 在这个sipders class里面,要定...
2018-04-03 14:02:00
92
转载 爬虫系列---Scrapy框架学习
项目的需求需要爬虫某网的商品信息,自己通过Requests,BeautifulSoup等编写了一个spider,把抓取的数据存到数据库里面。 跑起来的感觉速度有点慢,尤其是进入详情页面抓取信息的时候,小白入门,也不知道应该咋个整,反正就是跟着学嘛。 网上的爬虫框架还是挺多的,现在打算学习spcrapy重新写。 下面是记录官方文档的一些学习notes. scrapy的环...
2018-04-02 16:17:00
132
转载 Centos7 关机与重启
linux主要用于服务器领域,而在服务器上执行一项服务是永无止境的,一般情况不会关机。在linux系统下,很多进程是在后台执行的。在屏幕背后,可能有很多人同时在工作。如果直接按下电源的按钮,其他人的数据可能就此中断。若不正常关机,严重的话,可能会造成文件系统损坏,从而导致数据丢失。 在关机之前,先看看有没有其他用户正在登录在系统上面的 命令:who 查看是否还有后台进程运...
2018-04-01 11:40:00
130
转载 Writing the Abstract
key questions we must answer what the study about what did you investigate? why? what did you do? methods what did you discover? what do you result mean? why are the important? Tense...
2018-03-31 21:02:00
154
转载 linux文件基本属性
在Linux中可以使用ll或者ls –l命令来显示一个文件的属性以及文件所属的用户和组 在Linux中第一个字符代表这个文件是目录、文件或链接文件等等 当为[d]则是目录 当为[-]则是文件; 若是[l]则表示为链接文档(link file); 若是[b]则表示为装置文件里面的可供储存的接口设备(可随机存取装置); 若是[c]则表示为装置文件...
2018-03-30 15:00:00
103
转载 linux系统目录结构
ls \ 查看根目录文件 bin:这个目录存放着最经常使用的命令 boot:启动Linux时使用的一些核心文件,包括一些连接文件以及镜像文件 dev:该目录下存放的是Linux的外部设备,在Linux中访问设备的方式和访问文件的方式是相同的 etc:存放所有的系统管理所需要的配置文件和子目录 home:用户的主目录,在Linux中,每个用户都有一个自己的目录,一般该目...
2018-03-30 14:51:00
81
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人
RSS订阅