自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(23)
  • 资源 (1)
  • 收藏
  • 关注

Linux服务器上环境部署汇总

1.jdk的安装2.nginx的安装3.tomcat的安装4.mysql的安装5.scrapy的安装6.mongodb的安装 作为爬虫工程师,Linux工程师,系统管理员,软件的部署安装是必备技能。下面是我在工作学习中的总结,希望对网友们有所借鉴和帮助。环境:阿里云服务器 CentOS7.0一.JDK的安装1.查看linux机器是32位还是64位的方法...

2016-04-25 16:29:52 2009

视频下载和转换教程

Mac上的视频下载和转换视频下载: 1.到硕鼠官网(http://www.flvcd.com/url.php)下载硕鼠mac版或直接通过链接(http://download.flvcd.com/mac/flvcd_bigrats_mac0521.zip)下载2.下载后解压缩,软件为免安装,直接双击即可运行   3.双击进入软件主界面,把视频播放地址复制到上面的输入框...

2016-03-24 16:08:57 1244

人生经典80句(你值得拥有)

01.每天告诉自己一次,『我真的很不错』02.生气是拿别人做错的事来惩罚自己03.生活中若没有朋友,就像生活中没有阳光一样04.明天的希望,让我们忘了今天的痛苦05.生活若剥去理想、梦想、幻想,那生命便只是一堆空架子06.发光并非太阳的专利,你也可以发光07.愚者用肉体监视心灵,智者用心灵监视肉体08.获致幸福的不二法门是珍视你所拥有的、遗忘你所没有的09.贪...

2016-03-08 09:07:46 335

原创 关于Mongodb数据库的使用总结

之前安装的Mongodb比较老1.8.2的,该版本的mongodb数据库有个缺陷,总的数据库容量不能超过2G,倘若超出2G,再往数据库中插入数据是插不进去的。于是更新版本到3.0步骤:1.官网下载mongodb安装文件2.安装配置Linux下Mongodb安装和启动配置1.下载安装包wget http://fastdl.mongodb.org/linux/mongo...

2016-01-11 10:42:03 196

Linux 系统挂载数据盘(阿里云)

适用系统:Linux(Redhat , CentOS,Debian,Ubuntu)*  Linux的云服务器数据盘未做分区和格式化,可以根据以下步骤进行分区以及格式化操作。下面的操作将会把数据盘划分为一个分区来使用。  1、查看数据盘在没有分区和格式化数据盘之前,使用 “df –h”命令,是无法看到数据盘的,可以使用“fdisk -l”命令查看。如下图:...

2015-10-27 09:58:57 158

原创 在Linux环境下安装spynner的方法步骤

原文网址:http://www.yihaomen.com/article/linux/313.htm 下载spynner,最新版本:https://pypi.python.org/pypi/spynner/2.5在linux 下开发桌面应用,最常见的开发工具就是QT,而python是开源世界的轻骑兵,学习简单,开发高效,因此有了 pyqt 这个包用 python  来做 QT 开发...

2015-10-04 13:35:31 221

原创 创建编码一个spider的具体步骤

为使项目框架结构清晰,添加的spider的按城市划分存储位置。例如宁波新闻网—综合频道,则在spiders下面建一个ningbo(宁波)的文件夹,将该版面的spider写在该文件夹下面。项目设计框架图:    实际项目tree图片见附件tree.jpg webcrawler:.|——scrapy.cfg|——webcrawler: |——items.py ...

2015-08-15 17:25:41 562

原创 在Linux环境下安装Scrapy框架

需要安装的依赖:1.Python2.setuptools3.twisted4.zope.interface5.w3lib6.libxml27.libxslt8.lxml9.scrapy Scrapy是一个开源的基于twisted框架的python的单机爬虫,该爬虫实际上包含大多数网页抓取的工具包,用于爬虫下载端以及抽取端。yum install ...

2015-08-12 14:13:25 534

原创 使用Scrapy抓取数据

       Scrapy是Python开发的一个快速,高层次的屏幕抓取和web抓取框架,用于抓取web站点并从页面中提取结构化的数据。Scrapy用途广泛,可以用于数据挖掘、监测和自动化测试。官方主页: http://www.scrapy.org/中文文档:Scrapy 0.22 文档GitHub项目主页:https://github.com/scrapy/scrapy...

2015-07-29 20:46:27 283

Scrapy框架结合Spynner采集需进行js,ajax动态加载的网页并提取网页信息(以采集微信公众号文章列表为例)...

对于网页的采集有这样几种:1.静态网页2.动态网页(需进行js,ajax动态加载数据的网页)3.需进行模拟登录后才能采集的网页4.加密的网页 3,4的解决方案和思路会在后续blog中陈述现在只针对1,2的解决方案与思路:一.静态网页      对于静态网页的采集解析方法很多很多!java,python都提供了很多的工具包或框架,例如java的httpclie...

2015-07-28 22:05:00 235

原创 今日头条网站的模拟登陆及新闻的评论

近来今日头条特别的火,就拿来研究研究!头条的新闻内容和新闻评论是开放的,无需登陆就可以获取的到!但是新闻的评论是需要登陆后才能进行评论的,于是开始模拟头条的用户登陆:1.模拟登陆的操作能够获取到cookie值,定位initCookie,但是该cookie值不能直接用来作为对新闻进行评论的请求参数。2.需要找到一个新闻url,例如:http://toutiao.com/a4583...

2015-07-25 11:20:19 1463

模拟登陆百度的Java实现

常常需要爬取百度统计出来的数据,难免要进行百度的模拟登陆!现将程序贴出来,供他人也供自己以后使用:  package org.baidu;import java.util.List;import org.apache.http.HttpEntity;import org.apache.http.HttpResponse;import org.apache...

2015-06-17 11:10:18 425 1

Selenium WebDriver 中鼠标和键盘事件分析及扩展

组合键的使用以及对于 Keys 类型没有覆盖到的组合键的扩展本文将总结 Selenium WebDriver 中的一些鼠标和键盘事件的使用,以及组合键的使用,并且将介绍 WebDriver 中没有实现的键盘事件(Keys 枚举中没有列举的按键)的扩展。举例说明扩展 Alt+PrtSc 组合键来截取当前活动窗口并将剪切板图像保存到文件。  概念在使用 S...

2015-05-15 14:19:14 176

关于Facebook,Linkedin网的数据采集总结

Facebook,Linkedin社交网站的模拟登陆和数据采集:  1.模拟登陆:              对于facebook,直接使用模拟用户请求获取用户cookie值的方法经测试较难或根本行不通,后使用       selenium框架通过代码对浏览器进行直接操作,获取操作账户的cookie值.          对于linkedin,因网站相似,使用相同的方法获取用户的c...

2015-05-12 09:52:13 1573

Linux系统下添加开机启动服务(以java应用程序为例)

下面是总结的:需要实现在linux系统开机的时候启动java应用程序和java web程序,从网上找的资料说在/etc/rc.local的末尾加上执行脚本的命令即可可以使可以但是只能开机启动java web程序,对java应用程序不起作用,后来又找了些资料发现在/etc/profile的末尾加上就可以,可是在开机后会不断地打印,总结如下:要想实现开机启动java web...

2015-02-12 17:26:26 829

一键重启Linux系统下的java web项目和java应用程序的shell脚本

这几天做项目迁移,需要将之前在Win下面的java web项目和java应用程序迁移到Linux系统下面去,迁移的原因就不多说了,无非是linux系统安全,稳定,也不为怪,毕竟是做舆情的,信息也挺重要的哈!在开始前想给大家推荐个好玩的桌游,名字叫做UNO,额?不知道啥意思,找度娘去吧,我每天打开百度的次数不下玉五百次的,作为程序员经常和大家玩这个的,每次都要笑出病了,嘻嘻!正题:在下...

2015-02-10 17:43:47 407

Linux下开机自启动脚本

linux下(以RedHat为范本)添加开机自启动脚本有两种方法,先来简单的;一、在/etc/rc.local中添加如果不想将脚本粘来粘去,或创建链接什么的,则:step1. 先修改好脚本,使其所有模块都能在任意目录启动时正常执行;step2. 再在/etc/rc.local的末尾添加一行以绝对路径启动脚本的行;如:$ vim /etc/rc.local#!/bin/sh## This scrip...

2015-02-09 15:46:52 123

Linux下tomcat自启动脚本

1、 创建服务名为 tomcat 的自动启动过程 中,将%tomcat_home%/bin目录下的startup.sh启动文件COPY至/etc/rc.d/init.d目录下,并改名为:tomcat ,以后就可以使用service tomcat start/stop/status/restart等命令了 2、 在/etc/rc.d/rc3.d目录下,执行创建超链接 ln –s /etc...

2015-02-08 15:34:18 162

原创 Win系统和Linux下编码的格式问题(syntax error near unexpected token)

原文出处:http://jingyan.baidu.com/article/9f63fb91d014b8c8410f0e7a.html在Win系统下写的shell代码在Linux下运行有时会报syntax error near unexpected token,不用怕,这只是系统之间的编码格式问题,轻松几步就可以搞定:看附件吧    ...

2015-02-08 14:16:12 133

原创 启动java的shell脚本

一个netty tcp长连接的项目中用到的启动脚本(脚本非原创,网上拷贝来拷贝去的,已不知出处),以及jvm一些参数的设置,记录下来以后应该还用得到#!/bin/bash# JDK所在路径JAVA_HOME="/opt/java"# 需要启动的Java主程序(main方法类)APP_MAINCLASS="XXX"# 拼凑完整的classpath参数,包括指定l...

2015-02-05 18:02:15 226

原创 Servlet总结

一、servlet是什么?是由sun公司制订的一种用来扩展web服务器功能的组件规范。(1)扩展web服务器功能当请求到达web服务器(apache提供的web server,微软的iis)时,这些web服务器只能够处理静态资源(即需要事先将html文件写好,并且保存到服务器特定的文件夹下面)的请求,如果是一个动态资源(需要计算,然后动态生成相应的html)的请求,web服务器不能够处理,需要...

2013-08-02 20:59:53 83

原创 ChatRoom cleint.c Based linux C coding

#include <gtk/gtk.h>#include <string.h>#include <sys/types.h>#include <sys/socket.h>#include <netinet/in.h>#define OURPORT 8088gint sd;struct sockaddr_in s...

2013-06-26 20:05:08 79

Linux-based operating system,a network chat room design and implementation

//-------------client.c------------------------------------------------------#include <stdlib.h>#include <stdio.h>#include <errno.h>#include <string.h>#include <n...

2013-06-25 17:03:28 153

达内java课程笔记

达内java课堂笔记,记录了老师上课的大部分内容,突出重点,有助于掌握java核心技术1

2013-03-23

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除