Bentley-2012-优快云博客

原创 Python进阶之路及资源

Python相对来说算是比较容易入门的了。不过，对于Python的学习进度，选取合适优质的资料十分重要，不一定要最新的，但一定要堪称经典。如此才能快递有效地提升我们的学习效果。Python高手之路，建议按以下四个阶段的路径进行学习：1、Python基础学习：Python学习最初阶段在于对Python语言的程序设计基础知识、数据类型、函数、字符串、列表、字典、元组等概念深入掌握。2、P...

2020-03-26 11:14:06 588

原创【资源MARK】LabVIEW2019软件及学习资源

一、LabVIEW介绍 LabVIEW是一种程序开发环境，由美国国家仪器(NI)公司研制开发，类似于C和BASIC开发环境，但是LabVIEW与其他计算机语言的显著区别是:其他计算机语言都是采用基于文本的语言产生代码，而LabVIEW使用的是图形化编辑语言G编写程序，产生的程序是框图的形式。 LabVIEW软件是NI设计平台的核心，也是开发测量或控制系统的理想选择。 LabVIE...

2020-03-25 01:27:55 2341 2

原创计算机视觉Opencv3实验笔记（5）——人脸检测

一、人脸识别原理1.1 特征数据介绍：在Python的Opencv中进行人脸识别，那是需要有特征数据的。在github上可以进行下载：https://github.com/opencv/opencv/tree/master/data。包括HAAR与LBP两类数据，都是XML数据类型：例如我们打开haarcascades，下载人脸特征文件（下图还包括了很多其它的...

2019-08-09 01:08:39 1506

原创计算机视觉Opencv3实验笔记（4）——ROI与泛洪填充

一、ROI与泛洪填充 ROI（region of interest），感兴趣区域。机器视觉、图像处理中，从被处理的图像以方框、圆、椭圆、不规则多边形等方式勾勒出需要处理的区域，称为感兴趣区域。本例程是通过对图片Numpy数据进行ROI的获取泛洪填充：从一个点开始附近像素点，填充成新的颜色，直到封闭区域内的所有像素点都被填充新颜色为止。二、实验案例分析2.1 ROI...

2019-07-25 16:34:14 931

原创计算机视觉Opencv3实验笔记（3）——色彩空间与像素运算

一、色彩空间1.1 什么是色彩空间色彩空间是定义的颜色范围，即计算机存储色彩的数据结构。知名的色彩空间有 sRGB、AdobeRGB 和 ProPhotoRGB。1.2 常见的色彩空间常见的色彩空间有 RGB、HSV、YUV等。如上图所示的是一个HSV的色彩空间：S与V是0-255，H是0-180（在opencv中是0-180，原本是可以0-360的，只是为了8位...

2019-07-24 17:53:11 937 1

原创计算机视觉Opencv3实验笔记（2）——读写图片视频及numpy学习

上一章介绍了环境安装，本节将继续沿用Windows下的Opencv3环境进行实验一、图像加载与保存1.1 什么是图片？对于计算机来说就是结构化存储的数据，一个像素点可以视为3个通道，每个通道都是一个uint 8类型的数据;1.2 读写图片、视频代码调试import cv2 as cvimport numpy as npdef video_demo(): ...

2019-07-24 11:54:46 628

原创计算机视觉Opencv3实验笔记（1）——环境搭建与资源说明

由于本人前些时间买了一块树莓派3B+，本部分介绍Opencv3在Windows、树莓派Raspberry下的环境搭建。一、Opencv在Windows下的搭建：1.1 什么是Opencv: 开源的计算机视觉，核心为Imgcodecs与video I/O，其上的模块可根据需要使用。1.2 安装Python3.6.8 （其它Python3的版本应该...

2019-07-24 10:53:10 487

原创 Python数据挖掘-NLTK文本分析+jieba中文文本挖掘

一、NLTK介绍及安装1.1 NLTK安装NLTK的全称是natural language toolkit，是一套基于python的自然语言处理工具集。nltk的安装十分便捷，只需要pip就可以。相对Python2版本来说，NLTK更支持Python3版本。pip install nltk在nltk中集成了语料与模型等的包管理器，通过在python解释器中执行>>> import...

2018-02-21 00:16:23 33682 2

原创 Python数据挖掘-Python with hadoop

一、SnakeBite1.1 Snakebite介绍介绍：Snakebite由Spotify创建，需要python2 (python3版本目前并不支持) and python-protobuf 2.4.1或更高版本。Snakebite提供了一个Python客户端库，允许客户从Python应用程序中以编程方式访问HDFS。客户端库使用protobuf与NameNode直接通信的消息。snakebit...

2018-02-20 15:16:24 3962 1

原创 Python数据挖掘-支持向量机SVM

本文章内容来自麦子学院课程-机器学习，特此申明。Part One：线性可分的SVM1. SVM 背景 1.1 最早是由Vladimir N. Vapnik 和 Alexey Ya. Chervonenkis 在1963年提出 1.2 目前的版本(soft margin)是由Corinna Cortes 和 Vapnik在1993年提出，并在1995年发表 1.3 深度学习...

2018-02-14 11:33:36 2738 1

原创 Python数据挖掘-回归分析

本文用Python实现数据回归，包括线性回归（一元线性+多元线性回归）、Logistics回归。主要通过实验验证，部分例题来自网络。一、一元线性回归举例及代码实现：汽车卖家做电视广告数量与卖出的汽车数量：代码：1.3 Python代码实现：import numpy as npdef fitSLR(x, y): n = len(x) dinominator = 0 numerato...

2018-01-01 17:00:56 31863 1

原创 MapReduce编程学习(1)--简要分析并附源代码

在完成了完全分布式Hadoop平台的搭建之后，一直在忙于C语言与计算机应用基础两门课程的教学与考试，好容易放了寒假，前几天在忙于LAMP与Oracle两门课程的教学备课。备课，永远是一名教师的无奈。顿时发现除了长了几斤肉肉之外，学习进展是一无是处。呵呵，也是醉了。抽了三个多小时把MapReduce编程的理念学习了一下，感觉相对来说还算好学，因为模板固定，以下记录几个实例供参考吧。在此申请：部分案例

2016-02-20 18:45:53 1067

原创 Centos挂载Windows8的共享文件

一、在Windows8下：1、创你要分享的文件夹“guptshare” 2、右击属性-->共享-->添加-->Everyone-->共享-->完成。3、再进入“高级共享”进行设置：4、在控制面板中，进入“用户帐户”将Guest启用，并设置好帐号与密码。5、在DOS用户下输入gpedit.msc做以下设置：从网络访问计算机属性里--添加-

2015-12-24 21:23:25 1550

原创 hadoop完全分布式集群+Win Eclipse+Hbase+Hive+Zookeeper+Sqoop+SPARK试验机平台

三台Centos6.5虚拟机，模拟3个物理节点的Hadoop平台。并配置Eclipse连接

2015-11-12 00:30:53 2626

原创 Win8（64）安装Oracle11g+PL/SQL

近期需要用到Oracle11g,并使用PL/SQL进行管理。软硬件说明 OS：Win8 64位操作系统，内存：8G。Oracle 11g 64位版本，PL/SQL Developer、instantclient-basic-win32-11.2.0.1.0.zip（一定要32位的），其中instantclient-basic-win32-11.2.0.1.0.zip的

2015-08-27 10:39:14 1164

原创 Ubuntu15.04单机/伪分布式安装配置Hadoop与Hive试验机

环境系统： Ubuntu 15.04 32bitHadoop版本： hadoop-2.5.2.tar.gzJDK版本： jdk-8u-45-linux-i586.tar.gzHive版本：apache-hive-0.14.0-bin.tar.gzMySQL版本：Open-MySQLSTEP 1:安装JDK1.配置安装JDK，将JDK解压，tar

2015-04-29 16:05:29 2016

原创 Hadoop实习操作练习1（Hive与HBase初探）

Chapter 1：引言近期电信集团公司举办了大数据技术培训课，按照要求，Hadoop小白的我对两者作完对比，进行实际操作做一个练习记录吧，嘿嘿。。。两者的共同点：1.hbase与hive都是架构在hadoop之上的。都是用hadoop作为底层存储两者的区别：2.Hive是建立在Hadoop之上为了减少MapReduce jobs编写工作的批处理系统，HBase

2015-04-07 13:25:45 1627

原创 Bulk Insert出现拒绝访问的问题解决方法

将txt等文件批量导入到SQL Server：truncate table dbo.lb_宽带离网预测建模数据1501Bulk insert lb_宽带离网预测建模数据1501from 'F:\\宽带清单\\201501.txt' with ( FIELDTERMINATOR = '$',ROWTERMINATOR = '\n',MAXERRORS=10

2015-03-25 11:52:54 6573

转载经典SQL语句大全

经典SQL语句大全 2010-05-13 作者:icemanws 来源：icemanws的blog 一、基础1、说明：创建数据库CREATE DATABASE database-name 2、说明：删除数据库drop database dbname3、说明：备份sql server

2015-03-19 10:56:32 739

原创关于数据处理一些零散的学习

1、Bulk insert命令(SQL Server)用于将平面文件导入数据库表 BULK INSERT [ [ 'database_name'.][ 'owner' ].]{ 'table_name' FROM 'data_file' } WITH ( [ BATCHSIZE [ = batch_size ] ],

2014-04-02 11:50:15 1050

原创在Windows下安装与配置Hadoop

近来一个新上的项目需要用到Hadoop做大数据挖掘，时不我待，趁机也学学分布式计算。以下介绍在Windows下安装与配置Hadoop：1、在地址http://www.java.com/zh_CN/download/manual.jsp下安装JDK，下载最新的JDK，之后双击安装即可。这是因为Hadoop的编译及MapReduce程序的运行很多地方需要使用JDK，只安装JRE是不够的，程序会

2013-12-27 10:51:15 1748

原创电信运营商客户网络故障抢修的模拟系统搭建

在工作中遇到了珠江新城某政企客户网络的故障，为此需要在实验室搭建一个模拟系统来分析该客户的网络。该模拟系统分为客户端——单/双模转换——局端，使用EDT-135E1数据通道测试仪在局部测试从客户端RJ45环发出并经过单/双模转换器的信号。模拟系统(从左到右分别为数据通道测试仪、客户端、局端、单/双模转换器)如下图所示：局端与客户的设备是一样的，即光端机，如下图所示：该光端机

2013-12-22 19:40:41 2698

原创重装MySQL出现start service故障问题解决及10061问题

由于电脑出现了Can't connect to MySQL server on 'localhost' (10061)，我冒失地重装了MySQL数据库，于是在安装的最后一步execute时start service出现电脑卡住，进度进行不下去的问题。这个时候其实是因为对MySQL服务卸载不完全所致。这时候需要做以下操作：1、在cmd下输入 net stop mysql；2、删除C：下W

2013-12-19 10:28:40 1881

原创移动互联网用户网络行为挖掘论文三则

6月又是一个离校的季节，研究生三年转瞬即过。感觉自己都没学到什么东西，或者是学到点皮毛东西也给忘了。现在想想能留下来的东西真是少之又少。就把自己的三篇论文全部在这里做一个备份交待吧，虽然水得很。一直以为自己在这方向能走得更远的，但却暂停了下来，因为自己工作签约某一线城市的运营商了（表示伤不起），但对用户的网络行为的Web挖掘方向的研究却一起颇有兴趣（虽然学术科研能力不强），殷切希望论坛或博客里有相

2013-06-11 19:18:30 2139

原创简单计算器实现(C++)

本人写了一个简单的计算器实现代码,能实现+-*/及()功能.特此备案.一、开发环境：Linux操作系统(Fedora虚拟机), vim、g++等开发环境。二、核心算法1、 int Test(string str): 对输入的const string类型字符串(计算式)进行检测，发现其是否为一正确的计算表达式，如果是则return 1，如果否则return 0。如“12+23”为

2012-12-23 18:37:08 6866

原创某公司数据挖掘笔试题

一、简述对大数据分析和挖掘的理解答：全球大数据时代（Age of big data）已然来临，尤其在电信、金融、电子商务、智能搜索引擎等行业，几乎已经到了“数据本来就是业务”的地步。在包括语音、计算机网络、因特网和各种其它方式的通信计算融合的电信业，大数据分析与挖掘是电信运营商的一大挑战，更是指引业务发展与改进的一大机遇。以下从这两方面加以阐述。挑战：1、数据量大且内容多样，海量数据

2012-11-25 11:04:24 2480

原创找工作的漫漫长路[Over结帖...]

楼主先自我介绍，重庆某高校通信与信息系统专业业在校研三学生。每年繁忙校招时，在此博客中打算不断更新与记载自己研三这一年的在找工作与学习的道路上的一些经历，不管是好是坏，只是一种经历。全篇将持续更新，按日志的格式，希望给自己做一个见证与鼓励，并企多年之后还能在优快云上看到自己曾经的一些经历的记录。希望现在或曾经有相同或相近境遇与心情的看客顶一下，哈哈。。。。。2012年9月5日

2012-09-17 21:25:35 1862 1

原创安装R-XML包时出现Cannot find xml2-config的问题解决

在Fedora14下安装tm包作文本挖掘处理，时tm包是依赖于XML包的。但在XML包的安装过程中会出现以下的问题：>install.packages("XML")....checking for xml2-config... noCannot find xml2-configERROR: configuration failed for package XML* re

2012-08-22 23:19:00 8082 3

原创 Linux环境下搭建R计算平台

R语言已经广泛地应用于数据分析与文本挖掘，Facebook与Google的挖掘工具都是R语言，它较之于S-Plus与SAS具有开源等优势，具能布置于云平台下进行计算工作。与Matlab等一样，R语言也是从Linux下向Windows发展，但由于许多的R语言程序包只能在Linux下才能用，今天我特意在个人的电脑上搭建了VMware虚拟机下的Fedora14系统，进行实验。Step1：VMware

2012-08-16 20:04:08 4056

转载 VC++多线程编程[转]

转载地址：http://www.cnblogs.com/wxfasdic/archive/2010/09/23/1833522.html 留个纪念，不错的总结。十个例子清晰列举啦多线程编程的奥妙。 VC中多线程使用比较广泛而且实用,在网上看到的教程.感觉写的挺好.一、问题的提出编写一个耗时的单线程程序：　　新建一个基于对话框的应用程序Sin

2012-07-31 19:26:29 1055

转载常见的C++编译错误

来源：http://bbs.51cto.com/thread-504741-1-1.html1、fatal error C1010: unexpected end of file while looking for precompiled header directive。寻找预编译头文件路径时遇到了不该遇到的文件尾。（一般是没有#include "stdafx.h"） ( Z+

2012-07-17 14:15:00 2526

原创 MySQL全文本搜索引擎与触发器

前言： MySQL 支技多种索引Index：主键，唯一索引（一个表可以有多个唯一索引，但必须只能有一个主键），普通索引（当大量的搜索是关于一个表的一列或几列时），全文本索引（以下重点阐述），聚族索引（一个表只能有一个，它们的顺序就是数据的物理顺序，不宜常更新！）。一、mysql最常使用的搜索引擎为MyISAM（全文本搜索引擎）和InnoDB（可靠的事务处理引擎） ,前者支持全文本搜索且查询速度

2012-07-17 00:10:47 1280

原创 R语言tm工具包进行文本挖掘实验

tm包是R语言中为文本挖掘提供综合性处理的package，进行操作前载入tm包，vignette命令可以让你得到相关的文档说明。本文从数据导入、语料库处理、预处理、元数据管理、创建term-document矩阵这几个方面讲述tm包括的使用。 >library(tm) //使用默认安装的R平台是不带tm package的，必须要到http://www.r-project

2012-07-16 22:08:20 14964

转载 Google和facebook如何应用R进行数据挖掘

投稿人/作者: http://www.chinakdd.com/article-2455MSh71C75413.html 发布时间：2012-04-25 20:40:12 投稿到ChinaKDD在R用户组织的主题为“R与预测分析科学”的panel会议上，有来自工业界的四位代表发表了讲话，介绍各自在工业界是如何应用R进行数据挖掘。他们分别是：Bo Cowgill, Goog

2012-07-16 14:43:00 2430

原创 2011百度与Alibaba数据挖掘实习生笔试面试题

Baidu数据挖掘笔试题：一、简答题30分1. extern”C”{}的作用好应用场景；2.写出两者你熟悉的设计模式，及应用场景，可以给出伪代码；3.TCP中time_wait是表示那种状态，及应用场景，以及起好处和坏处；二、算法题40分1. 有一个任务执行机，任务数N但是任务之间没有循环依赖，请给出适当的任务执行顺序。算法、伪代码，并分析其时间复杂度和空间

2012-07-16 14:40:12 2287

翻译史上代码最少的协同过滤推荐引擎（R语言实现）

R实现的item-based CF推荐算法：除去注释，有效代码只有16行。其中大量运用了向量化的函数与处理方式，所以没有任何的显式循环结构，关于向量化更详细的叙述可看这里。注：该代码实现的只是最基本算法，仅作参考，不承诺在大规模与复杂数据环境下的实用性。源数据文件data.dat的内容如下所列：user_id,subject_id1,11,31,71,1

2012-07-16 13:52:01 5162

转载我的数据挖掘之路

转载地址：http://www.chinakdd.com/article-C7Vdmy3NO8B5p13.html由于本科专业是生物信息(可以理解为生物统计学或者与基因数据相关的数据挖掘学科)，所以那时已经开始接触数据挖掘，对统计也算有一定的基础。记得大二的时候，我便开始学用 matlab，然后玩弄SVM，神经网络之类的机器学习算法做一些分析和实验。现在想想那时候可能连这些算法的基本概念都不

2012-07-15 00:04:57 2224

原创开博自贺词

2012-7-16　　不知不觉接触计算机与通信专业（不能说是行业，因为还没毕业）已经６年了，时光如棱，此言不虚也！　本科4年，研究生尔来2年又两月矣。　　　接下来的事情也许只剩下找工作与写毕业论文两件了。　早在４年前就开始用优快云，但从来没有发过帖子，今天索性就把博客给开通了，并一口气发了3篇博文，点击量虽然只有30，但也足以让我对这个博客的培养充满激情与信心。开通博客不为别的，只

2012-07-14 14:24:37 2503

原创数据挖掘一些面试题总结（Data　Mining）

Data-Mining试题2011Alibaba数据分析师（实习）试题解析一、异常值是指什么？请列举1种识别连续型变量异常值的方法？异常值（Outlier）是指样本中的个别值，其数值明显偏离所属样本的其余观测值。在数理统计里一般是指一组观测值中与平均值的偏差超过两倍标准差的测定值。Grubbs’ test（是以Frank E.Grubbs命名的），又叫maximumnormed

2012-07-14 11:35:19 26863

原创《浪潮之颠》学习笔记

仅仅是自己对这本书上知识的一些感悟，可能缺乏时效性，并有一定的缺乏。　1、美国电报和电话公司 (AT&T)：　成立于1877，1995年分裂成AT&T(从事电信业务)、朗讯(设备制造业务)和 NCR(计算机业务)三家公司。成功之道：第一台有线电话的发明、半导体业、天文望远业、晶体管业；贝尔实验室强大的科研实力，科技创新力强(Unix,C语言)；成功完成了有线通信到微波通信的转型。

2012-07-14 11:28:54 4308