
数据工程
文章平均质量分 72
对于从事AI领域的研究者而言,数据是非常重要的,本栏会介绍数据源获取的一些方法,涉及到网络机器人、公开数据集通道等信息
CSAIWQYB
一名从事AI方面研究工作的爱好者,主要方向:NLP、ML等领域的研究
展开
-
Elasticsearch学习分享(六)
本期学习ES DSL及其基本用法。 什么是ES DSL呢?全称Elasticsearch Query DSL。DSL又是什么呢?DSL(Domain Specific Language),英译中的结果就是,领域特定语言。DSL指的是专注于某个应用程序领域的计算机语言,又译作领域专用语言。不同于其他计算机语言,顾名思义,这种语言只用在某些特定的领域。ES DSL是专门属于ES的查询语言,elasticsearch提供标准Restful风格的查询DSL来定义查询。可以将查询DS...原创 2020-07-03 17:26:15 · 2046 阅读 · 0 评论 -
Elasticsearch学习分享(五)
本期来学习下比较有意思的内容——IK分词器。 一说到分词,让我感到倍感亲切,想起了研究生阶段的课题——自然语言处理。作为AI的一个核心领域,分词任务算是一项重要而又比较基础的工作,是很多下游任务的基础。在NLP领域,有很多的软件可以使用,我所接触过的,比如DeepNLP、kcws、jieba、LTP、THULAC、NLPIR、SnowNLP、SpaCy、pyhanlp、FoolNLTK、pyltp、StanfordCoreNLP、ID-CNN-CWS、Genius、Fuda...原创 2020-07-03 16:57:29 · 307 阅读 · 1 评论 -
Python虚拟环境下遇到“无法绘图的问题”
在python虚拟环境下遇到,无法绘图的问题,可能是tc和tk目录没有找到,比如:通常有以下几种办法:转载 2020-06-21 19:24:13 · 501 阅读 · 0 评论 -
Windows下MySQL8.0下载安装
MySQL是计算机领域经常使用的关系数据库,本期介绍下windows下MySQL8.0的安装。 首先,进入官网下载:下载完成后,双击安装文件,开始安装:接下来使用Workbench。界面工具可以很方便的操作数据库,这样这样便完成了MySQL的下载与安装全过程。...原创 2020-06-16 20:02:27 · 823 阅读 · 0 评论 -
Elasticsearch学习分享(四)
上篇学习了Kibana,本期深入学习ES,包括ES是如何存储数据,其数据结构又是怎样的,以及与传统数据库的关系。 ES有很多重要概念,包括如集群、节点、索引、文档、分片、映射等内容。相比于关系数据库中的数据库、表、行(记录)、属性(字段、特征)等核心概念,ES有索引(indices)、类型(types)、文档(Documents)、fields等内容。ES是面向文档的,下面是关系数据库与Elasticsearch客观的对应关系!Relational DB Elas...原创 2020-06-16 15:59:00 · 285 阅读 · 0 评论 -
Elasticsearch学习分享(三)
在上一篇博文讲了elasticsearch以及插件elasticsearch-head的安装,本期开始学习Kibana。 先来了解下ELK。ELK是Elasticsearch、Logstash、Kibana三大开源框架首字母大写简称,市面上也称为Elastic Stack。其中Elasticsearch是一个基于Lucene、分布式、通过Restful方式进行交互的近实时搜索平台框架,相类似百度、谷歌这种大数据全文搜索引擎的场景都可以使用Elasticsearch作为底层支...原创 2020-06-15 18:30:23 · 305 阅读 · 0 评论 -
Elasticsearch 学习分享(二)
上一篇介绍了Elasticsearch的背景,接下来学习Elasticsearch的安装。 在安装Elasticsearch之前,需要安装j并配置jdk环境,jdk版本不能低于jdk1.8。另一方面,需要注意Elasticsearch的版本要和与Java开发的核心jar包版本对应,jdk环境正常。1、下载elasticsearch包,下载网址https://www.elastic.co/cn/downloads/elasticsearch。本文以windows平台为例。...原创 2020-06-15 14:57:48 · 811 阅读 · 0 评论 -
Elasticsearch 研究分享(一)
Elasticsearch是一种分布式的全文搜索引擎,简称“es”,是一种非常强大的信息检索(Information Retrieval,IR)应用,广泛应用于大数据分析,其产生的初衷是为了解决大数据下,传统的SQL查询检索速度慢的问题。作为一个搜索服务器,凡是与“检索”有关的应用,都有elasticsearch的身影。比如,github项目检索、百度搜索、淘宝电商等等。 在学习es之前,首先了解其背景也是非常有必要的。我们都知道Google是一家做搜索引擎起家的公司,其中......原创 2020-06-15 09:57:58 · 378 阅读 · 0 评论 -
网络爬虫学习(十三)
前一节(https://blog.youkuaiyun.com/weixin_44526949/article/details/86745455)我们通过分析一个电影网站,对该网站的前100的电影的相关信息进行了爬取。这种爬取是基于我们可以直接从网页源代码中看到要爬取的内容,只要写好正则表达式进行提取就可以了。但是,有时一些网站,我们并不能从网页源代码中直接找到我们需要的内容,这是因为,这些内容可能是通过Aj...原创 2019-02-08 18:40:50 · 1331 阅读 · 0 评论 -
网络爬虫学习(八)
本期来学习下正则表达式,之前学习了requests模块(https://blog.youkuaiyun.com/weixin_44526949/article/details/86684091),requests模块相比urllib模块,在很多方面都显得非常简洁,可以说是urllib模块的一个升华。那么什么是正则表达式呢?简单来说,正则表达式是对字符串操作的一种逻辑公式,就是事先定义好的一些特定字符、及这些特...原创 2019-01-30 00:18:40 · 169 阅读 · 0 评论 -
网络爬虫学习(七)
之前学习了urllib库的使用(https://blog.youkuaiyun.com/weixin_44526949/article/details/86677499),requests库是一个相比urllib库而言,更加高效的库。它使用python语言开发,是基于urllib的,是一个采用Apache2 Licensed开源协议的HTTP库。它相比urllib更加方便,可以提高我们的工作效率,完全能够满足...原创 2019-01-29 11:47:01 · 153 阅读 · 0 评论 -
网络爬虫学习(一)
学习网络爬虫,有很多种编程语言可以选择,但是,python是公认的最好的进行爬虫的编程语言,因此,本系列使用python语言来进行爬虫工作。由于python3版本是python的未来版本,所以,选择python3来进行爬虫开发,是最好的选择。接下来所要完成的首要工作便是网络爬虫环境的搭建。鉴于Linux环境下,搭建环境的方便,所以,以linux系统来作为开发平台。作为数据分析过程中非常重要的一个过...原创 2019-01-27 17:27:33 · 512 阅读 · 0 评论 -
网络爬虫学习(十)
上一篇(https://blog.youkuaiyun.com/weixin_44526949/article/details/86713588)学习了BeautifulSoup模块,通过学习,我们可以体会到,在做爬虫时,虽然正则表达式非常的强大,但是,它的特征构造的确有点难度。而BeautifulSoup在很多情况下,可以实现和正则表达式同样的功能,而且,它比较简单,方法中带有很多的文本解析器,比如html...原创 2019-02-01 13:00:15 · 191 阅读 · 0 评论 -
网络爬虫学习(二)
在网络爬虫学习(一)(https://blog.youkuaiyun.com/weixin_44526949/article/details/86666709)已经安装了MongoDB和Redis数据库,接下来需要安装一种非常重要的关系型数据库----MySQL。MySQL也是在进行Web开发过程中,使用比较多的数据库,主要存储结构化数据。在linux Ubuntu下安装比较简单。直接在终端输入对应的安装语句...原创 2019-01-27 19:07:04 · 160 阅读 · 0 评论 -
网络爬虫学习(三)
在上一篇中(https://blog.youkuaiyun.com/weixin_44526949/article/details/86667777)已经安装了MySQL数据库,以及相关的设置,注意,如果要进行远程访问MySQL数据库时,需要修改配置文件/etc/mysql/mysql.conf.d/mysqld.cnf,将下面的行注释掉即可。然后再重新启动mysql服务,便可以远程访问了。接下来...原创 2019-01-28 00:41:45 · 182 阅读 · 0 评论 -
网络爬虫学习(十一)
上一篇(https://blog.youkuaiyun.com/weixin_44526949/article/details/86735754)学习了pyquery,pyquery的使用类似于jquery,当我们在解析网页时,对网页中的内容,比如元素、元素标签、DOM操作等等,pyquery会非常的方便。本期来学习一个新的模块的使用方法,这个模块就是Selenium模块。该模块是一个自动化测试工具,在之前的...原创 2019-02-01 21:19:51 · 183 阅读 · 0 评论 -
网络爬虫学习(四)
之前对有关网络爬虫的一些工具进行了安装,那么究竟什么是爬虫呢?我们经常会看到这么一幅图。简单来说,通常把万维网比作一张大网,而蜘蛛呢,就是我们的爬虫程序,网上的各个点就是各个网站,网络爬虫简单来说,就是按照事先定义好的规则,来自动的采集这些网站信息的程序,由于带有“智能”的特点,“网络爬虫”又称“网络机器人”。那么爬虫的过程一般分为数据采集,数据处理,和数据存储这三个部分。爬虫技术的种类也...原创 2019-01-28 10:19:55 · 338 阅读 · 0 评论 -
网络爬虫学习(五)
前面(https://blog.youkuaiyun.com/weixin_44526949/article/details/86671897)已经知道了网络爬虫的基本流程,那么这里有两个词,Request和Response。那么这两个又是什么东东呢?简单来说,当我们在我们的浏览器中输入我们想要访问的资源的URL时,比如https://translate.google.cn/时,点击“回车键”,此时浏览器便向...原创 2019-01-28 14:43:57 · 189 阅读 · 0 评论 -
网络爬虫学习(十二)
之前(https://blog.youkuaiyun.com/weixin_44526949/article/details/86738980)学习了Selenium模块的使用,这个模块,我们知道是用来驱动浏览器来完成一些操作,比如元素的交互,页面的跳转等等。那么从这篇之后,会进行一些实际的爬虫项目。首先,我们来完成一个电影网站的爬虫项目。这个电影网站是一个猫眼电影网站(https://maoyan.com)...原创 2019-02-03 11:12:07 · 587 阅读 · 0 评论 -
网络爬虫学习(六)
之前(https://blog.youkuaiyun.com/weixin_44526949/article/details/86672985)学习了整个爬虫的工作原理,虽然原理比较简单,但是数据的处理却是比较麻烦和繁琐的,能够灵活的使用工具库可以提高我们的工作效率,接下来来学习一些库。首先来学习Urllib库。urllib库是一个python内置的http请求库。它包含4个模块,分别是urllib.re...原创 2019-01-28 23:10:37 · 221 阅读 · 0 评论 -
网络爬虫学习(九)
上一篇,学习了正则表达式(https://blog.youkuaiyun.com/weixin_44526949/article/details/86691142),关于正则表达式的特征构造是一个难点,要想能够灵活的驾驭这种方法,需要不断地练习和反复理解。本期将来学习BeautifulSoup模块的使用。BeautifulSoup是一个解析库,处理高效,支持多种解析器。利用它不用编写正则表达式即可方便地实现网...原创 2019-01-31 17:15:44 · 194 阅读 · 0 评论