
专业知识
山水无间道
努力工作 ing!
展开
-
爬虫突破封禁的6种常见方法
<div class="postBody"> <div id="cnblogs_post_body" class="blogpost-body"><p>在互联网上进行自动数据采集(抓取)这件事和互联网存在的时间差不多一样长。今天大众好像更倾向于用“网络数据采集”,有时会把网络数据采集程序..转载 2018-06-21 21:20:27 · 1382 阅读 · 0 评论 -
Keras之文本分类实现
转自知乎:https://zhuanlan.zhihu.com/p/29201491写在前面从优达DLND毕业后,一直想自己动手做点什么来着,互助班的导师也鼓励自己动手写点心得体验啥的。之前一直没怎么观看Youtube网红Siraj老师的课程视频,他每个视频最后都会有一个编程挑战。于是,想着先从自己熟悉的内容着手吧,Siraj老师第三周的编程挑战是做一个多类别的文本分类器,链接在此:Github...转载 2018-12-17 20:17:59 · 1914 阅读 · 0 评论 -
conda:未找到命令的解决方法
在使用anaconda装python时,有时候路径可能没有加入到系统路径中,要手动加入:#将anaconda的bin目录加入PATH,根据版本不同。确定anaconda的名字,如果是默认的,python3.7生成anaconda3$ echo 'export PATH="~/anaconda3/bin:$PATH"'>>~/.bashrc#然后更新bashrc,即可立即生效,不...原创 2018-12-24 14:03:54 · 17773 阅读 · 1 评论 -
Ubuntu Linux基本命令说明及使用
Ubuntu Linux基本命令说明及使用 转自:https://blog.youkuaiyun.com/yangyang222222222/article/details/79172463/ ...转载 2018-12-26 10:44:50 · 552 阅读 · 0 评论 -
Ubuntu遇到问题“Could not install packages due to an EnvironmentError: [Errno 13] 权限不够: ”
Ubuntu在使用一些pip的时候会遇到:“Could not install packages due to an EnvironmentError: [Errno 13] 权限不够:”的问题。在正常的命令后面加一个 --user即可:在使用pip的相关命令时,使用国内源的速度更快:如下是使用了清华的国内源。 pip install -r requirements.txt -i ht...原创 2018-12-26 11:00:14 · 2397 阅读 · 0 评论 -
yaml格式的语法,rasa-core
【原创文章,转载请注明原文章地址,谢谢!】我们学习Java,都是先介绍properties文件,使用properties文件配合Properties对象能够很方便的适用于应用配置上。然后在引入XML的时候,我们介绍properties格式在表现层级关系和结构关系的时候,十分欠缺,而XML在数据格式描述和较复杂数据内容展示方面,更加优秀。到后面介绍JSON格式的时候,我们...转载 2019-01-17 16:32:04 · 309 阅读 · 0 评论 -
rasa-core中出现:AttributeError: 'str' object has no attribute 'get'
出现这种问题,第一时间想到,应该是某个字典格式的数据出了问题。经过查找确实是格式的问题:在domin.yml的文件里,下面的一个数据呈蓝色的,就是yml语法错误。数据间一定要有空格,否则就不识别还有在写.md文件时,markdown文件同样存在这样的行为。对格式的要求很严格,经常会因为缺空格报错的。有必要,自己去专门学习一遍markdown和yaml的相关语法。...原创 2019-01-17 16:40:43 · 1483 阅读 · 1 评论 -
ubuntu下mysql 出现 ERROR 1698 (28000): Access denied for user 'root'@'localhost'解决
作为ubuntu的初学者,按照教程安装完mysql,在使用mysql的可视化工具workbench的时候遇到:ERROR 1698 (28000): Access denied for user 'root'@'localhost'然而这是一个很奇怪的bug,在正常使用的时候,报错,在管理员的终端下却能正常使用:一些人归结为,权限的问题,找了很多,有人说修改权限,各种修改配置文件。...原创 2019-01-21 17:15:26 · 777 阅读 · 0 评论 -
selenium获取不了标签文本的解决方法
今天爬取一些网站,遇到了一些比较难理解的问题,索性一直研究,幸好解决了。发现这方面的东西写的人比较少,于是就写一下,分享心得。首先,网页的界面如下,显示毫无问题: 再看源码:怎么看,这都是一个正常的标签获取。然而就是获取不到这个值。maxTi = browser.find_element_by_css_selector('#window > tab...原创 2019-01-26 18:07:59 · 1928 阅读 · 0 评论 -
使用vscode在ubuntu下,遇到的No such file or directory:
写了很多的python程序,除了基础的时候遇到路径问题,很长时间都没有报错路径问题了,今天遇到了一个和大家分享一下,好大一个坑:今天写一个json转md文件的东西,结果路径报错,仔细瞅瞅路径没错呀,但是怎么更改都不对。后来多次修改不同的东西,发现是ubuntu在vscode下的问题,因为在pycharm中并没有遇到 。pycharm会直接跳到文件所在目录。vscode如果没有特别指...原创 2019-01-16 17:06:20 · 4338 阅读 · 0 评论 -
基于Rasa_NLU的微信chatbot
转自:http://rowl1ng.com/%E6%8A%80%E6%9C%AF/chatbot.html重要资料chatbot三步走:nlu model->dialogue policy->agent本项目的github地址:Rasa_wechat 视频讲解(正文+编程+QA):bilibili Rasa_NLU官方文档 Rasa_Core官方文档 wxpy文档...转载 2019-02-14 16:42:30 · 4382 阅读 · 1 评论 -
python中,@和-> 代表什么?
在python学习中遇到了“->”符号,刚开始是找不到的,这个在C或者C++语言中链表出现的符号。看介绍很多人也说Python中没有指针的说法,那么这肯定不是指针的指向。 在下面的网址看到一些介绍:https://segmentfault.com/q/1010000014834657 ->常常出现在python函数定义的函数名后面,为函数添加...原创 2019-02-13 13:20:40 · 32685 阅读 · 8 评论 -
关于如何处理多对多的逻辑问题
1.多对多的理解: 一对一的理解:就是一个班主任只属于一个班级,一个班级也只能有一个班主任。这就是对于一对一的理解,一一对应是很容易处理的问题,这是数据库里比较常见的。 一对多: 一个顾客对应多个订单,而一个订单只能对应一个客户 多对一:多个客户可以在同一个商家对同一件商品下单。 多对多: 一个用户可以属于多个集体(家人,朋友,同学),当然一个集体也包...原创 2019-02-27 10:46:29 · 1169 阅读 · 0 评论 -
Ubuntu出现OSError: [Errno 98] Address already in use: ('0.0.0.0', 5055)
使用命令:netstat -anput | grep 5055或者netstat -tunlp查看占用这个端口的进程号PID然后使用 kill -9 9797 杀掉进程。9797即相应的PID原创 2018-12-26 14:48:55 · 1208 阅读 · 0 评论 -
隐马尔可夫模型(HMM)和Viterbi算法
1. 隐马尔可夫模型(HMM)在说隐马尔可夫模型前还有一个概念叫做“马尔科夫链”,既是在给定当前知识或信息的情况下,观察对象过去的历史状态对于预测将来是无关的。也可以说在观察一个系统变化的时候,他的下一个状态如何的概率只需要观察和统计当前的状态即可正确得出。隐马尔可夫链和贝叶斯网络的模型思维有些接近,区别在于隐马尔可夫的模型更为简化。而且隐马尔可夫链是一个双重的随机过程,不仅状态转移之间是一个...转载 2018-12-01 19:48:59 · 654 阅读 · 0 评论 -
Keras实现CNN文本分类
本文以CAIL司法挑战赛的数据为例,叙述利用Keras框架进行文本分类的一般流程及基本的深度学习模型。 步骤 1:文本的预处理,分词->去除停用词->统计选择top n的词做为特征词 步骤 2:为每个特征词生成ID 步骤 3:将文本转化成ID序列,并将左侧补齐 步骤 4:训练集shuffle 步骤 5:Embedding Layer 将词转化为词向量 步...转载 2018-12-01 13:06:10 · 1850 阅读 · 0 评论 -
由两道题理解贝叶斯的先验,后验定律
1.想起曾经的一道笔试题,现有甲,乙两个箱子,甲箱中有70个红球,30个白球;乙箱中有40个红球,60个白球。选取甲乙两箱的几率相等都为50%。1.求随机选取一球为红球的概率。2.若选取的为红球,求来自甲乙两箱的概率。解:1.这是用的贝叶斯的先验定律,通俗来说,就是知道由条件求结果,顺序求解,分别求甲乙两箱的红球概率最后相加。A:甲箱a:乙箱B:红球p(B)=p(B|A)*p(A)+p(B|a)*...原创 2018-06-15 12:35:58 · 1560 阅读 · 0 评论 -
机器学习:准确率(Precision)、召回率(Recall)、F值(F-Measure)、ROC曲线、PR曲线
增注:虽然当时看这篇文章的时候感觉很不错,但是还是写在前面,想要了解关于机器学习度量的几个尺度,建议大家直接看周志华老师的西瓜书的第2章:模型评估与选择,写的是真的很好!!以下第一部分内容转载自:机器学习算法中的准确率(Precision)、召回率(Recall)、F值(F-Measure)是怎么...转载 2018-06-15 15:31:20 · 1028 阅读 · 0 评论 -
python 六款中文分词模块介绍:jieba、THULAC、SnowNLP、pynlpir、CoreNLP、pyLTP
THULAC四款python中中文分词的尝试。尝试的有:jieba、SnowNLP(MIT)、pynlpir(大数据搜索挖掘实验室(北京市海量语言信息处理与云计算应用工程技术研究中心))、thulac(清华大学自然语言处理与社会人文计算实验室) 四款都有分词功能,本博客只介绍作者比较感兴趣、每个模块的内容。j...转载 2018-06-19 11:26:38 · 4669 阅读 · 0 评论 -
总结最近学习python爬虫遇到的问题(selenium+Chrome,urllib,requests)
最近学习了一下爬虫,兴趣使然吧!(注:以下均在python3的环境下实验)1.基本库,先说一下基本库有,urllib和requests两个库:基本库的作用是:发送页面请求,处理异常,解析链接,分析Robots协议。基本用法urllib有:from urllib.request import urlopen,Requestreq = Request(url,headers=headers)pic...原创 2018-07-03 11:41:35 · 2469 阅读 · 0 评论 -
Django2.0Django框架开发流程
开发环境:Django2.0Python3.6.3IDE:PyCharm新建一个Django项目创建应用在一个项目下可以创建一个到多个应用,每个应用进行一项业务处理定义模型类创建好应用之后在应用中创建模型类生成数据表1)激活模型:编辑settings.py文件,将BlogT...转载 2018-07-05 09:41:12 · 212 阅读 · 0 评论 -
ELMo算法
这篇介绍一下ELMo算法(论文)。按道理应该加入前面的《关于句子embedding的一些工作简介》系列,但是严格来讲,只能说它通过自己产生的word embedding来影响了句子embedding, 所以干脆另写一篇吧。IntroductionBidirectional language modelsELMoEva...转载 2018-11-23 18:07:38 · 405 阅读 · 0 评论 -
修饰符@,装饰器(decorator),迭代器(iterator),生成器(Generator)的一些见解
这三个方法,在Python里的使用并不多,然而,各大互联网公司还特别喜欢考这一方面的。以前因为不常用,有些忽视了这几个方法,碰了几次壁后,决心好好整理一番这三个方法(以下代码均在python3.6的环境下实验): 1.修饰符@和装饰器 很多地方说的修饰符,装饰器其实是同一个东西。 '@' 用做函数的修饰符。 修饰符出现在函数的前...原创 2018-11-22 17:09:35 · 329 阅读 · 0 评论 -
CNN在NLP领域的实践 文本分类
众所周知,卷积神经网络(CNN)在计算机视觉领域取得了极大的进展,但是除此之外CNN也逐渐在自然语言处理(NLP)领域攻城略地。本文主要以文本分类为例,介绍卷积神经网络在NLP领域的一个基本使用方法,由于本人是初学者,而且为了避免东施效颦,所以下面的理论介绍更多采用非数学化且较为通俗的方式解释。0.文本分类所谓文本分类,就是使用计算机将一篇文本分为a...转载 2018-11-22 20:30:11 · 314 阅读 · 0 评论 -
Python里sort()的排序算法--Timsort简介
学习计算机的肯定对各种排序算法都很了解,这里说一下,常用的排序算法有冒泡排序,插入排序,快速排序等, 而Python里的sort排序是一种名为Timsort的排序方法,其时间复杂度为O(n log n),而且这是一种快速的稳定的排序方法。它的发明者是Tim Peters在2001年为Python创造的一种排序算法。下图是Timsort的时间复杂度的介绍,可以看到Timso...原创 2018-11-26 13:14:42 · 9244 阅读 · 0 评论 -
关于爬取新浪微博,内存耗用过高的问题
最近在做互联网舆情分析时,需要爬取新浪微博做相关实验。虽然新浪微博开放了相关舆论的API,然而申请什么的,并不想做,而且舆情变化快,最终还是自己爬取,相关舆情。 在用selenium的时候,有时候经常发现内存耗用特别高,很诧异,别人也都说selenium的速度慢等,很多缺点,甚至有时候爬虫的速度慢的令人发指。前两天决定重写爬虫,重点解决爬虫的速度问题。 今天终于...原创 2018-11-26 14:00:28 · 1165 阅读 · 0 评论 -
Django分页中间件dj-pagination的使用,并修改pagination.html模板
最近做网络相关舆情分析需要分页,就查看了很多的相关资料,最后发现其实,已经有现成的分页中间件可以直接使用,相当方便。本次就介绍一些dj-pagination的相关知识。 具体的请参考官网:https://dj-pagination.readthedocs.io/en/latest/usage.html 首先是安装,需要Django的版本在1.8以上:pip...原创 2018-11-27 16:21:34 · 969 阅读 · 0 评论 -
对Django数据库的查询,限制,过滤等
参考:http://blog.youkuaiyun.com/sherlockzoom/article/details/51910061 __exact 精确等于 like ‘aaa’ __iexact 精确等于 忽略大小写 ilike ‘aaa’ __contains 包含 like ‘%aaa%’ __icontains 包含 忽略大小写 ilike ‘%aaa%’,但是对于sqli...转载 2018-11-27 16:39:52 · 1460 阅读 · 0 评论 -
Python中__slots__的使用
摘要当一个类需要创建大量实例时,可以通过__slots__声明实例所需要的属性,例如,class Foo(object): __slots__ = ['foo']。这样做带来以下优点:更快的属性访问速度减少内存消耗以下测试环境为Ubuntu16.04 Python2.7Slots的实现我们首先来看看用纯Python是如何实现__slots__(为了将以下实现的slots与原sl...转载 2018-11-27 21:05:07 · 870 阅读 · 0 评论 -
rasa安装过程中遇到的问题和解决方法
rasa的安装方法介绍:最好的教程永远都是开发文档:https://rasa.com/docs/nlu/rasa主要包含两部分,rasa_nlu和rasa_core,rasa_nlu(Natural Language Understanding)主要做自然语言理解相关的,它的主要功能由两个:意图(intent)分类和(ner)命名实体识别。rasa_core主要做:对话流程管理,对于输入不...原创 2019-03-20 00:44:42 · 2855 阅读 · 0 评论