
python
文章平均质量分 66
Mr愚先森
这个作者很懒,什么都没留下…
展开
-
2021-06-24
根据2020年StackOverflow开发者调查报告,Python是世界上最受欢迎的语言之一,排名仅次于Rust和TypeScript。更令人惊讶的是,Python是开发人员最想尝试的语言。如果你是一位使用Python的开发人员,而且希望提高自己的技术水平,或者你想学习Python,那么你可来对地方了。本文将为你献上25个最佳GitHub代码库。1、最佳Python代码库 Python开发资源大全:Python框架、库、软件以及资源精选列表。 (https://github.co转载 2021-06-24 17:59:53 · 299 阅读 · 0 评论 -
jieba入门2
import jieba'''添加自定义词典1、载入词典: a、开发者可以指定自己自定义的词典,以便包含 jieba 词库里没有的词。虽然 jieba 有新词识别能力,但是自行添加新词可以保证更高的正确率 b、用法: jieba.load_userdict(file_name),file_name 为文件类对象或自定义词典的路径 c、词典格式和 dict.txt...原创 2019-02-18 17:04:03 · 245 阅读 · 0 评论 -
TF-IDF与余弦相似性的应用(三):自动摘要
有时候,很简单的数学方法,就可以完成很复杂的任务。这个系列的前两部分就是很好的例子。仅仅依靠统计词频,就能找出关键词和相似文章。虽然它们算不上效果最好的方法,但肯定是最简便易行的方法。今天,依然继续这个主题。讨论如何通过词频,对文章进行自动摘要(Automatic summarization)。 如果能从3000字的文章,提炼出150字的摘要,就可以为读者节省大量阅读时间。由...转载 2019-02-13 14:10:01 · 303 阅读 · 0 评论 -
关键词提取算法:TF-IDF、TextRank、LSA/LSI/LDA
首先推荐一下在NLP方面比较好的一个博客,本文也是参考这位博主写的。链接点这里。本文主要对TF-IDF代码重新改写了一下,几个函数顺序调用比原文较好理解一点,对于刚入NLP的我们来说用来学习是挺好的,如果掌握的就可以尝试用面向对象的思想来写。LSA/LSI/LDA这集中算法应为没有接触过,多以暂时不介绍,想了解的可以参考原文。如果有时间我再去理解修改。1、关键词提取技术概述: 相...原创 2019-02-19 17:53:42 · 11866 阅读 · 2 评论 -
win安装pyspider遇到的一个问题记录
问题描述:pip无错误安装完成pyspider之后,验证时在cmd中输入pyspider all出现如下图错误:百度了好久才知道:这是WsgiDAV发布了版本 pre-release 3.x导致的,版本太高不兼容,所以把版本降下来就OK了。命令:python -m pip install wsgidav==2.4.1然后pyspider all测试一下,没问题的话如下...原创 2019-03-11 14:22:01 · 526 阅读 · 0 评论 -
重磅 | 完备的 AI 学习路线,最详细的资源整理!
今天一早看到了 Datawhale 推送的一篇文章,总结了非常全面的关于 AI 的学习资料,作者是 Datawhale,ApacheCN,AI 有道和黄海广博士联合整理贡献的,可谓是非常良心了,如果大家有想入门学习 AI 的,可以来看下这些资料,希望对你有所帮助哈。转载来源 公众号:Datawhale阅读本文大概需要 13 分钟。【导读】本文由知名开源平台,AI 技...转载 2019-05-06 10:00:33 · 1416 阅读 · 0 评论 -
算法图解笔记
第一章二分查找算法:解释及原理:二分查找是一种查找算法,需要输入列表必须是有序的。如果要查找的元素在列表中则返回所在的位置,否则返回None。假设你想一个1-100之间的数字,某人每次猜测后会知道所猜的数字是大了还是小了,如果直接从1开始猜那么至少要猜n次(n是你想的数字,这实际上是简单查找)。如果从中间也就是50开始猜,那么无论大小都已经排除掉一半的数字,接着再从剩下的一半数...原创 2019-06-11 09:53:06 · 270 阅读 · 0 评论 -
滑动验证码识别----解决天眼查自动登录问题
滑动验证码验证如下图所示:解决这个问题的思路:1、获取无缺口和有缺口的两张图片,即:下图所示:2、对比两张图片的像素点,像素点差值超过一定值即可视为缺口点(这里对比像素点时最好将开始的那一部分截取出来不对比,因为滑块滑动的距离肯定不会为0)。3、找到缺口之后计算活动距离,并模拟人工滑动滑块。有了这个思路之后贴一下核心代码:截取图片(首先需要定位到图片的位置并获...原创 2019-06-11 10:18:59 · 6789 阅读 · 27 评论 -
【Django】Python的Django框架-数据库查询(增删改查)
创建项目django-admin startproject django_model创建应用python manage.py startapp model配置应用 model, 编辑 django_model/settings.py 文件:INSTALLED_APPS = [ 'django.contrib.admin', 'django.contrib.aut...转载 2019-09-27 11:21:22 · 1063 阅读 · 0 评论 -
使用nltk分析文本情感
情感分析是NLP最受欢迎的应用之一。情感分析是指确定一段给定的文本是积极还是消极的过程。下面的代码是借用其他博主的, 但是我对代码的输入数据格式以及类型做了一个简单解析供大家参考。另外我发在nltk在处理中文时的切分统计不是很好,中文和英文文本的情感分析思路上是一致的,不同之处在于中文在分析前需要进行分词,然后才能用nltk处理(nltk 的处理粒度一般是词),因此在切分中文的时候...原创 2019-01-30 10:28:50 · 13437 阅读 · 2 评论 -
python的nltk中文使用和学习资料汇总帮你入门提高
nltk是一个python工具包, 用来处理和自然语言处理相关的东西. 包括分词(tokenize), 词性标注(POS), 文本分类, 等等现成的工具.1. nltk的安装资料1.1: 黄聪:Python+NLTK自然语言处理学习(一):环境搭建 http://www.cnblogs.com/huangcong/archive/2011/08/29/2157437.html 这个图...转载 2019-01-30 09:45:43 · 1079 阅读 · 0 评论 -
selenium常用知识点
1、新标签页的打开和关闭# driver.get(zi_url) # 这样执行在下面回退的时候会出现回退到首页的情况newwindow = 'window.open(' + "'" + zi_url + "'" + ')' driver.execute_script(newwindow)#打开新的标签面driver.switch_to_window(driver.window_han...原创 2018-07-03 19:37:02 · 927 阅读 · 0 评论 -
Python爬虫利器二之Beautiful Soup的用法
1. Beautiful Soup的简介简单来说,Beautiful Soup是python的一个库,最主要的功能是从网页抓取数据。官方解释如下:Beautiful Soup提供一些简单的、python式的函数用来处理导航、搜索、修改分析树等功能。它是一个工具箱,通过解析文档为用户提供需要抓取的数据,因为简单,所以不需要多少代码就可以写出一个完整的应用程序。Beautif...转载 2018-07-04 19:22:09 · 397 阅读 · 0 评论 -
BeautifulSoup 使用select方法详解
html = """<html><head><title>The Dormouse's story</title></head><body><p class="title" name="dromouse"><b>The Dormouse's story</b></p>...原创 2018-07-03 19:30:45 · 2361 阅读 · 0 评论 -
ubuntu环境下解决多python版本的问题
法一:1、使用下面命令sudo add-apt-repository ppa:fkrull/deadsnakes sudo apt-get update sudo apt-get install python3.5 2、然后输入python时启动的是python2.7输入python3时启动的是python3.4输入python3.5时启动的才是pyt...原创 2018-07-03 19:54:04 · 4052 阅读 · 0 评论 -
python简单操作excle
Python操作Excle文件:使用xlwt库将数据写入Excel表格,使用xlrd 库从Excel读取数据。 从excle读取数据存入数据库1、导入模块: import xlrd2、打开excle文件:data = xlrd.open_workbook('excel.xls')3、获取表、行/列值、行/列数、单元值获取一个工作表:table = data.sh...原创 2018-09-12 10:33:19 · 486 阅读 · 0 评论 -
LD算法
编辑距离,又称 Levenshtein 距离(莱文斯坦距离也叫做 Edit Distance),是指两个字串之间,由一个转成另一个所需的最少编辑操作次数,如果它们的距离越大,说明它们越是不同。许可的编辑操作包括将一个字符替换成另一个字符,插入一个字符,删除一个字符。这个概念是由俄罗斯科学家 Vladimir Levenshtein 在 1965 年提出来的,所以也叫Levensh...原创 2018-09-12 14:20:16 · 2905 阅读 · 0 评论 -
机器学习之文本分类(附带训练集+数据集+所有代码)
我本次对4类文本进行分类((所有截图代码和数据集最后附带免费下载地址))主要步骤: 1.各种读文件,写文件 2.使用jieba分词将中文文本切割 3.对处理之后的文本开始用TF-IDF算法进行单词权值的计算 4.去掉停用词 5.贝叶斯预测种类文本预处理: 除去噪声,如:格式转换,去掉符号,整体规范化 遍历的读取一个文件下的每个文本中文分词中文分词就是...转载 2018-12-07 11:50:34 · 11109 阅读 · 14 评论 -
jieba入门
1、三种分词模式 HMM是隐马尔可夫模型,默认是启用的jieba.lcut以及jieba.lcut_for_search直接返回 listimport jiebacontent = '小明是毕业于中国科学院的大学生'# 精确模式(试图将句子最精确地切开,适合文本分析)res2 = jieba.cut(content, cut_all=False, HMM=True)p...原创 2019-01-25 11:14:16 · 823 阅读 · 0 评论 -
cnn初探
转载自:http://www.cnblogs.com/fydeblog/p/7450413.html前言这篇博客主要讲解卷积神经网络(CNN)的历史、模块、特点和架构等等1. CNN历史CNN最早可以追溯到1968Hubel和Wiesel的论文,这篇论文讲述猫和猴的视觉皮层含有对视野的小区域单独反应的神经元,如果眼睛没有移动,则视觉刺激影响单个神经元的视觉空间区域被称为其感受野(R...转载 2019-01-25 17:00:04 · 358 阅读 · 0 评论 -
Python自然语言处理(NLP)入门教程(NLTK库的安装和使用)
本文简要介绍Python自然语言处理(NLP),使用Python的NLTK库。NLTK是Python的自然语言处理工具包,在NLP领域中,最常使用的一个Python库。什么是NLP?简单来说,自然语言处理(NLP)就是开发能够理解人类语言的应用程序或服务。这里讨论一些自然语言处理(NLP)的实际应用例子,如语音识别、语音翻译、理解完整的句子、理解匹配词的同义词,以及生成语法正确完整句子...转载 2019-01-25 17:41:03 · 2762 阅读 · 0 评论 -
selenium定位不到元素常见的问题
1、selenium —— 动态id、class怎么定位 没有打开新页面、没有alert、没有frame、加了等待时间,但是还是定位不到元素?很有可能是你要定位的元素的属性是动态的,即每次打开页面,这个元素的id或者class等元素属性是动态生成的。代码执行时,元素的属性已经与之前不同,用之前的属性值去定位自然是定位不到的,会抛出NoSuchElementException。 ...原创 2018-07-03 19:34:28 · 25714 阅读 · 1 评论