
python
文章平均质量分 52
蔡艺君小朋友
这个作者很懒,什么都没留下…
展开
-
关于Jupyter的小知识
一、更改Jupyter notebook的工作空间*方式1 在cmd中输入 jupyter notebook –generate-config 找到配置文件位置,将该.py中# The directory to use for notebooks and kernels.# c.NotebookApp.notebook_dir =''的路径改为自己指定的工作空间,如c.Notebo...原创 2018-06-04 20:57:29 · 560 阅读 · 0 评论 -
Python核心编程第二版第七章序列:映像和集合类型
7-3.字典和列表的方法。 (a).创建一个字典,并把这个字典中的键按照字母顺序显示出来dict1 = {'host': '123', 'port': '322'}for i in sorted(dict1.keys()): print(i)(b).现在根据已按照字母顺序排序好的键,显示出这个字典中的键和值dict1 = {'host': '123', 'port': ...原创 2018-09-13 21:10:04 · 370 阅读 · 0 评论 -
CoherenceModel官网翻译
CoherenceModel官网翻译models.coherencemodel – Topic coherence pipeline计算主题模型的主题一致性。这是论文四个阶段主题一致性管道的实现。MichaelRoeder,Andreas和Alexander Hinneburg:“Exploring the space of topic coherence measures"。典型的,Cohe...翻译 2018-11-24 12:24:21 · 5489 阅读 · 3 评论 -
python学习笔记4---(python网络爬虫-爬虫前奏)
为什么用python写爬虫程序?1、PHP:对多线程、异步支持不是很好,并发处理能力弱。爬虫是工具性程序,对速度和效率要求较高。2、Java:生态圈很完善。但java本身很笨重,代码量很大。重构成本比较高,任何修改会导致代码大量改动。3、C/C++:运行效率是无敌的。但学习和开发成本高,写个小爬虫程序要大半天时间。4、python:相关HTTP请求模块和HTML解析模块丰富,还有相关框架方...原创 2019-02-28 19:49:27 · 447 阅读 · 0 评论 -
python学习笔记5---(python网络爬虫-网络请求)
urllib库urllib是最基本的网络请求库。可以模拟浏览器行为,向指定浏览器发送请求,并保存返回的数据。urlopen函数在urllib库中,所有和网络请求相关的方法,都集到urllib.request模块下。from urllib import requestresp=request.urlopen('http://www.baidu.com')print(resp.read()...原创 2019-03-01 13:31:15 · 335 阅读 · 0 评论 -
python学习笔记1---面试初级python开发工程师110题
**面试初级python开发工程师110题(参考答案见下篇)**1、一行代码实现1—100之和2、如何在一个函数内部修改全局变量3、列出5个python标准库4、字典如何删除键和合并两个字典5、谈下python的GIL6、python实现列表去重的方法7、fun(args,**kwargs)中的args,**kwargs什么意思?8、python2和python3的range(...原创 2019-02-26 11:46:15 · 507 阅读 · 1 评论 -
Python学习笔记2---面试初级python开发工程师110题答案
sum(range(0,101))a = 5def fn():global aa = 4fn()print(a)os/sys/re/math/datatimedic = {“name”:“cai”,“age”:25}del dic{“name”}dic1={“name”:“shi”}dic.update{dic1}dic={ “age”:25,“name”:...原创 2019-02-26 13:09:23 · 548 阅读 · 0 评论 -
python学习笔记3---统计一个英文txt文件中出现频率最高的三个字母?
统计一个英文txt文件中出现频率最高的三个字母?代码如下:res ={}#打开文件with open('demo.txt') as f:#遍历(读)文件的内容,忽略空格 for char in f.read().replace(' ',''): # res[char] = res.get(char,0)+1 此处一行代码可以替换下面4行代码(不包括注释行) ...原创 2019-02-26 13:34:28 · 1619 阅读 · 0 评论 -
聚类算法和分类算法
常用的分类算法包括:决策树分类法朴素的贝叶斯分类算法(native Bayesian classifier)基于支持向量机(SVM)的分类器神经网络法k-最近邻法(k-nearest neighbor,kNN)模糊分类法下文出处常见的聚类算法包括:①基于划分的聚类算法k-means: 是一种典型的划分聚类算法,它用一个聚类的中心来代表一个簇,即在迭代过程中选择的聚点不一定是聚...转载 2019-03-05 20:22:56 · 9674 阅读 · 0 评论 -
Linux视频学习笔记
不同应用领域的主流操作系统1>桌面操作系统1.windows2. macOS (适合开发人员)3. Linux (应用软件少)2>服务器操作系统1.Linux (稳定、免费、占有率低)2.windows server (付费、占有率低)3>嵌入式操作系统1.Linux4>移动设备操作系统1.iOS2.Android (基于Linux)Linux常...原创 2019-03-06 15:33:44 · 194 阅读 · 0 评论 -
python学习笔记6---数据解析
xpath简介xpath(XML Path Language)是一门在XML和HTML中查找信息的语言。Xpath开发工具1.Chrome插件Xpath Helper点击浏览器右边三点—更多工具—扩展程序—chrome网上商店搜索该插件(需要翻墙,可能一次不能成功添加,多尝试即可)2.Firefox插件Try Xpath点击浏览器右边三横—附加组件—搜索插件—添加Xpath语法谓...原创 2019-03-08 22:42:30 · 6985 阅读 · 0 评论 -
python学习笔记7---数据存储
dump成json字符串以及编码问题import jsonpersons = [{'username':"蔡",'age':18},{'username':"时",'age':19}]with open('person.json','w') as fp: json.dump(persons,fp,ensure_ascii=False)# json在dump时只能存...原创 2019-03-26 15:50:29 · 141 阅读 · 0 评论 -
python学习笔记8---爬虫进阶
多线程概念和threading模块介绍没有多线程import threadingdef coding(): for x in range(3): print('正在写代码%s'%x) time.sleep(1)def drawing(): for x in range(3) print('正在画图%s'%x) ...原创 2019-03-26 15:59:57 · 634 阅读 · 0 评论 -
python学习笔记9---scrapy框架
糗事百科段子之scrapy爬虫前期工作创建项目:进入cmd中,切换路径到某个工作目录下,创建项目scrapy startproject 项目名称创建爬虫文件:首先到上述创建项目的目录下cd 项目名称,scrapy genspider 爬虫的名称 网站域名对于出现的多个py文件内容如下qsbk_spider.py# -*- coding: utf-8 -*-'''response...原创 2019-05-05 22:24:27 · 230 阅读 · 0 评论 -
Python核心编程第2版第六章习题答案
import stringimport keywordimport sysStartwith=string.ascii_letters+'_'Othersymbol=string.digitsdef CheckID(s): if s[0] in Startwith: if len(s)==1: print("The ID is val...原创 2018-09-05 15:02:22 · 1536 阅读 · 0 评论 -
爬虫基础(续)
第二章、爬虫基础2.2 网页基础2.2.1 网页的组成网页分为三大部分—-HTML、CSS和JavaScript 1.HTML(内容和结构) 网页的基础框架就是HTML 开发者工具中Elements选项卡下左边为html,右边为CSS 2.CSS(布局)#head_wrapper.s-ps-islite .s-p-top{position:absolute;wi...原创 2018-06-03 20:33:09 · 197 阅读 · 0 评论 -
基本库的使用
第三章、基本库的使用 3.1 使用urllib urllib是python内置的HTTP请求库,也就是不需要额外安装即可使用,它包含4个模块。request:模拟发送请求errorparse:提供许多URL处理方法,比如拆分、解析、合并等 robotparser:主要是用来识别网站的robots.txt文件,判断哪些网站可以爬3.1.1 发送请求 1.urlopen()(u...原创 2018-06-04 20:56:03 · 265 阅读 · 0 评论 -
基本库的使用(续1)
第三章、基本库的使用2.Requestimport urllib.requestrequest=urllib.request.Request('https://python.org')response=urllib.request.urlopen(request)print(response.read().decode('uft-8'))还是用urlopen()方法发送请求,只...原创 2018-06-06 22:07:40 · 191 阅读 · 0 评论 -
爬虫基础
一、爬虫基础1.1 HTTP基本原理1.1.1 URL和URIURL:统一资源定位符;URI:统一资源标志符。 URL是URI的子集,即每个URL都是一个URI,反之不一定成立。 URI还有一个子类是URN(统一资源名称),URN只命名资源不指定如何定位资源(URL指定如何定位资源),如urn:isbn:0451450523指定一本书的ISBN(唯一标识这本书),但没有指定...原创 2018-06-01 21:16:08 · 282 阅读 · 0 评论 -
抓取猫眼电影排行
抓取猫眼电影排行# -*- coding:utf-8 -*-import requestsfrom requests.exceptions import RequestExceptionimport reimport jsonimport time# 抓取首页def get_one_page(url): try: headers = { ...原创 2018-06-19 10:28:40 · 550 阅读 · 0 评论 -
作者主题模型
作者主题模型ATMODEL最近一篇关于JAVA的博客中处理的结果,直接用于该python代码运行。 遇到的bug:1.BUG1perwordbound = at_model.bound(at_model.corpus, author2doc=at_model.author2doc, doc2author=at_model...原创 2018-07-01 19:43:23 · 1601 阅读 · 3 评论 -
gensim---LDA---perplexity
以下内容来源于https://blog.youkuaiyun.com/qq_25073545/article/details/79773807 使用gensim实现lda,并计算perplexity( gensim Perplexity Estimates in LDA Model) Neither. The values coming out of bound() depend on the numb...翻译 2018-07-16 11:14:28 · 7307 阅读 · 4 评论 -
Python相关链接
WindowsCompilers—Microsoft Visual C++ ~~~~~~~~~~~~~~~~~~~~~~~~~~~~分割线~~~~~~~~~~~~~~~~~~~~~~~~~~~~ PyPA—Python Packaging User Guide ~~~~~~~~~~~~~~~~~~~~~~~~~~~~分割线~~~~~~~~~~~~~~~~~~~~~~~~~~~~ pyp...原创 2018-07-16 20:53:20 · 166 阅读 · 0 评论 -
Python3进行词频统计
一、统计序列中元素的频率 1.以序列中统计元素个数为例from random import randint# 先用随机库生成有重复元素的序列list = [randint(0,10) for _ in range(1,20)]print(list)[10,7,10,6,10,5,2,6,1,0,9,0,3,5,2,5,5,3,10]方法①:新建空字典,循环遍历做判断d={}...原创 2018-07-16 22:14:29 · 1600 阅读 · 0 评论 -
杂笔
1、用ZIP创建字典 - 创建字典的三种方法dict(a=1,b=2,c=3)dict([(a,1),(b,2),(c,3)])dict({a:1,b:2,c:3})推荐使用第二种方法结合zip创建key = 'abcde'value = range(1, 6)dict(zip(key, value))2、使用iteritems遍历字典d = dict(a=...原创 2018-07-06 22:02:31 · 319 阅读 · 0 评论 -
anaconda及代码运行时间
Anaconda3代码自动补齐点击Spyder菜单栏中的Tools—>preferences,选中左侧Ipython console ,然后选择右侧Advanced Settings选项卡,勾选Use the greedy completer,并将Autocall改为Full,点击OK保存。Anaconda3代码提示1、找到module_completion.py这个文件,我使用...原创 2018-07-15 10:12:20 · 4016 阅读 · 0 评论