
Python
文章平均质量分 75
SL_World
中国科学院大学计算机应用技术专业在读研究生
展开
-
Java调用含第三方库Python脚本传递数据并返回计算结果
文章目录一、实现思路:将Java中的data结构化为字符串,从而以命令行参数的形式传入Python中二、Python实现代码三、Java实现代码需求:最近在使用基于Java编写的Cloudsim 4.0云仿真平台进行虚拟机动态迁移实验,由于中间有需要用到深度强化学习算法,因此需要将集群的状态表示为二维数组,比如物理机的计算能力Mips,RAM,带宽等等。希望将这样的二维数组传入到带torch等第三方库的Python脚本进行深度强化学习训练,所以就有二维int数组的传入,和从Python计算后的结果返回读原创 2021-05-27 16:11:42 · 1182 阅读 · 5 评论 -
Python常用numpy与random随机数的产生
一、Python内建库random的使用import random产生1个n~m范围内的int型随机数: random.randint(n,m)random.randint(1,5)产生1个n~m之间的float型随机数: random.uniform(n, m)random.uniform(n, m)产生1个0~1之间的float型随机数: random.random()random.random()产生1个从n~m间隔为k的int型整数: rand.原创 2020-09-24 11:09:42 · 1984 阅读 · 0 评论 -
python在jupyter notebook/terminal/console下的输出清空
前言:在用python编程的时候,你是否偶尔有个需求?需要把输出的日志 or 信息清空?以下笔者将从3个角度讨论清空输出的简单方式1. Jupyter notebook下的输出清空主要通过IPython.display.clear_output来清空from IPython.display import clear_output as clearprint('before')clear() # 清除输出print('after')具体案例2. Terminal/console下的输原创 2020-09-23 16:47:26 · 3490 阅读 · 1 评论 -
远程部署CentOS上的Jupyter Notebook并在浏览器访问
前言:本文假设你已经在CentOS上已安装好Jupyter Notebook而待配置一、生成密码并获取对应密钥(sha1:…)# 假设你已经进入了pythonIn [1]: from notebook.auth import passwdIn [2]: passwd() Enter password: # 可直接按Enter回车键Verify password: # 可直接按Enter回车键Out[2]: 'sha1:f704b702aea2:01e2bd991f9c7208ba177b.原创 2020-09-11 17:41:01 · 464 阅读 · 0 评论 -
CentOS下的CUDA安装和使用指南
引言:本文安装CUDA主要用于在GPU上训练深度学习模型,编程语言为Python,与C/C++不同,使用Anaconda安装很方便,没有包管理的冲突。安装步骤安装 Anaconda,如果有则跳过此步骤安装 NVIDIA Driver,即显卡驱动使用 conda 安装 CUDA Toolkit使用 Python 扩展库进行 GPU 加速的 CUDA 编程一、安装Anaconda(若已安装请忽略)Linux的版本在官网上找合适版本的软件包,然后右键复制链接地址,通过wget命令下载。官网.原创 2020-09-11 12:38:41 · 13842 阅读 · 3 评论 -
Anaconda 镜像源操作(查看配置删除)
原文出处:https://www.cnblogs.com/yirufeng/p/12242290.html一、Anaconda查看镜像配置$ conda config --show channelschannels: - https://mirrors.tuna.tsinghua.edu.cn/anaconda/pkgs/main/ - https://mirrors.tuna.tsinghua.edu.cn/anaconda/pkgs/free/ - defaults二、添加清华大转载 2020-09-10 18:50:28 · 5978 阅读 · 0 评论 -
python处理列表和字典的小技巧
获取字典中value最大对应的keykey = max(my_dict, key=my_dict.get)例子原创 2020-08-16 13:03:34 · 363 阅读 · 0 评论 -
python一行代码编写进度条
一行代码 print("\r" + symbol*round(index/loop_len*bar_len) + " "*(bar_len-round(index/loop_len*bar_len)-1) + '|' + str(index+1) + '/' + str(loop_len), sep="", end="")技巧解析使用\r来将光标的位置回退到本行的开头位置完整代码调用import timedef progress_bar(index, bar_len, loop_len,原创 2020-08-08 00:28:38 · 496 阅读 · 0 评论 -
python中\r的意义及用法
原文出处:https://www.cnblogs.com/zzliu/p/10156658.html\r 表示将光标的位置回退到本行的开头位置\b表示将光标的位置回退一位在python里print会默认进行换行,可以通过修改参数让其不换行(1) 在python3里print是一个独立函数,可以通过修改它的默认值来让其不换行def print(self, *args, sep=' ', end='\n', file=None): # known special case of print "转载 2020-08-07 22:12:29 · 5521 阅读 · 0 评论 -
Sympy常见多个变量【一行代码创建】
原文出处:https://blog.youkuaiyun.com/a19990412/article/details/82708839解决办法import sympyvrs = sympy.symbols('x1:10')输出的结果是:(x1, x2, x3, x4, x5, x6, x7, x8, x9)其实是一个元组,里面的每个元素都是sympy的符号~如果第一个不标记为x1的话,就是从0开始数起~import sympyvrs = sympy.symbols('x:10')print(vr转载 2020-05-15 02:28:32 · 1177 阅读 · 0 评论 -
Python矩阵求逆报错之TypeError: No loop matching the specified signature and casting...
引言先吐槽两句,真的是Matlab才不会报这种错,今天计算逆矩阵报了个这么个错,一个简单的2*2的可逆矩阵居然死活求不出来,好气啊。TypeError: No loop matching the specified signature and casting was found for ufunc invastype数据类型转换在网上查阅了一下资料,觉得可能是类型错误,但是很奇怪明明一...原创 2020-04-18 19:20:05 · 12841 阅读 · 13 评论 -
Python用matplotlib画图无法显示宋体中文及Font family [‘sans-serif‘] not found解决办法
原文出处:https://blog.youkuaiyun.com/sinat_40875078/article/details/1043268551、在终端python 的环境下查看字体路径import matplotlib print(matplotlib.matplotlib_fname())2.下载SimHei字体以下我给出了网盘链接链接:https://pan.baidu.com...转载 2020-04-08 16:29:36 · 9870 阅读 · 1 评论 -
零基础入门自然语言处理的学习建议
原文出处:https://blog.youkuaiyun.com/weixin_36711901/article/details/90728893 在入门的阶段最适合做的事情:(1)阅读和学习自然语言处理(natural language processing,nlp)综述类文章和图书,对nlp有一个基本的认识,梳理n...转载 2019-07-13 13:44:37 · 837 阅读 · 0 评论 -
在mac下面使用多版本Python安装相应的虚拟开发环境
原文出处:https://blog.youkuaiyun.com/blog_user_zk/article/details/72844452mac 安装python虚拟环境,多版本共存前提:已经安装好了相关版本的python1.首先,安装pip,python的包管理工具$ sudo easy_install pip安装完pip之后,就要安装 virtualenv$ sudo -H pip ins...转载 2019-06-08 20:39:33 · 483 阅读 · 0 评论 -
基于Django+LayUI+HBase的文献数据挖掘系统的实现
引言:本系统的目标是设计并实现一个基于分布式数据库HBase的文献数据挖掘系统,以帮助科研人员分析出相关科技前沿领域的专家、机构等的学术影响力。并挖掘领域高频词和不同协作者之间的关系图谱,如此便可达到科研决策支持的目的。以下将从几个方面进行简要介绍。一、开发意义科研文献是科技与学术的载体,高效的分析科研文献对科技的发展有着重要的推动作用。准确地提取出期刊会议中科研文献元数据里所隐藏的信息,...原创 2019-06-01 13:37:16 · 3702 阅读 · 2 评论 -
Python构建共现矩阵并将其三元组形式存储至csv文件
引言:共现矩阵有什么用?主要用于发现主题,解决词向量相近关系的表示;将共现矩阵行(列)作为词向量,其表现形式类似于数据结构中图论里学的邻接矩阵。在本文中,笔者主要用来统计会议论文作者之间的合作关系。【举例】:假设有三篇论文,每篇论文作者名字如下。我们根据上述原始数据构建如下共现矩阵,由如下矩阵可以看出,Yang Liu和Wenwu Zhu在上述窗口中共同出现(co-occurrence)...原创 2019-11-27 16:39:29 · 8307 阅读 · 18 评论 -
django数据库报错Table 'xxx' doesn't exist或Unknown table 'xxx'
【问题描述】:笔者在未通过django的ORM删除表前,直接进入数据库进行删表操作。而后再重构此表时报错。manage.py@DataMingingPaper > makemigrations appNamemanage.py@DataMingingPaper > migrate appName 重构并试图删除app/migrations/0001_initial.py及mi...原创 2019-03-25 18:05:30 · 6151 阅读 · 2 评论 -
文本挖掘之WordCloud+Python3快速生成中英文词云图
引言: “词云”,又称文字云,是由词汇组成类似云的彩色图形。可对网络文本中出现频率较高的“关键词”予以视觉上的突出,形成"关键词云层"或"关键词渲染",从而过滤掉大量的文本信息,使浏览网页者只要一眼扫过文本就可以领略文本的主旨。       &am原创 2019-03-18 12:21:03 · 6200 阅读 · 0 评论 -
Python3使用winreg模块操作注册表
在Windows系统中,注册表本质上就是一个数据库,其中存放着硬件、软件、用户、操作系统以及程序相关设置信息。我们除了使用regedit,也可以通过编程读取并操作系统注册表,以下以Python3为例。一、访问注册表具体代码如下,可访问用户账户列表:该设置位于HKEY_LOCAL_MACHINE\SOFTWARE\Microsoft\Windows NT\CurrentVersion\P...原创 2019-07-11 17:23:00 · 6915 阅读 · 0 评论 -
python中执行shell命令
原文出处:https://blog.51cto.com/zhou123/1312791这里介绍一下python执行shell命令的四种方法:1、os模块中的os.system()这个函数来执行shell命令>>> os.system('ls')anaconda-ks.cfg install.log install.log.syslog send_sms_servic...转载 2019-07-23 23:33:18 · 1245 阅读 · 0 评论 -
python+selenium批量爬取IEEExplore论文
原文出处:https://blog.youkuaiyun.com/qq_25072387/article/details/78588173一、环境搭建首先下载安装selenium包,推荐直接使用pip之后还要下载对应浏览器的驱动(driver),这里使用的是chrome浏览器,注意驱动与浏览器的版本要相对应。下载的驱动直接复制到python和chrome的安装目录下。python+selenium的...转载 2018-12-06 19:34:56 · 1512 阅读 · 0 评论 -
Python数据清洗笔记
场景一:仅仅需要清洗去除头尾的字符的字符串【方法】:使用strip()方法。【案例】:>>> str = '\n\xa0\xa0\xa0\xa0\t 较为干净 的数据 \t\n\xa0\xa0\xa0\xa0 '>>> str.strip('\xa0 \n\t') // 去除头尾包含\xa0,空格,\n或\t字符的字符串'较为干净 的数...原创 2019-08-16 17:50:08 · 422 阅读 · 0 评论 -
Python反爬手段之User-Agent池
User-Agent即用户代理,简称UA,它是一个特殊字符串头,使得服务器能够识别客户使用的操作系统及版本、CPU类型、浏览器及版本、浏览器渲染引擎、浏览器语言、浏览器插件等。反爬原理:一些网站常常通过判断UA来给不同的操作系统、不同的浏览器发送不同的页面,因此可能造成某些页面无法在某个浏览器中正常显示,但通过伪装UA可以绕过检测。UA:【标准格式】:浏览器标识 (操作系统标识; 加...原创 2019-08-15 18:38:07 · 1927 阅读 · 0 评论 -
Scrapy爬虫框架的原理与实战[阳光政务爬虫项目]
引言:Scrapy是Python开发的一个快速、高层次的屏幕抓取和web抓取框架,用于抓取web站点并从页面中提取结构化的数据。Scrapy用途广泛,可以用于数据挖掘、监测和自动化测试。一、Scrapy架构的来源与详解二、Scrapy模块的安装与初始配置2.1 安装Scrapy$ pip install scrapy2.2 创建Scrapy项目$ scrapy startproj...原创 2019-08-16 23:02:53 · 820 阅读 · 0 评论 -
XPath常用语法总结及应用
一、XPath是什么?XPath是XML路径语言(XML Path Language),其中HTML又是XML的子集。XPath使用路径表达式来选取XML文档中的节点或节点集。二、XPath常用语法类别表达式描述层级/从根结点选取(当前节点的下一级)//从当前节点选取任意子孙节点(跨级)属性@属性访问函数text()获取节点文本内容...原创 2019-08-10 14:53:52 · 2619 阅读 · 0 评论 -
Python安装并操作MongoDB(含终端操作)
一、MongoDB的下载与安装(Mac OS)$ brew install mongodb二、配置并启动MongoDB服务本机用户名可通过$ whoami获取$ sudo mkdir -p /data/db // MongoDB默认数据存储路径,故需要提前手动建好$ sudo chown -R <本机用户名> /data/db $ mongod // 启动服务...原创 2019-08-15 11:55:54 · 1025 阅读 · 0 评论 -
Python打开文件对话框(Mac&&Win通用)
原文出处:http://interactivepython.org/runestone/static/thinkcspy/GUIandEventDrivenProgramming/02_standard_dialog_boxes.html#file-chooserfrom tkinter import filedialogimport os# 设置文件对话框会显示的文件类型my_file...转载 2019-07-23 00:25:04 · 4173 阅读 · 0 评论 -
Python3编码解码问题汇总
一、解码问题: ‘utf-8’ codec can’t decode byte 0xa8 in position xx: invalid start byte【问题描述】:笔者通过Python3从数据库(HBase)中取数据的时候,报错如下:报错信息显示,在内置函数转换获取的数据(字节数组)为字符串str时,UTF-8编码方案无法对字节\xa8进行解码,该字节0xa8在当前字节数组的索引是...原创 2019-03-15 11:11:19 · 1564 阅读 · 0 评论 -
浅谈Python3中的编码解码问题和不同编码间的转换
前言:众所周知,Python的编码解码是一个令人头疼的问题。正好笔者最近做项目时遇到了这个问题,且编码解码问题在大多数语言中都会遇到。遂借此机会重新深入学习一下并写此学习笔记。 在讲编码解码之前,需要先引入几个常用的编码方式,即:ASCII码Unicode码UTF-8码(UTF-16码、UTF-32码…)GB2312码(中文)、Shift_JIS码(日语)、Euc-kr码(韩语...原创 2019-03-10 17:05:49 · 1886 阅读 · 2 评论 -
Python使用SMTP协议实现邮件发送(含明文/SSL加密/TLS加密)
SMTP是发送邮件的协议,Python内置对SMTP的支持,可以发送纯文本邮件、HTML邮件以及带附件的邮件。Python对SMTP支持有smtplib和email两个模块email负责构造邮件smtplib负责发送邮件一、基本环境设置以下笔者测试使用163邮箱给foxmail邮箱发邮件,所以需要手动对发送方邮箱配置SMTP协议,其余邮箱操作同理。首先,登录到163邮箱,然后在...原创 2019-01-12 18:03:25 · 6552 阅读 · 2 评论 -
Python中摘要算法在存储用户口令中的应用(以MD5为例)
Python3中的hashlib提供了常见的摘要算法,如MD5、SHA1等等。【概述】:什么是摘要算法呢?摘要算法又称哈希算法、散列算法。它通过一个函数,把任意长度的数据转换为一个长度固定的数据串(通常用16进制的字符串表示)。【实质】:摘要算法就是通过摘要函数f(x)对任意长度的数据data计算出固定长度的摘要digest,目的是为了发现原始数据是否被人篡改过。一、计算一段字符串的MD...原创 2019-01-10 13:44:01 · 672 阅读 · 0 评论 -
「Python」爬虫自然语言清洗组件 v1.0.0
原文出处:https://blog.youkuaiyun.com/qq_33282586/article/details/80637257 公告:博主因使用魔理沙的扫把表达清洗,已被车万粉拉去祭天。设计思路我认为从网站上爬取下来的内容要清洗的有两大块:通用清洗和规则清洗,换句话说就是可复用的和不可复用...转载 2018-12-09 18:00:17 · 300 阅读 · 0 评论 -
自己动手实现html去标签和文本提取
随意观看工具准备全角和半角字符网页字符实体Code实现之后...工具准备python3.6正则表达式(别的语言思路一样,容易借鉴)python正则表达式:flags的应用这里主要介绍一下re.compile(pattern[, flags])里面的flags用法标识符作用re.I忽略大小写re.L表示特殊字符集 \w, \W, \b, \B, \s, \S 依赖于当前环境r...转载 2018-12-09 17:13:53 · 1393 阅读 · 0 评论 -
Python使用xlrd和xlwt向Excel读写数据
一、从Excel读数据下图是我的url.xlsx内容,此处我以读取B列(即第2列)URL数据为例import xlrddata = xlrd.open_workbook('C:\\Users\\Administrator\\Desktop\\url.xlsx') #打开工作簿table = data.sheets()[0] # 读取第一个Sheet,此处为默认的Sheet1urls...原创 2018-12-07 11:47:54 · 1254 阅读 · 0 评论 -
python操作Excel读写--使用xlrd
原文出处:https://www.cnblogs.com/lhj588/archive/2012/01/06/2314181.html一、安装xlrd模块 到python官网下载http://pypi.python.org/pypi/xlrd模块安装,前提是已经安装了python 环境。二、使用介绍 1、导入模块 &...转载 2018-12-06 19:31:41 · 202 阅读 · 0 评论 -
Python用xpath爬取数据返回空列表解决
笔者以爬取2018年AAAI人工智能顶会论文元数据为例。其中包括标题(title)和摘要(abstract)等字段①tbody问题URL:2018AAAI的第一篇论文元数据页面 页面如下:笔者通过谷歌浏览器选取上图红框内容的xpath如下:from lxml import etreeimport requestsurl = 'https://aaai.org/ocs/index....原创 2018-12-08 16:20:23 · 43845 阅读 · 13 评论 -
Python爬虫:PyQuery库的介绍与使用
原文出处:https://www.jianshu.com/p/c07f7cd1b548 前言Python关于爬虫的库挺多的,也各有所长。了解前端的也都知道, jQuery 能够通过选择器精确定位 DOM 树中的目标并进行操作,所以我想如果能用 jQuery 去爬网页那就 cool 了。就搜了下看 Python 有没有与 DOM 相关的库什么的,还真找到了—— ...转载 2018-09-06 19:54:25 · 869 阅读 · 0 评论 -
Pycharm下载包出错解析
Pycharm下载包时报错如下图显示错误信息:module 'pip' has no attribute 'main'解决方法:进入Pycharm安装目录后找到如下文件:packaging_tool.py。找到如图对应代码位置。 将原先的def do_install(pkgs): try: import pip exce...原创 2018-08-17 00:31:27 · 3809 阅读 · 3 评论 -
Python实战异步爬虫(协程)+分布式爬虫(多进程)
引言:我们在写爬虫时常会遇到这样的问题,当需要爬取多个URL时,写一个普通的基于requests库的爬虫程序爬取时间会很长。因为是顺序请求网页的,而网页请求和获得响应过程比较耗费时间,程序不得不等待获得当前网页响应后才能进行下一个URL的爬取,使得总耗时较多。对于这样的多任务,可以使用基于多进程(multiprocessing)和基于Asyncio库的异步(协程)爬虫增强并发性,加速爬虫。T...原创 2019-01-24 21:32:32 · 23383 阅读 · 30 评论 -
使用Python-3.6连接操作远程完全分布式集群中的HBase-2.1
前提条件已安装Python-3.6。已经有搭建好的完全分布式集群,并已经成功启动Hadoop,Zookeeper和HBase。笔者当前搭建好的集群是Hadoop-3.0.3,Zookeeper-3.4.13和HBase-2.1.0。HostnameIPmaster10.0.86.245ceph110.0.86.246ceph210.0.86.221...原创 2019-03-02 00:38:40 · 3007 阅读 · 4 评论