
python
sunnychou0330
这个作者很懒,什么都没留下…
展开
-
word_ngram 模型使用小tip
模型加载 import gensim.modelsimport pandas#vocabulary 中不存在的单词计算,切分字符求平均计算余弦相似度 # 本方法,使用wiki word+char模型,计算PKU 500词语相似,在wiki中的词汇def cha_w2v(s): res = [] for i in s: print(i, model[i]) res.append(model[i]) return sum(res)/le..原创 2020-12-28 18:43:12 · 581 阅读 · 0 评论 -
Python 导入自己写的模块
Python中import导入上一级目录模块及循环import问题的解决转载:https://www.cnblogs.com/sjy18039225956/p/9265461.html使用python进行程序编写时,经常会使用第三方模块包。这种包我们可以通过python setup install 进行安装后,通过import XXX或from XXX import yyy 进行导入。不过...转载 2019-12-13 09:35:01 · 981 阅读 · 0 评论 -
windows os.fork(), AttributeError: module 'os' has no attribute 'fork'
AttributeError: module 'os' has no attribute 'fork'import osprint('Process (%s) start...' % os.getpid())# Only works on Unix/Linux/Mac:pid = os.fork() #不要在windows系统中使用,会出错,if pid == 0: p...原创 2018-10-25 20:56:27 · 2142 阅读 · 0 评论 -
导入模块失败,no moudle name mydict
跟着廖雪峰的教程,学习到单元测试这一块的时候,写了两个代码,1,mydict.pyclass Dict(dict): def __init__(self, **kw): super().__init__(**kw) def __getattr__(self, key): try: return self[key]...原创 2018-10-24 15:24:21 · 1435 阅读 · 2 评论 -
python3 基于Kmeans 文本聚类
聚类常规方法,分一下几步:文本处理,切词、去停用词,文档向量 聚类(K值,聚类中心,本节涉及的Kmeans方法中心暂时是随机生成,后面会有更新)第一部分内容,本人暂不祥说,核心的内容,大概如下把for line in file.readlines(): words = jieba.cut(line) for word in words: # print...原创 2019-01-03 22:13:10 · 11471 阅读 · 9 评论 -
pandas 处理csv文本文档,完成分词、去停用词功能
此篇博客仅以此来记录,pandas操作,由于很久没有进行数据分析方面的操作了很多的常用的东西都忘记了,因此记录一下此部分内容:filepath = r'C:\soft\Anaconda3\emergency_frame1.csv'import pandas as pddata = pd.read_csv(open(filepath, encoding='utf8'), sep='...原创 2019-01-04 15:09:15 · 15527 阅读 · 12 评论 -
python3 matplotlib画图乱码问题
matplotlib.pyplot在显示时出现无法正确显示,显示为框框。主要是该库找不到合适的字体,默认的使用的字体里没有中文,要在有中文的地方加上中文相关的字体,不然会因为没有字体显示成框。import matplotlibmyfont = matplotlib.font_manager.FontProperties(fname='C:\Windows\Fonts\simsun.t...原创 2019-04-22 20:14:41 · 288 阅读 · 0 评论 -
大鹏教你数据分析系列--身高越高越容易参加运动会吗
本博客记录学习数据分析的思考和心得本博客会分享数据源码,以及在学习数据分析过程中,学习到的内容和本人不熟悉的地方本节主要研究运动员身高,看参加奥运会的运动员身高有没有独特的优势? 下图是本篇博客最终完成的目标,横抽是运动员的身高,两条曲线分别表示的是男女运动员的差异,中间的两条竖线表示的是男女运动员身高的平均值,下面的小竖线表示的是每一个运动员的身高分布。本次代...原创 2019-04-18 16:11:14 · 510 阅读 · 1 评论 -
python def __init__(self, name等多参数), def __init__(self)
最开始准备秋招的时候,接触的都是这两个的区别;__init__(self) 初始化,__new__实例化方法,两者执行的顺序,先有实例,才能初始化。之前一直对__init__(self)里面的参数很迷茫,一会这个地方看到别人这么写,一会看到别人那么写,自己也不知道,到底怎么回事,有哪些区别,今天对这个内容进行了学习。进行系统的分析了解,主要从他的实例化的区别,含义的区别进行区分两者之间的关系!...原创 2018-10-08 20:19:22 · 159801 阅读 · 27 评论 -
python数字替换 携程校招
正则表达式的方法s = input()import repattern = re.compile('\d*')print(re.sub(pattern, "", s))ASCII码的方法 youhuicode = input()res = ""for i in youhuicode: if i >= 'A' and i <= 'z': ...原创 2018-09-04 21:57:01 · 884 阅读 · 0 评论 -
python 相对路径打开文件夹
首先先放一下目录组成结构第一种情况:1)xxx.py想要打开a.txt,使用相对路径,有如下两种方式:思路:xxx.py想打开的是b_file下的文件,XXX.py和b_file都在文件目录之下,两者是同级目录,因此操作就是在当前目录向下搜索,因此就可以很容易理解下面的意思了特别提示:.. \是错误的,打开的是上级目录with open(r"b_file\a.txt"...原创 2018-08-07 09:29:22 · 89129 阅读 · 0 评论 -
华为实习每日一记-坚持成长更快-0806
进入8月的第二个星期,还好搞定了映射问题,可以看到了stf在手机管理页面涉及的各种功能,那么我将进入下一个阶段:未来一段的目标安排如下:1)整体架构分析、核心功能分析(主要涉及两部分:一是stf是如何发现设备并进行实时更新、著名的截图功能,将会是我研究的重点);2)探索搭建分布式STF环境,研究映射的方法、尝试进行多PC映射;3)尝试进行二次开发,实现批量化设备的自动化抽检测试;...原创 2018-08-06 22:59:32 · 346 阅读 · 0 评论 -
权限问题,不能拖拽文件
将文件从linux映射到本地IP之后,拖拽文件时,提示,你需要权限来执行此操作,执行以下操作: chmod -R 757 目录即可完成文件的拖拽原创 2018-08-01 14:44:52 · 7562 阅读 · 0 评论 -
一行指令,获取APK签名摘要,versioncode等信息
从最初的100行代码,缩减到目前的一半,除去注释什么的,代码缩减了一大半,就是使用如下指令,在cmd窗口执行如下指令,将会返回签名摘要信息keytool -printcert -jarfile xxx.apk# 最后是你APK的位置,好像zip压缩也可以下面是以FacebookAPK进行的测试,返回的结果 完整的代码如下,核对两个APK签名是否一致,以及获取APK vers...原创 2018-08-01 11:37:43 · 3178 阅读 · 0 评论 -
大鹏教你数据分析系列--运动员身材都是完美的吗
本博客记录学习数据分析的思考和心得本博客会分享数据源码,以及在学习数据分析过程中,学习到的内容和本人不熟悉的地方本节主要研究运动员身材都是完美型吗?对于平时有健身的朋友们应该知道,衡量一个人身材是否完美有一个公式,即是BMI值那么如何判断自己的身材是否完美尼,来一起计算一下自己的BMI值把!向完美身材看齐!BMI =体重/身高的平方(体重单位是KG,身高单位是米)本次主...原创 2019-04-18 17:27:26 · 798 阅读 · 4 评论 -
python处理数据,pandas 处理txt文件
以wordsim240为例目前大多数的数据集以txt文件居多,但是我们在数据处理中,可能最终会在Excel上进行一些分析、制图,当然也可以使用python制图包,也可以做出很精美的结果图。此篇只是简单的读取,文件,保存到Excel中,可以做一些回归分析、相关系数等;txt中的原始数据import pandas as pddata = pd.read_csv('24...原创 2019-05-21 17:54:03 · 13311 阅读 · 1 评论 -
CTS-整体框架解析
版权声明:本文为博主原创文章,遵循 CC 4.0 by-sa 版权协议,转载请附上原文出处链接和本声明。本文链接:https://blog.youkuaiyun.com/u011733869/article/details/78820041目录整体流程概览 Main Console 总结从这篇文章往后开始介绍整个框架的运行流程原理。1.整体流程概览这里是整个测试框架的大纲流程图,其中主要...转载 2019-08-16 16:39:44 · 1051 阅读 · 0 评论 -
python selenium 登陆优快云
初入selenium,想着经常使用优快云写东西,就来写一个模拟登录优快云的,完全没有想像的顺利;先来说一下整个selenium的思路以及在整个写的过程中需要注意的点:如果设定了窗口的大小,需要确定当前查找的元素能不能在有限的画幅中显示出来,如果窗口过小,会导致失败,可以选择最大化: 在页面跳转时,需要更新到新的页面,此时需要进行处理,详见代码的for循环; 当页面没有跳转时,但是...原创 2019-07-21 23:27:49 · 598 阅读 · 4 评论 -
python numpy 保存文件
#不仅是保存为txt,excel 等,也可以保存为.npy文件,可以保存为相应的数组格式import numpy as npdata = np.loadtxt('a.txt')data = np.loadtxt('a.txt', delimiter=',', skiprows=1)##---(Thu May 23 11:14:00 2019)---import numpy as np...原创 2019-05-23 16:28:17 · 8215 阅读 · 3 评论 -
ubuntu添加管理员权限
示例:usermod -a -G usergroupnewuser 或者usermod -aGusergroup newuseradduser myadminusermod -aG sudo myadmin语法说明:usermod [-LU][-c <备注>][-d <登入目录>][-e <有效期限>][-f <缓冲...原创 2018-08-01 10:39:13 · 1391 阅读 · 0 评论 -
python 闭包的理解
闭包”是什么,以及,更重要的是,写“闭包”有什么用处。(个人理解)1、“闭包”是什么首先,明确函数的作用域问题:(1)外层函数f1可以调用内层函数f2,但无法引用f2内部的变量x(2)内层函数f2可以引用外层函数f1的变量ydef f1(y): def f2(x): return x+y #内层函数f2可以引用外层函数f1的变量y return f2# return...转载 2018-03-15 15:14:54 · 813 阅读 · 0 评论 -
python的可变对象和不可变对象
python种存在可变对象和不可变对象:常见的不可变对象有:数字、字符串、元组可变对象有:列表、字典所谓的不可变对象,指的是,当对当前对象进行更新时(如+1操作),并不是在原来的内存上的value进行+1,而是生成一个新的对象,把这个内存地址的引用指向i,我们可以通过代码来看一下,在内存中是如何发生变化的:i = 3while i > 0: print(id(i)) i -...原创 2018-03-14 21:18:45 · 1297 阅读 · 0 评论 -
文本向量化-计算文本相似的的方法-基于python语言的实现
本节主要讨论三种方法实现中文文本的向量化,编程环境python3.6.TF 词频的方法TFIDF 词频-逆文档频率Word2Vec 第一种TF方式,即是基于词频的方式,举一个最简单的例子:1:今天天气不错!2:今天天气很好。针对英文,我们可以直接跑程序,计算文本向量,英文单词都是以空格分割好的,但是对于中文,我们需要进行如下的几个处理步骤,分词、去停用词(使用在word2vec里,原创 2017-11-23 17:29:08 · 6023 阅读 · 0 评论 -
算法---小易喜欢的单词
小易喜欢的单词具有以下特性:1.单词每个字母都是大写字母2.单词没有连续相等的字母3.单词没有形如“xyxy”(这里的x,y指的都是字母,并且可以相同)这样的子序列,子序列可能不连续。例如:小易不喜欢"ABBA",因为这里有两个连续的'B'小易不喜欢"THETXH",因为这里包含子序列"THTH"小易不喜欢"ABACADA",因为这里包含子序列"AAAA"小易喜欢"A","ABA"和原创 2017-12-19 20:56:59 · 838 阅读 · 0 评论 -
图片处理1
原帖:http://www.bubuko.com/infodetail-514985.html最近接触到了一个非常有意思的东西,训练图片,训练结束后,返回对这个图片的描述。 斯坦福大学建立了一个可以对图像内容产生自然语言描述的模型NaturalTalk,它是一个开源的Python工具,它可以从图像生成文本描述。它实现了Google (Vinyals等,卷积神经网络CNN + 长短期记忆LSTM) 和原创 2017-11-22 15:32:10 · 375 阅读 · 0 评论 -
找到重复的第一数返回
算法题目:在一个长度为n的数组里的所有数字都在0到n-1的范围内。 数组中某些数字是重复的,但不知道有几个数字是重复的。也不知道每个数字重复几次。请找出数组中任意一个重复的数字。 例如,如果输入长度为7的数组{2,3,1,0,2,5,3},那么对应的输出是第一个重复的数字算法思想: 1)用一个临时变量存放当前的元素; 2)遍历列表元素, 3)判断当前元素以后的元素是否包含此元素,程序结束def原创 2017-10-26 20:14:03 · 502 阅读 · 0 评论 -
合并两个有序列表
方法一:思路应该都比较清晰,就是依次对比两个列表元素的大小,然后把小的加入一个新的列表中,删除小的元素,对比a = [1,3,5,8,9]b = [2,4,6]def sort1(a,b): c = [] if len(a) == 0 : c.extend(b) return c elif len(b) == 0: c.ext原创 2017-09-13 09:05:38 · 3375 阅读 · 0 评论 -
正则表达式提取新闻发生时间
最近在提取新闻事件的发生时间,现在只是实现了一个最简单的新闻,获取新闻报到时间和正文的时间。方案:把正文中出现的第一个时间作为事情的发生时间,并按照统一的格式进行输出xxxx-xx-xx 某年某月某日这种格式。 在新闻中,由于每一个网站发布方不同,会存在报到时间不一致,以及正文内容格式不一致,在这个时候,我们需要考虑各种情况,但在此处,我们考虑的较简单,后面会在继续优化这个格式的提原创 2017-09-12 10:46:26 · 2796 阅读 · 0 评论 -
ValueError: too many values to unpack (expected 2)
a = {'Time': '2017-09-19', 'News': '楚了何人之手。今日,楚天都市报'}for k,v in a: print('%s %s'%(k,v))返回了下面的错误:ValueError Traceback (most recent call last)<ipython-input-12-549d98原创 2017-09-20 12:49:29 · 96091 阅读 · 0 评论 -
Sort 函数,python
1,sorted改变原序列,sort不改变原序列的排序 使用sort和sorted关键操作,前者改变原数组,后者不改变原数组 改变原数组操作,一种是直接赋值给一个新的变量,如下 方式1:x =[4, 6, 2, 1, 7, 9]y = x[ : ]y.sort()print(y)#[1, 2, 4, 6, 7, 9]print(x) #[4, 6, 2, 1, 7, 9]方式2 x原创 2017-09-12 10:19:23 · 3165 阅读 · 0 评论 -
对齐
问题描述:有一组浮点数,将其每行打印一个,要求纵向小数点对齐,并小数点前位数最大的数紧贴左边界。 例如:-3.14;0.7177;1586.23;10000.0;-587643.1;12.34565 思想: 1,以’.’作为分隔符,进行拆分,返回一个列表, 2,用m保存前面的值,用k保存小数点后面的部分,分别求出长度,进行对齐操作 3,,利用ljust(),rjust()进行对齐操作,不足原创 2017-09-25 09:55:05 · 404 阅读 · 0 评论 -
python3中替换python2中cmp函数的新函数分析(lt、le、eq、ne、ge、gt)
http://blog.youkuaiyun.com/sushengmiyan/article/details/11332589 本文地 在python2中我们经常会使用cmp函数来比较一些东西,但是在python3中,你再来使用这个函数的时候,发现就报错了,提示找不到这个函数,这是为啥呢?嗯,新版的python已经舍弃之。 在python3中使用时报错信息如下:Syntax Error: if cmp(转载 2017-09-13 20:01:46 · 988 阅读 · 0 评论 -
ERROR 1366 (HY000): Incorrect string value: '\xE5\xB8\x82' for column 'address' at row 1
在写入数据库时,一直出现这种错误,导致写入数据库的数据都是一连串的问号,百度一下,发现是编码问题,在使用pycharm上的pymql,我用起来不是太方便,使用pycharm我也不太清楚在哪里修改编码问题,我觉得应该是可以修改的这个问题,但是使用 Navicat是一个太爽的MySQL可视化工具,我们选择我们的数据库,右键设计表,在设计表情况,修改字符集即可解决这些编码问题 根据字符集的下拉框,可以选原创 2017-09-13 13:47:11 · 669 阅读 · 0 评论 -
提取xml格式新闻内容
最开始解决方案有两种: 1) 使用正则表达式,匹配xml格式中的所有中文字符。 2) 使用BeautifulSoup的get_text()方法提取新闻内容 第一中方法,在进行中,后面更新 本文只展示第二种方法,因为无意之间发现了这个方法,简直不要太方便。 以下是初始文本:<?xml version="1.0" encoding="UTF-8"?><Body> <Title>成都网原创 2017-09-04 11:37:58 · 884 阅读 · 0 评论 -
itertoors
关于itertools本文写的很清晰: http://www.cnblogs.com/cython/articles/2169009.html使用这个库,可以计算常见的各种多个数求和等于某个数的题,可以方便计算出来。计算所有和为20的三个正整数,并打印出来from itertools import productl = []for each in product(range(1,20),rep原创 2017-09-05 15:29:41 · 239 阅读 · 1 评论 -
浅拷贝和深拷贝的区别-python
Python中,对象的赋值,拷贝(深/浅拷贝)之间是有差异的,如果使用的时候不注意,就可能产生意外的结果。下面本文就通过简单的例子介绍一下这些概念之间的差别。对象赋值直接看一段代码:Python1234567891011121314151617will = ["Will", 28, ["Python", "C#", "JavaScript"]]wilber = willprint id(will)...转载 2018-03-14 16:59:34 · 4104 阅读 · 0 评论 -
华为机试之进制转换
题目如下:写出一个程序,接受一个十六进制的数值字符串,输出该数值的十进制字符串。(多组同时输入 )输入描述:输入一个十六进制的数值字符串。输出描述:输出该数值的十进制字符串。方法1:如下:print(int(input(), 16))0xA212593方法2:s = input()0xA134eval(s)Out[14]: 41268方法3:使用字典方式,把两者的关系一一对应起来def ...原创 2018-07-09 23:15:52 · 1497 阅读 · 0 评论 -
stf-续集
当安装部署好stf的环境之后,那么接下来的学习内容归纳为如下几点:1,连接计算云和PC端测试机;2,体验STF测试功能;3,阅读源码,定制开发测试服务。针对1,目前暂没有获取到确定的连接方法,得到了一个相关的有用知识便是了一个citu-remote,参考教程,在本地和桌面云进行安装,感受了一下citu测试平台。存在的问题有如下几个:1,在本地、桌面云都已经安装了citure...原创 2018-07-27 23:49:49 · 270 阅读 · 0 评论 -
stf,代码模块功能分析
介绍用于网络端设备远程管理功能系统支持支持Android版本2.3.3 - 9.0 支持穿5.1 无需根网络浏览器管理设备屏幕操作和显示(30-40fps(每秒帧数每秒显示的帧数)) 支持PC机键盘输入到远程的设备(复制粘贴) 支持多点触控操作远程设备 支持adb connnect远程连接调试 拖拽安装APK 远程设备提供 设备信息的展示(如:网络状态...转载 2018-07-30 15:57:38 · 2878 阅读 · 0 评论 -
python 三个数之和
def find_threedigit(arr, target): arr.sort() result = [] for i in range(len(arr)-1): if arr[0] > target: return -1 for j in range(i+1, len(arr)): ...原创 2018-07-13 18:25:56 · 10304 阅读 · 0 评论