- 博客(122)
- 收藏
- 关注
原创 python写入csv(解决了乱码问题)
import csvdef save_file(file_path, title, data): with open(file_path, 'a', newline='', encoding='utf-8-sig') as csvfile: spamwriter = csv.writer(csvfile) spamwriter.writerow(ti...
2019-01-23 18:51:29
2257
原创 python日志
日志等级:使用范围FATAL:致命错误CRITICAL:特别糟糕的事情,如内存耗尽、磁盘空间为空,一般很少使用ERROR:发生错误时,如IO操作失败或者连接问题WARNING:发生很重要的事件,但是并不是错误时,如用户登录密码错误INFO:处理请求或者状态变化等日常事务DEBUG:调试过程中使用DEBUG等级,如算法中每个循环的中间状态代码 import logging...
2019-01-08 20:02:05
765
原创 python读取文件夹下文件
代码import osdef get_file_deep(folder_path): """ 当前路径下名每个文件路径(最底层) """ for root, dirs, files in os.walk(folder_path): for file in files: yield os.path.join(root...
2019-01-08 19:58:00
800
原创 python每隔2s执行一次hello world!
代码import timedef sleep_time(hour, min, sec): return hour * 3600 + min * 60 + sec# 时间间隔second = sleep_time(0, 0, 2)while True: time.sleep(second) print('hello world!') ...
2019-01-08 19:56:06
15090
5
原创 python检测英文拼写错误
代码from enchant.checker import SpellCheckerdef get_error_words(sen): """ 返回错误单词 """ chkr = SpellChecker("en_US") chkr.set_text(sen) for err in chkr: print("ERROR:"...
2019-01-08 19:53:56
4868
3
原创 python读写excel(合并单元格)
读取import xlrddef read_excel(file_path): # 获取数据 data = xlrd.open_workbook(file_path) # 获取所有sheet名字 sheet_names = data.sheet_names() for sheet in sheet_names: # 获取sheet...
2019-01-08 19:48:48
26424
8
原创 01_字符串处理-----05_相似性度量
# NLTK中的nltk.metrics包用于提供各种评估或相似性度量from __future__ import print_functionfrom nltk.metrics import *def main1(): training = 'PERSON OTHER PERSON OTHER OTHER ORGANIZATION'.split() testing =...
2018-08-26 12:58:16
325
原创 01_字符串处理-----04_在文本中应用ZIpf定律
# Zipf定律指出,文本中标识符出现的频率与其在排序列表中的排名或位置成反比。# 所以,频率最高的单词出现的频率大约是出现频率第二位的单词的2倍,而出现频率第二位的单词则是出现频率第四位的单词的2倍。# 该定律描述了标识符在语言中是如何分布的:一些标识符非常频率的出现,另一些出现频率较低,还有一些基本上不出现。# 使用NLTK获取Zipf定律的双对数图# 单词在文档中的排名相对其出现...
2018-08-26 12:57:45
620
原创 01_字符串处理-----03_替换和校正标识符
1.3.1 使用正则表达式替换单词# 创建replacers.py文件,被调用import rereplacement_patterns = [(r'won\'t', 'will not'),(r'can\'t', 'cannot'),(r'i\'m', 'i am'),(r'ain\'t', 'is not'),(r'(\w+)\'ll', '\g<1> wil...
2018-08-26 12:56:47
380
原创 01_字符串处理-----02_标准化
1.2.1 消除标点符号def main1(): text = [" It is a pleasant evening.", "Guests, who came from US arrived at the venue", "Food was tasty."] from nltk.tokenize import word_tokenize tokenized_docs...
2018-08-25 09:50:04
762
原创 01_字符串处理------01_切分
1.1.1 将文本切分为语句def main1(): from nltk.tokenize import sent_tokenize import nltk text = " Welcome readers from U.S. I hope you find it interesting. Please do reply." print(sent_toke...
2018-08-23 23:36:05
685
原创 《数学之美》第31章 大数据的威力--谈谈数据的重要性
1 数据的重要性2 数据的统计和信息技术3 为什么需要大数据 首先,只有当一些随机事件的组合一同出现了很多次以后,才能得到有意义的统计规律; 其次,大数据的采集过程是一个自然过程,有利于消除主观性的偏差; 最后,它可能是解决IT行业之外的一些难题的钥匙。...
2018-05-17 16:33:06
958
原创 《数学之美》第30章 Google大脑和人工神经网络
1 人工神经网络 人工神经网络是一个分层的有向图,第一层接收输入的信息,也称为输入层。第二层的节点照此将数值向后面传递,直到第三层节点,如此一层层传递,直到最后一层,最后一层又称为输出层。2 训练神经网络 人工神经网络分为有监督的训练和无监督的训练两种。 有了训练数据,定义一个成本函数C,然后按照梯度下降法找到让成本达到最小值的那组参数。3 人工神经网络与贝叶斯函数的关系 ...
2018-05-17 16:26:49
1047
原创 《数学之美》第29章 各个击破算法和Google云计算的基础
云计算的关键之一是,如何把一个非常大的计算问题,自动分解到许多计算能力不是很强大的计算机上,共同完成。 1 分治算法的原理 将一个复杂的问题,分成若干个简单的字问题进行解决。然后,对子问题的结果进行合并。得到原有问题的解。 2 从分治算法到MapReduce 将一个大任务拆分成小的子问题,并且完成子问题任务的计算,这个过程叫做Map,将中间结果合并...
2018-05-17 15:24:09
384
原创 《数学之美》第28章 逻辑回归和搜索广告
1 搜索广告的发展 搜索广告基本上走过了三个阶段。 第一阶段是以早期Overture和百度的广告系统为代表,按广告主出价高低来排名的竞价排名广告。 第二阶段雅虎和百度推出的“Panama系统”和“凤巢系统”。 第三阶段是进一步的全局优化。 预测点击率,最好的办法就是根据以往经验值来预测。实际情况远没有那么简单。 首先,这种办法对于...
2018-05-17 13:25:58
482
原创 《数学之美》第27章 期望最大化算法
1 文本的自收敛分类 两种文本分类算法,即利用事先设定好的类别对新的文本进行分类,以及自底向上地将文本两两比较进行聚类的方法。这两种方法,多少都有一些局限性,比如前一种方法需要有事先设定好的类别和文本中心,后一种方法计算时间比较长。 期望最大化算法: 1. 随机挑选K个点,作为起始的中心。 2. 计算所有点到这些聚类中心到距离,将这些点归到最近的一类中。 ...
2018-05-17 13:12:01
520
原创 《数学之美》第26章 维特比和他的维特比算法
1 维特比算法 维特比算法是一个特殊但应用最广的动态规划算法。利用动态规划,可以解决任何一个图中的最短路径问题。而维特比算法是针对一个特殊的图--篱笆网络(Lattice)的有向图最短路径问题而提出的。它之所以重要,是因为凡事使用隐含马尔可夫模型描述的问题都可以用它来解码,包括今天的数字通信、语音识别、机器翻译、拼音转汉字、分词等。2 CDMA技术--3G移动通信的基础 扩频传输和固定...
2018-05-17 09:17:43
537
原创 《数学之美》第25章 条件随机场、文法分析及其他
1 文法分析--计算机算法的演变 自然语言的句法分析(Sentence Parsing)一般是指根据文法对一个句子进行分析,建立这个句子的语法树,即文法分析(Syntactic Parsing),有时也是指对一个句子中各成分的语义进行分析,得到对这个句子语义的一种描述(比如一种嵌套的框结构,或者语义树),即语义分析(Semantic Parsing)。 布朗大学计算机系的计算语言学家尤...
2018-05-17 09:06:00
523
原创 关于MNIST数据集的处理
代码:import tensorflow as tf# 导入 MNIST 数据from tensorflow.examples.tutorials.mnist import input_datamnist = input_data.read_data_sets("./MNIST_data/", one_hot=True)运行结果:Extracting ./MNIST_data/train-i...
2018-05-16 09:57:22
4244
1
原创 《数学之美》第21章 拼音输入法的数学原理
1 输入法和编码2 输入一个汉子需要敲多少个键--谈谈香农第一原理3 拼音转汉子的算法4 个性化的语言模型
2018-05-14 15:28:01
798
原创 Tensorflow— name/variable_scope
代码:import tensorflow as tf# tf.name_scope 主要结合 tf.Variable() 来使用,方便参数命名管理。# 创建一个命名空间with tf.name_scope("conv1"): weights1 = tf.Variable([1.0,2.0], name='weights') bias1 = tf.Variable([0.1]...
2018-05-14 09:42:37
164
原创 Tensorflow— word2vec
代码:# 导入包import tensorflow as tf# encoding=utf8 from __future__ import absolute_importfrom __future__ import divisionfrom __future__ import print_functionimport collectionsimport mathimport o...
2018-05-12 16:38:20
361
原创 激活函数
激活函数是用来加入非线性因素的,解决线性模型所不能解决的问题。1 sigmoid函数 函数公式: 缺陷:当输入稍微远离了坐标原点,函数的梯度就变得很小了,几乎为零(软饱和激活函数)。 在反向传播过程中,sigmoid向下传导的梯度包含一个激活函数导数的因子,一旦落入饱和区,导数为0,导致了向底层传播的梯度非常小,称为梯度消失。 ...
2018-05-12 13:37:31
471
原创 leetcode--Two Sum(2)
代码:"""Given an array of integers, return indices of the two numbers such that they add up to a specific target.You may assume that each input would have exactly one solution, and you may not use the...
2018-05-12 08:28:03
438
原创 文本分类
代码:from gensim import corpora, models# 载入字典dictionary = corpora.Dictionary.load("corpus.dict")f = open("prepare_corpus.txt", "rb")corpusX, corpusY = [], []for line in f: words = line.decod...
2018-05-11 12:41:44
1191
原创 建立字典
代码:# 分类# 社会 国际 体育 科技 。。。# 建立一个字典(词库)以备特征的提取import json from bs4 import BeautifulSoupimport jiebaimport jieba.posseg as pseg# 读取json文件input_file = "new_items.json"f = open(input_file, 'rb')...
2018-05-11 12:35:32
2292
原创 从json到抽取关键词
代码:import json from bs4 import BeautifulSoupimport jiebaimport jieba.analyse# 读取json文件第一行的内容f = open("items.json")# 读取第一行dic = json.loads(next(f))content = dic["content"]print(content)运行结果...
2018-05-10 11:51:49
2275
原创 jieba之sedict(自定义字典)
代码:import jiebastring = "李小福是创新办主任也是云计算方面的专家"# 精确模式分词cut_result = jieba.cut(string)print("===" * 20)print("/".join(cut_result))# 创新办没有识别出来# 用自定义词典来定义创新办# 创新办 3 ijieba.load_userdict("userdi...
2018-05-10 10:40:24
11343
原创 jieba之segment
代码:import jiebasentence = "我来到清华大学"# 从分词粒度上来讲,全模式 > 搜索模式 > 精确模式# 精确模式seg_list = jieba.cut(sentence)#jieba的分词结果是产生一个生成器print("===" * 20)print(seg_list)#如何打印生成器,用分隔符去拼接print("===" * 2...
2018-05-10 10:08:20
1314
原创 Json
代码:import json# 对Json解码test = json.loads('["foo", {"bar":["baz", null, 1.0, 2]}]') print("===" * 20)print(test)print("===" * 20)print(type(test))dict = '{"foo":"bar", "jso
2018-05-10 09:51:55
765
原创 BeautifulSoup
代码:from bs4 import BeautifulSoup#一个html格式的内容doc = ['<html><head><title>Page title</title></head>', '<body><p id="firstpara" align="center&quo
2018-05-09 21:47:59
906
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人