- 博客(65)
- 资源 (4)
- 收藏
- 关注
原创 Anaconda 3.6安装wordcloud 词云出现问题[已解决]
最近看了好多网上的词云分析,感觉效果很出色,决定自己动手来试试,就打算安装wordcloud,但是在安装过程中出现了问题,采用下面两种常见的安装方式都不行啊。。。pip install wordcloudconda install wordcloud都会报同一个错误: 无语了。。。 我甚至直接指定了镜像, pip install -i https://pypi.tuna.tsinghua
2017-07-15 09:53:58
19251
5
原创 常见的十大机器学习算法
机器学习算法的广义分类大概有三种:监督式学习、无监督学习、强化学习。 监督学习由一个目标变量或结果变量(或因变量)组成。这些变量由已知的一系列预示变量(自变量)预测而来。利用这一系列变量,我们生成一个将输入值映射到期望输出值的函数。这个训练过程会一直持续,直到模型在训练数据上获得期望的精确度。监督式学习的例子有:回归、决策树、随机森林、K – 近邻算法、逻辑回归等。 无监督式学习没有任何目标变量
2017-07-01 12:24:23
15536
原创 git pull 错误:refusing to merge unrelated histories
合并pull两个不同的项目,出现的问题fatal: refusing to merge unrelated histories,如何解决我在Github新建一个仓库,写了License,然后把本地一个写了很久仓库上传。先pull,因为两个仓库不同,发现refusing to merge unrelated histories,无法pull 因为他们是两个不同的项目,要把两个不同的项目合并,gi
2017-05-25 06:38:18
1097
转载 如何才能高效的自学?
这是一张关于知识与经验的示意图。 不少人看过此图,但该图仅呈现了知识与经验的关系,对于学习还没有太多指导意义。今天谈谈学习科学中一个重要的概念:组块(chunk)。 当你接触到一个新知识(例如“递弱代偿原理”),这个新概念在你头脑中呈现的状态就像这样。 组块化(chunking),能让我们将头脑中的信息组块,按照有
2017-05-21 21:28:09
761
原创 windows安装spark后spark-shell启动报错
Hadoop lib下已添加对应版本的winutilscmd输入D:\peizhi\hadoop\bin\winutils.exe chmod 777 /tmp/hive 不能成功启动spark-shell <console>:16: error: not found: value sqlContext import sqlContext.implicits._
2017-05-17 06:13:22
6287
4
原创 Windows Spark开发环境部署
Windows下单机安装Spark开发环境机器:windows 10 64位。 因Spark支持scala、java、python等语言,所以尝试安装了不同语言环境下的spark开发环境。1、jdk1.8、Python 3.5的安装1.1 jdk1.8的安装安装oracle下的jdk,我安装的是jdk 1.8,安装完新建系统环境变量JAVA_HOME,变量值为“D:\Program Files\
2017-05-14 09:38:30
639
原创 有关进程,线程通信的几个详细问题
先来说说线程吧,线程的基本概念,教材上是这样定义的:线程是进程中执行运算的最小单位,是进程中的一个实体,是被系统独立调度和分派的基本单位,线程自己不拥有系统资源,只拥有一点在运行中必不可少的资源,但它可与同属一个进程的其它线程共享进程所拥有的全部资源。1、我们知道一个线程可以创建和撤消另一个线程,同一个进程中可以存在多个线程,多个线程之间可以并发执行。这样有什么好处呢?以下几点是很明确的: 易于
2017-04-23 10:55:03
771
原创 Java代码性能优化
代码优化,一个很重要的课题。可能有些人觉得没用,一些细小的地方有什么好修改的,改与不改对于代码的运行效率有什么影响呢?这个问题我是这么考虑的,就像大海里面的鲸鱼一样,它吃一条小虾米有用吗?没用,但是,吃的小虾米一多之后,鲸鱼就被喂饱了。代码优化也是一样,如果项目着眼于尽快无BUG上线,那么此时可以抓大放小,代码的细节可以不精打细磨;但是如果有足够的时间开发、维护代码,这时候就必须考虑每个可以优化的细节了,一个一个
2017-04-23 10:45:06
606
4
转载 如何将数据变成产品?
未来属于那些知道如何把数据变成产品的企业和个人。 ——麦克·罗克德斯(Mike Loukides)据哈尔•瓦里安(Hal Varian)说,统计学家是下一个性感的工作。五年前,在《什么是Web 2.0》里蒂姆•奥莱利(Tim O’Reilly)说“数据是下一个Intel Inside”。但是这句话到底是什么意思?
2017-04-02 21:41:08
1426
原创 mybatis 实践练习
MyBatis是一个支持普通SQL查询,存储过程和高级映射的优秀持久层框架。MyBatis消除了几乎所有的JDBC代码和参数的手工设置以及对结果集的检索封装。MyBatis可以使用简单的XML或注解用于配置和原始映射,将接口和Java的POJO(Plain Old Java Objects,普通的Java对象)映射成数据库中的记录。MyBatis 是支持定制化 SQL、存储过程以及高级映射的优秀的持久层框架。MyBatis 避免了几乎所有的 JDBC 代码和手动设置参数以及获取结果集。MyBatis 可以
2017-03-27 14:38:33
1169
转载 最生动的数据分析师技能图谱
转自:http://wwwbuild.net/sjfxjx/404811.html?from=index 数据分析师一个需要“门门通”的职业。以下是知乎大神“陈丹奕”对数据分析师的能力体系的一个梳理,希望对大数据的同学们能有帮助。数据分析师的能力体系 1、数学知识 数学知识是数据分析师的基础知识。对于初级数据分析师,了解一些描述统计相关的基础内容,有一定的公式计算能力即可,了解常用统计模型
2017-03-25 20:48:04
4095
原创 解决用Ipython画图不出现问题
ipython 窗口不出现图像; ipython画图显示问题 matplotlib画图 经常碰到一些朋友利用ipython调用matplotlib画图最后图形显示不了 ,最后只显示 这样的一串符号,实际图形不会显示;
2017-03-25 20:23:34
6929
原创 lambda表达式的用法
lambda Python用于支持将函数赋值给变量的一个操作符 默认是返回的,所以不用再加return关键字,不然会报错;lam = lambda x:x * xlam(2) # return 4lambda和map(),filter(),reduce()的关联使用方法 需要两个参数,第一个是一个处理函数,第二个是一个序列(list,tuple,dict)map() 将序列中的元素通过处理
2017-03-08 23:16:55
656
翻译 Best questions about python at stackoverflow in 2016
1. 使用pythonic的方式避免“if x : return x”的语句。Question: I have a method that calls 4 other methods in sequence to check for specific conditions, and returns immediately (not checking the following ones)
2017-02-26 10:11:28
713
原创 python并发
使用多线程可以有效的利用CPU资源(Python例外)。然而多线程所带来的程序的复杂度也不可避免,尤其是对竞争资源的***同步***问题。 然而在python中由于使用了全局解释锁(GIL)的原因,代码并不能同时在多核上并发的运行,也就是说,**Python的多线程不能并发**,使用多线程来改进自己的Python代码后,程序的运行效率却下降了。
2017-02-24 23:25:14
730
原创 python爬虫和http请求协议
我经常会看到有人在知乎上提问如何入门 Python 爬虫?如何学习Python爬虫[入门篇]?等这一些问题,我今天写这篇文章的目的就是来告诉大家,我为什么要学爬虫,爬虫的本质是什么。
2017-02-21 23:09:35
1211
原创 sql语句优化的13中方法
执行计划是数据库根据SQL语句和相关表的统计信息作出的一个查询方案,这个方案是由查询优化器自动分析产生的,比如一条SQL语句如果用来从一个 10万条记录的表中查1条记录,那查询优化器会选择“索引查找”方式,如果该表进行了归档,当前只剩下5000条记录了,那查询优化器就会改变方案,采用 “全表扫描”方式。 可见,执行计划并不是固定的,它是“带有相当个性的”。如何产生一个正确的“执行计划”
2017-01-02 00:32:46
4081
1
原创 redis 数据库中Set的使用方法
redis中的Set数据结构是非常常用的,相对应的指令有很多,在这里罗列了一些,方便查询:SADD bbs “shuimu” ##添加单个或者多个元素到bbs Set中;SCARD bbs ##返回bbs中的元素个数,时间复杂度为O(1);SSCAN bbs ##迭代bbs中的元素,类似于SCAN;SDIFF bbs bbs-1 ##返回存在于bb
2016-11-28 21:51:33
1997
原创 解决连接mongoDB出现问题:MongoDB : Failed to connect to 127.0.0.1:27017, reason: errno:61 Connection refused
解决连接mongoDB出现问题:MongoDB : Failed to connect to 127.0.0.1:27017, reason: errno:61 Connection refused
2016-10-29 12:01:32
21140
原创 MySQL数据库引擎详细介绍
InnoDB的数据文件本身要按主键聚集,所以InnoDB要求表必须有主键(MyISAM可以没有),如果没有显式指定,则MySQL系统会自动选择一个可以唯一标识数据记录的列作为主键,如果不存在这种列,则MySQL自动为InnoDB表生成一个隐含字段作为主键,这个字段长度为6个字节,类型为长整形。并且和MyISAM不同,InnoDB的辅助索引数据域存储的也是相应记录主键的值而不是地址,所以当以辅助索引查找时,会先根据辅助索引找到主键,再根据主键索引找到实际的数据。所以Innodb不建议使用过长的主键,否则会使辅
2016-06-15 20:59:33
400
原创 进程,线程之间易混淆的几个问题
先来说说线程吧,线程的基本概念,教材上是这样定义的:线程是进程中执行运算的最小单位,是进程中的一个实体,是被系统独立调度和分派的基本单位,线程自己不拥有系统资源,只拥有一点在运行中必不可少的资源,但它可与同属一个进程的其它线程共享进程所拥有的全部资源。
2016-03-26 17:23:57
1439
原创 如何顺时针打印一个二维矩阵
昨天去网易公司面试,面试官给了一道题,以前好像见过类似的题目,和面试官讨论了半天,思路是正确的,可是最后还是没能够写出满意的代码,今天没有其他事,就来梳理一下吧! 题目是这样的:输入一个矩阵,按照从外向里以顺时针的顺序依次打印出每一个数字。
2015-09-13 10:36:35
1459
原创 用正则表达式匹配IPV4地址
写一个正则表达式匹配IPV4地址说容易也容易,说难也难,取决于需要的准确度。简单起见,这里只考虑点分十进制的IPV4地址。 最简单的方式是把IPV4地址看做四段十进制数字串,由三个点号隔开,可以采用如下写法:^\d+\.\d+\.\d+\.\d+$就其本身而言没有问题,但会错误地匹配"448.90210.0.65535"这样的字符串,而一个恰当的IPV4表示法中每个域中的值不应大于255。但写一个匹配0到255的整数的正则表达式并不容易,因为正则表达式不理解算术,而是单纯基于文本。
2015-09-11 23:32:46
8486
1
转载 哈希表的工作原理
哈希表(Hash Table)的应用近两年才在NOI中出现,作为一种高效的数据结构,它正在竞赛中发挥着越来越重要的作用。 哈希表最大的优点,就是把数据的存储和查找消耗的时间大大降低,几乎可以看成是常数时间;而代价仅仅是消耗比较多的内存。然而在当前可利用内存越来越多的情况下,用空间换时间的做法是值得的。另外,编码比较容易也是它的特点之一。 哈希表又叫做散列表,分为“开散列” 和“闭散列”。考虑到竞赛时多数人通常避免使用动态存储结构,本文中的“哈希表”仅指“闭散列”,关于其他方面读者可参阅其他
2015-09-11 11:13:12
725
原创 在浏览器输入栏敲入一个网址,之后发生了那些变化?
整个查找过程是这样的:(1)根据目的地址,得到目的网络号,如果处在同一个内网,则可以直接发送。(2)如果不是,则查询路由表,找到一个路由。(3)如果找不到明确的路由,此时在路由表中还会有**默认网关**,也可称为缺省网关,IP用缺省的网关地址将一个数据传送给下一个指定的路由器,所以网关也可能是路由器,也可能只是内网向特定路由器传输数据的网关。(4)路由器收到数据后,它再次为远程主机或网络查询路由,若还未找到路
2015-09-09 14:29:48
2070
转载 Redis在新浪微博中的应用
Redis简介1. 支持5种数据结构支持strings, hashes, lists, sets, sorted sets。 string是很好的存储方式,用来做计数存储。sets用于建立索引库非常棒;2. K-V 存储 vs K-V 缓存新浪微博目前使用的98%都是持久化的应用,2%的是缓存,用到了600+服务器 Redis中持久化的应用和非持久化的方式不会差别很大:
2015-09-06 10:58:41
736
原创 7个不是经常用但很强大的Linux命令
本文中文部分参考:http://www.oschina.net/translate/11-lesser-known-useful-linux-commands 本文英文部分参考:http://www.tecmint.com/11-lesser-known-useful-linux-commands/
2015-07-19 16:53:01
1457
转载 如何写一份有内涵的商业需求文档
最近产品组接到项任务,公司想做新产品(互联网产品),需要对同行业进行调研,并写出可实施方案。方案可能会给到北京的CEO参考,作为互联网界人人知晓的大佬,有机会看到我的调研报告,想想也是相当鸡冻啊。评估该文档的需求和报告的对象,其实是要写一份商业需需求文档。什么是商业需求文档?商业需求文档(Business Requirement Document)产品生命周期中最早的文档,
2015-06-16 11:24:21
964
原创 用友NC简介
什么是NC?NC是一个基于Java标准(更多的是JavaEE标准)的、以B/S方式运行的、可跨硬件平台的、可跨操作系统的、可跨数据库的、可跨服务器的、开发高端ERP产品的平台。 NC平台基于的技术有:Swing、JDBC、EJB、Servet、RMI、线程等技术。该平台将这些Java标准再次进行封装,使其更能够适应ERP产品的开发、更能够将逻辑放到业务层面上来,同时也更加安全,
2015-06-01 13:56:28
11943
转载 为什么HTTP有时候比HTTPS好?
做为一家安全公司,我们在站点Stormpath上经常被开发者问到的是有关安全方面最优做法的问题。其中一个被经常问到的问题是:我是否应当在站点上运行HTTPS?很不幸,查遍整个因特网,你大多数情况下会得到同样的建议:加密所有的东西!对所有站点进行SSL加密等等!然而,现实情况表明这通常不是一个好的建议。许多情况下使用HTTP比使用HTTPS要好很多。事实上,HTTP是
2015-05-24 17:53:49
738
原创 基于Socket实现网络编程
Socket是网络上两个程序间双向通讯的一端,它既可以发送请求,也可以接收请求,利用它可以方便的编写网络上数据的传递,在java中,有专门的类类处理用户的请求和响应。利用Socket 类的方法,就可以实现两台计算机之间的通信,那么怎么利用socket进行网络编程呢?我试试水~网络中的进程之间是如何进行通信的?本地进程间通信(IPC)有很多种方法,简而言之可以归结为以下四类:消息传递
2015-05-24 17:40:15
4501
原创 金字塔图像分割原理解析与示例[opencv]
图像分割指的是将数字图像细分为多个图像子区域的过程,在OpenCv中实现了三种跟图像分割相关的算法,它们分别是:金字塔分割算法,分水岭分割算法以及均值漂移分割算法。它们的使用过程都很简单,刚开始学习opencv,先记录一下我对金字塔分割原理的理解吧。金字塔分割算法 金字塔分割算法由cvPrySegmentation所实现,该函数的使用还是比较简单;需要注意的是图像的尺寸以及金字塔的
2015-05-19 08:47:15
9324
2
原创 排序算法的稳定性
首先,排序算法的稳定性大家应该都知道,通俗地讲就是能保证排序前2个相等的数其在序列的前后位置顺序和排序后它们两个的前后位置顺序相同。在简单形式化一下,如果Ai = Aj,Ai原来在位置前,排序后Ai还是要在Aj位置前。 其次,说一下稳定性的好处。排序算法如果是稳定的,那么从一个键上排序,然后再从另一个键上排序,第一个键排序的结果可以为第二个键排序所用。基数排序就是这样,先按低位排序,
2015-04-17 22:14:14
570
转载 线程的生命周期
1.线程的生命周期线程是一个动态执行的过程,它也有一个从产生到死亡的过程。(1)生命周期的五种状态新建(new Thread)当创建Thread类的一个实例(对象)时,此线程进入新建状态(未被启动)。例如:Thread t1=new Thread();就绪(runnable)线程已经被启动,正在等待被分配给CPU时间片,也就是说此时线程正在就绪队列中排队等候得到C
2015-04-15 15:37:23
496
原创 面向对象编程和面向过程的区别
面向过程就是分析出解决问题所需要的步骤,然后用函数把这些步骤一步一步实现,使用的时候一个一个依次调用就可以了。 面向对象是把构成问题事务分解成各个对象,建立对象的目的不是为了完成一个步骤,而是为了描叙某个事物在整个解决问题的步骤中的行为。
2015-04-10 10:36:28
6255
1
原创 Java线程:并发协作-生产者消费者模型
对于多线程程序来说,不管任何编程语言,生产者消费者模型都是最经典的。 实际上,准确的说应该是“生产者-消费者-仓储”模型,离开了仓储,生产者消费者模型就显得没有说服力了。
2015-04-08 14:59:33
743
C——free 5.0
2014-07-02
猜数字游戏设计
2014-07-02
QT入门经典
2014-03-22
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人