- 博客(36)
- 资源 (4)
- 收藏
- 关注
原创 HIVE基础入门
官方文档(推荐):https://cwiki.apache.org/confluence/display/Hive概念:https://www.cnblogs.com/netuml/p/7841387.html安装:https://www.cnblogs.com/garfieldcgf/p/8134452.html中文官方文档:https://blog.youkuaiyun.com/strongyoung88...
2018-05-29 08:25:35
710
原创 Python Pandas 转换unix时间戳
使用pandas自带的pd.to_datetime把 unix 时间戳转为时间时默认是转换为 GMT标准时间 北京时间比这个时间还要加 8个小时,使用python 自带的 time.localtime 转换时 默认是会处理好时区的问题,可以直接转换为 北京时间的:pandas需要自己处理时区问题如果是pandas的字段(df.TIME为格式如上的时间戳)可以使用下面的方式转换:...
2018-03-29 11:11:12
12134
原创 机器学习笔记之随机森林
随机森林笔记记录在github上:https://github.com/linzhenpeng/machinelearning/blob/master/RandomForest/RandomForest.ipynb
2018-03-14 18:58:14
542
原创 机器学习笔记之逻辑斯谛回归算法
逻辑回归学习笔记记录在github上:https://github.com/linzhenpeng/machinelearning/blob/master/LogisticRegression/LogisticRegression.ipynb
2018-03-12 08:30:10
413
原创 SVM学习笔记
学习笔记记录github上:https://github.com/linzhenpeng/machinelearning/blob/master/SVM/SVM.ipynb在文中比较 不同核函数是如何分割数据的
2018-03-08 07:05:33
359
原创 决策树学习笔记
决策树学习笔记我记录在github上:https://github.com/linzhenpeng/machinelearning/blob/master/decisionTree/decisionTree.ipynb文档之所以写在github的理由:1,方便 使用jupyter notebook 可以很方便的写代码,文档.使用git 提交代码,随时可以修改更新,比写博客简单方便多了 2,直观 不...
2018-03-04 19:39:20
352
原创 统计学习方法-笔记
方法适用特点类型学习策略损失函数学习方法感知机二分类分离超平面判别模型极小化误分点到超平面距离误分点到超平面距离随机梯度下降K近邻法多分类,回归特征空间,样板点判别模型朴素贝叶斯多分类特征与类别的联合概率分布,条件独立假设生成模型极大似然估计,极大后验概率估计对数似然损失概率计算
2018-02-04 22:59:46
270
原创 ubuntu16 无法调节亮度问题
我在笔记本上安装 win 10 和 ubuntu 16.04双系统时,发现无法进入桌面,根据这个博客:https://www.cnblogs.com/skyhive/p/6137174.html 增加 acpi_osi=linux nomodeset后 可以正常 进入 系统,但是发现 无法调节 亮度 ,设置那里也没有亮度调节的滑动条.一吨 百度 google 后发现 网上的解
2017-11-29 17:57:19
3446
2
原创 CUDA传递结构体数组
在把CPU的数组结构体传递到GPU内存中需要好多问题,找不到太多的资料,最后只能靠自己慢慢摸索CPU上的代码我们一般称为 Host代码 GPU上面的一般叫Device 代码,之所以这样区分是由于GPU的内存和CPU的内存是相互独立的,它们的数据没法直接相互调用,只能通过cuda的一些方法进行操作,最常用的是 cudaMalloc和cudaMemcpycudaMalloc是用来在GPU上申请
2017-09-22 12:05:42
5628
3
原创 GPU编程_The CUDA Toolkit v8.0 directory '' does not exist.
最近在搞GPU编程时,使用vs2015编译cuda程序 但是却出现如下的错误1>C:\Program Files (x86)\MSBuild\Microsoft.Cpp\v4.0\V140\BuildCustomizations\CUDA 8.0.targets(514,9): error : The CUDA Toolkit v8.0 directory '' does not ex
2017-09-14 16:55:10
7709
3
原创 tensorflow输出权重值和偏差
使用tensorflow 训练模型时,我们可以使用 tensorflow自带的 Save模块 tf.train.Saver()来保存模型,使用方式很简单 就是在训练完模型后,调用saver.save()即可saver = tf.train.Saver(write_version=tf.train.SaverDef.V2)saver.save(sess, save_dir+"crfmodel.
2017-08-17 16:11:13
12800
原创 "&#"开头转中文
最近在写爬虫时遇到"&#"或者 "&#x"开头的 编码,在浏览器是可以正常打开的,但是爬取下来时却,显示 中国农业银行 在尝试了 utf-8 或者GBK,GB2312等等的编码都行不通的情况下, 在网上也找不到太多的资料,这让我很苦恼,而且百度搜索居然没法直接搜索符号,还是大谷歌好用, 通过http://
2017-07-18 11:58:55
6573
1
原创 爬虫抓取糯米网上所有商家数据
前段时间写了 爬取美团商家信息的博客 爬虫抓取美团网上所有商家信息 ,这次说说爬取糯米网,由于某些原因无法提供源代码,但是,代码不是关键,最关键的是思想,懂了思想,代码是很容易写的.爬虫最重要的是分析请求过程,按照实际请求过程去请求数据.分析是否需要处理cookie,有些网站比较严格请求某些接口的数据时是需要cookie,获取cookie的链接一般是首页,一般的系统会有一个Jsessi
2017-04-04 16:09:13
6367
2
原创 使用python爬取12306上面所有车次数据
在爬取12306之前需要做的工作就是:1,分析请求过程2,分析是否需要处理cookie3,编写代码4,测试爬取网站是否有访问次数限制5,部署到正式服务器上这里重点写 如何分析请求过程:这是12306上面查询车次的界面,出发地和目的地 是我们需要输入的, 如果要爬取全国的所有的车次 那就需要找到全国所有的出发地到目的地的列表.找了 很久发现在 车次查询页面ht
2017-03-27 17:22:51
32290
12
原创 使用python爬取全国所有热门景点数据---去哪儿网
要爬取去哪儿上面的所有的热门景点的数据 可以先再 搜索出 搜索 热门景点 http://piao.qunar.com/ticket/list.htm?keyword=%E7%83%AD%E9%97%A8%E6%99%AF%E7%82%B9®ion=&from=mpl_search_suggest可以看到 有几千页 的景点数据,我们要爬取的就是这些数据;最好是从分类开
2017-02-08 16:45:59
20334
7
原创 使用Greasemonkey修改指定页面的样式显示或执行脚本
在上网期间总是会遇到反人类的网页,我在想他们的产品 是脑门被夹还是脑门被夹了 .......如果不用也就罢了 但是有时候不得不用. 例如:某论坛 时间显示不全,只显示到月份,日 和时间都没都没显示,换了浏览器,改变页面大小都显示不全. 分分钟要气死强迫症患者.要是自己能修改样式多好还有些情况是,一打开某些页面就会有弹框. 或者很多广告. 要是能执行自
2016-11-30 15:12:13
11400
1
原创 Windows下MySQL启动服务3523错误的问题
一段时间没用mysql, 今天打算写个系统 突然发现mysql 服务没法启动 并报出:MySQL 服务正在启动 ...................MySQL 服务无法启动。请键入 NET HELPMSG 3523 以获得更多的帮助。的错误 各种方法都试过了 就是没办法启动 后来注意到mysql 配置文件的格式是 utf-8 . 还是有bom的u
2016-09-19 14:51:08
19332
5
原创 IDEA无法启动:Failed to create JVM:error code -1
使用idea过程中遇到这样一个问题,在网上找不到答案,所以决定写下博客,希望其他人遇到时可以参考参考.我的情况是这样的,在向数据库中插入1000万条数据中idea提示内存不够,并弹出窗口让我设置:我是随便设置把内存加大了, 结果idea就奔溃了,再打开时就提示这样的错误,Failed to create JVM:error code -1 还说我的环境变量有问题.我可以打开eclipse
2016-08-24 10:49:46
49138
3
原创 VM虚拟机中 Centos 7 设置静态IP
刚开始接触Centos的人应该都会被上网的问题烦过,我也是这样的,一开始设置动态IP可以上网.但是由于某些需求要把Centos设置成静态IP 然后麻烦的事就一件一件的来.今天记录一下我的解决方法.1.先设置VMnet8 ipv4 注意我设置的ip段 192.168.137.02.打开 虚拟机---> 编辑---> 虚拟机网络编辑器关闭dhcp(动态获取ip)
2016-08-05 12:42:05
5299
1
原创 java.net.MalformedURLException: no protocol 可能的解决方法
我把URL保存在编码为UTF-8的Txt文件中,然后读取里面的url字符串并创建JAVA.NET.URL对象.发现爆出java.net.MalformedURLException: no protocol这样的错误. 这真的让我很烦恼.弄了好久也不见解决方法.所以我就开始试验.如图 url和url2没有什么区别. 但是从txt中复制的就报出错误,第二个
2016-07-25 21:20:47
69261
原创 用数组表示二叉树
传统的二叉树是使用链表的形式,其优点是便于插入和删除,但是查找速度很慢,占用空间也很大.所以现在用数组的形式来构建二叉树,节点存在数组中,而不是由引用相连,节点在数组中的位置对应它在树中的位置,下标为0 的节点为根节点,下标为1是根的左节点,2为根节点的右节点,依次类推,从左到右的顺序存储树的每一层,包括空节点.如下图:
2016-07-08 11:21:24
31807
6
原创 java并发下修改arrayList---CopyOnWriteArrayList
背景:我将配置文件保存在ArrayList中, 多线程并发读取配置.但是我每5分钟 会去扫描一下配置文件,如果修改了配置文件 就会重新加载新的配置文件. 但在多线程共享同一个资源下修改就会抛出Java.util.ConcurrentModificationException错误.这里有两种解决方法:第一种方法是:加锁缺点:性能差 优点:保证数据的实时一致性 修改后就可以让接下来
2016-06-23 10:40:25
1332
原创 Python模拟表单提交登录广工图书馆
模拟表单提交的原理:我们都知道Http是无状态的,所以当我们提交的数据和浏览器中正常提交一样,那么服务器就会返回和浏览器中一样的响应.所以我们这里来模拟浏览器表单提交登录广东工业大学的图书馆 http://222.200.122.171:7771/login.aspx ,获取cookie,我们接下来访问图书馆网站里的其他页面时就带上这个cookie,服务器会认为我是已经登录的用户,回正常返回数据给
2016-06-14 11:15:47
1935
原创 解决项目中无缘无故多出xxxxx.out.xml问题
这段时间在弄netty+springmvc+spring+mybatis,由于不是部署tomcat上的,而是直接运行Java application 所以需要经常按eclipse上面的运行按钮,有次没留意在配置文件中就直接点击运行按钮,结果自己生成一个xxxx.out.xml文件 再运行时报错.[Fatal Error] UserMapper.out.xml:1:1: 文件提前结束。
2016-04-11 23:04:25
2699
原创 java的序列化 和 反序列化总结---学习笔记
java的序列化 和 反序列化1、我们先看一下《java编程思想》第四版中对序列化定义对象序列化Java 1.1 增添了一种有趣的特性,名为“对象序列化”( Object Serialization)。它面向那些实现了Serializable 接口的对象,可将它们转换成一系列字节,并可在以后完全恢复回原来的样子。这一过程亦可通过网络进行。这意味着序列化机制能自动补偿操作
2016-03-22 15:54:32
571
原创 The method xxxx of type xxxx must override a superclass method 解决方式
使用eclipse/myeclipse 时可能会出现@override 报错的问题 The method xxxx of type xxxx must override a superclass method解决方法一: 修改eclipse的 Compiler level window ---> preferences-->java -->Compiler
2016-03-22 10:01:08
7466
原创 SpringMVC 图片压缩下载
package com.gosun.cecs.system.manager.action;import java.io.File;import java.io.InputStream;import java.net.URL;import java.text.SimpleDateFormat;import java.util.Date;import java.util.List;i
2015-12-25 17:01:25
1466
原创 java 读者写者问题
读者—写者问题(Readers-Writers problem)也是一个经典的并发程序设计问题,是经常出现的一种同步问题。计算机系统中的数据(文件、记录)常被多个进程共享,但其中某些进程可能只要求读数据(称为读者Reader);另一些进程则要求修改数据(称为写者Writer)。就共享数据而言,Reader和Writer是两组并发进程共享一组数据区,要求:(1)允许多个读者同时执行读操作;(
2015-09-28 20:07:38
2974
转载 Java 信号量 Semaphore 介绍
转载自 :http://www.cnblogs.com/whgw/archive/2011/09/29/2195555.html http://blog.youkuaiyun.com/shihuacai/article/details/8856526Semaphore当前在多线程环境下被扩放使用,操作系统的信号量是个很重要的概念,在进程控制方面都有应用。Java 并发库 的Semaphore
2015-09-27 23:09:07
567
原创 java多线程之生产者消费者经典问题
看过 http://blog.youkuaiyun.com/thinkpadshi/article/details/8163751 下面的评论说: 感觉你的代码有问题啊,两个run()方法里面的打印语句的执行先后问题,假设开始在消费时index==0;这时wait()了,生产者便抢到锁,index+1;同时叫醒消费者,这个时候要是消费者先于生产者的打印了一条消费了0个,之后再打印生产了0个怎么办
2015-09-26 21:40:03
1899
1
转载 java多线程环境下对变量的读写操作的原子性问题
本文转载自:http://www.cnblogs.com/qlee/archive/2011/09/13/2174434.html以下多线程对int型变量x的操作,哪几个需要进行同步:( )A. x=y; B. x++; C. ++x; D. x=1;从表面看上去实在是看不出什么突破口,我们不妨将这些代码译成汇编语言再来分析。 01 x = y;
2015-09-26 11:15:21
1956
原创 3个线程顺序打印ABC10次
今年,唯品会的一道笔试题当时写得很乱,也写错了,现在给出我的解决方法:package deadLockThread;public class PrintThread { private static boolean flga1 = true; private static boolean flga2 = false; private static boolean flga3 = fals
2015-09-26 01:22:34
3385
转载 Java sleep和wait的区别
转载自:http://blog.youkuaiyun.com/shineflowers/article/details/40047479① 这两个方法来自不同的类分别是,sleep来自Thread类,和wait来自Object类。sleep是Thread的静态类方法,谁调用的谁去睡觉,即使在a线程里调用b的sleep方法,实际上还是a去睡觉,要让b线程睡觉要在b的代码中调用sleep。
2015-09-08 16:48:36
1066
原创 java线程死锁例子及解决方法
Java线程死锁是由于有些资源彼此交叉取用,就有可能造成死结.如1线程中 取得A对象的锁定后又要取得B对象的锁定.但是同时2线程中取得B对象的锁定后又要取得A对象的锁定.这两个线程同时发生时就会造成,1线程拿到A对象锁定后等待B对象的锁定.2线程拿到B对象锁定后等待A对象锁定.这样就会进入没有停止的等待中.线程死锁的一个简单例子:package deadLockThread;publi
2015-09-08 08:39:30
6287
原创 Integer的自动装箱过程
先来看道题 int a=100; int b=100; Integer c=a; Integer d=b; System.out.println(a==b);System.out.println(c==d);其实这道题 和 a 与 b 没有什么关系,可以直接看成
2015-07-22 14:05:42
1011
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人