- 博客(31)
- 资源 (11)
- 收藏
- 关注
原创 scrapy爬虫-学习笔记之数据处理篇
1.items类的应用在item类中定义数据字典2.在pipline(拦截item,并将item数据保存到数据库中)中定义图片下载并且在setting文件中修改配置3.连接mysql 下载mysqlclient...
2018-07-15 19:51:51
895
原创 scrapy-爬虫学习笔记
1.安装scrapypip install -i 源 scrapy2.手动创建scarpy项目scrapy startproject 项目名称3.scrapy genspider jobbole blog.jobbole.com(使用自带模板)4.调试修改setting文件中obey robots为flase新建py文件在命令窗口中输入5.提取内容(有多种方法)xpath使用路径表达式在xml和h...
2018-07-15 12:09:10
259
原创 SpringMVC+idea+tomcat常见问题
1.创建java springMVC工程会自动出来web.xml等配置文件2.配置tomcat下载tomcat,注意与jdk版本相配在run设置里,添加本地tomcat然后deployment 添加工程,工程不用打包,直接添加artifacts如图常见问题,网上很多方法说到这一步,会在运行窗口自动出来tomcat小图标,但是我的没有出现诶。后来右键项目才出来的小图标,之后又在localtomcat...
2018-06-13 15:45:56
508
原创 常用链接
1.http://blog.youkuaiyun.com/ggggiqnypgjg/article/details/53271541Python编码问题2.http://blog.youkuaiyun.com/sinat_41310868/article/details/78746251 python爬取百度地图POI3.http://api.map.baidu.com/lbsapi/getpoint/index
2018-01-29 14:43:45
208
原创 SVM 处理高维小样本数据
1.降维的时候 用PCA n_comments=0.99 保留99%的信息2.SVM 分为SVC(分类)SVM(回归)3.Leave One Out 进行训练集和测试集的划分具体代码见https://github.com/qqxze/SVM
2017-12-28 19:40:28
12266
5
转载 PCA详解
详见http://blog.youkuaiyun.com/zhongkelee/article/details/44064401第一步 归一化第二步 求协方差矩阵第三步 求协方差矩阵的特征值 特征向量 第四步,将特征值按照从大到小的顺序排序,选择其中最大的k个,然后将其对应的k个特征向量分别作为列向量组成特征向量矩阵。第五步,将样本点投影到选取的特征向量上。假设样例数为m,特征
2017-12-22 09:27:17
385
原创 爬虫-知乎用户关系之关注
首先进行分类 主要分为 main (函数主入口), urlManger(URL管理), urlParse(URL解析),urlOUT(最后的输出结果格式)注意的几个坑 关注了和关注者的列表 不能简单从html标签里获取,否则永远只是每个用户往下扒的三个数据而已 从主页点击关注了,查看networks,发现get了一个非常复杂的链接,我们应该使用这个链接,并且get该链接返回的json数据
2017-11-22 16:01:40
1026
原创 第一个爬虫-知乎用户关系之登录
这是第一个爬虫,所以由很多地方还需要改进,暂时先总结一下自己的小心得。登录因为想把自己的账号作为一个seed,所以session保持登录cookies,顺便练习一下验证码。 1.使用chorme F12 查看networks, 输入账户 点击登录,查看发送地址是什么,发现手机号是发送的https://www.zhihu.com/login/phone_num,email 则是 https://w
2017-11-22 15:46:42
1274
原创 python初学习+《利用python进行数据分析》 +《机器学习实践》pca
1.数据类型Numbers(数字)String(字符串)“”List(列表)[]Tuple(元组)()tup1 = () # 空元组 tup2 = (20,) # 一个元素,需要在元素后添加逗号Sets(集合){}(空)Dictionaries(字典){空}键值对2.字符串不可以被改变 但是列表可以被改变 元组元素不能被修改 3.切片是前闭后开[1:1]输出为空
2017-11-02 14:35:11
453
原创 h5 使用本地sqlite
一开始知道h5 + chrome 支持sqlite本地数据库,就自己用sqlite3建立了数据库,但是后来发现h5一直连接不到自己建立的数据库,后来才发现,chrom支持的数据库有自己的路径,所以在它自己的路径C:\Users\A\AppData\Local\Google\Chrome\User Data\Default\databases下去建立数据库。最好是在哪个文件夹下创建数据库
2017-10-27 10:55:31
6892
原创 hdfs查看各级目录文件的大小
1.hadoop dfs -du -h 查看各级文件大小 会出现两列数字,第一列为单个文件实际大小,第二列为备份大小。2.hadoop dfs -ls -h也可以查看文件大小 但是当子文件目录过多时 统计的大小为0
2017-10-24 10:26:54
44095
原创 java 小知识1
1.double f = 3.1516;BigDecimal b = new BigDecimal(f);double f1 = b.setScale(2, BigDecimal.ROUND_HALF_UP).doubleValue(); 四舍五入保留两位小数2.string.format("%.6f"),占位符。3.HTML加载顺序总结测试首先,页面加载顺序:解析
2017-10-23 21:46:26
255
原创 PostGres+postGis 初级使用
1.要记住在安装过程中设置的用户名和密码 2.进入PYADMIN 创建数据库 3.打开shell 创建扩展 根据项目的实际需求创建扩展 不创建扩展的话会失败 4.打开shapefile import/export manger 导入文件 就可以在管理界面中看了 之前出错的原因有 没创建扩展
2017-09-09 21:56:48
309
转载 MatLab mapping toolbox的简单使用
MatLab mapping toolbox的简单使用matlab 简直太厉害,又一次膜拜膜拜 小用一下webmap的功能,根据经纬度数,绘制路线代码x=[28.5528 28.5628 28.6528];y=[118.049511 118.249511 118.349511];lat=x;lon=y;wm = webmap('World Street Map');s = geoshape
2017-08-22 11:34:12
6974
3
原创 百度地图API申请问题
1.申请坐标转换API从百度申请申请认证,不需要通过认证也可以用,但是量会少2.从坐标转到地理位置 http://api.map.baidu.com/geocoder/v2/?output=json&ak=7FLjEKVO47iIfvk8CxpaWc8VHUqhtIzR&location=31.654151,119.635109
2017-08-21 15:07:37
579
原创 Spark&hbase
1.字符串转化成date类型要用parse,date转为固定格式的string要用format2.String newStr = oldStr.replaceAll("\"",""); //这个是把所有的 " 都去掉.3.spark本地运行的时候一定要记得setMaster("local")4.用到index的时候先判断一下index值是否存在5.对“2013-12-09-13.
2017-08-18 09:24:53
292
转载 堆和栈的区别
一、预备知识―程序的内存分配一个由c/C++编译的程序占用的内存分为以下几个部分1、栈区(stack)― 由编译器自动分配释放 ,存放函数的参数值,局部变量的值等。其操作方式类似于数据结构中的栈。2、堆区(heap) ― 一般由程序员分配释放, 若程序员不释放,程序结束时可能由OS回收 。注意它与数据结构中的堆是两回事,分配方式倒是类似于链表,呵呵。3、全局区(静态区)(stati
2017-08-10 11:41:34
198
原创 windows 下storm的第一个程序
本文的程序是按照http://www.cnblogs.com/wuxun1997/p/6884378.html里跑的,其中遇见了一些小问题,总结如下:1.报错,说是什么指针为空的错误,当时没有怎么管,第二天来了配了一下storm-config,主要是两个地方if not defined JAVA_HOME ( set JAVA_HOME=C:\Program Files\Java\j
2017-08-04 11:23:53
501
原创 html+php+ajax+mysql留言板 问题总结
1.首页是怎么写 ?如果首页一开始就需要显示后台的数据,那么引用php,访问信息。 $result = $conn->query("select * from mymessage");//执行查询 while($row = mysqli_fetch_assoc($result))//将result结果集中查
2017-06-20 14:16:46
2732
原创 php查询数据库的数据已存在
$.get( "tl.php", {tel:utel}, function (data) { /*alert(data);*/ if(data==2)//因为之前是直接插入数据库 所以是2 但应该是1 { alert("电话号码已存在"); return;
2017-06-16 16:45:17
1429
原创 php-phpMyAdmin 数据库中文乱码问题
用wamp集成环境下的数据库 Php 存储的时候 在phpmyadmin上查看是乱码,但是phpmyadmin自己添加中文的时候 不是乱码 在My.ini里设置可以解决乱码问题但是有个问题 在Mysql文件下charests找不到uft的xml文件 数据库控制台不能正常启动
2017-06-07 15:24:30
1289
原创 常见的关于wamp的问题
1.打开PhpMyAdmin出错把config.文档里的host地址改成localhost而不是127.0.0.12.php链接数据库出错1045在/etc/php.ini修改mysql.default_socket的值设置为:mysql.default_socket=/var/lib/mysql/mysql.sock回到终点设置个连接:ln -s /var/lib/m
2017-06-03 14:16:40
292
原创 post&&get
1.GET 还是 POST?与 POST 相比,GET 更简单也更快,并且在大部分情况下都能用。然而,在以下情况中,请使用 POST 请求:无法使用缓存文件(更新服务器上的文件或数据库)向服务器发送大量数据(POST 没有数据量限制)发送包含未知字符的用户输入时,POST 比 GET 更稳定也更可靠2.获取文件的时候出现乱码将文件另存为 uft-8格式
2017-06-01 18:20:27
226
转载 DIV+CSS第二天 定位
很好的学习网站,总结来源于http://www1.qdfuns.com/1.定位position的属性值是static。position:absolute绝对定位,他默认参照浏览器的左上角,配合TOP、RIGHT、BOTTOM、LEFT(下面简称TRBL)进行定位。绝对定位具有以下属性:(下面的这些属性大家自己证明,对于下面说的“父级”,就是在原有的盒子外面,在套一层宽度和高度
2017-05-09 11:16:08
246
转载 div+css 第一天
因为没有权限修改hosts 所以用的sublime不能下载插件 就又改用了WS1.Table 存储数据,读完后加载 DIV 架构页面结构,即读即加载2.W3C标准不是一个标准,而是一系列标准的集合,包含三部分的标准:结构标准、表现标准和动作标准。与结构标准对应的代表语言是xHTML,与表现标准对应的代表语言是CSS,与动作标准对应的代表语言是JavaScript。
2017-05-08 18:33:21
232
转载 win10 安装wampsever 无法正常启动
1.图标为红色打开服务管理器,发现wampache wampsqld都无法启动用管理员的身份 在命令行输入 netsh winsock reset2.图标为橙色,发现sql可以启动,但apache无法启动,打开控制面板,程序,关闭IIS服务,即可。
2017-05-07 17:08:38
923
原创 界面布局
问题:1.出现布局混乱 比例失调2.qdilog 和qwdget解决:1.是因为栅格布局的先后原因。如果各种布局嵌套的话,请注意格栅布局的先后顺序,至于为什么,暂时未知2.qdilog 大小是位于屏幕中部 而 widget是填充整个屏幕
2017-04-23 16:59:45
305
原创 Qt for Android UI设计
遇见的问题1.UI设计的界面在真机上测试时,没有图片2.整体图片都在左上角 而不是填充整个屏幕3.Qlabel没有事件点击功能,触发需要升级4.图片适应屏幕后,却变形5.在frame上添加其他控件,控件会显示frame的背景图片解决:1.无论是在frame,widget,label上设置,都要设置sheetstyle,如果label的话,还要加上pixmap,并
2017-04-22 23:55:16
2001
Java8 API.chm
2017-09-09
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人