- 博客(36)
- 收藏
- 关注
原创 Pandas获取时间列的年、月、日
Pandas获取时间列的年、月、日首先将时间列转化为时间格式# 转化时间df['购买日期'] = pd.to_datetime(df['购买日期'],format='%Y%m%d')2. 单独获取月份列、年份列...
2019-12-02 11:47:34
4601
原创 python正则表达式匹配中文字符
使用[\u4e00-\u9fa5]import retest= '你123kd好'print(re.findall(r'[\u4e00-\u9fa5]',test))
2019-11-10 15:06:52
1041
原创 python中文居中对齐处理
!!!该方法仅能解决某一列全为中文时的对齐!!!未进行中文对齐处理时代码:objects = ['冰淇淋','电热水器','席子']print('{0:^10}'.format('物品')) # ^ 表示居中 10表示长度for object in objects: print('{0:^10}'.format(object))可见,中文并没有对齐进行中文居中对齐需要使...
2019-11-10 11:20:55
3272
原创 Scrapy框架
一、Scrapy框架异步处理框架,可配置和可扩展程度非常高,Python中使用最广泛的爬虫框架二、框架组成1、引擎(Engine) :整个框架核心2、调度器(Scheduler) :接受从引擎发过来的URL,入队列3、下载器(Downloader):下载网页源码,返回给爬虫程序4、项目管道(Item Pipeline) :数据处理5、下载器中间件(Downloader Middlew...
2019-10-22 17:33:34
179
原创 探索COCO数据集
准备库matplotlibpyqt5pyqt5-sipnumpyscikit-imagepycocotools1-5 可以使用pip install XXX 进行安装下载:pycocotools 提取码:g56c解压后放置python的site-packages中准备COCO数据集下载:cocos2014.rar 提取码:mpey解压探索COCO数据集导入库...
2019-10-21 17:27:53
612
原创 stanford句法分析词性表
ROOT:要处理文本的语句IP:简单从句NP:名词短语VP:动词短语PU:断句符,通常是句号、问号、感叹号等标点符号LCP:方位词短语PP:介词短语CP:由‘的’构成的表示修饰性关系的短语DNP:由‘的’构成的表示所属关系的短语ADVP:副词短语ADJP:形容词短语DP:限定词短语QP:量词短语NN:常用名词NR:固有名词NT:时间名词PN:代词VV:动词VC:...
2019-10-19 13:59:09
782
原创 使用stanfordcorenlp进行自然语言处理
下载stanford-corenlp-full-2018-10-05.zip提取码:isygstanford-chinese-corenlp-2018-10-05-models.jar提取码:uaed下载完成后解压stanford-corenlp-full-2018-10-05.zip,并将stanford-chinese-corenlp-2018-10-05-models.jar放...
2019-10-19 13:55:16
1334
原创 StanfordParser中文句法解析案例
需要两个文件stanford-parser.jar提取码:no9qstanford-chinese-corenlp-2018-10-05-models.jar提取码:qbpb使用PCFG模型import jieba, osfrom nltk.parse import stanfordif __name__ == '__main__': string = '今天天气真好!...
2019-10-17 22:01:07
393
原创 pycharm创建python虚拟环境
一、创建新项目配置自定义第三方库进入cmd,进入该文件运行虚拟环境 activate此时,可安装自己想要安装的第三方库以及对应版本,以tensorflow1.15.0为例...
2019-10-17 21:29:35
236
原创 jieba进行文本预处理工作
可以使用jieba进行文本预处理的工作有分词:中文必须进行分词词性标注:将词进行词性标注自定义词典:专业领域的词汇删除停用词,提取关键词准备语料库:中文主流的语料库 1)wiki百科中文语料库 2)搜狗中文语料库2012-6~7一、jieba分词import jiebasent = '中文分词是文本处理不可或缺的一步'seg_list = jieba.cut(sent, ...
2019-10-14 18:41:08
1894
原创 Django简单入门
MTV模式:Model 模型,与数据库交互Template 模板,HTMLViews 视图,用于处理请求,返回响应一、安装Django1.11.8pip install django==1.11.8二、创建Django项目(一)使用cmd创建进入Django项目目录下(或自定义任何目录)django-admin startproject 项目名(二)使用pycharm创建...
2019-10-13 21:17:02
1513
1
原创 python利用tensorflow.keras对Imdb数据集探索(1)--数据分析+预处理
一、Imdb数据集存放了电影的好评和差评二、下载Imdb数据集下载并解压,将aclImdb文件夹放到到与程序共同目录下三、查看文件aclImdb文件夹下存在一个测试数据集和训练数据集train和test文件夹下都有neg和pos文件夹,分别存放12500个消极评价(差评)和12500个积极评价(好评)的文件随机查看某些影评文件,发现存在html代码这提示我们应在加载数据时进行预...
2019-10-10 17:08:52
1609
原创 face_recognition 简单识别人脸案例
案例1import face_recognitionlxt_image = face_recognition.load_image_file("./1.jpg")zxc_image = face_recognition.load_image_file("./3.jpg")# 从已知图像中获取脸部编码特征lxt_face_encoding = face_recognition.face...
2019-10-09 17:09:45
332
原创 梯度下降法、批量(微批)梯度下降法和随机梯度下降法(SGD)的简单比较
梯度下降法通过遍历全部数据集计算一次损失函数,然后计算各个参数的梯度,从而更新梯度缺点:每更新一次就需要遍历全部数据,计算量打,运算速度慢,不支持在线学习随机梯度下降法(SGD)每看一个数据就计算损失函数,然后计算梯度,更新参数优点:速度快缺点:虽然速度快,但收敛性能不太好,可能在最优点附近摆动,无法得出最优点;两次参数的更新也可能相互抵消。批量(微批)梯度下降法小批量的梯度下降,...
2019-09-25 19:07:02
369
1
原创 Drill下配置Hive存储插件
安装好Drill、Hive、Hadoop,且Hive以MySQL作为元数据库启动hive metastore必须先启动hive metastore,否则无法添加存储插件a@DataServer:~$ hive --service metastore配置Hive存储插件1…进入Drill/bin目录下启动Drilla@DataServer:~/softhome/drill116/bin...
2019-09-24 17:11:31
664
原创 Drill下配置Kafka存储插件
先安装好python、kafka、drill配置Kafka存储插件1…进入Drill/bin目录下启动Drilla@DataServer:~/softhome/drill116/bin$ ./drillbit.sh start2.访问网站localhost:80473.进入Storage界面,点击createConfiguration内容为# kafka消费者配置{ "ty...
2019-09-24 16:31:39
289
原创 Drill配置Mongodb存储插件
配置Mongodb存储插件1…进入Drill/bin目录下启动Drilla@DataServer:~/softhome/drill116/bin$ ./drillbit.sh start2.访问网站localhost:80473.进入Storage界面,点击createConfiguration内容为{ "type": "mongo", "connection": "mon...
2019-09-24 16:02:13
540
原创 Drill配置HBase存储插件
配置Mongodb存储插件1…进入Drill/bin目录下启动Drilla@DataServer:~/softhome/drill116/bin$ ./drillbit.sh start2.访问网站localhost:80473.进入Storage界面,点击createConfiguration内容为{ "type": "hbase", "config": { "h...
2019-09-24 09:05:09
587
原创 Drill中配置MySQL
配置MySQL存储插件1.将mysql-connector-java-5.1.47.jar(提取码:w9rp)架包拷贝到drill/jars目录下2.进入Drill/bin目录下启动Drilla@DataServer:~/softhome/drill116/bin$ ./drillbit.sh start3.访问网站localhost:80474.进入Storage界面,点击creat...
2019-09-23 22:08:05
501
原创 Drill配置hdfs存储插件
提前装好Hadoop启动drilla@DataServer:~$ drillbit.sh start# 如果没有配置Path则进入drill/bin下执行./drillbit.sh start打开网站localhost:8047进入Storage配置存储插件hdfs1.启动Hadoop./2.点击CreateConfiguration内容为(注释不添加){ "typ...
2019-09-23 21:22:25
348
原创 Drill界面简单介绍
启动Drill启动a@DataServer:~$ drillbit.sh start访问网站localhost:8047Drill界面介绍Logs存放地址为Drill安装目录下的log文件夹ThreadsMetricsStorage存储插件默认开启cp、dfs两个存储插件查看cp的配置信息点击 cp --> Update 查看配置信息配置信息为:{...
2019-09-23 20:10:59
609
原创 Drill在Ubuntu配置
先安装好hdfs、MySQL、mongo配置Drill下载Drillapache-drill-1.16.0.tar提取码:7gqb解压a@DataServer:~/softhome$ tar -zxf apache-drill-1.16.0.tar.gz重命名,方便之后操作a@DataServer:~/softhome$ mv apache-drill-1.16.0 drill...
2019-09-23 13:10:54
512
原创 hive数据导出到hdfs
users_info 为表名 /u 为hdfs路径 hive> export table users_info to '/u/';
2019-09-21 12:48:23
1635
原创 hdfs数据导入到hive中
1.创建一个文件存放数据,以b.txt为例,文件内容为:1,001,1002,002,2003,003,3002.将文件上传到hdfs# /home/a/b.txt 为 b.txt 的路径# / 为hdfs的存放路径,这里存放到根目录a@DataServer:~$ hdfs dfs -put /home/a/b.txt /3.进入hivea@DataServer:~$ hiv...
2019-09-21 12:37:48
4867
原创 Ubuntu下配置Flume,并结合Kafka、Hadoop进行日志监测
配置Flume1.下载Flumeapache-flume-1.9.0-bin.tar.gz提取码:u2la2.解压a@DataServer:~/softhome$ tar -zxf apache-flume-1.9.0-bin.tar.gz 3.修改文件名为flume194.修改配置文件a@DataServer:~/softhome$ sudo gedit /etc/profil...
2019-09-19 16:34:23
385
原创 Ubuntu下安装配置Zeppelin
1.下载Zeppelinzeppelin-0.8.1-bin-all.tgz提取码:kxhd2.解压文件a@DataServer:~/softhome$ tar -zxf zeppelin-0.8.1-bin-all.tgz3.修改文件名a@DataServer:~/softhome$ mv zeppelin-0.8.1-bin-all zeppelin0814.conf目录下...
2019-09-17 19:59:54
534
原创 Ubuntu下HBase基本操作
请先安装好Zookeeper、Hadoop、HBase启动HBase启动Zookeeper,Zookeeper的bin目录下的zkServer.sh./zkServer.sh start启动Hadoop,Hadoop的bin目录下的start-all.sh ./start-all.sh start启动HBase,HBase的bin目录下的start-hbase.sh ...
2019-09-17 16:37:20
1259
2
原创 Zookeeper和Spark端口冲突
Zookeeper和Spark端口冲突导致http://localhost:8080/ 无法正常打开解决办法 修改Zookeeper端口Zookeeper目录下conf文件下zoo.cfg添加admin.serverPort=9999如果没有该文件,则拷贝一份zoo_sample.cfg并重命名为zoo.cfg添加内容dataDir=/home/a/softhome/zookee...
2019-09-17 12:52:08
453
1
原创 Kafka报错
a@DataServer:~/softhome/kafka_2.12-2.3.0/bin$ ./kafka-topics.sh --list -zookeeper localhost:9092报错[2019-09-17 10:00:16,020] WARN Client session timed out, have not heard from server in 30001ms for ...
2019-09-17 10:10:35
1042
原创 Zookeeper在Ubuntu下安装配置
1.下载Zookeeperapache-zookeeper-3.5.5-bin.tar.gz提取码:y9wm2. 解压Zookeepertar -zxf apache-zookeeper-3.5.5-bin.tar.gz3. zookeeper目录下创建新文件夹 data4. 进入conf目录下将zoo_sample.cfg拷贝副本并更名为 zoo.cfg5. 修改zoo.cf...
2019-09-16 20:09:37
167
原创 HBase简介以及Ubuntu下配置伪分布式HBase
先配置好JAVA,HDFS、ZOOKEEPER配置HBase1.下载HBase,终端下输入wget http://mirrors.tuna.tsinghua.edu.cn/apache/hbase/2.2.0/hbase-2.2.0-bin.tar.gz# 详见9,版本错误使用下面的# wget http://mirrors/tuna.tsinghua.edu.cn/apache/hba...
2019-09-16 15:08:41
727
原创 Ubuntu中将Eclipse添加到收藏夹
a@DataServer:~$ sudo gedit /usr/share/applications/pycharm.desktop写入[Desktop Entry]Name = Eclipse Type = ApplicationExec = /home/a/softhome/eclipse/eclipse # 运行文件Icon = /home/a/softhome/eclips...
2019-09-12 19:51:56
1373
原创 linux下安装Eclipse并配置python
请先提前安装python,才可以在eclipse下配置python安装Eclipse1.下载Eclipseeclipse-jee-2018-09-linux-gtk-x86_64.tar.gz提取码:6g9c2.解压eclipse到自定义目录下a@DataServer:~/softhome$ tar -zxf eclipse-jee-2018-09-linux-gtk-x86_64.t...
2019-09-12 19:34:26
283
原创 linux-ubuntu下Hive的安装与部署(MySQL作为元数据库)
参考文章 https://www.cnblogs.com/thisyan/p/9609497.htmlhive安装部署1.下载hive安装包并放置在合适的位置apache-hive-3.1.2-bin.tar.gz提取码:5hlk2.解压tar -xzf hive-x.y.z.tar.gz3.修改解压的文件名为hive(主要是因为名字太长了)4.修改PATH路径sudo ged...
2019-09-10 19:41:28
405
1
原创 sklearn降维算法:PCA、LDA、MDS、流形学习Isomap
一、PCA降维(主成分分析)PCA是最常用的无监督降维算法其原理是寻找方差最大维度,只是最大化类间样本的方差例如,已知存在数据点如下图PCA算法寻找方差最大维度PCA案例:iris降维%matplotlib inlineimport matplotlib.pyplot as pltfrom sklearn import decompositionfrom sklearn im...
2019-09-09 22:20:14
7761
1
原创 Kafka简单介绍以及在linux下配置Kafka
Kafka简单介绍以及在linux下配置KafkaKafka简介新的改变功能快捷键合理的创建标题,有助于目录的生成如何改变文本的样式插入链接与图片如何插入一段漂亮的代码片生成一个适合你的列表创建一个表格设定内容居中、居左、居右SmartyPants创建一个自定义列表如何创建一个注脚注释也是必不可少的KaTeX数学公式新的甘特图功能,丰富你的文章UML 图表FLowchart流程图导出与导入导出导入...
2019-09-09 20:20:48
284
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人