- 博客(76)
- 收藏
- 关注
原创 常见的算法
//冒泡排序import java.util.Arrays;public class BubbleSort { public static void main(String[] args) { int arr[]={3,9,-1,10,-2};// int arr[]={-2,-1,3,9,10}; //第一趟排序,就是将最大的...
2019-11-19 21:23:06
510
原创 hadoop之MapReduce的MapJoin
MapjoinMapper:import org.apache.commons.io.IOUtils;import org.apache.hadoop.conf.Configuration;import org.apache.hadoop.filecache.DistributedCache;import org.apache.hadoop.fs.FSDataInputStream...
2019-08-05 20:36:46
245
原创 hadoop之MapReduce的ReduceJoin
ReduceJoinMapper:import org.apache.hadoop.io.LongWritable;import org.apache.hadoop.io.Text;import org.apache.hadoop.mapreduce.InputSplit;import org.apache.hadoop.mapreduce.Mapper;import org.apach...
2019-08-05 20:31:14
227
原创 hadoop之MapReduce上网流量统计(3)
需求三:手机号码分区FlowBean:import org.apache.hadoop.io.Writable;import java.io.DataInput;import java.io.DataOutput;import java.io.IOException;/** * 这里暂时不需要做排序,所以直接实现writable接口就可以了 */public class ...
2019-08-05 20:22:55
248
原创 hadoop之MapReduce上网流量统计(2)
需求二:上行流量倒序排序(递减排序)FlowBeanSort :import org.apache.hadoop.io.WritableComparable;import java.io.DataInput;import java.io.DataOutput;import java.io.IOException;public class FlowBeanSort impleme...
2019-08-04 23:40:08
242
原创 hadoop之MapReduce上网流量统计(1)
需求一:统计求和统计每个手机号的上行流量总和,下行流量总和,上行总流量之和,下行总流量之和FlowBean:import org.apache.hadoop.io.Writable;import java.io.DataInput;import java.io.DataOutput;import java.io.IOException;/** * 这里暂时不需要做排序,...
2019-08-04 23:30:35
597
原创 大数据之mapreduce的排序和规约
SortMapper:import org.apache.hadoop.io.LongWritable;import org.apache.hadoop.io.Text;import org.apache.hadoop.mapreduce.Counter;import org.apache.hadoop.mapreduce.Mapper;import java.io.IOExcept...
2019-08-04 23:18:08
370
原创 大数据之mapreduce的数据分区
PartitionerMapper:import org.apache.hadoop.io.LongWritable;import org.apache.hadoop.io.NullWritable;import org.apache.hadoop.io.Text;import org.apache.hadoop.mapreduce.Mapper;import java.io.IO...
2019-08-04 22:48:57
481
原创 大数据之mapreduce的wordcount
WordCountMapper:import org.apache.hadoop.io.IntWritable;import org.apache.hadoop.io.LongWritable;import org.apache.hadoop.io.Text;import org.apache.hadoop.mapreduce.Mapper;import java.io.IOExc...
2019-08-04 22:26:35
198
原创 大数据之hdfs文件操作
package hdfs.demo1;import org.apache.commons.io.IOUtils;import org.apache.hadoop.conf.Configuration;import org.apache.hadoop.fs.*;import org.testng.annotations.Test;import java.io.*;import ja...
2019-08-02 15:04:00
231
原创 爬虫之静态网页
import requestsfrom lxml import etreefrom urllib import requestimport collectionsimport timeimport osimport randomimport datetimeimport pandas as pddef getUA(): user_agent_list = [ \ ...
2019-04-07 20:30:24
961
原创 爬虫之selenium
from selenium import webdriverfrom lxml import etreeimport reimport timefrom selenium.webdriver.support.ui import WebDriverWaitfrom selenium.webdriver.support import expected_conditions as ECfr...
2019-03-04 21:24:56
169
原创 多线程
单线程的方式import timedef coding(): for x in range(3): print("正在写代码%s"%x) time.sleep(1) def drawing(): for x in range(3): print("正在画图%s"%x) time.sleep(1...
2019-02-26 20:54:40
128
原创 csv文件进行操作
import csvheaders = ["username", "age", "height"]#values = [# ("张三", 18, 180),# ("李四", 19, 190),# ("王五", 20, 160)# ]##with open("classroom.csv", &qu
2019-02-25 23:28:05
410
原创 爬虫之中国天气网
import requestsfrom bs4 import BeautifulSoupfrom pyecharts import BarALL_DATA = []headers = { "User-Agent": "Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko...
2019-02-24 23:23:47
881
原创 电影天堂爬虫
from lxml import etreeimport requestsBASE_DOMIN = "http://dytt8.net"url = "http://dytt8.net/html/gndy/dyzz/list_23_1.html"headers = { 'User-Agent': 'Mozilla/5.0 (Windows NT 6.1; WOW64) ...
2019-02-19 23:39:36
4368
原创 case when end
select * from employees select distinct name,age,case when address like '%广州%' then '广州中山大' when address like '%朝阳%' then '朝阳区' end as addrefrom employees
2019-02-18 22:04:11
341
原创 豆瓣爬虫
import requestsfrom lxml import etreeheaders = { 'User-Agent': 'Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/72.0.3626.96 Safari/537.36', 'Host'...
2019-02-17 23:51:11
252
原创 lxml的使用
from lxml import etreetext = ''' <div> <ul> <li class="item-1"><a>first item</a></li> <li class="item-1"><a hr
2019-02-05 17:37:10
217
原创 Dataframe之join,merge的使用
In [1]: import pandas as pdIn [2]: import numpy as npIn [3]: df1 = pd.DataFrame(np.ones((2,4)),columns=list("abcd"), index=list("AB"))In [4]: df1Out[4]: a b c dA 1.0 1.0 1...
2019-01-27 00:32:58
5185
原创 json的str类型和python类型的转换
parse_url.py# coding=utf-8import requestsfrom retrying import retryheaders={"User-Agent":"Mozilla/5.0 (Macintosh; Intel Mac OS X 10_13_2) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/63.0.3239...
2019-01-23 23:53:04
629
原创 装饰器用在爬虫即retrying模块的安装
import requestsfrom retrying import retryheaders={"User-Agent":"Mozilla/5.0 (Macintosh; Intel Mac OS X 10_13_2) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/63.0.3239.84 Safari/537.36"}@retry(st...
2019-01-22 23:16:24
349
原创 爬虫实现百度翻译
import requestsimport jsonimport sysquery_string = sys.argv[1]headers = {"User-Agent": "Mozilla/5.0 (iPhone; CPU iPhone OS 11_0 like Mac OS X) AppleWebKit/604.1.38 (KHTML, like Gecko) Version/11....
2019-01-20 16:09:39
1799
原创 实现任意贴吧的爬虫,保存网页到本地
# coding=utf-8import requestsclass TiebaSpider: def __init__(self, tieba_name): self.tieba_name = tieba_name self.url_temp = "https://tieba.baidu.com/f?kw="+tieba_name+"&pn=...
2019-01-20 13:27:02
927
原创 代参数的url发送请求
import requestsheaders = {"User-Agent": "Mozilla/5.0 (X11; Linux x86_64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/71.0.3578.98 Safari/537.36"}url = "https://www.baidu.com/s?"p = {"wd":"csdn"}...
2019-01-20 09:44:13
374
原创 response.text和response.content
In [1]: import requests In [2]: response = requests.get("http://www.baidu.com") In [3]: response ...
2019-01-19 20:58:55
793
原创 pyhon基础知识
查看python的版本pc@pc-HP-ProDesk-680-G3-PCI-MT:~$ pip3 --versionpip 9.0.1 from /usr/lib/python3/dist-packages (python 3.6)
2019-01-19 20:17:21
149
原创 str bytes如何转换
str 使用encode方法转换为bytes(爬虫的得到的响应以二进制的方式传送)In [9]: a = "你好" In [10]: type(a) ...
2019-01-19 15:24:22
865
原创 NLP之tfidf作词向量
from sklearn.feature_extraction.text import TfidfVectorizerdef cutword(): con1 = jieba.cut("今天很残酷,明天更残酷,后天很美好,但绝对大部分是死在明天晚上,所以每个人不要放弃今天。") con2 = jieba.cut("我们看到的从很远星系来的光是在几百万年之前发出的,这样当我们看到...
2019-01-14 16:25:59
3520
1
原创 NLP之词频作向量
def cutword(): con1 = jieba.cut("今天很残酷,明天更残酷,后天很美好,但绝对大部分是死在明天晚上,所以每个人不要放弃今天。") con2 = jieba.cut("我们看到的从很远星系来的光是在几百万年之前发出的,这样当我们看到宇宙时,我们是在看它的过去。") con3 = jieba.cut("如果只用一种方式了解某样事物,你就不会真...
2019-01-14 15:48:44
1193
原创 NLP之jieba分词
from sklearn.feature_extraction.text import CountVectorizer# 实例化CountVectorizervector = CountVectorizer()# 调用fit_transform输入并转换数据res = vector.fit_transform(["life is is short, i like python", "li...
2019-01-14 15:31:28
192
原创 python下之numpy操作
# coding=utf-8import numpy as npimport randomt1 = np.array([1, 2, 3, ])print(t1)print(type(t1))t2 = np.array(range(10))print(t2)print(type(t2))t3 = np.arange(4, 10, 2)print(t3)print(type...
2019-01-12 21:29:43
172
原创 python下的os
import osos.getcwd() 表示当前的路径'/home/shnu/demo/NLP/第九章'os.sep 表示/'/'c_root = os.getcwd() + os.sep + "source_data" + os.sep'/home/shnu/demo/NLP/第九章/source_data/'os.listdir(c_root) 把当前文件下的所...
2019-01-03 21:56:38
334
原创 XGBoost的参数使用说明
直接调用XGBoost–import xgboost as xgb与scikit-learn一起使用– from xgboost import XGBClassifier其使用的步骤: • 1. 构造学习器实例 – 模型参数在构造时传递 • 2. 模型训练:fit/GridSearchCV • 3. 预测• xgboost.XGBC...
2018-12-24 16:50:16
3286
原创 机器学习训练的评价指标
线性回归的评价指标:RMSEMAER2_score R2_score越大越好,比如完全拟合,预测值和真实值一样,其残差就为0,则R的平方就为1。 Logistic 回归log_lossneg_logloss越大越好。 ...
2018-12-22 10:38:29
957
原创 决策树
决策树:从根节点开始一步步走到叶子节点(决策),既可以做分类也可以做回归。树有以下几部分组成:根节点:第一个选择点非叶子节点与分支:中间过程叶子节点:最终的决策结果决策树特征的切分通过一种衡量标准,来计算通过不同特征进行分支选择后的分类情况,找出来最好的那个当成根节点。衡量标准-熵熵:熵是表示随机变量不确定性的度量(解释:说白了就是物体内部的混乱程度,比如杂...
2018-12-19 16:49:47
424
原创 关于 python下的路径
import osc_root=os.getcwd()+os.sep+"source_data"+os.sepc_root'/home/shnu/demo/NLP/第九章/source_data/'os.getcwd() 获取当前的路径'/home/shnu/demo/NLP/第九章'os.sep'/' ...
2018-12-12 14:24:01
210
原创 NLP之常见关键词提取算法运用
1.TextRank# -*- coding=utf8 -*-from jieba import analyse# 引入TextRank关键词抽取接口textrank = analyse.textrank #原始文本text = "央视网消息:全球首个以进口为主题的国家级博览会——中国国际进口博览会,11月5日将在上海举办,来自130多个国家和地区的2800多家企业、国内外超过15万...
2018-12-01 15:08:31
3524
原创 NLP调试常见的错误
import jieba.posseg as psgseg_list = psg.cut(sentence)print(" ".join(seg_list))TypeError: sequence item 0: expected str instance, pair found解决办法:词性分词的时候不能用join方法,要分别要将其词和词性分别取出,才能从生成器里面看到结果i...
2018-12-01 14:43:22
644
1
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人