
大数据开发
文章平均质量分 60
我家大宝最可爱
这个作者很懒,什么都没留下…
展开
-
QPS,平均时延和并发数
我们当前有两个服务A和B,想要知道哪个服务的性能更好,该用什么指标来衡量呢?原创 2024-06-10 21:00:39 · 1472 阅读 · 0 评论 -
hive建表基础知识
Hive的数据都是存储在HDFS上的,默认有一个根目录,在。原创 2023-02-10 14:52:03 · 194 阅读 · 0 评论 -
java调用pmml
创建xgboost的模型,训练后保存为pmml文件,这个都没有什么问题的,网上也有很多资源,其实我这个也是抄来的(小声),import pandasfrom xgboost.sklearn import XGBClassifier,XGBRegressorfrom sklearn2pmml import sklearn2pmmlfrom sklearn2pmml.pipeline impo...原创 2019-10-21 15:35:59 · 6571 阅读 · 5 评论 -
pyspark建模流程
首先是启动sparkfrom pyspark.sql import SparkSessionspark = SparkSession.builder.appName("pyspark_example").enableHiveSupport().getOrCreate()然后使用spark读取sql或者csv,查看一下特征的名称data_raw = spark.sql("""select * from t_user""")data_raw.columns然后开始对特征进行处理,第一步就是去除我原创 2020-07-28 22:14:56 · 666 阅读 · 0 评论 -
安装hadoop和spark
scalaspark 可以看到spark要求hadoop版本大于2.7,解压完后添加到环境变量中()hadoop 记得版本要大于2.7winutils 这个是保证hadoop在windows正常运行的依赖,找到与hadoop对应的版本,将bin里面的文件拷贝到hadoop的bin目录里...原创 2019-10-01 17:28:52 · 1007 阅读 · 0 评论 -
raspberry系统烧录与更新
我是啥都没干,就是照着大神的博客做的[折腾向]树莓派3B+安装系统(Raspbian)以及配置环境SSH连接的时候,我没有显示器也不知道路由密码,所以使用了advanced-ip-scanner这个ip扫描工具找到了树莓派的IP。那些说arp -a的,是需要与主机通信过的局域网IP才能被扫描到。安装完之后需要更新一下软件等东西,但是需要直接先为树莓派更换国内镜像源,然后进行update...原创 2018-07-14 23:30:57 · 704 阅读 · 1 评论