- 博客(99)
- 收藏
- 关注
原创 A/B测试
A/B测试A/B测试是促进业务持续增长的最实用,最有效的方式产生迭代想法->论证迭代想法(A/B测试)->实施迭代想法A/B测试可以解决那些常见的业务问题:产品迭代:改变用户的交互界面来提升用户体验,优化新用户的注册流程来提高转化率,确定产品优惠券的最有价值,增加产品功能来提升用户留存算法优化:通过提高推荐系统算法的准确度来提高用户粘性,通过提高搜索排名算法的准确度来提升结果的点击率,通过提高广告显示算法的精确度来提升广告的点击率市场营销:确定最优的营销内容,确定最优的营销时
2021-02-19 15:31:21
696
原创 python链接kafka
python链接kafka,向本地写入数据这是一个简单的demo,学习kafka的一小步,同理可用到向数据库的数据读写,还有数据分析伪流式数据读取,用生产者来读取指定位置的数据,消费者进行数据的处理from kafka import KafkaProducer,KafkaConsumerimport jsonimport datetimeimport time# 生产者 存储json数据producer = KafkaProducer( value_seria
2021-01-25 18:05:36
349
原创 数据分析:数据量级不平衡的数据进行处理
对于不平衡数据(事件)的balance处理对小概率事件进行预测(判断)的时候,一定要对数据做balance处理,不然会使得模型天然的倾向于大概率的结果。处理方式:1.上采样少数类别:上采样是从少数类别中随机扶着观测样本以增强其信号的过程,最常见的集中试探法是使用简单的放回抽样的方式重采样,从sklearn中导入重采样模块 这种处理方式会导致准确率急转而下,但是性能指标更有意义2.下采样多数类别:下采样包括从多数类别中随机的一处观测样本,防止他的信息主导学习算法,其中最常见...
2020-12-17 15:42:03
1440
原创 python操作clickhouse 删除指定数据
python操作clickhouse删除指定数据def info_del2(i): client = click_client(host='地址', port=端口, user='用户名', password='密码', database='数据库') sql_detail='alter table SS_GOODS_ORDER_ALL delete where order_id='+str(i)+';' try:
2020-12-17 11:01:52
1219
原创 linux复制文件至本地
命令如下:scp 服务器用户名@ip地址:文件绝对路径__本地文件绝对路径这里的__横线指的是空格有一个坑。。。在你执行这条命令时,必须是在本地的一个终端执行的,而不是在已经登陆的服务器终端执行的,之前在服务器执行这条命令,一直提示找不到对应路径。。。找到原因后差点笑死,因为在服务器执行就代表了把服务器的文件下载到服务器,因为这里的本地指的是登录的终端的地址...
2020-10-14 16:24:09
2030
原创 python 数组内字符串转数字
row='1,2,3.0,nan'#字符串转数组,并去除特殊符号,去掉.0转为格式上的整数list(row.replace('nan','0').replace('.0','').split(','))['1', '2', '3','0']#将格式上的整数,转换为类型上的整数list(map(int,list(row.replace('nan','0').replace('.0','').split(',')) ))[1, 2, 3]方法:list(map(int,st.
2020-09-24 15:07:20
5016
原创 python上传文件至指定服务器
import paramiko#创建ssh对象ssh = paramiko.SSHClient()#ssh.load_host_keys("C:/Users/Administrator/.ssh/known_hosts")#允许连接不在know_hosts文件的主机上ssh.set_missing_host_key_policy(paramiko.AutoAddPolicy())filename = ['artist_followby_user.tsv','artist.tsv','acti.
2020-09-21 14:46:54
5074
2
原创 pandas展示所有列
pandas在进行数据展示时,优势因为列数过多,会将中间的列压缩为省略号。添加语句:pd.set_option('display.max_columns', None)可以展示所有数据
2020-09-21 14:44:00
1673
原创 python X[;,0],X[:,1:]的含义
X=result[:,1:]表示:x是result中取下标(字段下标)从1到全部的数据列X[:,0]表示;xx是result中取下标(字段下标)为0的数据列
2020-09-02 18:31:15
1199
原创 多项式贝叶斯分类算法
# 中文文本分类import osimport jiebaimport warningsfrom sklearn.feature_extraction.text import TfidfVectorizerfrom sklearn.naive_bayes import MultinomialNBfrom sklearn import metricswarnings.filterwarnings('ignore')def cut_words(file_path): """ .
2020-09-02 18:09:21
676
原创 python操作es进行数据的查找,删除
python操作ES的基础都依赖于python的from elasticsearch import Elasticsearch 包from elasticsearch import Elasticsearchimport jsonimport pandas as pdimport rees = Elasticsearch(hosts="xxxxx", port=xxxx)if __name__ == '__main__': query = {'query': {'matc
2020-08-19 11:37:24
1421
原创 使用pandas计算分组前十名并排序
result.loc[:,'count_sub']=result['last_week_count']-result['llast_week_count'] print(result.head()) result.sort_values(['artist_third_id','count_sub'],ascending=False,inplace=True) #按照评论增长数排序 result=result.groupby('artist_third_id').head(1...
2020-08-10 14:38:32
7205
原创 python数据处理/包含字典的数组
从mongo提取数据的时候,遇到了一类让人有点头疼的数据,数据类型是一个数组,数组内包含的是字典,大致如下:在处理的过程中想了半天办法,也学了不少东西:先说说怎么处理这类数据,再来说我中间用到的几种新的方法,虽然没有起到特别大的作用,但是学到了不少新东西。解决办法算是用了比较暴力的方法:使用mongo的aggregate方法筛选数据,这里的col是我已经创建好了的一个指定mongo的表pipline = [ {'$match': {"$and": [{"crawl_time":
2020-08-04 10:38:57
2858
1
原创 python 链接ES(elasticsearch)
python链接ES进行数据操作首先需要安装ES相关的python包pip install elasticsearch安装完成后开始进行链接操作:代码如下:from elasticsearch import Elasticsearch# es = Elasticsearch() # 默认连接本地elasticsearch# es = Elasticsearch(['xxx.xx.xx.xx:9200']) # 连接指定9200端口es = Elasticsearch.
2020-07-23 10:25:25
4027
1
原创 python 执行定时脚本
from apscheduler.schedulers.background import BackgroundSchedulerimport osimport timeimport datetimedef task_list_info(): """ :return: """ # 你的脚本存储位置 os.system('python /home/...........')if __name__ == "__main__": sch...
2020-07-17 18:18:39
1278
原创 基于密钥登录的sftp数据传输python脚本
# daily_learn_note#### 介绍日常学习总结####sftp使用密钥进行文件传输import datetimeimport paramiko# 该包需要安装my_key = paramiko.RSAKey.from_private_key_file('密钥存储位置')transport = paramiko.Transport(('地址',端口号))transport.connect(username='账户名',pkey=my_key)s...
2020-06-11 10:45:42
1067
原创 mysql特殊语法
#增加自增长主键alter table table_name add COLUMN id bigint not NULL primary key auto_increment;#去表内的空格和换行符号UPDATE table_nameSET id_type = REPLACE(REPLACE(id_type,char(10), ''), char(13), '');#去...
2019-11-26 18:22:08
367
原创 使用python发送邮件
import smtplibfrom email.mime.text import MIMETextfrom email.header import Header# 发件人邮箱账号sender = '发件人'# 收件人 可多人receiver = ['收件人']ccreceiver = ['抄送者']# 标题subject = '标题'smtpserver = ...
2019-11-26 18:06:38
291
原创 Tableau Reader与Tableau的文件互相打开问题
使用Tableau创建的文件,为了让其他人也能够看到但是不能够修改数据,为了达到这一目的可以让阅读者使用Tableau Reader来阅读文件,但是有一个前提,当我们使用Tableau创建好了文件之后,要先进入工作簿或者进入仪表盘(具体看你使用哪个)将我们使用的所有的数据源的数据提取一次,点击上方的数据选项,选择使用到的数据库,右键选择提取数据,然后保存,对所有的你是用的数据源都要这样操作一次,然...
2019-07-26 16:56:32
1975
原创 Tableau的安装与下载
http://www.ddooo.com/softdown/138984.htm这里是Tableau的安装与下网载站,按照步骤来就可以了,很简单的过程
2019-07-08 10:07:34
11029
2
原创 hive中的权限管理
角色的创建与删除:Create role role_name;角色删除:drop role role_name角色的授权与撤销:将角色role_test授权给X:Grant role role_test to user X;取消用户X的授权:Revoke role role_test from user X;授权用户某种权限Grant select...
2018-12-10 17:02:02
823
原创 hive基础
非关系型数据库语言,语言逻辑与MySQL大致相似,但是要求能够更加严格一点。hive> ALTER TABLE student1 ADD COLUMNS > (address STRING,grade STRING);在添加属性的时候,需要添加columns关键字(列)•ROW FORMAT DELIMITED 行格式分隔如果文件数据是纯文本,...
2018-12-10 17:01:24
144
原创 有关hive中UDF函数
用户自定义函数udf:Hive支持的udf用户自定义函数有三种:udf函数可以直接作用于select语句,对查询结构做格式化处理之后,在输出内容用户自定义函数 UDFUDF(User Defined Function,用户自定义函数) 对数据进行处理。UDF 函数可以直接应用于 select 语句,对查询结构做格式化处理后,再输出内容。Hive可以允许用户编写自己定义的函数UD...
2018-12-10 16:59:12
712
原创 hive基础知识
进公司实习,第一个任务就是自学hive。。。。知识点总结帮助自己学习Hive -语法:非关系型数据库语言,语言逻辑与MySQL大致相似,但是要求能够更加严格一点。hive> ALTER TABLE student1 ADD COLUMNS > (address STRING,grade STRING);在添加属性的时候,需要添加columns关键字(列...
2018-11-29 21:11:43
556
原创 Java项目之多线程聊天室(客户端以及服务端)
package com.company;import java.io.IOException;import java.io.PrintStream;import java.net.ServerSocket;import java.net.Socket;import java.sql.SQLOutput;import java.util.Map;import java.util.Sc...
2018-09-01 13:22:59
2355
原创 用Java实现快速排序
package FirstDay;public class QuickSort { public static void Sort(Integer[]array,int left,int right){ if(left>right) {//递归退出条件 return; } int tmp=array[left];...
2018-08-28 10:37:49
149
原创 HashMap的迭代输出
import java.util.HashMap;import java.util.Iterator;import java.util.Map;import java.util.Set;public class test { public static void main(String[] args) { Map<Integer, String>map...
2018-08-28 10:29:24
914
原创 Java集合类
java类集(JDK1.2,java.util包): lang包:语言有关的所有包,io包:输入输出包,传统IO,util包:java类集本质:动态对象数组核心接口:Collection:针对单个对象的处理public interface Collection 《E》 extends Iterable<E>public interface Iterable<T&g...
2018-08-26 23:29:56
183
原创 TCP协议与UDP协议的区别
TCP协议与UDP协议的区别TCP面向字节流,UDP面向数据报TCP协议较为复杂,UDP协议较为简单TCP是可靠连接,UDP不可靠TCP经常用于可靠传输的情况,重要状态更新等场景UDP用于对高速传输和实时性要求较高的通信领域,视频传输等,UDP可用于广播TCP的可靠性体现于:1.确认应答机制(三次握手,四次挥手)2.数据的按序到达3.超时重传4.去重 (1到4的保...
2018-08-22 17:17:21
262
原创 简单的数据库指令及操作
进入数据库:mysql -u root -pmysql服务的启动与关闭:在root权限下: 启动 service mysqld start 关闭 service mysqld start1.create database xxx;创建数据库2.show database;显示数据库3.use xxx;使用xxx库4.show tables;显示当前库中的表5....
2018-08-14 18:14:37
1004
原创 基于反射实现的动态代理设计模式
package FanShe_Factory;import java.lang.reflect.InvocationHandler;import java.lang.reflect.Method;import java.lang.reflect.Proxy;interface ISubject2{//核心操作接口 public void eat(String foodname...
2018-08-10 11:29:54
238
原创 基于反射实现的工厂设计模式
package FanShe_Factory;interface IFruit{ public void eat();}class Apple implements IFruit{ @Override public void eat() { System.out.println("吃苹果之前要洗一洗"); }}class Orange im...
2018-08-10 11:18:07
280
原创 总结反射与单级VO操作
public class Emp { private String name; private String job; public String getName() { return name; } public void setName(String name) { this.name = name; } ...
2018-08-10 11:12:28
211
原创 类加载器的作用范围和双亲委派模型
JVM定义把类加载阶段中的通过类的全名称,取得此类的“二进制字节流”这种操作的实现的代码模块叫做类加载器public ClassLoader getClassLoader();取得当前类加载器类加载器分为四种,按照从顶层到底层的顺序为:Bootstrap:启动类加载器、ExClassLoader:扩展类加载器、AppClassLoader:应用程序类加载器、自定义类加载器Bootstr...
2018-08-10 11:08:37
492
原创 java 回文数的判断
package FirstDay;import java.util.Iterator;class Judge{ public boolean judegNumber(int n) { String str=String.valueOf(n);//将整数数组转换为字符串 int len=str.length(); int pre=0;...
2018-08-10 10:32:08
2710
原创 打印流与输出流
掌握打印流以及Scanner类的常用方法,使用打印流和Scanner优化之前的FileInputStream与FileOutputStream操作。要求:在桌面上新建一个Test.txt,使用打印流向文件中输出如下: Hello 123 hello bit 然后使用Scanner类读取文件内容并输入到控制台。 package bite.IO;import java.io.File...
2018-08-10 09:56:42
4027
原创 序列化与反序列化文件内容的读写
复习序列化与反序列化的概念,要求自定义Person类,其中三个属性name,age,school. age属性不作为序列化保存而其他两个属性使用序列化保存在本地文件TestSer.txt中。 使用序列化和反序列化的方式将自定义类序列化与反序列化操作。 package bite.IO;import java.io.File;import java.io.FileInputStream;...
2018-08-10 09:53:22
4629
原创 掌握打印流以及Scanner类的常用方法,使用打印流和Scanner优化之前的FileInputStream与FileOutputStream操作。要求:在桌面上新建一个Test.txt,使用打印流向
package bite.IO;import java.io.File;import java.io.FileInputStream;import java.io.FileOutputStream;import java.io.InputStream;import java.io.OutputStream;import java.io.PrintWriter;public cl...
2018-08-09 18:23:03
560
原创 java知识点总结IO
IO的操作部分重点掌握两个代码模型,IO的核心组成是5个类(File、OutputStream、InputStream、Reader、Writer)一个接口(Serializable)File文件操作类:java.io.File是一个普通类,直接产生实例化对象即可。如果要实例化对象则需要用到两个构造方法:public File(String pathname);public Fil...
2018-08-09 13:11:51
168
原创 直接插入排序
直接插入排序的思路为:默认数组的第一位有序,将有序序列扩展。在扩展的过程中,从有序序列的下一位往前遍历。当插入第i(i>1)个元素时,前面的array[0],array[1]。。。。。array[i-1]已经排好序,此时用array[i]的排序码与array[i-1],array[i-2]...的排序码顺序进行比较,找到插入位置即将array[i]插入,原来的位置上的元素顺序后移。...
2018-08-06 15:36:35
111
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人