Johnny_sc-优快云博客

原创【MPP数据库Doris】docker容器编译doris数据库 sh build.sh指令报Fatal错误

关联doris镜像和本地doris源码的启动方式docker run -it -v /Users/shenshoucheng/incubator-doris:/root/incubator-doris apachedoris/doris-dev:build-env-1.3把镜像apachedoris/doris-dev:build-env-1.3启动成container：d94653522be2在容器d94653522be2里运行脚本:sh build.sh[20:35:35] [~/incubato

2021-04-27 21:29:50 607

转载【Java基础】深克隆浅克隆

浅谈Java中的深克隆和浅克隆、深克隆和浅克隆的区别和实现方式？克隆（复制）在Java中是一种常见的操作，目的是快速获取一个对象副本。克隆分为深克隆和浅克隆。浅克隆：创建一个新对象，新对象的属性和原来对象完全相同，对于非基本类型属性，仍指向原有属性所指向的对象的内存地址。深克隆：创建一个新对象，属性中引用的其他对象也会被克隆，不再指向原有对象地址。总之，深浅克隆都会在堆中新分配一块区域，区别在于对象属性引用的对象是否需要进行克隆（递归性的）。Show you my picture#pos:当前对

2020-12-08 10:45:18 351

原创【Java基础】Serializable接口

Serializable的百度解释：Serializable接口是启用其序列化功能的接口。实现java.io.Serializable 接口的类是可序列化的。没有实现此接口的类将不能使它们的任意状态被序列化或逆序列化。个人理解：序列化的过程，就是一个“freeze”的过程，它将一个对象freeze（冷冻）住，然后进行存储，等到再次需要的时候，再将这个对象de-freeze就可以立即使用。我们以为的没有进行序列化，其实是在声明的各个不同变量的时候，由具体的数据类型帮助我们实现了序列化操作。如果有人

2020-12-08 10:32:58 358

原创【LeetCode】链表

【回文链表】反转后半段，依次比较解题思路快慢指针二分链表通过fast是否为空，判断链表节点数量是奇数还是偶数,并找到中心点让slow指向后半段的初始节点，反转后半段链表，fast指向头结点依次循环比较class Solution { public boolean isPalindrome(ListNode head) { ListNode fast, slow; slow = fast = head; //通过快慢指针二分链表，并且找到中点 whil

2020-12-02 19:10:52 207

原创【Java多线程】三种创建线程的方式及Runnable与Callable的比较

创建线程的三种方法1. 继承Thread类步骤：(1)定义一个类继承Thread类，并重写Thread类的run()方法，run()方法的方法体就是线程要完成的任务，因此把run()称为线程的执行体；(2)创建该类的实例对象，即创建了线程对象；(3)调用线程对象的start()方法来启动线程；public class ThreadDemo { public static void main(String[] args){ Thread t = new myThread()

2020-12-01 18:46:25 280

原创【python解决SQLAlchemy+MySQL插入数据时报警告Warning: (1366, “Incorrect string value: ‘\\xD6\\xD0\\xB9\\xFA\\xB】

python解决SQLAlchemy+MySQL插入数据时报警告Warning: (1366, "Incorrect string value: ‘\xD6\xD0\xB9\xFA\xB1\xEA…’ for column 'VARIABLE_VA…1.工具环境Pycharm2020.1python3.6Anaconda3mysql8sqlalchemy1.3.192.问题描述在插入数据的时候抛出以下异常：Warning: (1366, "Incorrect string value: ‘

2020-08-24 17:28:16 995

原创【企业级推荐系统实践】Scrapy爬虫爬取新浪数据

实现目标：1. 通过scrapy框架爬取新浪五个分类主页的数据信息2. 并实现持久化存储进mysql数据库主要技术路线：scrapy，selenium，webdriver,datetime,re，python的orm框架sqlalchemy一、爬虫框架scrapycmd命令行创建scrapy爬虫项目：scrapy startproject sina sina.comcd进入 sina文件夹创建爬虫spider：scrapy genspider sina1二、编写spider单个s

2020-08-21 22:19:56 564

原创【Python爬虫学习】股票基金数据定向爬虫

功能描述目标：获取上交所和深交所所有股票的名称和交易信息输出：保存到文件中技术路线：requests bs4 re候选数据网站的选择选取原则：股票信息静态存在于HTML页面中，非js代码生成，没有Robots协议限制选取方法：浏览器F12，源代码查看等选取心态：不要纠结于某个网站，多找信息源尝试程序的结构设计步骤1：从东方财富网获取股票列表（2020年也改存在js了）我们这里选取其他网页（天天基金网）步骤2：根据股票列表逐个获取个股信息

2020-07-25 01:41:53 685

原创【Python爬虫学习】中国大学排名网页爬虫实战

功能描述：定向爬取中国大学排名网页的排名信息，包括学校名称，学校排名，所在省市技术路线：requests——bs4(BeautifulSoup)核心操作：1.熬制一锅汤soup = BeautifulSoup(html,“html.parser”)2. soup.find(‘tbody’).children：在html页面中发现大学排名信息都存在：tbody标签下的名为’td’的tr标签中。找出包含所有tbody下的tr标签3. 用isinstance()判断类型：tr标签有的是Tag类

2020-07-23 01:09:25 295

原创【Python爬虫学习】淘宝商品比价爬虫实战

功能描述目标：获取淘宝搜索页面的信息，提取其中的商品名称和价格。理解：淘宝的搜索接口翻页的处理技术路线：requests re程序的结构设计步骤1：提交商品搜索请求，循环获取页面步骤2：对于每个页面，提取商品名称和价格信息步骤3：将信息输出到屏幕上爬取时需要模拟淘宝登录信息#cookie的获取方法：打开淘宝商品页面，登录你的淘宝账号——F12进入浏览器的开发者调试工具，点击Network，重新刷新页面——选择最上面的search?initiative_id=…的

2020-07-23 00:47:22 1281

原创【正则表达式】操作符_方法_match对象及其属性_贪婪匹配和最小匹配方法

作用：用简洁的符号表示一组字符串正则表达式（Regular Expression 或 Regex），是用于定义某种特定搜索模式的字符组合。正则表达式可用于匹配、查找和替换文本中的字符，进行输入数据的验证，查找英文单词的拼写错误等。用法：1.常用操作符实例：匹配Ip地址的正则表达式在代码中是怎样编译运行的呢？IDE中的写法2.正则表达式的表示类型在使用正则表达式时，最好使用raw string，方法是在字符串前加一个r因为出现转义字符斜杆 \ 时，string类型就需要多

2020-07-22 12:58:17 580

转载【斜杠/和反斜杠\ 的区别】

背景：Unix使用斜杆/ 作为路径分隔符，而web应用最新使用在Unix系统上面，所以目前所有的网络地址都采用斜杆/ 作为分隔符。Windows由于使用斜杆/ 作为DOS命令提示符的参数标志了，为了不混淆，所以采用反斜杠\ 作为路径分隔符。所以目前windows系统上的文件浏览器都是用反斜杠\ 作为路径分隔符。随着发展，DOS系统已经被淘汰了，命令提示符也用的很少，斜杆和反斜杠在大多数情况下可以互换，没有影响。知道这个背景后，可以总结一下结论：（1）浏览器地址栏网址使用斜杆/ ;（2

2020-07-22 00:51:42 227

原创【Python爬虫学习】中国大学排名定向实战

一、基本架构用到的库：requests、bs4(BeautifulSoup)1.定向爬取中国大学排名网的网页信息requests定向爬取网页信息import bs4import requestsfrom bs4 import BeautifulSoupdef getHTMLTEXT(url): """通过最好大学排名网站url获得网页Html信息""" try: r = requests.get(url) r.raise_for_status(

2020-07-21 13:23:14 319

原创【科技文献检索】CNKI中国知网检索

进入高级检索界面搜索框右侧高级检索按钮作者姓名建议精确匹配，工作单位建议模糊匹配引文网络展示了该课题相关的所有研究背景节点文献即为本篇文献横向的轴展现的是整个研究不断发展的过程：二级参考文献为参考文献奠定研究基础参考文献为本篇文献奠定了研究基础节点文献又为引证文献奠定了研究基础共引文献：与本文具有相同参考文献的文献，即与本文有着相同的研究背景和依据同被引文献：与本文同时被作为参考文献引用的文献，与本文共同作为进一步研究的基础构建检索式语法...

2020-05-29 22:02:25 2308

原创【科技文献检索】搜索引擎的高级搜索语法和高级搜索界面

高级搜索语法AND关系答案：有OR关系阿兹海默症和老年痴呆症是同义词如何表示or关系？检索格式:非空格不能省略不想拆分检索词比如智能控制，不想将其拆分成两个词，只检索这个单一的词方法：添加双引号如何在特定网站上搜索内容格式希望找简历模板，并且是word格式的...

2020-05-28 15:30:23 1482

原创【selenium+Java】界面测试之元素定位法

在自动化测试过程中，测试程序通常的操作页面元素步骤找到Web的页面元素，并赋予到一个存储对象中 (WebElement)对存储页面元素的对象进行操作，例如：点击链接，在输入框中输入字符等验证页面上的元素是否符合预期通过这三个步骤，我们可以完成一个页面元素的操作，找到页面元素是很重要的一个步骤。找不到页面元素，后面就没法做了Web页面技术的现实复杂性，造成大量的页面元素很难定位。经常有人不知道怎么定位。定位方法大全使用WebDriver对象的findElem

2020-05-17 14:01:54 547

原创【selenium+Java】界面测试_脚本操作全记录

1.模拟键盘操作，使用enter键sendKeys(Keys.ENTER) driver.findElement(By.xpath("//*[@id='kw']")).sendKeys(Keys.ENTER); 2.等待几秒 Thread.sleep(500); //单位是毫秒这里建议另写一个 wait方法，调用起来简单些，不然在主程序会有过多的trycatch语句而显得杂乱public static void wait(int num){ try { Thread.s

2020-05-17 13:26:46 645

原创【selenium+Java】IntelliJ IDEA 和Eclipse 创建selenium脚本运行环境中加载library的操作

搭建环境，运行selenium ide 录制的脚本，实现界面测试自动化主要介绍IDEA里面搭建环境的问题1.新建Maven工程，将selenium-java.jar和selenium-standalone.jar这两个包放入src/lib2.右键lib文件夹，选择add as lib并确定才能正常加载此jar包...

2020-05-17 12:48:56 758

原创【JavaSE】Date&SimpleDateFormat用法

SimpleDateFormat的用法：//设置日期格式 HH:mm:ss中的HH大写为24小时制。HH和hh的差别是前者为24小时制，后者为12小时制SimpleDateFormat df = new SimpleDateFormat("yyyy-MM-dd HH:mm:ss"); // new Date()为获取当前系统时间String dateTime=d...

2020-04-10 11:06:39 244

原创【JavaSE】instanceof关键字

instanceof 严格来说是Java中的一个双目运算符，用来测试一个对象是否为一个类的实例，用法为：boolean result = obj instanceof Class这没什么好说的，最普遍的一种用法。Integer integer = new Integer(1);System.out.println(integer instanceof Integer);//true...

2020-04-10 00:30:32 295

原创【天池_二手车价格预测】Exploratory Data Analysis

浏览了官方eda过程，觉得操作有点多，一时消化不掉学习了天才儿童大佬的EDA首先把训练集读进来简单看看各列的情况，主要看一下预测目标price的情况，发现均值在5900左右，标准差在7500左右，然而最大值居然有99999，可以看出事情不简单，回归题最怕存在离群点…import pandas as pdimport numpy as npimport warningswarnings...

2020-03-24 22:01:24 660

转载搜索引擎的排序技术综述

搜索引擎的排序技术摘要: 本文简要介绍和比较了目前搜索引擎所使用的排序算法，主要包括词频位置加权排序算法，链接分析排序算法，并着重介绍了PageRank算法和HITS算法的思想以及二者比较的优缺点。关键词: 搜索引擎;排序; PageRank; HITS1 前言Google和Baidu的崛起，很大程度上是由于他们使用了较以往搜索引擎更加优秀的排序技术。由于通常人...

2020-03-18 14:02:17 2578

原创【动手学——循环神经网络】day04_recurrent neural network从零实现

循环神经网络本节介绍循环神经网络，下图展示了如何基于循环神经网络实现语言模型。从零开始实现循环神经网络我们先尝试从零开始实现一个基于字符级循环神经网络的语言模型，这里我们使用周杰伦的歌词作为语料，首先我们读入数据：one-hot向量我们需要将字符表示成向量，这里采用one-hot向量。假设词典大小是N NN，每次字符对应一个从0 00到N−1 N-1N−1的唯一的索引，则该字符的向量是...

2020-02-19 19:44:27 389

原创【动手学——激活函数】day03plus_激活函数及其求导

激活函数本文介绍了ReLU、sigmoid、tanh三种常用激活函数及其导数，并用代码绘制了图像重点应掌握sigmoid函数、tanh(x)函数的导数推导过程ReLUReLU（rectified linear unit）函数提供了一个很简单的非线性变换。给定元素 x ，该函数定义为ReLU(x)=max(x,0).可以看出，ReLU函数只保留正数元素，并将负数元素清零。为了直观地观察这一...

2020-02-16 20:59:39 708

原创【动手学——多层感知机】day03_multilayer perceptron从零实现

multilayer perceptron多层感知机一、多层感知机的基本知识隐藏层下图展示了一个多层感知机的神经网络图，它含有一个隐藏层，该层中有5个隐藏单元。二、使用多层感知机图像分类的从零开始的实现import torchimport numpy as npimport syssys.path.append("/home/kesci/input")import d2lzh1...

2020-02-16 20:44:43 332

原创【动手学——softmax】day02_Fashion-MNIST数据集&softmax两种方法实现

softmax回归一、获取Fashion-MNIST训练集和读取数据我这里我们会使用torchvision包，它是服务于PyTorch深度学习框架的，主要用来构建计算机视觉模型。-torchvision主要由以下几部分构成：torchvision.datasets: 一些加载数据的函数及常用的数据集接口；torchvision.models: 包含常用的模型结构（含预训练模型），例如A...

2020-02-14 21:41:17 1347

原创【动手学——Linear Regression】day01_Linear Regression两种方法实现

线性回归一、基本组成元素模型、数据集、损失函数、优化函数-随机梯度下降二、代码讲解代码完整版本地址url:https://www.kesci.com/org/boyuai/project/5e4117b1b8c462002d687509# import packages and modules%matplotlib inlineimport torchfrom IPython...

2020-02-12 22:56:42 547 1

Johnny_sc的博客