- 博客(345)
- 资源 (35)
- 收藏
- 关注
原创 OCR研究学习总结1
OCR在招投标行业比较普遍且复杂,大部分都是扫描件,包括swf视频/pdf文档/png/doc等格式的文件,我们首先需要对这些文件进行分类处理,pdf/doc文档这种内容非图片的可以直接解析成文字,其他的都需要处理成相同格式的图片,并对图片进行预处理。图片中的文字、公式、表格、图片等复杂的文本结构是我们必须针对不同类型的扫描件做不同的预处理,以便于准确的进行文字定位。然后进行文字切割,对切割的图片进行特征工程:滤波、傅里叶变换、时域、频域特征、像素变化特征、像素变化规律、像素方差、均值、异常像素、直方图、像
2022-10-16 21:53:15
1848
原创 TEM:基于树模型构建可解释性推荐系统
本文论文的题目为:《TEM: Tree-enhanced Embedding Model for Explainable Recommendation》论文下载地址为:https://www.comp.nus.edu.sg/~xiangnan/papers/www18-tem.pdf推荐系统的方法,无论是协同过滤还是一些embedding-based方法,在可解释性上都有一定的欠缺
2022-04-01 09:48:45
1257
原创 Python SciPy库——拟合与插值
1.最小二乘拟合实例1import numpy as npimport matplotlib.pyplot as pltfrom scipy.optimize import leastsqplt.figure(figsize=(9,9))x=np.linspace(0,10,1000)X = np.array([8.19, 2.72, 6.39, 8.71, 4.7,...
2022-04-01 09:46:04
2566
原创 图分析现状与探索落地
导读:随着大数据的发展,复杂数据关系的分析在传统数据库上难以直观的表达复杂的拓扑关系,应运而生了针对拓扑图数据分析的数据库、图分析工具和图算法。本文主要沿以下几个方面展开分析:图分析的背景 图数据库的对比分析 图算法概述 图分析架构的应用案例▌图分析背景介绍万物伊始自带信息,如今人类将这些信息按需求以不同形式存储在可记录、可查看、可计算的容器中,传统的数据库都是按一定类型对某类数据进行行列存储,比如不同人的年龄信息存为一列。但是这种存储结构不方便对人这个主体的所有信息进行一个具象化的..
2021-07-18 22:13:55
341
转载 Python金融大数据风控建模实战
Python金融大数据风控建模实战Python金融大数据风控建模实战https://blog.youkuaiyun.com/qq_40844276原创《Python金融大数据风控建模实战》 第18章 模型融合《Python金融大数据风控建模实战》 第18章 模型融合本章引言Python代码实现及注释本章引言模型融合思想认为,在多个表现较好的模型中,每个模型的预测结果都有一定的参考价值,并且每个模型在建模时考虑的策略也各有差异,如果能综合多个模型的优点,则最终的结果可能会更好。常用的方式为等权..
2021-05-26 10:23:08
3296
原创 总结01-bms-molecular-translation分子翻译大赛
文档:总结01-bms-molecular-translation分子...链接:http://note.youdao.com/noteshare?id=543f3bc7de290f0abb9df2256331ca05&sub=62CD335393784D7F91217A29F4C50104
2021-05-16 22:08:08
327
翻译 Text Classification with BERT using Transformers for long text inputs
文档:Text Classification with BERT using ...链接:http://note.youdao.com/noteshare?id=aea64a71f9f7100b16b7effac9f9435d&sub=EF1AF825F78A49CBB3B81675F9462610
2021-05-14 10:11:36
240
转载 FM、LFM、AFM、NFM、DeepFM、 Deep Cross Network
FM、LFM、AFM、NFM、DeepFM、 Deep Cross Network文档:FM、LFM、AFM、NFM、DeepFM、 Deep Cro...链接:http://note.youdao.com/noteshare?id=57ec18b1ad14ca6c013d925025924ec3&sub=DCCAF6EE3BAB4FA79A076179BC0D916CCDAE TODOPNN TODOhttps://zhuanlan.zhihu.com/p/33177..
2021-05-12 11:09:01
816
原创 attention的前世今生
Attention函数的本质可以被描述为一个查询(query)到一系列(键key-值value)对的映射参考:https://www.zhihu.com/question/68482809
2021-03-05 09:56:50
513
原创 postgresql null 值 不受查询条件约束
postgresql null 值 不受查询条件约束postgresql null 值 不受查询条件约束select count(1) cnt from dm.algo_m_gg_1_prt_qycg_ebs_shasteel_cn where (minfo4 is null or length(minfo4)<5 ) and (page_type!=2 ) and length(page)>100;select count(1) cnt from dm.algo_...
2021-03-05 09:54:43
1017
2
原创 centos7.4 GLIBC_2.17 升级问题记录
ldd --versionstrings /lib64/libc.so.6 |grep GLIBCcd /usr/localwget https://ftp.gnu.org/gnu/glibc/glibc-2.18.tar.gztar -zxvf glibc-2.18.tar.gzcd glibc-2.18/mkdir buildexport ...
2019-12-25 14:29:32
1351
原创 统计学中的自由度
自由度自由度的概念在统计学中,自由度(degree of freedom, df)指的是计算某一统计量时,取值不受限制的变量个数。通常df=n-k。其中n为样本数量,k为被限制的条件数或变量个数,或计算某一统计量时用到其它独立统计量的个数。自由度通常用于抽样分布中。统计学上,自由度是指当以样本的统计量来估计总体的参数时,样本中独立或能自由变化的数据的个数,称为该统计量的自由度。一般来说...
2019-09-27 23:24:10
25364
原创 开源的文本标注工具
## 开源的标注工具自然语言处理标记工具汇总https://blog.youkuaiyun.com/wangyizhen_nju/article/details/94559607spacy原来有两个标注工具,displaCy-ent和displaCy,一个ner一个依赖关系.Annotator for Chinese Text Corpus (UNDER DEVELOPMENT) 中文文...
2019-09-26 11:18:04
10417
4
转载 Python的串口通信(pyserial)
串口通信是指外设和计算机间,通过数据信号线 、地线、控制线等,按位进行传输数据的一种通讯方式。这种通信方式使用的数据线少,在远距离通信中可以节约通信成本,但其传输速度比并行传输低。串口是计算机上一种非常通用的设备通信协议。pyserial模块封装了python对串口的访问,为多平台的使用提供了统一的接口。安装:pip3 install pyserial测试:两个CH340...
2019-08-29 16:26:36
6934
1
原创 树模型总结
树模型总结1.树模型基础介绍。 什么是树模型? 一种基于特征空间划分的具有树形分支结构的模型。 树模型的特点? 方差大、对量纲没有要求、由多条规则组成、能够处理数值型和类别型数据、有较高的解释性。 树模型的优点? 1)需要准备的数据量不大。 2)算法时间的复杂度是用于训练决策树的数据点的对数。 3)能够处理数值型和类别型数据。 4)相对对神经网络,解释性比较强。 ...
2019-08-24 11:39:53
9934
原创 频域特征提取的Python实现(频谱、功率谱、倒频谱)
MATLAB程序代码:%========================================================================== %Desc: 以高斯信号为例,求解其频谱、双边功率谱、单边功率谱、双边功率谱密度、% 单边功率谱密度,这里高斯信号的半波全宽FWHM=50ps,中心点位于2.5ns处。 %======...
2019-08-15 16:19:10
9095
1
翻译 基于时频域统计特征提取的自然环境声音识别方法
Description基于时频域统计特征提取的自然环境声音识别方法技术领域[0001] 本发明属于声音信号识别技术领域,尤其涉及一种基于时频域统计特征提取的自 然环境声音识别方法。背景技术[0002] 近年来自然环境声音的识别取得了广泛的关注,自然环境中充满了多种声音,如 车辆行驶中的发动机声和汽车喇叭声,建筑工地上的施工声音,人的说话声,鸟虫鸣叫声, 风雨声等。自然环境...
2019-08-15 10:05:53
3330
1
转载 在工作中常用到的SQL
一、回顾group 查询group查询就是分组查询,为什么要分组查询?因为我们想按某个维度进行统计。下面来看个图:现在我的数据如下比如说,我想知道:每天Java3y这个公众号的点击量是多少。按我们人工而言,思路很简单:把相同的天数以及公众号名称为Java3y的数据找出来,再将每个点击量相加,就得出了结果了。步骤用上SQL我们可能会这样写:selectname,t...
2019-08-09 10:23:46
107
原创 python中的fft带通滤波器
值得注意的是,bp的单位数量不一定是以Hz为单位,而是取决于信号的采样频率,您应该使用scipy.fftpack.fftfreq进行转换。 此外,如果你的信号是真实的,你应该使用scipy.fftpack.rfft。 这是一个最小的工作示例,可过滤掉小于指定数量的所有频率:import numpy as npfrom scipy.fftpack import rfft, irfft, ...
2019-07-31 20:41:25
4590
原创 PPG信号滤波过后的时频分析
PPG信号的 时域图、频域图、时频图、小波变换图 import osimport timeimport tracebackimport pandas as pdimport plotly.plotly as pyimport plotly.graph_objs as gofrom plotly.offline import iplot, init_notebook_mo...
2019-07-26 09:53:19
11290
2
转载 回归预测的评价指标(附python代码)
一、常用的评价指标对于回归模型效果的判断指标经过了几个过程,从SSE到R-square再到Ajusted R-square, 是一个完善的过程:SSE(误差平方和):The sum of squares due to errorR-square(决定系数):Coefficient of determinationAdjusted R-square:Degree-of-freedom ...
2019-07-25 15:08:21
4401
转载 频域信号处理
用FFT(快速傅立叶变换)能将时域的数字信号转换为频域信号。转换为频域信号之后我们可以很方便地分析出信号的频率成分,在频域上进行处理,最终还可以将处理完毕的频域信号通过IFFT(逆变换)转换为时域信号,实现许多在时域无法完成的信号处理算法。本章通过几个实例,简单地介绍有关频域信号处理的一些基本知识。18.1 观察信号的频谱将时域信号通过FFT转换为频域信号之后,将其各个频率分量的幅值绘制成...
2019-07-23 17:39:02
5927
1
转载 Python实现信号滤波(基于scipy)
个人网站-->http://www.yansongsong.cnGitHub主页-->https://github.com/xiaosongshine1.背景介绍在深度学习中,有时会使用Matlab进行滤波处理,再将处理过的数据送入神经网络中。这样是一般的处理方法,但是处理起来却有些繁琐,并且有时系统难以运行Matlab。Python作为一种十分强大的语言...
2019-07-23 16:18:10
27550
1
转载 python--面向对象
楔子面向过程vs面向对象初识面向对象 类的相关知识 对象的相关知识 对象之间的交互 类命名空间与对象、实例的命名空间 类的组合用法 初识面向对象小结面向对象的三大特性 继承 多态 封装面向对象的更多说明 面向对象的软件开发 几个概念的说明 面向对象常用术语 其中类的数据属性是共享给所有对象的>>>...
2019-07-23 10:17:20
559
转载 比 matplotlib 效率高十倍的数据可视化神器
Python交互式数据分析报告框架~Dash介绍原文链接:https://link.jianshu.com/?t=https%3A%2F%2Fmedium.com%2F%40plotlygraphs%2Fintroducing-dash-5ecf7191b503译者序:原文于2017年6月21日发布,时过半载,将这篇既不是教程,也不是新闻的产品发布稿做了一番翻译,为何?只因去年下...
2019-07-23 10:02:57
1319
原创 pandas + sqlalchemy mysql
Quick Tip: SQLAlchemy for MySQL and PandasBefore we get into theSQLAlchemy aspects, let’s take a second to look at how to connect to a SQL database with the mysql-python connector (or at least take...
2019-07-22 10:45:47
2070
转载 rm -f .... 恢复
每当我们在生产环境服务器上执行rm命令时,总是提心吊胆的,因为一不小心执行了误删,然后就要准备跑路了,毕竟人不是机器,更何况机器也有bug,呵呵。那么如果真的删除了不该删除的文件,比如数据库、日志或执行文件,咋办呢?欲知后事如何,请仔细看完本篇博客。模拟场景1. 删除误删除服务器目录/root/selenium/Spider下的MySql.Data.dll文件:> rm...
2019-07-19 09:54:45
297
原创 时频分析-傅里叶级数及傅里叶变换、STFT 、小波变换、Wigner-Ville 分布
傅里叶级数傅里叶生于1768年,死于1830年。傅里叶级数在数论、组合数学、信号处理、概率论、统计学、密码学、声学、光学等领域都有着广泛的应用.傅里叶级数的公式:1、把一个周期函数表示成三角级数: 首先,周期函数是客观世界中周期运动的数学表述,如物体挂在弹簧上作简谐振动、单摆振动、无线电电子振荡器的电子振荡等,大多可以表述为: f(x)=A sin(ωt+ψ) 这里t...
2019-07-17 20:50:37
10888
2
转载 ECG/PPG量测解决方案
摘要本应用文件介绍了心电图 (ECG) 与光电容积图 (PPG) 的基本工作原理,讨论了ECG与PPG生理信号的量测,以及提高可靠性、实现高精度电气特性的难点。一般高精准度的ECG与PPG架构都是采用模拟前端和ADC组合而成的解决方案。本文介绍的RT1025利用ECG/PPG同步采样ADC,提供了一个可以同步撷取ECG/PPG以应用于血压计算的引人注目亮点,及其高度集成的解决方案省去了多个模拟...
2019-07-17 18:49:26
8291
原创 python中eval函数作用
eval函数就是实现list、dict、tuple与str之间的转化str函数把list,dict,tuple转为为字符串一、字符串转换成列表a = "[[1,2], [3,4], [5,6], [7,8], [9,0]]"print(type(a))b = eval(a)print(type(b))print(b)二、字符串转换成字典a = "{1...
2019-07-17 09:45:45
401
转载 2019腾讯广告算法大赛方案分享(冠军)
赛题理解赛题链接:https://algo.qq.com1.数据历史日志数据:广告请求时间、用户id、广告位id、竞价广告信息等用户信息数据:包含用户id、年龄、性别、地域、行为兴趣等广 告 数 据:广告操作信息、广告静态信息2. 目标预测广告的日曝光量3. 评价指标评价指标由两部分组成,准确性指标和出价单调性指标。最终得分是将两个指标组合一起...
2019-07-16 10:32:16
1073
转载 分布式锁用Redis还是Zookeeper?
为什么用分布式锁?系统 A 是一个电商系统,目前是一台机器部署,系统中有一个用户下订单的接口,但是用户下订单之前一定要去检查一下库存,确保库存足够了才会给用户下单。由于系统有一定的并发,所以会预先将商品的库存保存在 Redis 中,用户下单的时候会更新 Redis 的库存。此时系统架构如下:但是这样一来会产生一个问题:假如某个时刻,Redis 里面的某个商...
2019-07-16 09:53:08
162
转载 Oracle数据库出现问题时,这十个脚本帮你快速定位原因
“小张,快点看看ERP数据库,应用又打不开了!”“好的,马上。”小张从黑色背包拿出电脑,连上手机热点就开始检查,刚连上数据库,电话铃声又响起来了..... 这样的场景对于Oracle DBA来说太熟悉了,只要应用一出问题,不论何时,不论何地,总是第一个接到电话,严重情况下会是一轮电话轰炸。 新手和专家之间遇到此类问题,首先是心态,新手遇到问题心里慌,不知从何下手,胆小粗心,专...
2019-07-15 10:18:36
291
转载 java调用python脚本并向python脚本传递参数
#-*-coding:utf-8 -*-import numpy as npfrom selenium import webdriverdef main(): url = 'https://www.tianyancha.com/login' driver = webdriver.Chrome() driver.get(url)if __name__ ==...
2019-07-12 17:13:44
1068
转载 Spring中都用到了那些设计模式
JDK 中用到了那些设计模式?Spring 中用到了那些设计模式?这两个问题,在面试中比较常见。我在网上搜索了一下关于 Spring 中设计模式的讲解几乎都是千篇一律,而且大部分都年代久远。所以,花了几天时间自己总结了一下,由于我的个人能力有限,文中如有任何错误各位都可以指出。另外,文章篇幅有限,对于设计模式以及一些源码的解读我只是一笔带过,这篇文章的主要目的是回顾一下 Spring 中的常见的设...
2019-07-12 12:17:19
159
原创 Python3 可变对象VS不可变对象、 对象的赋值、深拷贝VS浅拷贝
可变对象:当有需要改变对象内存的值的时候,这个对象的id不发生变化。 不可变对象:当有需要改变对象内存的值的时候,这个对象的id会发生变化。也就是不同的值指向不同的内存地址,也就是该变量的内存值不可改变。 这里的变与不变是针对同一个内存地址的。可变是指该对象所指定的内存地址上面的值可以被改变,变量被改变后,其所指向的内存地址上面的值,直接被改变,没有发生复制行为,也没有发生开辟新...
2019-07-12 11:32:46
287
转载 植物研究必备网站
分类 推荐理由 网址综合NCBI (National Center for Biotechnology Information)美国国立生物技术信息中心,包括植物在内的众多生物的核酸序列信息,是分子水平上研究生物的必备网站https://www.ncbi.nlm.nih.gov/综合Phytome是一个比较基因组学数据...
2019-07-11 18:31:05
4225
原创 Windows安装nginx服务
1、测试版本 nginx版本:nginx-1.10.2;windows版本:win102、下载winsw。 当前最新版本为:winsw-2.0.1-bin.exe。下载地址:http://repo.jenkins-ci.org/releases/com/sun/winsw/winsw/2.0.1/winsw-2.0.1-bin.exe。3、将winsw-2.0.1-bin.ex...
2019-07-11 11:49:59
645
转载 领域驱动设计系列文章(2)——浅析VO、DTO、DO、PO的概念、区别和用处
概念:VO(View Object):视图对象,用于展示层,它的作用是把某个指定页面(或组件)的所有数据封装起来。DTO(Data Transfer Object):数据传输对象,这个概念来源于J2EE的设计模式,原来的目的是为了EJB的分布式应用提供粗粒度的数据实体,以减少分布式调用的次数,从而提高分布式调用的性能和降低网络负载,但在这里,我泛指用于展示层与服务层之间的数据传输对象。...
2019-07-11 09:14:30
261
自定自定义音乐播放器项
2014-04-09
Android NDK开发(1)----- Java与C互相调用实例详解
2014-04-09
Android NDK中使用OpenGL
2014-04-09
方立勋《30天轻松掌握JavaWeb视频》笔记+源码
2014-03-11
gephi 教程all-中文版
2018-04-19
基于J2EE的公交查询系统的设计与实现
2016-05-31
Android实现悬浮式顶部和底部标题栏效果仿百度贴吧
2015-12-20
android_AIDL
2015-10-15
Android基于蓝牙的计步器
2015-05-14
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人