- 博客(35)
- 资源 (1)
- 收藏
- 关注
原创 paddlenlp:社交网络中多模态虚假媒体内容核查(特征篇)
通过数据分析,我们发现了部分图片中存在文字且具有判断文本类别的作用。所以,本文采用paddleocr模型来提取图像中的文字特征。文本主要展现用什么方法来做数据特征加工。
2023-10-16 20:10:15
923
原创 paddlenlp:社交网络中多模态虚假媒体内容核查(代码篇)
本次记录主要还是以学习为主,抽了工作之余来进行baseline的翻译和整理。探索了一个带大家最快上手的路径,降低大家的入门难度。
2023-08-04 17:40:23
1118
原创 paddlenlp:社交网络中多模态虚假媒体内容核查
本次记录主要还是以学习为主,花了一个周末的时间,调试和跑通流程。探索了一个带大家最快上手的路径,降低大家的入门难度
2023-08-03 23:01:49
1476
原创 倾听用户声音,从主流应用商城的APP评论开扒
想要充分了解自家公司的产品,光靠自测自用是远远不够的,还得从各个渠道收集用户的反馈。用户反馈的方法有:问卷调查、客服投诉、应用评价等方式。今天我们主要从应用评价的层面来分析一个产品的优劣。
2022-02-18 17:19:25
1759
原创 十个排序算法的原理与实现【python版】
在算法面试时,一般都会被面试官三连问,"这算法的时间复杂度是怎样的?空间复杂度呢?它的稳定性如何?” ,为了能够清晰的作答该类问题,我梳理了基础的排序算法。
2022-01-12 15:07:38
391
原创 【机器学习】分类算法–决策树(ID3/C4.5/CART)
前言决策树,是工业界常用的数据挖掘模型。其原理是根据一个或多个特征的划分来确定分类,易于理解。和K邻近算法一样,决策树是属于分类、有监督的算法决策树常用的有ID3算法、C4.5算法和CART算法。ID3算法和C4.5算法都是分类算法,CART算法是回归算法。我们今天通过一个天气-活动预测的数据来了解这三个算法上述数据集有4个属性,属性集合A={ 天气,温度,湿度,风速}, 类别标签有2个,类别集合L={进行,取消}正文本文要介绍的三种算法在特征选择的方法上存在差异:ID3用信息增益,
2020-06-29 09:59:48
1643
原创 【机器学习】分类算法--K近邻算法
K近邻算法通常写作Knn算法,它是一种十分有效的分类算法,是有监督的。Knn算法与K-means算法不同,K-means算法是用作聚类的,且是无监督的。Knn算法的优缺点优点:精度高、对异常值不敏感、无数据输入假定缺点:时间复杂度高、空间复杂度高适用数据范围:数值型和标称型Knn算法的工作原理存在一个样本数据集合,也称作训练样本集,并且样本集中每个数据都存在标签,即我们知道样本集中每一数据与所属分...
2020-06-18 17:24:32
1872
原创 解决pyinstall打包python文件遇到的问题
1、环境说明 Windows7,Anconda+Python3.5.2,64位系统。2、开始安装pip install pyinstall安装成功,一切看起来很顺利,但实际上当你运行打包代码的时候,可能出现如下问题pyinstaller -F test.pyAttributeError: 'str' object has no attribute 'items'...
2019-06-19 08:52:08
4903
原创 解决 No module named 'resource' 问题
最近在本地装了一个pyspark,在运行的过程中,总会遇到这样的报错。这是jupter notebook的cmd窗口。以下是我运行的一段代码stringJSONRDD = sc.parallelize((""" { "id": "123", "name": "Katie", "age": 19, "eyeColor":
2018-12-20 14:05:15
16664
10
转载 【Java】多线程的使用
简而言之:一个程序是由进程组成,一个进程是由线程组成的。一个程序中可以存在多个进程,一个进程中可以存在多个线程。单线程:一条主线执行下去,没有分支。public class TestMain { public static void main(String[] args) { method2("I LOVE JAVA"); } public static void method...
2018-08-18 17:30:58
154
转载 【Java】方法的重载
问: 什么是方法的重载呢?答: 如果同一个类中包含了两个或两个以上方法名相同、方法参数的个数、顺序或类型不同的方法,则称为方法的重载,也可称该方法被重载了。如下所示 4 个方法名称都为 show ,但方法的参数有所不同,因此都属于方法的重载:public void print() { System.out.println("无参的print方法");}public void pr...
2018-08-18 17:30:52
214
转载 手把手教你快速安装keras
安装环境:win7+anaconda3.5.12依次输入以下命令,注意所有命令都是用得conda命令,因为conda安装可能比pip安装更稳定conda install theanoconda install mingw libpythonconda install tensorflow //等几分钟或十几分钟conda install keras如果没报错的话,那...
2018-08-18 17:30:32
1603
原创 关于WordCount代码中的一些疑问解答
编码之前的操作我的项目是以Maven Project创建的,里面会涉及到GroupID和ArtifactID,简单解释一下:GroupID是项目组织唯一的标识符, 比如我的项目叫test 那么GroupID应该是 com.yever.test 域名.公司名.项目名 ArtifactID就是项目的唯一的标识符, 一般是 项目名-xxx 比如test-model为了测试方便,我的Gr...
2018-08-18 17:30:22
462
原创 【NLP】如何理解n-gram模型
最近在研究NLP的相关知识,然后就遇到了n-gram这个模型。拜读了高老师的博客后,觉得通俗易懂,所以对知识进行了以下整理。维基百科的定义:在计算语言学中,n-gram指的是文本中连续的n个item(item可以是phoneme, syllable, letter, word或base pairs)n-gram 中如果n=1则为unigram,n=2则为bigram,n=3则为trigra...
2018-08-18 17:29:46
2393
2
转载 【利用python进行数据分析】第4章numpy基础
Numpy的ndarray:一种多维数组对象NumPy最重要的一个特点就是其N维数组对象(即ndarray),该对象是一个快速而灵活的大数据集容器。你可以利用这种数组对整块数据执行一些数学运算。其语法跟标量元素之间的运算一样:from numpy.random import randndata=randn(2,3)print(data)print(data*10)print(da...
2018-07-28 09:26:02
629
原创 借助Kesci的K-Lab平台进行Iris数据分析
之前参加了Kesci网举办的中国联通“沃+海创”开放数据应用大赛,在比赛中认识了许多大牛,同时也认识了Kesci平台的一位李哥。应李哥邀请,帮他们推广一下该平台的实验室,前段时间由于自己事情太多,直到最近才闲下来,遂做了一下整理。尝试了一下这个在线实验室,不需要自己的线下的环境,可以在线编程。类似jupter notebook,你还可以将自己的ipynb文件从线下导入,方便快捷。它的公开数据集...
2018-07-28 09:24:54
1363
原创 在多版本python环境中搭建Django
什么是django呢,简而言之就是一个基于python的web框架。有了它,我们就可以将结果以网页的形式输出。下面就开始搭建django吧。实验环境:win7 64位,anaconda2、anaconda31.进入anaconda3的prompt,输入以下命令,然后就等待它安装完成吧conda install Django安装完成之后记得检查是否安装成功Python 3.5...
2018-07-28 09:24:04
694
原创 数据工程师的成长之路
最近,我和导师、同门一起交流,说到怎么才能成为一名合格的数据工程师,要学什么样的教材,对于技术的学习是否是有规律可寻进行了探讨。谈谈作为一名计算机专业的学生,我是如何来进行学习的。注重基础,《python学习手册》无疑是一本不错的入门手册,重点在前面九章。之后的内容都是计算机编程的,简单的看一看,会用就行了。爬虫基础,这将来或许会成为一个数据工程师必备的技能。《python数据抓取技术与实...
2018-07-28 09:23:29
869
转载 【利用python进行数据分析】第5章pandas入门
pandas的数据结构介绍要使用pandas,你首先就得熟悉它的两个主要数据结构:Series和DataFrame。虽然它们并不能解决所有的问题,但它们为大多数应用提供了一种可靠的、易于使用的基础。由于频繁的使用pandas、Series和DataFrame,所以我们将其引入本地命名空间中会更方便from pandas import Series, DataFrameimport pa...
2018-07-28 09:22:29
489
转载 【利用python进行数据分析】准备与实例(二)
MovieLens 1M数据集GroupLens Research采集了一组从20世纪90年末到21世纪初由MovieLens用户提供的电影评分数据。MovieLens 1M数据集含有来自6000名用户对4000部电影的100万条评分数据。它分为三个表:评分、用户信息和电影信息。我们来试着读取数据,按性别计算每部电影的平均分:import pandas as pdencoding = 'lati...
2018-07-06 23:30:56
592
转载 【利用python进行数据分析】准备与实例(一)
我已经分享了本书的ipynb,所以跟着我一起来实验吧。如果你不懂怎么打开ipynb格式的文件,那也没关系,anaconda3让一切变得更简单(我像是打广告的)。安装玩anaconda之后,我们在开始里就可以找到它的文件夹,里面有一个Jupyter Notebook,就是它了。点开之后,弹出cmd的黑窗口,接着浏览器弹出网页,那么就启动成功了(这里别去关掉cmd的黑窗口,最小化就行),它的主页一般定...
2018-07-06 23:30:36
3201
原创 【汇总】软件、资料下载清单
有些实验类的读书笔记或者文章中的完整代码,我都有记录,慢慢分享吧,好东西都值得花时间整理。1、利用python进行数据分析(ipynb版本,纯手打) 密码: qjpt2、机器学习实战源代码+数据文件待更新...... 如果你有需要的软件和完整代码,请留言告诉我,我会及时更新。...
2018-07-06 23:30:11
308
转载 【python数据抓取技术与实战】单机数据抓取
1、单机顺序抓取这里使用的是Spynner库进行单进程抓取,通常用于目标明确及抓取内容数量不是很大的情况。加之我们用的python3,安装过程也复杂,所以我们就不必在这部分花时间了。但在这里,我们做一个简单的介绍。优点:Spynner基于pyqt库,pyqt封装了强大的webkit,具有执行JavaScript的能力,可以完全模拟一个浏览器的功能和行为。import spynner ...
2018-07-06 23:28:43
775
转载 【python数据抓取技术与实战】json
python提供了json库,专门用于json格式内容的解析处理。json的使用比较简单,常用的方法有load、loads、dump和dumps,我们这里结合mongodb,可以存储大量的json数据。查询北京大学地图的url,它返回的是json格式。我们可以通过该例子说明问题,网址如下:http://ditu.amap.com/detail/get/detail?id=B000A816R6,代码...
2018-07-06 23:28:17
529
转载 【python数据抓取技术与实战】BeautifulSoup
中文翻译:美丽汤。光听听名字就觉得是一个很棒的工具。言归正传,说说我们抓取的数据。其实返回的数据都是有结构化的。一般会遇到的三种结构化的返回数据,分别是HTML、XML和json。今天所介绍的BeautifulSoup就是python中处理HTML或XML的分析库,也就是说它能够解析这两种结构化文件。对于json的处理和分析,我们放到下一节再讲。BeautifulSoup能做抽取数据,提供各类方法...
2018-07-06 23:27:56
762
转载 【python数据抓取技术与实战】正则表达式
我之所以把正则表达式单独罗列出来讲,是因为我觉得它在爬虫技术中的地位真的非常重要。所以,这个章节你也要打起精神学习。先来看看它是个什么工具正则表达式是处理字符串的有力工具。python中有个re模块提供了大量的方法,能实现正则表达式相关的各类操作。re模块常用的函数包括match、search、findall,可以通过help('re')命令查看函数用法。>>> help('re...
2018-07-06 23:27:38
374
原创 MongoDB的安装教程
系统环境:windows 7首先,我们先准备工具,mongodb的解压包,由于新版本3.6才出来,为了稳定,我们选择mongodb-win32-x86_64-v3.4-latest.zip即可。下载完成后,我们将文件解压到D盘。为了简化路径名称长度,我们把“D:\mongodb-win32-x86_64-3.4.10-36-g1055daf”改为了“D:\mongodb34”键盘上win+R进入运...
2018-07-06 23:27:12
301
转载 【python数据抓取技术与实战】爬虫基础
第一个爬虫应用该代码主要爬取电子工业出版社http://www.phei.com.cn首页的内容。#引入requests模块import requests#定义get_content函数def get_content(url): resp = requests.get(url) return resp.text#"__name__ == '__main__'"的作用是被...
2018-07-06 23:26:45
619
原创 爬虫实战(二)猫眼电影动态数据爬取
爬虫部分的知识算是告一段落了,又是几天过去了,感觉挺充实的。里面可能还有一些需要改进的地方,慢慢完善吧。接下来我们就说说上次遗留下来的问题,如何爬取动态数据。先告诉你一下爬取的数据中为什么没有电影信息吧:因为我们请求的是静态页面地址。如果请求的是动态资源,会从数据库中取出数据等一系列操作后动态拼凑页面的展示内容,把所有的展示内容交给WEB服务器,之后通过WEB服务器将内容发送回客户端浏览器进行...
2018-07-05 18:14:37
2376
2
原创 爬虫实战(一)猫眼电影基础数据爬取
看完爬虫基础,是不是有点心动手痒了呢?那么接下来就让我们一起学习如何爬虫吧。写在爬虫之前选这个题目的初衷:本人是一个学生党,经济来源较少但平时又特别爱看电影,又没时间关注电影票价的变动,有了这个爬虫之后,这将会极大的缓解我的苦恼。爬取网页的说明:我们选择美团旗下的猫眼电影页面进行爬取,但不得不承认美团网站页面的反爬虫机制还是很厉害的。所以,我们将目标锁定在了它的客户端页面。页面地址...
2018-07-05 00:45:17
12057
原创 【python基础篇】常用内置对象与操作
交互式编写代码:使用win+R调出“运行”对话框,输入cmd,再输入python即可进入“交互模式”IDE方式,我使用的是pycharm,在左下方,找到“python console”即可进入“交互模式”使用“print”打印一个字符串和一个整数>>> print 'Hello world!'Hello world!>>> print 2 ** 8256 ...
2018-07-05 00:28:11
353
原创 【python入门篇】为什么选择python
1、选择python编程的主要原因:软件质量、开发者效率、程序的可移植性、标准库的支持、组件集成和享受乐趣2、python的创始人是谁:Guido van Rossum,龟叔3、python的哲学彩蛋:import this4、python可以拿来做什么:应用场景都实用,从网站和游戏开发到机器人和航天飞机控制例子:系统编程、GUI(用户图形接口)编程、Internet脚本、组件集成、数据库编程、快...
2018-07-05 00:18:27
234
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人