- 博客(21)
- 收藏
- 关注
原创 Selenium环境配置
官网下载Selenium最新版本目前更新至3.7.1版,本地存放路径为D:\R\library\Rwebdriver\,名称为selenium-server-standalone-[version.number].jar,即selenium-server-standalone-3.7.1 运行Selenium需要搭建Java环境JDK(Java SE Development ...
2019-06-16 13:29:25
2917
1
原创 Python绘制饼状图/甜甜圈
Python Matplotlib.pyplotMatplotlib库是一个面向对象的绘图库。绘图界面由pyplot模块提供。该模块提供了许多绘图函数,以下记录的是饼状图/甜甜圈图的相关参数和绘图过程,官方资料详见文末链接。# 导入相关模块import numpy as npimport matplotlib.pyplot as plt# 使中文正常显示的参数设置plt.rcParam...
2018-11-15 17:31:46
15273
2
原创 多元正态分布的极大似然估计
多元正态分布的极大似然估计1. 一元正态分布的密度函数一元正态分布的密度函数表示为:f(x)=1(2π)−−−−√σe−(x−μ)22σ2f(x)=1(2π)σe−(x−μ)22σ2f(x) = \frac{1}{\sqrt {(2 \pi)} \sigma} e^{- \frac{(x - \mu)^2}{2 \sigma^2}}其中,σ>0σ>0
2018-06-20 13:53:12
40242
10
原创 HMM的参数学习问题
HMM的参数学习问题HMM的参数学习问题有两种:监督学习:给定观测序列O=(o1,...,oT)O=(o1,...,oT)O = (o_1,...,o_T)和对应的状态序列I=(i1,...,iT)I=(i1,...,iT)I = (i_1,...,i_T),估计参数λ=(A,B,π)λ=(A,B,π)\lambda = (A,B,\pi)。非监督学习:只给定观测序列O=(o1,......
2018-03-19 16:41:37
5186
原创 HMM的概率计算问题
HMM的概率计算问题HMM的概率计算问题是指,给定模型参数λ=(A,B,π)λ=(A,B,π)\lambda = (A,B,\pi) 和观测序列O=(o1,o2,...,oT)O=(o1,o2,...,oT)O = (o_1,o_2,...,o_T),计算在模型λλ\lambda下,观测序列OOO出现的概率:P(O|λ)P(O|λ)P(O | \lambda)。直接计算按概率公...
2018-03-18 01:07:30
2516
原创 HMM的基本概念
HMM的变量定义两个集合长度为NNN的隐状态集合Q={q1,q2,...,qN}Q={q1,q2,...,qN}Q = \{q_1,q_2,...,q_N\}长度为MMM的观测值集合V={v1,v2,...,vM}V={v1,v2,...,vM}V = \{v_1,v_2,...,v_M\}两个序列长度为TTT的隐状态序列I={i1,i2,...,iT}I={i1,i2,....
2018-03-17 16:28:51
1508
原创 EM算法及对GMM的参数估计(EM算法的R实现 vs R mclust包)
EM算法与高斯混合模型(GMM)EM算法是一种迭代算法,1977年由Dempster等人总结提出,用于含有隐变量(hidden variable)的概率模型参数的极大似然估计,或极大后验概率估计。EM算法的每次迭代由2步组成:E-step:求期望(expectation)M-step:最大化(maximization)所以该算法称为期望极大算法(expectation maxim...
2018-03-10 01:21:25
13788
4
原创 【杂纪】从ROC曲线到AUC值,再到Mann–Whitney U统计量
统计检验中的两类错误在进行假设检验时,分别提出原假设(Null Hypothesis)和备择假设(Alternative Hypothesis),检验结果可能出现的两类错误:原假设实际上是正确的,而检验结果却拒绝原假设,称为第一类/第一型错误(Type I error)、弃真错误原假设实际上是错误的,而检验结果却接受原假设,称为第二类/第二型错误(Type II error)、取伪错误...
2018-02-16 23:01:00
6379
转载 怕是诸葛先生听了也要为之动容吧~
优酷:王洛勇英文朗诵《出师表》臣亮言:先帝创业未半而中道崩殂,Permit me liang to observe: the late emperor was taken from us before he could finish his life’s work, the restoration of the Han.今天下三分,益州疲弊,此诚危急存亡之秋也。Today, th
2018-01-25 13:15:25
457
原创 糗事百科(Python(正则表达式、BeautifulSoup、Lxml) & R(rvest))
PythonPython中用于爬取静态网页的基本方法/模块有三种:正则表达式、BeautifulSoup和Lxml。本文使用这三种方法分别抓取同样的数据,并计算各自的耗时,从而对三者的性能做简单探讨。三种方法的特点大致如下: 爬取方法 性能 使用难度 安装难度 正则表达式 快 困难 简单(内置模块) BeautifulSoup 慢 ...
2018-01-23 20:57:36
690
原创 【正则表达式】斗破苍穹(Python & R)
Python# 加载模块import reimport timeimport requests# 伪装报头headers = { 'User-Agent' : 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) \ AppleWebKit/537.36 (KHTML, like Gecko) Chrome/63.0.3239.84 Safari
2018-01-20 19:23:11
780
原创 【CSS Selector】酷狗Top500(Python & R)
Python# 加载模块import pandasimport requestsfrom bs4 import BeautifulSoup# 伪装报头headers = { 'User-Agent' : 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) \ AppleWebKit/537.36 (KHTML, like Geck
2018-01-19 14:41:56
811
原创 【CSS Selector】小猪网短租房(Python & R)
Python# 加载模块import csvimport timeimport codecsimport randomimport requestsfrom bs4 import BeautifulSoup# 伪装报头headers = { 'User-Agent' : 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) \
2018-01-18 21:07:21
529
原创 RSelenium包抓取网易云音乐歌词(iframe框架的处理)
思路Created with Raphaël 2.1.2网易云音乐《中国嘻哈榜》Step1:遍历《中国嘻哈榜》页面,获得每期链接programlinkStep2:遍历所有期数链接,获得每期歌曲链接musiclinkStep3:遍历每首歌曲链接,获得歌词lyricEnd页面准备library(RSelenium)library(rvest)base <- "htt...
2017-12-27 01:19:32
1154
1
翻译 【函数】R语言System {base}函数简介
system {base}描述函数system的作用是,调用由参数command指定的操作系统命令。用法system(command, intern = FALSE, ignore.stdout = FALSE, ignore.stderr = FALSE, wait = TRUE, input = NULL, show.output.on.console =
2017-12-23 21:00:23
13527
原创 RSelenium包抓取链家网(下:数据存储与容错管理)
HouseinfoFunc function(link) { destianation "UTF-8") # 获取第i条房屋链接的页面内容 location % html_nodes("a.no_resblock_a") %>% html_text() # 小区位置 unit % html_nodes(".price span.uni
2017-12-16 22:07:13
1290
原创 RSelenium包抓取链家网(上:模拟点击与页面抓取)
安装RSelenium包install.packages("RSelenium")# 直接从CRAN下载RSelenium包启动Selenium服务器在控制台输入java -jar D:\R\library\Rwebdriver\selenium-server-standalone-3.7.1.jar以启动Selenium服务器。保持打开状态,可配合plantomjs、Chrome或Firefo
2017-12-14 19:21:19
4335
翻译 【包】R语言rdom包简介
1. 官网下载Selenium最新版本目前更新至3.7.1版,本地存放路径为D:\R\library\Rwebdriver\,名称为selenium-server-standalone-[version.number].jar,即selenium-server-standalone-3.7.12. 运行Selenium需要搭建Java环境JDK(Java SE De
2017-12-05 14:04:52
2241
原创 RSelenium/Rwebdriver/rdom包抓取表格数据
安装RSelenium/Rwebdriverinstall.packages("RSelenium")#直接从CRAN下载RSelenium包install.packages('devtools');library(devtools);install_github(repo='Rwebdriver',username='crubba')#从github下载Rwebdriver包RSe
2017-12-03 13:16:34
2226
转载 来自 Google 的 R 语言编码风格指南
R 语言是一门主要用于统计计算和绘图的高级编程语言。这份 R 语言编码风格指南旨在让我们的 R 代码更容易阅读、分享和检查。以下规则系与 Google 的 R 用户群体协同设计而成。概要:R编码风格约定一、表示和命名文件命名:以.R(大写)结尾标识符命名:variable.name(或variableName),FunctionName,kConstantName二、语法...
2017-12-03 12:10:35
1375
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人