方式1
给自己的浏览器装个XPATH
点击XPATH

然后写入://*/div[1]/div/div/div/div/ul/li[2]/a

直接复制右边的33篇文章标题,存为TCGA_33_title.txt即可
方式2
打开网页:https://www.cell.com/pb-assets/consortium/pancanceratlas/pancani3/index.html
右键点击网页另存
然后用task4b_Nature_PAN_Cancer_词云
里面同样的方法解析网页即可
urlpage <- XML::htmlParse('Welcome to the Pan-Cancer Atlas.html') #解析xml
title = XML::xpathSApply(urlpage, '//*/div[1]/div/div/div/div/ul/li[2]/a')
title

本文介绍两种从TCGA大计划中获取CNS级别文章标题的方法,并利用这些标题绘制词云图。方式一通过浏览器扩展XPATH工具抓取标题;方式二则保存网页并使用R语言解析。最后通过词频统计生成词云。
最低0.47元/天 解锁文章
1151

被折叠的 条评论
为什么被折叠?



