
NLP工程实践
文章平均质量分 59
NLP工程实践
心伽玛
这个作者很懒,什么都没留下…
展开
-
Python 网络爬虫工具:httpx 和 parsel(对比测评)
最新的方式 2021.x激活到2099年注意:教程适用于 JetBrains 全系列产品 包括 IDEA 2021.x 以下所有版本文中有 IDEA 2021 所有版本下载 (包括历史版本 IDEA 2021.x)一、下载最新的IDEA2021 版本安装包可以选择从官网下载:https://www.jetbrains.com/点击下载,下载完成即可。IDEA 安装完成后,记得,就是正式开始破解了1、先勾选Evaluate for free, 点击...原创 2021-07-21 18:36:44 · 2373 阅读 · 0 评论 -
如何避免Puppeteer被反爬
思路避免Puppeteer的浏览器特征被检测即去掉 “webdriver” in navigator 特征方法1 await page.setUserAgent( "Mozilla/5.0 (Windows NT 6.0) AppleWebKit/536.5 (KHTML, like Gecko) Chrome/19.0.1084.36 Safari/536.5") await page.evaluateOnNewDocument('() =>{ Object原创 2021-01-06 15:16:14 · 3082 阅读 · 0 评论 -
关键词挖掘的9种方法
Google Keywords Planner(谷歌关键词规划师,以下简称GKP)您可以输入任何“种子”关键字,并查看大量关键字建议及其相关搜索量。现在,Google已将这些数字限制在一定范围内了。 ????小提示.你仍然可以看到确切的数字,但前提是在Google广告系列上投入的足够的金额才能显示出一部分数据。但GKP依然是一个非常不错的工具。它提供了一些优质的关键词建议,同时将它们分成小组(非常有用),并且完全免费。如果GKP当作关键字研究的唯一工具,那么就大错特错了。原创 2020-12-27 16:46:05 · 10257 阅读 · 0 评论 -
纯终端Linux环境运行Chrome实例
项目场景:1、用selenium+chrome 模拟浏览器在某云服务器爬虫。2、在没有挂载显卡的环境运行chrome。问题描述:运行Chrome,报错:[19615:19615:0219/152933.751028:ERROR:browser_main_loop.cc(1512)] Unable to open X display.原因分析:云服务器或者没有挂载显卡的环境都无法创建Chrome窗口实例。 需要虚拟一个环境给Chrome创建窗口。解决方案:可以用Xvfb,它不原创 2020-12-16 20:45:32 · 2261 阅读 · 0 评论 -
NLP语种检测的基准对比测试
文章目录前言一、langdetect介绍例子要点二、spaCy language detector介绍例子三、gcld3介绍例子四、langid介绍例子五、FastText介绍例子下载实测前言五个Python工具,用于识别文本的语种以及速度和准确性测试。 大多数NLP应用程序往往是特定于语种的,因此需要单语数据。为了用特定语种构建应用程序,可能需要应用预处理技术,过滤掉用非特定语种编写的文本。这需要正确标识每个输入示例的语种。下面我列出了一些可以作为Python模块用于此预处理需求的工具,并提供了一原创 2020-12-12 00:36:53 · 3340 阅读 · 4 评论 -
在GeForce RTX 3090下运行Tensorflow2
目录概述问题复现原因解决方案方案一方案二概述相信大家看这篇文章时候,肯定被3090下对tensorflow2的兼容性头疼。下面会分析原因,且给出方案。问题复现Tensorflow版本cuda版本cudnn版本错误2.3.010.17.6failed to run cuBLAS routine: CUBLAS_STATUS_NOT_SUPPORTED原因GeForce RTX 3090 的 computeCapability已经是 8.6。但是CUDA10.2原创 2020-11-03 10:48:16 · 10249 阅读 · 45 评论