Python爬虫_William_Dong的博客-优快云博客

Python爬虫

关注

关注数：文章数：5 文章阅读量：75334 文章收藏量：59

作者: William_Dong

Focus on machine learning, data mining, and text mining. Research about text mining and social media analytics.

展开

专栏收录文章

Python3 Selenium+ChromeDriver抓取动态网页

以前抓取动态网页是用PhantomJS + Selenium + ChromeDriver，但是新版的Selenium不支持PhantomJS了，程序跑的时候总会跳出一些warnings.现在的操作是放弃PhantomJS，直接用headless ChromeDriver。可直接在Google主页下载个ChromeDriver，都是支持headless的。下面的程序就是启动driver，抓取数据，...

原创 2018-03-30 19:08:30 · 6957 阅读 · 1 评论
Python3 request抓取网页内容乱码解决方案

下面的解决方案也是参照网上其他人的总结，放在这里方面自己日后查看。 # --- 百度搜索框默认是GBK编码 orgName_gbk = orgName.encode('gbk') orgName_gbk = urllib.parse.quote(orgName_gbk) search_url = 'https://zhidao.baid...

原创 2018-03-29 16:41:30 · 1969 阅读 · 0 评论
Selenium动态爬虫页面元素无法点击报WebDriverException

亲测以下链接给的第一点和第三点建议非常有用，第二点没试。特转过来。原文链接 https://blog.youkuaiyun.com/lyl_7310/article/details/78532628报错selenium.common.exceptions.WebDriverException: Message: Element is not clickable at point (234.75, 22)...

转载 2018-04-26 10:03:43 · 1284 阅读 · 0 评论
pymysql pymysql.err.OperationalError 1045 Access denied最简单解决办法

我使用的是python3.6+pymysql+mysql8.0在cmd命令行直接输入mysql回车出现：ERROR 1045 (28000): Access denied for user 'ODBC'@'localhost' (using password: NO)这时在cmd命令行输入mysql -u root -p 回车输入密码，就可以成功连接数据库但用pymysql登陆报错...

原创 2018-05-10 20:27:12 · 57535 阅读 · 21 评论
Requests后用Beautifulsoup找不到指定元素(原来是页面元素被注释)

这个问题是在Requests抓取百度贴吧内容列表时出现，可能在抓取其他某些网页时也会出现这个问题。在用Requests时大家习惯加上header，这个header往往是Chrome的header。但是加了这个header就会导致页面中大部分html标签被放在了注释里面，后面用Beautifulsoup的find或是select都找不到对应的标签。head = {'User-Agent':...

原创 2019-03-01 15:01:31 · 7589 阅读 · 7 评论

Python爬虫

作者: William_Dong

Python3 Selenium+ChromeDriver抓取动态网页

Python3 request抓取网页内容乱码解决方案

Selenium动态爬虫页面元素无法点击报WebDriverException

pymysql pymysql.err.OperationalError 1045 Access denied最简单解决办法

Requests后用Beautifulsoup找不到指定元素(原来是页面元素被注释)