Python爬虫
William_Dong
Focus on machine learning, data mining, and text mining.
Research about text mining and social media analytics.
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
Python3 Selenium+ChromeDriver抓取动态网页
以前抓取动态网页是用PhantomJS + Selenium + ChromeDriver,但是新版的Selenium不支持PhantomJS了,程序跑的时候总会跳出一些warnings.现在的操作是放弃PhantomJS,直接用headless ChromeDriver。可直接在Google主页下载个ChromeDriver,都是支持headless的。下面的程序就是启动driver,抓取数据,...原创 2018-03-30 19:08:30 · 6957 阅读 · 1 评论 -
Python3 request抓取网页内容乱码解决方案
下面的解决方案也是参照网上其他人的总结,放在这里方面自己日后查看。 # --- 百度搜索框默认是GBK编码 orgName_gbk = orgName.encode('gbk') orgName_gbk = urllib.parse.quote(orgName_gbk) search_url = 'https://zhidao.baid...原创 2018-03-29 16:41:30 · 1969 阅读 · 0 评论 -
Selenium动态爬虫页面元素无法点击报WebDriverException
亲测以下链接给的第一点和第三点建议非常有用,第二点没试。特转过来。原文链接 https://blog.youkuaiyun.com/lyl_7310/article/details/78532628报错selenium.common.exceptions.WebDriverException: Message: Element is not clickable at point (234.75, 22)...转载 2018-04-26 10:03:43 · 1284 阅读 · 0 评论 -
pymysql pymysql.err.OperationalError 1045 Access denied最简单解决办法
我使用的是python3.6+pymysql+mysql8.0在cmd命令行直接输入mysql回车出现:ERROR 1045 (28000): Access denied for user 'ODBC'@'localhost' (using password: NO)这时在cmd命令行输入mysql -u root -p 回车输入密码,就可以成功连接数据库但用pymysql登陆报错...原创 2018-05-10 20:27:12 · 57535 阅读 · 21 评论 -
Requests后用Beautifulsoup找不到指定元素(原来是页面元素被注释)
这个问题是在Requests抓取百度贴吧内容列表时出现,可能在抓取其他某些网页时也会出现这个问题。在用Requests时大家习惯加上header,这个header往往是Chrome的header。但是加了这个header就会导致页面中大部分html标签被放在了注释里面,后面用Beautifulsoup的find或是select都找不到对应的标签。head = {'User-Agent':...原创 2019-03-01 15:01:31 · 7589 阅读 · 7 评论
分享