
python
bin~ibn
本科学历,大三选修人工智能方向,参加过语音识别项目,会使用深度学习的TensorFlow框架,掌握机器学习算法,会使用爬虫技术爬取数据,本科期间做过全国大学生创新创业训练赛进入省级,获得过大学生数学建模大赛优秀奖,华北五省机器人大赛省三等奖,参与过软件著作权的编写,参加过挑战杯,大学期间成绩优异,成绩排名稳居前五,通过了大学四级考试,会使用java、c、python、HTML、sql、JavaScript等语言,获得过ACAA中国数字艺术设计师证书
展开
-
MongoDB数据库的深入讲解
mongodb数据库可以在官方下载导入import pymongo# 创建一个连接对象client = pymongo.MongoClient( host="127.0.0.1", port=27017)# 找到一个数据库 class是数据库名db = client['class']# 第二种方法找到一个数据库:db = client.class # class是数据库名# 找到数据库中对应的表 students是表名collection = db["students"]# 第原创 2020-09-02 15:18:46 · 187 阅读 · 0 评论 -
PyQuery中的text、attr、html属性区别
用下面的HTML代码讲解:html = '''<!DOCTYPE html><html lang="en"><head> <meta charset="UTF-8"> <title>demo</title></head><body> <div id = container> <ul class="list1"> <li cl原创 2020-08-30 11:15:52 · 797 阅读 · 0 评论 -
pyquery----强大的爬虫搜索工具
pyquery 爬虫工具导入pyquery :from pyquery import PyQuery取代码块:doc = PyQuery("HTML代码")doc = PyQuery(url = "请求页面URL")doc = PyQuery(filename = "文件路径")CSS选择----缩小范围以一个HTML页面举例:<!DOCTYPE html><html lang="en"><head> <meta charset="UTF原创 2020-08-27 17:21:42 · 403 阅读 · 0 评论 -
python-logging模块的详细解析
在UI自动化应用中,经常会出错,打log就是一个很重要的环节,python的logging.basicConfig函数 真是既方便,又简单,每次粘贴到用例前,就可以打log了。logging模块是Python内置的标准模块,主要用于输出运行日志,可以设置输出日志的等级、日志保存路径、日志文件回滚等。相比print,具备如下优点:可以通过设置不同的日志等级,在release版本中只输出重要信息,而不必显示大量的调试信息;print将所有信息都输出到标准输出中,严重影响开发者从标准输出中查看其它数据;l转载 2020-08-26 12:15:17 · 206 阅读 · 0 评论 -
爬虫之Cookie模拟账号登陆
问题描述比如像百度,知乎等必须要登录才可以爬取信息的网站,我们必须要模拟自己的账号进行登录。Cookie在百度百科中的解释是:是某些网站为了辨别用户身份,进行Session跟踪而储存在用户本地终端上的数据(通常经过加密),由用户客户端计算机暂时或永久保存的信息通俗点说,Cookie就是网站服务器验证登录的一种手段,第一次登录分配一个Cookie代码。Cookie代码有一定的期限,超过规定的...原创 2020-05-06 17:56:02 · 745 阅读 · 0 评论 -
爬虫之——处理get请求
get请求我们都知道在上传表单的时候,有两种方法: post和get方式其中 post方法是加密传输的 get方法是明码传输下面说说get方法当在搜索框搜索一个中文字符时,会加密显示在地址栏中:比如我在百度中搜索“中国”地址栏是这样的https://www.baidu.com/s?ie=utf-8&f=8&rsv_bp=1&rsv_idx=1&...原创 2020-04-25 18:58:55 · 570 阅读 · 0 评论 -
爬虫自定义创建Opener
爬虫库中的urllib.request.urlopen 可以创建一个opener,但他是特殊的opener,是模块自动帮我们创建好的为什么要自定义一个Opener呢?urlopen() 方法不支持 代理、 Cookie、 和其他的http/https等的高级功能代理:如果一直用一台电脑去访问某个网页,IP地址是一样的,服务器会捕获这个消息,阻挡你的访问;但添加代理后可以使用其他的IP地址来访...原创 2020-04-25 18:29:31 · 543 阅读 · 0 评论 -
爬虫的自创建请求对象:报错AttributeError: 'str' object has no attribute 'items'
在使用爬虫库创建自定义请求对象时将值传入headersagent = random.choice(userAgent)REQ = request.Request(url,headers=agent)报错AttributeError: 'str' object has no attribute 'items'查看源码属性的类型是键值对型将传入的值放入字符串中即可:agent = r...原创 2020-04-25 09:15:05 · 1881 阅读 · 1 评论 -
爬虫使用多个user-Agent
为什么要使用多个user-Agent?因为我们的爬虫到时候是一直循环的,每次爬取的时间间隔较短,目标网页容易发现同一个浏览器浏览太快这个漏洞,导致爬取不顺利,所以使用多个user-Agent来进行爬取访问,是一个随机的过程怎么样使用?以一个简单的爬取百度标题为例...原创 2020-04-25 08:59:58 · 1030 阅读 · 0 评论