- 博客(7)
- 收藏
- 关注

原创 Django3重载机制
Django重载机制启动Django的命令为python manage.py runserver.此时整个Django的入口文件为:manage.py.调用函数: execute_from_command_line(sys.argv)def execute_from_command_line(argv=None): """Run a ManagementUtility.""" utility = ManagementUtility(argv) utility.execute()
2020-12-01 16:50:44
917
原创 在Amazon EMR中开启Webhdfs服务
在使用命令curl -i -X PUT -T test_data01.txt "http://ec2-54-241-143-9.us-west-1.compute.amazonaws.com:14000/webhdfs/v1/user/tmp/test_data01.txt?user.name=redpulse&op=CREATE" -H "Content-Type:applicatio...
2020-04-22 09:41:33
289
原创 实际开发中遇到的一些问题
Django查询集过大的时候今天的一个需求是这样子的,对数据库中存的约100w条数据进行翻译,如果直接遍历下面这个qureyser对象,我们的服务器内存就爆炸了,这时可以选择用迭代器:qs = Tag.objects.all() print("这是测试接口!") for item in qs.iterator(): pass查询的一个小技巧和...
2019-11-12 16:30:29
373
原创 如何在dockerfile中更换pip install的源
这只是一个备忘录加上这三行就可以了RUN pip install -U pipRUN pip config set global.index-url http://mirrors.aliyun.com/pypi/simpleRUN pip config set install.trusted-host mirrors.aliyun.com...
2019-11-06 18:32:58
12303
1
原创 爬虫遇到用时间戳作为翻页参数的网站怎么办
今天在爬蓝鲸财经的新闻数据的时候,遇到了一个难题,如下api:https://app.lanjinger.com/news/waterfall?type=6&marked=0&last_time=1572056322000&refresh_type=1我发现里面控制翻页的参数是last_time,这是个啥东西?感觉它有点像时间戳诶,我就用时间戳转换工具试了一下,发现...
2019-10-31 14:21:44
3389
原创 在使用python第三方库newspaper3k时遇到SSLError
今天在写一个爬取新闻的爬虫时,遇到了SSLError。首先在获取具体新闻的资源地址的时候,我是用的requests库来做的,遇到了如下错误:requests.exceptions.SSLError: HTTPSConnectionPool(host=‘med.sina.com’, port=443): Max retries exceeded with url: /article_list_-...
2019-10-30 15:53:24
877
原创 写爬虫获取资源路径时有的是相对路径怎么办?
之前在用python写爬虫时,遇到的相对路径一般是规则的,所以都是采用字符串拼接的方式就完事儿了,直到昨天我遇到一个难题。像这种不规则的路径可让我犯了难,字符串怎么拼也不成啊。后来我发现用urllib中的parse.urljoin就可以做到。from urllib.parse import urljoinret = urljoin('http://www.cwi.nl/%7Eguido/...
2019-10-29 09:46:02
1531
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人