- 博客(12)
- 资源 (4)
- 收藏
- 关注
原创 使用Oracle sqlldr 快速批量导入文本文件
最近项目需要导入一批3000多万条的POI数据到Oracle数据库,简单的插入导入速度太慢,使用sqlldr 批量导入3000多万条数据花了20分钟左右,速度还可以,具体方法如下:1.新建导入控制文件 input.ctl,文件内容如下:Load dataCharacterset UTF8Infile 'H:\POI\baidu.txt'Append into table tbl_
2015-07-09 22:38:25
3367
转载 使用Python MrJob的MapReduce实现电影推荐系统
原文链接:http://www.sobuhu.com/archives/567 最近发现一个很好玩的Python库,可以方便的使用在Python下编写MapReduce任务,直接使用Hadoop Streaming在Hadoop上跑。对于一般的Hadoop而言,如果任务需要大量的IO相关操作(如数据库查询、文件读写等),使用Python还是Java、C++,性能差别不大,而如
2013-04-19 16:09:03
1643
转载 斯坦福大学自然语言处理第七课“情感分析(Sentiment Analysis)” 入门简介
原文链接:http://52opencourse.com/235/%E6%96%AF%E5%9D%A6%E7%A6%8F%E5%A4%A7%E5%AD%A6%E8%87%AA%E7%84%B6%E8%AF%AD%E8%A8%80%E5%A4%84%E7%90%86%E7%AC%AC%E4%B8%83%E8%AF%BE-%E6%83%85%E6%84%9F%E5%88%86%E6%9E%90%EF%
2013-04-19 16:06:12
1330
转载 Hadoop, MapReduce and processing large Twitter datasets for fun and profit
原网址链接:http://www.vidalquevedo.com/hadoop-mapreduce-and-processing-large-twitter-datasets-for-fun-and-profitLesson 1: Twitter API and an Introduction to the TerminalLesson 2: More Terminal and
2013-04-19 16:03:44
620
转载 推荐系统的循序进阶读物(从入门到精通) 好文链接
推荐系统-从入门到精通http://blog.sciencenet.cn/blog-210641-508634.html为了方便大家从理论到实践,从入门到精通,循序渐进系统地理解和掌握推荐系统相关知识。特做了个读物清单。大家可以按此表阅读,也欢迎提出意见和指出未标明的经典文献以丰富各学科需求(为避免初学者疲于奔命,每个方向只推荐几篇经典文献)。1. 中文综述(了解概念-入门篇)
2013-04-19 09:42:24
650
原创 TF-IDF与余弦相似性的应用相关文章
TF-IDF与余弦相似性的应用(一):自动提取关键词链接:http://www.ruanyifeng.com/blog/2013/03/tf-idf.htmlTF-IDF与余弦相似性的应用(二):找出相似文章TF-IDF与余弦相似性的应用(三):自动摘要
2013-04-18 15:26:44
856
原创 A good blog about how to write an Hadoop MapReduce program in Python
http://www.michael-noll.com/tutorials/writing-an-hadoop-mapreduce-program-in-python/
2013-04-11 20:44:17
689
转载 利用Python抓取和解析网页
对搜索引擎、文件索引、文档转换、数据检索、站点备份或迁移等应用程序来说,经常用到对网页(即HTML文件)的解析处理。事实上,通过Python语言提供的各种模块,我们无需借助Web服务器或者Web浏览器就能够解析和处理HTML文档。本文将详细介绍如何利用Python抓取和解析网页。首先,我们介绍一个可以帮助简化打开位于本地和Web上的HTML文档的Python模块,然后,我们论述如何使用Python
2012-11-21 20:45:09
1340
转载 利用Python中的urllib模块下载文件到本地文件夹
1、下载单个文件到本地文件夹#下载网页文件到本地文件夹import os,urllib2,urllib #设置下载后存放的存储路径'C:\Users\yinyao\Desktop\Python code' path=r'C:\Users\yinyao\Desktop\Python code' file_name=r'MSFT.csv' #文件名,包含文件格式
2012-11-21 20:30:10
24888
原创 利用Python中的matplotlib模块抓取yahoo finance里的历史数据并绘图
如何自动获取各个公司的股票历史数据并绘图是金融文本情感分析项目里的必要部分,诚然这些数据在finance.yahoo.com里可以很方便的看到,但如何利用程序自动获取、实时显示却是个问题。之前一直考虑写爬虫来抓取数据,显然这样做很费力且效率不高,而Python.matplotlib module有一finance module能够很便捷的实现这一功能。 finance.py
2012-11-21 20:15:53
10999
转载 Python抓取框架:Scrapy的架构
一、概述下图显示了Scrapy的大体架构,其中包含了它的主要组件及系统的数据处理流程(绿色箭头所示)。下面就来一个个解释每个组件的作用及数据的处理过程。二、组件1、Scrapy Engine(Scrapy引擎)Scrapy引擎是用来控制整个系统的数据处理流程,并进行事务处理的触发。更多的详细内容可以看下面的数据处理流程。2、Scheduler(调度)调度程序从Scrap
2012-11-21 14:03:15
809
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人