yinyao1992-优快云博客

原创使用Oracle sqlldr 快速批量导入文本文件

最近项目需要导入一批3000多万条的POI数据到Oracle数据库，简单的插入导入速度太慢，使用sqlldr 批量导入3000多万条数据花了20分钟左右，速度还可以，具体方法如下：1.新建导入控制文件 input.ctl，文件内容如下：Load dataCharacterset UTF8Infile 'H:\POI\baidu.txt'Append into table tbl_

2015-07-09 22:38:25 3448

原创 Scala println Array

1.To print a 1-D Arrayval a = Array.range(1,10)

2014-04-29 22:08:07 2751

转载使用Python MrJob的MapReduce实现电影推荐系统

原文链接：http://www.sobuhu.com/archives/567 最近发现一个很好玩的Python库，可以方便的使用在Python下编写MapReduce任务，直接使用Hadoop Streaming在Hadoop上跑。对于一般的Hadoop而言，如果任务需要大量的IO相关操作（如数据库查询、文件读写等），使用Python还是Java、C++，性能差别不大，而如

2013-04-19 16:09:03 1684

转载斯坦福大学自然语言处理第七课“情感分析（Sentiment Analysis）” 入门简介

原文链接：http://52opencourse.com/235/%E6%96%AF%E5%9D%A6%E7%A6%8F%E5%A4%A7%E5%AD%A6%E8%87%AA%E7%84%B6%E8%AF%AD%E8%A8%80%E5%A4%84%E7%90%86%E7%AC%AC%E4%B8%83%E8%AF%BE-%E6%83%85%E6%84%9F%E5%88%86%E6%9E%90%EF%

2013-04-19 16:06:12 1367

转载 Hadoop, MapReduce and processing large Twitter datasets for fun and profit

原网址链接：http://www.vidalquevedo.com/hadoop-mapreduce-and-processing-large-twitter-datasets-for-fun-and-profitLesson 1: Twitter API and an Introduction to the TerminalLesson 2: More Terminal and

2013-04-19 16:03:44 648

转载推荐系统的循序进阶读物（从入门到精通）好文链接

推荐系统-从入门到精通http://blog.sciencenet.cn/blog-210641-508634.html为了方便大家从理论到实践，从入门到精通，循序渐进系统地理解和掌握推荐系统相关知识。特做了个读物清单。大家可以按此表阅读，也欢迎提出意见和指出未标明的经典文献以丰富各学科需求（为避免初学者疲于奔命，每个方向只推荐几篇经典文献）。1. 中文综述(了解概念-入门篇)

2013-04-19 09:42:24 682

原创 TF-IDF与余弦相似性的应用相关文章

TF-IDF与余弦相似性的应用（一）：自动提取关键词链接：http://www.ruanyifeng.com/blog/2013/03/tf-idf.htmlTF-IDF与余弦相似性的应用（二）：找出相似文章TF-IDF与余弦相似性的应用（三）：自动摘要

2013-04-18 15:26:44 890

原创 A good blog about how to write an Hadoop MapReduce program in Python

http://www.michael-noll.com/tutorials/writing-an-hadoop-mapreduce-program-in-python/

2013-04-11 20:44:17 723

转载利用Python抓取和解析网页

对搜索引擎、文件索引、文档转换、数据检索、站点备份或迁移等应用程序来说，经常用到对网页(即HTML文件)的解析处理。事实上，通过Python语言提供的各种模块，我们无需借助Web服务器或者Web浏览器就能够解析和处理HTML文档。本文将详细介绍如何利用Python抓取和解析网页。首先，我们介绍一个可以帮助简化打开位于本地和Web上的HTML文档的Python模块，然后，我们论述如何使用Python

2012-11-21 20:45:09 1403

转载利用Python中的urllib模块下载文件到本地文件夹

1、下载单个文件到本地文件夹#下载网页文件到本地文件夹import os,urllib2,urllib #设置下载后存放的存储路径'C:\Users\yinyao\Desktop\Python code' path=r'C:\Users\yinyao\Desktop\Python code' file_name=r'MSFT.csv' #文件名，包含文件格式

2012-11-21 20:30:10 24988

原创利用Python中的matplotlib模块抓取yahoo finance里的历史数据并绘图

如何自动获取各个公司的股票历史数据并绘图是金融文本情感分析项目里的必要部分，诚然这些数据在finance.yahoo.com里可以很方便的看到，但如何利用程序自动获取、实时显示却是个问题。之前一直考虑写爬虫来抓取数据，显然这样做很费力且效率不高，而Python.matplotlib module有一finance module能够很便捷的实现这一功能。 finance.py

2012-11-21 20:15:53 11171

转载 Python抓取框架：Scrapy的架构

一、概述下图显示了Scrapy的大体架构，其中包含了它的主要组件及系统的数据处理流程（绿色箭头所示）。下面就来一个个解释每个组件的作用及数据的处理过程。二、组件1、Scrapy Engine（Scrapy引擎）Scrapy引擎是用来控制整个系统的数据处理流程，并进行事务处理的触发。更多的详细内容可以看下面的数据处理流程。2、Scheduler（调度）调度程序从Scrap

2012-11-21 14:03:15 846

Pattern Recognition and Machine Learning

2015-01-23

php5.0中文使用手册

php5.0中文使用手册4e3t4wGTYGREAY

2012-02-13

遗传算法pwm-DA资料

遗传算法pwm-DA资料ewtyeARUY5EJ

2012-02-13

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人