lllwxy-优快云博客

转载用几十行代码实现python中英文分词

# -*- coding:utf-8 -*- #写了一个简单的支持中文的正向最大匹配的机械分词,其它不用解释了，就几十行代码#附：搜狗词库下载地址：http://vdisk.weibo.com/s/7RlE5 import string__dict = {} def load_dict(dict_file='words.dic'): #加载词库，把词库加载成一个

2016-12-21 16:58:19 4614

原创 python拆分中英文混合字符串

#coding=utf-8 import re s = 'hi新手oh'.decode('utf-8') #举个栗子是字符串s，为了匹配下文的unicode形式，所以需要解码p = re.compile(ur'[\u4e00-\u9fa5]') #这里是精髓，[\u4e00-\u9fa5]是匹配所有中文的正则，因为是unicode形式，所以也要转为ur print p.split(s

2016-12-21 16:08:05 13657

原创 python百度经纬度转google经纬度

因为公司项目需要遇到了这个问题。转完后几乎是完美的，本来打算用3方API的，一个月大概是600块，20W次，省钱了。import mathclass CoordinateConversion: def __init__(self): self.x_pi = 3.14159265358979324 * 3000.0 / 180.0 self.pi =

2016-12-14 14:18:59 1657

原创一个简单的爬虫（二）

这个是第二爬虫，主要实现的是每日更新数据抓取新进入的评价。具体是这样的，我们需要美团每日的最新评价，也就是过去评价的不需要抓了。上代码，核心代码。#!/usr/bin/python# -*- coding: UTF-8 -*-import urllib2import requestsimport time,datetimeimport MySQLdbfrom lxml imp

2016-09-06 13:26:45 886

原创一个简单的爬虫（一）

这段代码是抓取点评上海所有没发门店的，大概是有16000多家门店，代码很简单，上代码。#-*-coding:utf-8 -*-import requestsimport socketimport MySQLdbimport datetimeimport timefrom lxml import etreeimport randomfrom UserAgent import u

2016-09-05 19:08:43 1331 1

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

转载 用几十行代码实现python中英文分词

原创 python拆分中英文混合字符串

原创 python百度经纬度转google经纬度

原创 一个简单的爬虫（二）

原创 一个简单的爬虫（一）

空空如也

空空如也

转载用几十行代码实现python中英文分词

原创一个简单的爬虫（二）

原创一个简单的爬虫（一）