- 博客(5)
- 收藏
- 关注
转载 用几十行代码实现python中英文分词
# -*- coding:utf-8 -*- #写了一个简单的支持中文的正向最大匹配的机械分词,其它不用解释了,就几十行代码#附:搜狗词库下载地址:http://vdisk.weibo.com/s/7RlE5 import string__dict = {} def load_dict(dict_file='words.dic'): #加载词库,把词库加载成一个
2016-12-21 16:58:19
4549
原创 python拆分中英文混合字符串
#coding=utf-8 import re s = 'hi新手oh'.decode('utf-8') #举个栗子是字符串s,为了匹配下文的unicode形式,所以需要解码p = re.compile(ur'[\u4e00-\u9fa5]') #这里是精髓,[\u4e00-\u9fa5]是匹配所有中文的正则,因为是unicode形式,所以也要转为ur print p.split(s
2016-12-21 16:08:05
13583
原创 python百度经纬度转google经纬度
因为公司项目需要遇到了这个问题。转完后几乎是完美的,本来打算用3方API的,一个月大概是600块,20W次,省钱了。import mathclass CoordinateConversion: def __init__(self): self.x_pi = 3.14159265358979324 * 3000.0 / 180.0 self.pi =
2016-12-14 14:18:59
1600
原创 一个简单的爬虫(二)
这个是第二爬虫,主要实现的是每日更新数据抓取新进入的评价。具体是这样的,我们需要美团每日的最新评价,也就是过去评价的不需要抓了。上代码,核心代码。#!/usr/bin/python# -*- coding: UTF-8 -*-import urllib2import requestsimport time,datetimeimport MySQLdbfrom lxml imp
2016-09-06 13:26:45
844
原创 一个简单的爬虫(一)
这段代码是抓取点评上海所有没发门店的,大概是有16000多家门店,代码很简单,上代码。#-*-coding:utf-8 -*-import requestsimport socketimport MySQLdbimport datetimeimport timefrom lxml import etreeimport randomfrom UserAgent import u
2016-09-05 19:08:43
1284
1
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人