- 博客(93)
- 收藏
- 关注
原创 将Excel的数据自动导入到neo4j中去
1.DataToNeo4jClass.py# -*- coding: utf-8 -*-from py2neo import Node, Graph, Relationshipclass DataToNeo4j(object): """将excel中数据存入neo4j""" # 初始化 def __init__(self): """建立连接"""...
2020-03-10 15:54:51
5145
1
原创 REC转为excel的形式(openpyxl),支持大数据量转化,非常快
# coding=utf-8'''#author: 东邪'''import xlwtimport openpyxlimport refrom openpyxl.cell.cell import ILLEGAL_CHARACTERS_REworkbook = openpyxl.Workbook() #创建excelsheet1 = workbook.activeshee...
2020-03-10 15:51:05
1604
原创 对excel里面列分词
import jiebaimport xlrdfrom datetime import date,datetimeimport xdrlib,sysimport xlwtdef read_excel(): data =xlrd.open_workbook(r"C:\Users\jhy\Desktop\2019全年用户问题未识别9224-15000.xlsx") f...
2020-02-04 09:32:31
3399
原创 解数独
package samples;public class example37 { public static void main(String[] args) { char[][] board = new char[][]{ {'5', '3', '.', '.', '7', '.', '.', '.', '.'}, ...
2020-01-30 09:55:26
168
原创 python常用的小知识
from math import ceilfrom collections.abc import *import difflibimport reimport sysimport time#from iteration_utilities import deepflattenfrom collections import Counterimport randomclass E...
2020-01-10 15:49:18
197
转载 python装饰器
1 写在前面python中使用@放在函数上方便定义一个装饰器,很多朋友觉得使用装饰器太魔幻,始终不知道怎么灵活使用。要想做到灵活使用,得首先明白它的本质。今天,我试着用最通俗的语言,几行代码和小例子来解释装饰器的本质。2 小例子这是一个装饰器:def call_print(f): def g(): print('you\'re calling %s function...
2020-01-09 19:03:22
217
原创 python判断一个文件每行数据是否有相同元素,相同的元素name唯一,value值合并
方法一:工程化思维,就是程序员正常思维 ,直接写代码建一个缓存表,循环遍历lines,放到缓存表,缓存表存储不重复的元素数据格式:其他股份有限公司分公司(上市) VAR_COMPANY_TYPE外商投资 VAR_COMPANY_TYPE共建 VAR_COMPANY_TYPE国有事业单位营业 VAR_COMPANY_TYPE共建 VAR_MANAGERclass Example...
2020-01-08 20:33:32
1375
转载 从Excel到Python:最常用的36个Pandas函数
https://mp.weixin.qq.com/s/ExlGCUO6Cvo1VN7z7WvCKw
2019-12-26 08:23:08
188
原创 java读取一个目录下的所有文件里面的内容并写入数据库
//获取本地文件,读取本地文件里的kbase语句 public void bulklod() throws Exception,FileNotFoundException { // 获取目标服务器 kbase path String serverPath = ""; String driver_name = "com.kbase.jdbc...
2019-12-25 16:00:32
697
1
原创 python批量修改文件后缀
import argparseimport osdef get_parser(): parser = argparse.ArgumentParser( description='工作目录中文件后缀名修改') parser.add_argument('work_dir', metavar='WORK_DIR', type=str, nargs=1, ...
2019-12-24 16:06:23
184
转载 neo4j入门案例(电影例子)
转载:https://blog.youkuaiyun.com/hepei120/article/details/86618867
2019-10-10 09:52:25
871
原创 JAVA版将Excel转为REC的格式
import java.io.BufferedWriter;import java.io.FileInputStream;import java.io.FileNotFoundException;import java.io.FileOutputStream;import java.io.IOException;import java.io.InputStream;import ja...
2019-09-11 17:26:31
794
原创 Excel转成REC的格式文件
import osimport pandas as pdimport numpy as npimport reos.chdir(os.getcwd())path = r"D:\Example\untitled\excel生成REC通用\\工作簿1"file = "最美四季"data = pd.read_excel(r"{0}\{1}.xlsx".format(path,fil...
2019-09-11 16:18:48
2021
转载 seq2seq聊天机器人
1.cmd下到文件目录,运行 python demo.py train,预料多的话训练的会非常慢2.训练完后,输入 python demo.py predictdemo.py# coding:utf-8import sysimport numpy as npimport tensorflow as tffrom tensorflow.contrib.legacy_seq2s...
2019-08-07 19:11:47
316
原创 爬取新浪新闻(嵌套爬取,爬取子链接,然后每个子链接的详情页里面内容)
1.首先命令行输入: scrapy startproject newsSpider2.在spider文件夹下,建立Spider.py文件,具体如下:import osimport scrapyfrom ..items import NewsspiderItemclass newsSpider(scrapy.Spider): name = 'news' allowed_...
2019-08-07 17:33:07
1079
原创 时期实体识别
import refrom datetime import datetime,timedeltafrom dateutil.parser import parseimport jieba.posseg as psgUTIL_CN_NUM = { '零': 0, '一': 1, '二': 2, '两': 2, '三': 3, '四': 4, '五': 5, '六': 6,...
2019-07-20 15:56:24
257
1
原创 python操作树形的excel结构生成REC特定格式(包括生成父节点ID)
# -*- coding: utf-8 -*-# 作者:东邪import xlrdlast_line=['']*4# 打开文件try: data = xlrd.open_workbook("图书馆业务数据_三级导航.xls")except: print("fail to open file")else: # 文件读写方式是追加 file = open...
2019-06-05 14:46:34
686
原创 python自动化测试
测试API`http://192.168.100.75XXXXXXXXXXXXXXXXXXXXX解析json:{'result': True, 'MetaList': [{ 'ID': '-1769765650_2108236046', 'Data': {'Extra': {'来源链接': '', '答案': '您...
2019-05-30 16:54:17
281
原创 python正则方式过滤掉excel中的某个字
import rewith open('C:\\Users\\lvhao\\Desktop\\作者数据处理.txt','r') as f: dic = {} for line in f: linelist = line.split('\t') # print(linelist[1]) keywords = ['著','主编','编'...
2019-05-13 19:58:38
592
原创 如何过滤掉表格一列的包含英文的
import refile = open('C:\\Users\\lvhao\\Desktop\\test3.xlsx','w')with open('C:\\Users\\lvhao\\Desktop\\test2.xlsx','r') as f: dic = {} for index,line in enumerate(f): #print(line,in...
2019-05-13 14:30:57
357
原创 处理数据,把作者名字提取出来
with open('C:\\Users\\lvhao\\Desktop\\test.txt','r') as f: dic = {} for line in f: listlist = line.split(' ') #print(listlist[1]) if '著' in listlist[1]: lis...
2019-05-13 14:09:23
600
原创 爬取的网页翻页是js的(构造post请求,ajax 异步刷新的, 只抓ajax调用的接口就行),然后保存固定格式
import requestsimport jsonfrom lxml import etreeimport time'''注意,河北省博物馆这个网站。从第二页开始是这样匹配的replys = '///*[@class="liuyantiaotaio t110"]/tr/td[2]/p/span/text()'第一页的回复语句replys = '///*[@class="liuyan...
2019-05-08 15:58:29
1254
原创 爬虫使用xpath解析(并保存成固定格式的文件)
爬取广西壮族自治区博物馆import requests# from bs4 import BeautifulSoupimport urllibfrom lxml import etreeimport timeimport reurl = 'http://www.gxmuseum.cn/plus/guestbook.php?gotopagerank=&totalresult=...
2019-05-08 08:44:19
898
原创 爬虫使用soup解析(并保存成固定格式文件)
爬取安徽省博物馆:import requestsfrom bs4 import BeautifulSoupurl = 'http://www.ahm.cn/Service/Leaveword/zxzx#page='def get_info(url, data=None): wd_data = requests.get(url) soup = BeautifulSoup(...
2019-05-08 08:42:57
921
原创 decode和encode关系
#coding=utf-8#Python2中默认是ASCII码,一般会加入以utf-8编程a = ‘编码’ # a是utf-8类型b = a.decode(‘utf-8’) # b是Unicode类型c = b.encode(‘gbk’) #c是gbk类型d = c.decode(‘gbk’).encode(‘utf-...
2019-04-20 23:53:13
200
原创 数据仓库
离线数据内容建设会对精心加工后的数据进行分层:ODS原始数据层DWD明细数据层DWS汇总层ADS集市数据层三种搭建数据仓库的方式:传统OLTP数据库中搭建商业性数据仓库产品中搭建(MPP架构的Teradata)基于Hadoop来搭建不管哪种方式都会面临以下问题:怎么组织数据仓库中的数据?怎么组织才能使得数据使用最为方便和便捷?怎么组织才能使得数据仓库具有良好的可拓...
2019-04-13 21:25:59
716
原创 kafka
预读:就是说我在浏览文章的时候当我们浏览到了这一行数字的时候,因为我是从上往下去阅读的,当我阅读到某一行的时候,那这个操作系统会大概率的会认为我要马上阅读下面那条记录,所以为下度这条记录的时候,操作系统会提前把下一行记录帮我读出来,这就是一个预读的功能。后写:后写就是我们会往这个操作系统上会有大量的写,如果你是每一次请求你去写一次的话,比如说我们写一千字,你可能对这个数据有一千次的操作对吧,...
2019-04-10 19:40:51
142
原创 Flume+kafka
1.启动kafka前,先启动zookeeper启动kafka:三台机器,每台机器都这样./bin/kafka-server-start.sh config/server.properties2.如果没有topic,创建topic查看topic list:bin/kafka-topics.sh --list --zookeeper master:2181,slave1:2181,slav...
2019-04-09 23:17:03
413
原创 Flume
常用分析指标:.1. 常规数据指标的监测:用户量,新用户量,UGC(社交产品),销量,付费量,推广期间各种数据等。2. 渠道分析/流量分析:分析/监控引流渠道优劣3. 用户的核心转化率:统计付费率,购买率4. 用户使用时长的监测:用户活跃度,产品验证5. 用户流失情况:监控用户的流失率(1,3,7,30)6. 活跃用户动态:关注活跃用户动态7. 用户特征描述:算法建模上,和产品上...
2019-04-08 23:08:36
299
原创 文本相似度NLP
nlp.py# -*- coding: utf-8 -*-# 作者:东邪import numpy as np# a = np.array([1, 0, 1])# b = np.array([1, 1, 0])## sum = 0# for i, j in zip(a, b):# sum += i*j# print(sum)# print(a.dot(b))impo...
2019-04-06 17:32:06
347
原创 音乐推荐项目
音乐数据有3个原始文件:①music_meta(音乐信息),有以下字段'item_id', ' item_name', 'desc', 'total_timelen', 'location', 'tags'音乐id , 音乐名称, 音乐描述, 音乐总共的时长, 发布的地区, 标签②user_profile....
2019-04-03 23:40:33
859
1
原创 HMM
每个状态只依赖之前有限个状态– N阶马尔科夫:依赖之前n个状态– 1阶马尔科夫:仅仅依赖前一个状态• p(w1,w2,w3,……,wn) = p(w1)p(w2|w1)p(w3|w1,w2)……p(wn|w1,w2,……,wn-1) =log p(w1)p(w2|w1)p(w3|w2)……p(wn|wn-1) +lambda( p(w1)+…+p(wn)-1)+…例如:p(w1=今天,w...
2019-04-02 18:40:16
240
原创 中文分词
最常见的分词方法是基于词典匹配– 最大长度查找(前向查找,后向查找)后向查找准确数据结构– 为了提高查找效率,不要逐个匹配词典中的词– 查找词典所占的时间可能占总的分词时间的1/3左右,为了保证切分速度,需要选择一个好的查找词典方法– Trie树常用于加速分词查找词典问题说明反向比较好,正向的话有歧义贝叶斯公式:大学生大学大脑大型活动 p(w2=学|w1=大)=p(大...
2019-04-01 23:22:04
252
原创 基于CB的推荐算法
CB算法对于线上很好用,尤其新用户进来,直接给我推荐跟我正在浏览相似的物品(这个相似的物品可以基于内容的推荐,如果这个物品在item-item相似度矩阵里面的话,可以基于item_cf做一个推荐,如果不在就基于内容推荐)。冷启动,可以推一些热门的物品。举个简单的小例子用户u1喜欢的电影是A,B,C用户u2喜欢的电影是A,C,E,F用户u3喜欢的电影是B,D我们需要解决的问题是:决定对u1...
2019-04-01 21:47:44
582
原创 协同过滤CF
我门需要三个方面进行给用户推荐,前两个是基于用户的,最后一个是基于内容的(这部分需要切词)。用户的历史记录,会有一个user-item矩阵,根User-Based CF 计算user与user的相似度矩阵。Item-Based CF 就算item-item的相似度矩阵。CF的优点– 充分利用群体智慧(历史行为数据)– 推荐精度高于CB– 利于挖掘隐含的相关性(啤酒尿布)• 缺点– ...
2019-03-31 12:15:38
238
原创 快速判重——布隆过滤器(Bloom Filter)
1.由一个很长的二进制向量和一系列随机映射函数组成2.布隆过滤器可以用于检索一个元素是否在一个集合中3.优点是空间效率和查询时间都远远超过一般的算法,缺点是有一定的误识别率应用:给定数据(2,4,1,12,9,7,6)如何对它排序?方法1:基本的排序方法包括冒泡,快排等。方法2:使用BitMap算法所谓的BitMap就是用一个bit位来标记某个元素所对应的value,而key即是该元素...
2019-03-31 09:18:02
693
原创 商品LR训练
线性回归:训练过程2. 求w:1)定义误差 err2)怎么衡量哪条直线最好?所有点的误差平方和最小最好 (学习的目标)【Loss损失函数】【cost代价函数】3)求导等于0来求最小值对应的参数w交叉验证:样本分成5分:1,2,3,4,5以1,2,3,4为训练,第5份作为预测以1,2,3,5为训练,第4份作为预测以1,2,4,5为训练,第3份作为预测以1,3,4,5为训练...
2019-03-28 20:01:54
205
原创 Spark理论
exector都是装载在container里运行,executor分配的内存是executor-memory,像Yarn申请的内存是(executor-memory+1)*num-executors.AM在Spark中叫driver,AM像RM申请的是executor资源,当分配完后,executor启动,由spark的AM向executor分配task,分配task、分配到哪个executor...
2019-03-27 22:39:52
287
原创 hadoop2.0(yarn)
原hadoop1.0的JobTracker和TaskTracker不见了,取而代之的是ResourceManager,ApplicationMaster,NodeManager三部分。JobTracker变成了ResourceManager,ApplicationMasterTaskTracker变成NodeManager在yarn中Job概念换成了application应用程序几个job...
2019-03-27 11:55:00
240
原创 scala练习(一)
一、scala wordcount1.先将数据导入到scalaimport scala.io.Sourceval lines = Source.fromFile("./The_man_of_property.txt").getLines().toListlines.map(x=>x.split(" ")).flatten等价于lines.flatMap(x=>x.sp...
2019-03-26 16:02:54
439
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人