实习代码记录(7.16-7.17)

处理的是比较琐碎的任务。
主要功能是同义词分裂句子,下面是代码

import json
import re
import pickle
import numpy as np
def data_load(path):
    '''
    读取数据的函数
    :param path:
    :return: list,list
    '''
    with open(path, 'r', encoding='utf-8') as f:
        data = json.load(f)
    question = []
    ext_question = []
    for i in data["RECORDS"]:
        question.append(i["question"])
        ext_question.append(i["ext_question"])

    que = []
    ext_que = []
    for i, j in enumerate(ext_question):
        if j != "null" and j != None and j != "]":
            que.append(question[i])
            ext_que.append(ext_question[i])
    del question, ext_question
    return que, ext_que

def get_length(sentence):
    '''主要是获取每个句子分分裂为多少句子,
    之前没有写这个函数,出现一个句子可以分裂成一亿句的情况,
    分分钟爆内存'''
    sentence = re.split(r'[\}\{]', sentence)
    sentence = [re.split(r'[\[\]]', i) for i in sentence]
    sentence = [[i for i in j if i != ''] for j in sentence]
    data = []
    for i in sentence:
        if "|" in i:
            data.append([''.join(i)])
        else:
            data.append(i)
    data = [i for j in data for i in j]
    data = [i.count("|") for i in data]
    data = np.asarray(data)+1
    return data.prod()

def q_extra(sentence):
    '''
    分裂句子的函数,为了处理不同格式的原始句子,写了不少规则
    主要目的其实还是为了按|来分裂句子
    分裂的方法本身应该使用递归回溯的方法,这边偷了个懒,使用python的字典去做
    主要参考是leetcode-17
    :param sentence:
    :return: list
    '''
    sentence = re.split(r'[\}\{]', sentence)
    sentence = [re.split(r'[\[\]]', i) for i in sentence]
    sentence = [[i for i in j if i != ''] for j in sentence]
    data = []
    for i in sentence:
        if "|" in i:
            data.append([''.join(i)])
        else:
            data.append(i)
    data = [i for j in data for i in j]
    final = []
    for i in data:
        temp = i.split('|')
        final.append(temp)
    del data

    res = [i for i in final[0]]
    for i in range(1, len(final)):
        res = [m+n for m in res for n in final[i]]
    return res


if __name__ == '__main__':
    path = "tbl_case_detail.json"
    question, ext_question = data_load(path)
    print(len(question), len(ext_question))
    que =[]
    ext_que = []
    print(get_length(ext_question[2319]))
    ##这边还是做了一个分裂长度的判断,舍弃掉那些分裂过长的句子
    for i,j in enumerate(ext_question):
        if get_length(j) < 50 and get_length(j)>0:
            que.append(question[i])
            ext_que.append(ext_question[i])
    print(len(que),len(ext_que))



    data = []
    for i,j in enumerate(ext_que):
        data.append(q_extra(j))
        print(i)

    final_data = []
    for i,j in enumerate(que):
        for q in data[i]:
            final_data.append(j.strip()+'¥'+q.strip()+"¥"+"1")

    print(len(final_data))

    with open("data_flie.utf8","w",encoding="utf-8") as f:
        for line in final_data:
            f.write(line+"\n")

代码写得还是不够精简完美,继续努力吧。

输入:[因为|原因][时钟|时候|时间][冲突][无法][完成|成功][mooc][课程][退出][学习][有什么?][影响]

[查询]{[视频]|[文件|文档]}[时间?][屏幕][查询][不全][具备|拥有|包含?][内容][什么是|是什么?][原因]

输出:分裂的句子

内容概要:本文详细介绍了Maven的下载、安装与配置方法。Maven是基于项目对象模型(POM)的概念,用于项目管理和构建自动化的工具,能有效管理项目依赖、规范项目结构并提供标准化的构建流程。文章首先简述了Maven的功能特点及其重要性,接着列出了系统要求,包括操作系统、磁盘空间等。随后,分别针对Windows、macOS和Linux系统的用户提供了详细的下载和安装指导,涵盖了解压安装包、配置环境变量的具体操作。此外,还讲解了如何配置本地仓库和镜像源(如阿里云),以优化依赖项的下载速度。最后,给出了常见的错误解决方案,如环境变量配置错误、JDK版本不兼容等问题的处理方法。 适合人群:适用于初学者以及有一定经验的Java开发人员,特别是那些希望提升项目构建和依赖管理效率的技术人员。 使用场景及目标: ①帮助开发者掌握Maven的基本概念和功能特性; ②指导用户完成Maven在不同操作系统上的安装与配置; ③教会用户如何配置本地仓库和镜像源以加快依赖项下载; ④解决常见的安装和配置过程中遇到的问题。 阅读建议:由于Maven的安装和配置涉及多个步骤,建议读者按照文中提供的顺序逐步操作,并仔细检查每个环节的细节,尤其是环境变量的配置。同时,在遇到问题时,可参考文末提供的常见问题解决方案,确保顺利完成整个配置过程。
资源下载链接为: https://pan.quark.cn/s/abbae039bf2a 旅行商问题(Traveling Salesman Problem, TSP)是一种经典的组合优化问题,目标是找到一条最短路径,让推销员访问一系列城市后返回起点,且每个城市只访问一次。该问题可以转化为图论问题,其中城市是节点,城市间的距离是边的权重。遗传算法是一种适合解决TSP这类NP难问题的全局优化方法,其核心是模拟生物进化过程,包括初始化、选择、交叉和变异等步骤。 初始化:生成初始种群,每个个体(染色体)表示一种旅行路径,通常用随机序列表示,如1到18的整数序列。 适应度计算:适应度函数用于衡量染色体的优劣,即路径总距离。总距离越小,适应度越高。 选择过程:采用轮盘赌选择机制,根据适应度以一定概率选择个体进入下一代,适应度高的个体被选中的概率更大。 交叉操作:一般采用单点交叉,随机选择交叉点,交换两个父代个体的部分基因段生成子代。 变异操作:采用均匀多点变异,随机选择多个点进行变异,变异点的新值在预设范围内随机生成,以维持种群多样性。 反Grefenstette编码:为确保解的可行性,需将变异后的Grefenstette编码转换回原始城市序列,即对交叉和变异结果进行反向处理。 迭代优化:重复上述步骤,直至满足终止条件,如达到预设代数或适应度阈值。 MATLAB是一种强大的数值和科学计算工具,非常适合实现遗传算法。通过编写源程序,可以构建遗传算法框架,处理TSP问题的细节,包括数据结构定义、算法流程控制以及适应度计算、选择、交叉和变异操作的实现。遗传算法虽不能保证找到最优解,但在小规模TSP问题中能提供不错的近似解。对于大规模TSP问题,可结合局部搜索、多算法融合等策略提升解的质量。在实际应用中,遗传算法常与其他优化方法结合,用于解决复杂的调度和路径规划问题。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值