XiaoHu日志 6/10~6/12

本文分享了在开发智能课程查询系统过程中遇到的难题及解决方案。重点介绍了如何提高课程信息识别准确度,从无限的无用词中筛选有限的有用词,通过建立课程名称分词库,成功解决了识别不准确的问题。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

6/10 今天又调了一些Bug,增加了查询上下午课位的功能。以后还会添加查询指定学科的课,和查询整周或时间段课表。

6/12 今天准备加一个查询某天指定学科的功能,如“我明天足球课第几节”“明天我有数学吗”,这个功能看着很简单,上手开发后才发现有一些难受的问题需要解决。这个功能的逻辑是,先获取询问的日期,然后查询指定日期的课程result,在result中查询带“足球”的课程。原本我计划使用希悦lesson对象中的subject键来完成,比如“1+3语文甲班”的subject就是“语文”,但是经过我尝试后我又发现了一个问题,“衔接班信息常规”这种常人以为的信息课,会被打上“技术”的标签。但是谁查询时会问“我的技术课”?这个方法只能告置。然后我计划在课程的名称中查找询问的课程信息,在“衔接班信息常规”中寻找“信息”,如果匹配便加入结果。这种方法看似可行,却被NLP功能限制住了。在我设置的语义理解中,“我明天信息课什么时候”这句话的课程信息会被看做“信息课什么时候”,把名词和疑问词搞到了一块,但是我现在还没有一个好的逻辑来处理疑问词。这个功能一度卡住,最终我回家后想出了办法,现在是两端分别有一个问题,解决了一个就可以实现这个功能,所以我打算提高识别课程信息的准确度,提高识别准确度的方法就是把“什么时候”这种无用词扔掉,仅保留“信息”这种有用词,无用词是无限的,有用词可以被看做一个有限的集合,那么我在这个有限集里去匹配查找课程信息,就可以大大提高准确度,其实不是提高,是直接把准确度设置到100%。我通过获取北大附全部课程名称信息,然后进行一个分词操作,放到一个库里然后unique,在分词了“1+3语文甲班”和“1+3数学竞赛2”后,这个库会是“1+3”,“语文”,“数学”,“甲班”,“竞赛”,“2”。这样不仅解决了识别不准确的问题,还能顺便完成“我明天竞赛课都有哪些”这种问题。把它当做一个filter就可以。有了完整的想法,我计划周末去完成它。

电动汽车数据集:2025年3K+记录 真实电动汽车数据:特斯拉、宝马、日产车型,含2025年电池规格和销售数据 关于数据集 电动汽车数据集 这个合成数据集包含许多品牌和年份的电动汽车和插电式车型的记录,捕捉技术规格、性能、定价、制造来源、销售和安全相关属性。每一行代表由vehicle_ID标识的唯一车辆列表。 关键特性 覆盖范围:全球制造商和车型组合,包括纯电动汽车和插电式混合动力汽车。 范围:电池化学成分、容量、续航里程、充电标准和速度、价格、产地、自主水平、排放、安全等级、销售和保修。 时间跨度:模型跨度多年(包括传统和即将推出的)。 数据质量说明: 某些行可能缺少某些字段(空白)。 几个分类字段包含同的、特定于供应商的值(例如,Charging_Type、Battery_Type)。 各列中的单位混合在一起;注意kWh、km、hr、USD、g/km和额定值。 列 列类型描述示例 Vehicle_ID整数每个车辆记录的唯一标识符。1 制造商分类汽车品牌OEM。特斯拉 型号类别特定型号名称/变体。型号Y 与记录关联的年份整数模型。2024 电池_类型分类使用的电池化学/技术。磷酸铁锂 Battery_Capacity_kWh浮充电池标称容量,单位为千瓦时。75.0 Range_km整数表示充满电后的行驶里程(公里)。505 充电类型主要充电接口功能。CCS、NACS、CHAdeMO、DCFC、V2G、V2H、V2L Charge_Time_hr浮动充电的大致时间(小时),上下文因充电方法而异。7.5 价格_USD浮动参考车辆价格(美元).85000.00 颜色类别主要外观颜色饰面。午夜黑 制造国_制造类别车辆制造/组装的国家。美国 Autonomous_Level浮点自动化能力级别(例如0-5),可能包括子级别的小
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值