5.22 阿博茨科技 面试总结

本文介绍体育新闻分类项目,阐述了n_Gram与IT - IDF的区别,n_Gram可用于字符串匹配和词分类等,IT - IDF用于文本词区分。还讲解了SVM与logisticRegression的使用、原理及调参,最后介绍了Python中的数据结构,如list、Tuple、set、dict等及其区别。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

一、介绍体育新闻分类项目
二、n_Gram与IT-IDF的区别
n_Gram可以用于字符串模糊匹配,n为匹配的单词位数,n一般为2或3。可以用于词分类。
n_Gram可以评价一个句子是否合理,区别两个字符串的差别水平。
IT-IDF又称词频-逆向文章频率,是由IT*IDF构成,IT为词频代表单一文本出现词的频率,假设3张纸上写上不同的话,IT为单一张纸上出现有‘你好’这个词,那IT就是你好这个词在一张纸上出现的频率,IDF的值取决于词在这三张值中的分布,如果’你好‘在单一纸上出现,并且词频很高,那么IDF值也会很高,如果’你好‘在三张纸上都出现且分布均等,则IDF值会很低。
我们通常使用词袋模型与IT-IDF矩阵混合使用,来进行文本词的区分,如果通过词袋对文本筛选出一些高热度词汇,再通过IT-IDF计算权值,这样IDF值越大的词说明分类的效果越好。
三、SVM与logisticRegression的使用及原理
四、SVM和logisticRegression的调参
五、python中有哪些数据结构
int string float list dict Tuple set
六、list和Tuple的区别list和集合的区别
list 是什么列表就好比我们通常购物的清单,清单通常是可以不断积累下去的,并且清单上的物品是可以重复的。而列表也一样列表正是这样的,可以重复的
元组(Tuple)
元组和列表大致属性相同,不同点为Tuple只是可读的,元组内的数值不可以改变,元组通常为双小括号表示。
set(集合)
集合与数学中的集合大致相同,集合通常可以用来去重操作,也就是说集合中的元素不会出现重复。
字典(dict)
字典的表示形式通常为键值对的形式,字典的最大价值为查询,key值只可为不可变类型如元组、浮点型、int、string

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值