- 博客(19)
- 收藏
- 关注
原创 线性回归之多特征&实战
当我们尝试使用Python去实现线性回归的时候:without vectorization vectorizationPython中的向量化表示对于有 n 个特征的线性回归问题,其模型方程可以表示为:为了方便计算,通常会将上述方程写成向量化的形式。将特征向量 x 扩展为(其中)参数向量则模型方程可以简化为:数据读取: price bedroom size 0 22190031180538000325701
2025-04-05 19:14:57
630
原创 余弦相似度实现简单文本问答
作为自然语言处理的一种,智能问答系统可以根据历史问答形成的数据库,将文本转化为词向量进行相似度计算,找到和历史数据中相似度最高的问题,返回对应的答案,将其用来构建智能客服解决方案,可以满足企业在客服领域的需求,提高业务的运行效率。本次项目结合已有的问答数据进行训练,实现相似问题的自动回复。
2025-03-14 11:06:03
948
原创 Selenium 爬虫实战
由于JavaScript动态渲染的页面不止Ajax一种,而且有时候即使是Ajax获取的数据,其Ajax接口中也包含有很多加密参数,使我们很难直接找出规律,所以为了解决这些问题,我们可以直接模拟浏览器的运行,然后爬取数据。
2025-02-08 21:42:00
1552
原创 Ajax数据爬取
使用Ajax技术更新网页的内容的网站有个很大的特点,那就是可以在不重新加载整个网页的情况下,对网页的某部分进行更新。Ajax其实并不是一门语言,而是用来完成网络任务(可以认为它与网络数据采集差不多)的一系列技术。Ajax网站不需要使用整个的页面加载就可以和网络服务器进行交互。
2025-02-03 22:26:45
1636
原创 Python中的数据存储
wb+:以二进制读写格式打开一个文件。如果该文件已存在,则将其覆盖。如果该文件不存在,则创造新文件。wb:以二进制写入方式打开一个文件。如果该文件已存在,则将其覆盖。如果该文件不存在,则创造新文件。w+:以读写入方式打开一个文件。如果该文件已存在,则将其覆盖。如果该文件不存在,则创造新文件。w:以写入方式打开一个文件。如果该文件不存在,则创造新文件。rb:以二进制只读方式打开一个文件,通常用于打开二进制文件,例如音频、图片、视频等。rb+:以二进制读写方式打开一个文件。r+:以读写方式打开一个文件。
2025-02-01 17:58:27
388
原创 Python爬虫—BeautifulSoup的简易入门
Beautiful Soup是Python的一个HTML或XML的解析库,我们可以使用它方便的从网页中提取数据。其官方解释:Beautiful Soup提供一些简单的、Python式的函数来处理导航、搜索、修改分析树等功能。可以自动将输入文档转换为Unicode编码,将输出文档转换为utf-8编码。我们不需要考虑编码方式,除非文档没有指定具体的编码方式,这时仅仅需要说明下原始编码方式就可以了。
2025-01-31 22:17:56
1018
原创 dbg视角下的字节存储顺序的学习
endian” 一词来源于《格列佛游记》。在小说中,小人国的居民为吃鸡蛋时应该从大的一端(Big-End)剥开还是从小的一端(Little-End)剥开而争论,争论的双方分别称为“Big-endian”和”Little-endian”。计算机领域在描述“关于字节该以什么样的顺序传送的争论”时引用了“endian”一次,翻译为“字节序”,表示数据在存储器中的存放顺序,主要分为大端序(Big-endian)和小端序(Little-endian)Big-endian:高位字节存入低地址,地位字节存入高地址。
2025-01-26 17:43:00
330
原创 BUU reverse做题记录Day1
exeinfo分析文件:Mac OS的64位的程序使用IDA查看逻辑逻辑很简单,输入flag后,首先判断长度是不是为33,再使用b[i]^=b[i-1]这个逻辑进行异或找到数据。
2025-01-04 20:38:31
418
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人