- 博客(29)
- 收藏
- 关注
原创 JS逆向实战三:1688工厂信息
本文说明:B站学习笔记整理,仅供学习参考~~网站:https://sale.1688.com/factory/category.html。
2025-02-19 23:27:02
814
原创 SQL面试题4:相互关注问题
如今,社交平台已经渗透到人们生活的方方面面。从以分享生活点滴为主的朋友圈,到专注于知识交流的知乎,再到以兴趣爱好为纽带的抖音等平台,用户数量数以亿计。在这些平台中,相互关注的关系构建起了一个个复杂的社交圈子。对于平台运营者而言,了解用户之间的相互关注情况,可以更好地进行用户画像分析、个性化推荐内容,提升用户体验和平台活跃度。例如,在电商社交平台上,相互关注的用户之间可能有着相似的购物偏好,平台可以根据这一特点向他们推荐相关商品,促进交易转化。
2025-02-12 16:59:13
960
原创 JS逆向实战二:建筑平台js逆向Error: Malformed UTF-8 data报错处理
本文说明:B站学习笔记整理,仅供学习参考~~网站:https://jzsc.mohurd.gov.cn/data/company。
2025-02-07 15:04:05
1083
原创 SQL面试题3:累计汇总类、直播间同时在线问题
当下,直播行业呈现出爆发式增长。各大直播平台不断涌现,主播们各展神通,从专业电竞选手直播精彩赛事,到普通博主分享日常生活点滴,再到明星大咖进行公益直播或产品推广,直播内容丰富多样。据统计,每天都有数以百万计的用户活跃在直播间,观看时长累计达到数亿小时。这不仅改变了人们的娱乐和消费方式,也为企业带来了新的营销渠道,为创作者提供了广阔的发展空间。每一个直播间背后都隐藏着庞大的数据海洋。这些数据不仅记录了观众的行为轨迹,也反映了直播内容的受欢迎程度。
2025-01-23 10:47:40
1116
原创 SQL面试题2:留存率问题
在互联网产品运营中,用户注册量和留存率是衡量产品吸引力和用户粘性的关键指标,直接影响产品的可持续发展和商业价值。通过分析这些数据,企业可以了解用户行为,优化产品策略,提升用户体验。
2025-01-14 23:44:14
615
原创 SQL面试题1:连续登陆问题
许多互联网平台为了提高用户的参与度和忠诚度,会推出各种连续登录奖励机制。例如,游戏平台会给连续登录的玩家发放游戏道具、金币等奖励;学习类 APP 会为连续登录学习的用户提供积分,积分可兑换课程或其他福利。通过这些激励措施,平台希望用户能够养成持续使用产品的习惯,从而提升产品的活跃度和留存率。同时,对于平台运营者来说,分析用户的连续登录数据可以了解用户的使用习惯和忠诚度,进而优化产品功能和运营策略。函数名(参数) OVER (PARTITION BY 子句 ORDER BY 子句 ROWS/RANGE子句)
2025-01-13 17:38:06
971
原创 curl_cffi:支持原生模拟浏览器 TLS/JA3 指纹的 Python 库
指纹技术 可以说应用到了 OSI 网络模型中所有可能的层,基于 HTTP header 顺序的指纹工作在第七层应用层, SSL/TLS 指纹工作在传输层和应用层之间,TCP 指纹在第四层传输层。不同的客户端之间的差异 很大,而且一般这些信息还都是稳定的,所以服务端就可以根据 TLS 的握手信息来作为特征,识别 一个请求是普通的用户浏览器访问,还是来自 Python 脚本等的自动化访问。不同网站的生成的指纹可能有差异,但是多次访问同一个网站生成的指纹是稳定的,而且能区分开 不同客户端。
2025-01-03 15:04:12
1373
原创 Readability、Newspaper:爬虫正文智能文本解析库
智能文本提取是指在网络爬虫获取网页内容后,通过一系列先进的算法和技术,精准地从复杂的 HTML 结构中分离出有价值的文本信息,如文章正文、标题、作者等。与传统的基于规则的提取方法相比,智能文本提取能够更好地适应不同网站的多样布局和结构变化。以下内容参考:王卫红,梁朝凯,闵勇.基于可视块的多记录型复杂网页信息提取算法[J].计算机科学,2019,46(10):63-70.今天所介绍的 Readability 和 Newspaper 的库的实现原理就是基于DOM 结构信息的提取方法。
2024-12-31 10:05:05
1186
原创 爬虫实战四:微博个人主页、微博列表、微博评论接口分析与实现
本文以“李子柒”微博账号为例,对微博个人主页、微博博文列表、某条博文的评论进行接口分析与示例实现。
2024-12-03 13:30:34
1598
原创 Xpath学习笔记
此时可以通过xpath进行指定节点去除。通过观察发现,第一个。,在实际情况中只想保留有正文的第二个。标签,则可以把此作为去除的判断条件。
2024-11-14 17:32:40
402
原创 爬虫实战三:微信公众号历史文章爬取
历史文章接口:https://mp.weixin.qq.com/cgi-bin/appmsgpublish?微信公众平台:https://mp.weixin.qq.com/
2024-10-25 23:21:30
3843
9
原创 FinalShell连接Linux虚拟机
FinalShell连接虚拟机,解决java.net.ConnectException: Connection refused: connect和一直输密码认证问题。
2023-08-21 16:05:32
1172
2
原创 MATLAB之相似性度量的二分类实验
实验内容将MIT室内场景数据库中卧室、浴室作为正负样本,利用留出法完成训练集与测试集的划分(比例1:2),并使用测量夹角余弦的方式进行二分类(0为负,1为正),最后给出分类错误率和准确率,并绘制ROC曲线。实验原理【余弦距离】也称为余弦相似度,是用向量空间中两个向量夹角的余弦值作为衡量两个个体间差异的大小的度量。余弦值越接近1,就表明夹角越接近0度,也就是两个向量越相似,这就叫"余弦相似性"。实验过程Step1:将卧室图像作为正样本,浴室图像作为负样本Step2:利用留出法将正负样本按1:2比例
2022-04-08 09:44:29
3073
原创 MATLAB之最短距离的二分类实验
实验内容将MIT室内场景数据库中机场、面包房分别作为正负样本,利用留出法完成训练集与测试集的划分,并使用测量最短距离的方式进行二分类,最后给出分类错误率和准确率。进一步对MIT室内场景数据库中的测试集添加噪声,使用测量最短距离的方式进行二分类,给出噪声情况下的分类错误率和准确率。原理说明留出法:直接将数据集D划分为两个互斥的部分,其中一部分作为训练集S,另一部分用作测试集T。通常训练集和测试集的比例为7:3。同时,训练集测试集的划分有两个注意事项:1. 尽可能保持数据分布的一致性。避免因数据划分过程
2022-04-07 22:50:29
2399
原创 基于python的中证股票分析
第三方库tushareTushare是一个免费、开源的python财经数据接口包。主要实现对股票等金融数据从数据采集、清洗加工到数据存储的过程,能够为金融分析人员提供快速、整洁、和多样的便于分析的数据,为他们在数据获取方面极大地减轻工作量,使他们更加专注于策略和模型的研究与实现上。考虑到Python pandas包在金融量化分析中体现出的优势,Tushare返回的绝大部分的数据格式都是pandas DataFrame类型,非常便于用pandas/NumPy/Matplotlib进行数据分析和可视化。使用
2022-03-21 22:01:41
855
1
原创 基于MATLAB的K-means聚类算法
实验数据说明Iris也称鸢尾花卉数据集,是一类多重变量分析的数据集。通过花萼长度,花萼宽度,花瓣长度,花瓣宽度4个属性预测鸢尾花卉属于(Setosa(山鸢尾),Versicolour(杂色鸢尾),Virginica(维吉尼亚鸢尾))三个种类中的哪一类。鸢尾花(iris)数据集,它共有4个属性列和一个品种类别列:sepal length(萼片长度)、sepal width(萼片宽度)、petal length(花瓣长度)、petal width (花瓣宽度),单位都是厘米。3个品种类别是Setosa、Ve
2022-03-19 19:20:00
12324
2
原创 基于matlab的图像识别分类实验(一)
实验数据说明coil-100数据集是灰色图片集合,包含对100个物体从不同角度的拍摄,每隔 5 度拍摄一副图像,每个物体 72 张图像。每个子文件夹代表一个物体的全部图像。共100个子文件夹,每个文件夹有72张图像。链接:https://pan.baidu.com/s/1MoI66gjWL8vjbNaD30oGNg 提取码:1xta实验内容for time=1:5 //对数据集进行五次划分,相当于进行五次实验,即五次循环for i=1:100 //以一次循环访问物体图片为例,循环前指定为空
2022-03-17 12:57:55
6979
2
原创 Pycharm快速安装第三方库
**Pycharm第三方库安装慢或失败的原因:我们通常在下载Pycharm里会出现安装第三方库时下载很慢的问题,最后会出现timeout,连接超时这个问题,究其原因:主要是python第三方库的安装源都在国外,所以通过pip安装时会出现速度很慢或安装失败的原因,这里提供了几种解决方法,解决方法的核心就是更改软件源。解决方法以下有三个解决方法:1.通常解决方法:更改软件源(一般不推荐,因为改了还是下载慢)常见的软件源:目前国内靠谱的 pip 镜像源有:清华: https://pypi.tun
2020-11-19 22:53:03
1560
1
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人