第7期 Datawhale 组队学习计划

本次组织15个AI领域组队学习,涵盖从理论到实践内容。学习路线包括基础知识(统计学、Python等)、数据分析/挖掘(Excel、MySQL等)、机器学习(初高级算法等)、深度学习(Pytorch)以及自然语言处理实践,难度分低、中、高三档。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

马上就要开始啦

这次共组织15个组队学习

涵盖了AI领域从理论知识到动手实践的内容

按照下面给出的最完备学习路线分类

难度系数分为低、中、高三档

可以按照需要参加

- 学习路线 -

基础知识

01 统计学

课程设计:王佳鑫、许辉

组队学习说明:学习内容涵盖统计学中所有的主要知识,并对其分部分进行梳理总结。

任务路线:根据所学习内容进行

(1)统计学基本知识、二项及泊松分布、大数定律、正态分布等内容的总结进行整体的回顾、梳理与完善;

(2)中心极限定理、置信区间、 假设检验等内容的总结进行整体的回顾、梳理与完善。

组队学习周期:7天

定位人群:微积分、基本概率知识储备,难度系数中

每个任务完成大概所需时间:2-3h

任务预览(2天)

学习内容 1:统计学基本知识、二项及泊松分布

学习内容 2: 大数定律、正态分布

02 Python基础

课程设计:马晶敏,叶梁、许辉

组队学习说明:学习python基础知识,针对python小白的学习之路

任务路线:基础知识-函数-第三方模块-类和对象-基础爬虫

组队学习周期:10天

定位人群:python小白,难度系数低

每个任务完成大概所需时间:每天平均花费时间2小时-4小时不等,根据个人学习接受能力强弱有所浮动

任务预览(2天)

环境搭建

1.python初体验

2.python基础讲解

3.python变量特性+命名规则、注释方法、python中“:”作用、学会使用dir( )及和help( )、import使用、pep8介绍

  1. python数值基本知识

python中数值类型,int,float,bool,e记法等、算数运算符、逻辑运算符、成员运算符、身份运算符、运算符优先级

03 编程

课程设计:光城 、LeoLRH

组队学习说明:利用自己所熟知的编程语言,具有一定基础,讨论在面试中可能出现的数据结构问题,一起学习重温经典数据结构

任务路线:数组->链表->栈->队列->递归->排序->二分查找->哈希表->字符串->二叉树->堆->图->回溯->分治->动态规划

组队学习周期:14天甚至往上大概16天左右(周末进行整体整理讨论)(每天任务时间具体看任务情况)

定位人群:有一门语言基础和算法基础的同学,难度系数高,小白慎入!!!

每个任务完成大概所需时间:平均每天学习时间在1个小时左右,晚上统一,半个小时进行集体讨论总结打卡。

任务预览(2天)

【数组】

实现一个支持动态扩容的数组

实现一个大小固定的有序数组,支持动态增删改操作

实现两个有序数组合并为一个有序数组

学习哈希表思想,并完成leetcode上的两数之和(1)及Happy Number(202)!(要求全部用哈希思想实现!)(选做)(注意:在第四天会进行继续学习)

练习:

Three Sum(求三数之和)

Majority Element(求众数)

Missing Positive(求缺失的第一个正数)

【链表】

实现单链表、循环链表、双向链表,支持增删操作

实现单链表反转

实现两个有序的链表合并为一个有序链表

实现求链表的中间结点

练习:

Linked List Cycle I(环形链表)

Merge k Sorted Lists(合并 k 个排序链表)

04 leetcode

课程设计:老表、于鸿飞、杨皓博

组队学习说明:Leetcode刷题组队学习,从零开始每天一道算法题,在良好的学习氛围下,培养刷题习惯,学习算法思想。(不限制编程语言)

任务路线:腾讯精选练习(50 题)顺序每天一道题。

地址链接:

leetcode-cn.com/problemset/…

组队学习周期:50天(50题全部完成即结束)

定位人群:适合有一门语言基础的同学,难度系数中

每个任务完成大概所需时间:2-3h

课程内容:选取腾讯精选练习(50 题)解答

数据分析/挖掘

01 Excel入门课程

课程设计:杨煜,李严

组队学习说明:职场人士必备学习内容。通过集中式学习和大量实战练习,快速了解并掌握Excel核心功能,保证今后工作中用得到。

任务路线:基础界面(2天) --> 基础文件操作&单元格操作(2天) --> 基础函数(2天) --> 查找函数vlookup和 match/index(2天) --> 基础图表(3天) --> 数据透视表(2天)

组队学习周期:11天

定位人群:小白或有一点基础但不熟练的人群;初入职场人群必学;难度系数低

每个任务完成大概所需时间:2-3h/每天

任务预览(2天)

文件操作

新建workbook

新建sheet/移动sheet/重命名sheet/修改sheet颜色、sheet种类: 工作表/图表/宏表等、保存为xls/xlsx/csv

基础单元格操作

输入数据、数据格式、合并单元格、自动填充、选择性粘贴、去重、分列、排序、筛选、条件格式、插入下拉列表、行高列宽设置、冻结首行首列、边框、单元格换行

作业:

任务一:

生成一个行高30,列宽15(第六列列宽45),名为“Excel组队学习”的表,冻结窗格1-3行

任务二:

操作对象为任务一生成的“Excel组队学习”表

将第六列分列,效果如下

利用条件格式,将薪资列大于8000的收入填充为深绿色,并将它们筛选出来

第二列将重复值删除,只保留唯一值

02 MySQL

课程设计:杨皓博 孙涛 杨煜

组队学习说明:一周内快速了解并掌握MySQL的主要内容。通过大量SQL语句的实战练习,可以在简历上写熟练掌握MySQL。(注意:本课程只关注SQL查询语句本身,对数据库的涉及较少。)

任务路线: MySQL软件安装及数据库基础->查询语句->表操作->表联结->MySQL 实战->MySQL 实战-复杂项目

组队学习周期:(7天)

定位人群:小白,难度系数小

每个任务完成大概所需时间:2-3h

任务预览(3天)

软件安装及服务器设置。

数据库基础知识

MySQL数据库管理系统

SQL是什么?MySQL是什么?

查询语句 SELECT FROM

筛选语句 WHERE

分组语句 GROUP BY

排序语句 ORDER BY

SQL注释

SQL代码规范

03 爬虫

课程设计:光城、李方

组队学习说明:

从零基础到能独立完成一个简易的爬虫项目

任务路线:请求→re→beautifulsoup→lxml→selenium→IP问题→实战小项目

组队学习周期:7天

定位人群:有Python基础。难度系数中

每个任务完成大概所需时间:2-3h/天

任务预览(2天)

  1. 学习get与post请求,尝试使用requests或者是urllib用get方法向https://www.baidu.com/发出一个请求,并将其返回结果输出。

  2. 如果是断开了网络,再发出申请,结果又是什么。了解申请返回的状态码。

  3. 了解什么是请求头,如何添加请求头。

  4. 学习什么是正则表达式并尝试一些正则表达式并进行匹配。

  5. 然后结合requests、re两者的内容爬取https://movie.douban.com/top250里的内容

  6. 要求抓取名次、影片名称、国家、导演等字段。

04 数据分析

课程设计:金娟娟

组队学习说明:学习python for data analysis基础知识

任务路线:python基础-重要的python库(numpy/pandas/matplotlib/seaborn等)-数据清洗和分析

组队学习周期:15天

定位人群:数据分析小白,难度系数低

每个任务完成大概所需时间:每天平均花费时间2小时-4小时不等,根据个人学习接受能力强弱有所浮动

机器学习

01 初级算法梳理

课程设计:苏静、康兵兵

组队学习说明:通过查阅书籍或参考文献、学习视频等,对传统机器学习算法进行梳理

任务路线:线性回归--->逻辑回归--->决策树

组队学习周期:7天

定位人群:有概率论、矩阵运算、求导、泰勒展开等基础数学知识;难度系数低

每个任务完成大概所需时间:2-3h

任务预览(2天)

  1. 机器学习的一些概念

有监督、无监督、泛化能力、过拟合欠拟合(方差和偏差以及各自解决办法)、交叉验证

  1. 线性回归的原理

  2. 线性回归损失函数、代价函数、目标函数

  3. 优化方法(梯度下降法、牛顿法、拟牛顿法等)

  4. 线性回归的评估指标

  5. sklearn参数详解

学习时长:两天

参考:西瓜书

cs229吴恩达机器学习课程

李航统计学习

谷歌搜索

02 高级算法梳理

课程设计:黑桃,刘广月,于鸿飞

组队学习说明:通过查阅相关文献,对机器学习算法进行梳理

任务路线:RF--->GBDT--->XGB

组队学习周期:7天

定位人群:有概率论、矩阵运算、求导、泰勒展开等基础数学知识;难度系数中

如何申请优快云博客:blog.youkuaiyun.com/sxhelijian/…

12分钟教你如何使用Markdown:www.bilibili.com/video/av881…

MarkDown公式编辑:katex.org/docs/suppor…

每个任务完成大概所需时间:2-3h

任务预览(2天)

【参考框架】欢迎有自己的框架

  1. 集成学习概念

  2. 个体学习器概念

  3. boosting bagging

  4. 结合策略(平均法,投票法,学习法)

  5. 随机森林思想

  6. 随机森林的推广

  7. 优缺点

  8. sklearn参数

  9. 应用场景

03 李宏毅机器学习(一)

课程设计:王佳旭,李威,排骨,金一鸣

组队学习说明:通过观看李宏毅教学视频,团队整理详细笔记进行梳理算法,并且通过团队布置的任务理解算法(小作业,核心代码,大作业等),完全手写代码,不调包。

学习路线:回归,决策树,SVM,XGBoost

学习周期:1个月

定位人群:python基础,数据分析,基础数学等知识;

难度系数:高

每个任务完成大概所需时间:每天2-4小时不等,根据个人学习能力强弱有所浮动

参考资料:

李宏毅课程教学

机器学习实战

Datawhale整理的《学习李宏毅》笔记

04 西瓜书

课程设计:黑桃

组队学习说明:通过学习周志华老师的《机器学习》,以博客的形式完成算法的整理

学习路线:模型评估与选择-->线性模型-->决策树-->神经网络-->支持向量机-->贝叶斯分类-->集成学习-->聚类-->降维与度量学习-->特征选择与稀疏学习-->半监督学习-->概率图模型-->规则学习-->强化学习

学习周期:14周

定位人群:掌握基础数学等知识;

难度系数:高

每个任务完成大概所需时间:每天2-4小时不等,根据个人学习能力强弱有所浮动

参考资料:《机器学习》、《机器学习公式推导版》、cs229

05 数据挖掘

课程设计:范晶晶、李碧涵、

组队学习说明:应用机器学习算法,完整地走完一个数据挖掘项目流程

任务路线:数据分析→特征工程→模型构建→模型评估→模型调优→模型融合

组队学习周期:12天

定位人群:有Python基础,sklearn基础。难度系数中

每个任务完成大概所需时间:2-3h/天

任务预览(2天)

要求:数据切分方式 - 三七分,其中测试集30%,训练集70%,随机种子设置为2018

任务1:对数据进行探索和分析。时间:2天

  1. 数据类型的分析

  2. 无关特征删除

  3. 数据类型转换

  4. 缺失值处理

  5. ……以及你能想到和借鉴的数据分析处理

深度学习

01 Pytorch基础

课程设计:许辉 李奇锋

组队学习说明:通过学习pytorch的基本操作,最终完成手写数字的识别

任务路线:安装pytorch->设立图并计算->实现逻辑回归->构建多层神经网络->PyTorch实现L1,L2正则化以及Dropout->书写优化器代码->用PyTorch完成手写数字识别

学习周期:7天

定位人群:熟悉python的基础用法

任务完成所需时间:2-3h/天

难度系数中

任务预览(2天)

  1. 什么是Pytorch,为什么选择Pytroch?

  2. Pytroch的安装

  3. 配置Python环境

    a. 准备Python管理器

    b. 通过命令行安装PyTorch

    c. PyTorch基础概念

  4. 通用代码实现流程(实现一个深度学习的代码流程)

理论应用

01 自然语言处理(理论+实践)

课程设计:jepson

组队学习说明:学习自然语言处理理论,并且通过对某些数据集的文本分类任务不断优化来进行实践。

任务路线:特征提取—>特征选择—>文本表示—>传统机器学习算法跑模型—>LDA生成新特征—>深度学习算法跑模型

定位人群:有Python基础,基本框架的基础(例如TensorFlow、Keras和pyTorch等)!难度系数高

组队学习周期:18天

每个任务完成大概所需时间:3-4h

任务预览(2天)

  1. IMDB数据集下载和探索(参考TensorFlow官方教程)

  2. THUCNews数据集下载和探索(参考博客中的数据集部分和预处理部分)

  3. 学习召回率、准确率、ROC曲线、AUC、PR曲线这些基本概念

组队学习将从8号陆续开始报名

转载于:https://juejin.im/post/5ccfa031e51d456e89634ab0

### 如何在 MySQL 中计算众数 在 MySQL 中,可以通过 SQL 查询实现对数据集中众数的计算。以下是具体的解决方案: #### 使用 GROUP BY 和 ORDER BY 实现众数查询 通过 `GROUP BY` 对目标列分组,并统计每种值出现的次数 (`COUNT(*)`)。接着利用 `ORDER BY` 将结果按频率降序排列,最后选取第一个记录作为众数。 ```sql SELECT column_name, COUNT(*) AS frequency FROM table_name GROUP BY column_name ORDER BY frequency DESC LIMIT 1; ``` 此方法适用于单个众数的情况[^1]。 #### 处理多个众数的情形 当存在多个相同最高频次的数据时,需调整查询逻辑以返回所有符合条件的众数。可借助子查询完成这一操作: ```sql SELECT column_name, COUNT(*) AS frequency FROM table_name GROUP BY column_name HAVING frequency = ( SELECT MAX(frequency) FROM ( SELECT COUNT(*) AS frequency FROM table_name GROUP BY column_name ) subquery ); ``` 这里外层查询筛选出了具有最大频率的所有项,而内嵌的子查询则负责找出这些频率中的最大值[^2]。 #### 结合 Pandas 进行更复杂的分析 虽然可以直接用 SQL 完成基本的众数运算,但在面对复杂场景或者需要进一步处理的情况下,也可以先将 MySQL 数据导入 Python 的 Pandas 库中再做深入挖掘。例如下面这段代码演示了如何从 MySQL 获取数据并通过 Pandas 找出众数以及新数组的中位数: ```python import pandas as pd from sqlalchemy import create_engine engine = create_engine('mysql+pymysql://username:password@host:port/database') df = pd.read_sql_query("SELECT column_name FROM table_name", con=engine) mode_values = df['column_name'].mode().tolist() median_of_modes = df[df['column_name'].isin(mode_values)]['column_name'].median() print(f'Mode(s): {mode_values}') print(f'Median of modes array: {median_of_modes}') ``` 上述脚本首先定义了一个 SQLAlchemy 引擎用于连接至指定的 MySQL 数据库;其次调用了 `pd.read_sql_query()` 函数执行简单的 SQL 提取语句加载所需字段进入 DataFrame;之后运用 Pandas 方法 `.mode()` 寻找原始列表里的模式(即可能不止一个),并将它们存入新的列表之中;最终针对这个新模式数值集合再次应用 `.median()` 来决定其中间位置代表值[^3]。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值