人工智能学习路线
1、学习路径图
2、阶段 1:端到端的机器学习
3、阶段 2:深度学习
4、阶段 3:生成式人工智能
5、阶段 4:模型部署
6、补充知识
— 6.1、集成学习
— 6.2、领域专业知识
7、创建投资组合
…
1、学习路径图
2、阶段 1:端到端的机器学习
以学习完整的建模过程为主要目标,以了解常用机器算法(优缺点,原理,步骤,应用)和学习建模工具(Sklearn\ scikit-learn)为次要目标,快速熟悉端到端的建模过程。
实践多个案例,熟悉端到端的建模过程,主要内容参考如下:
了解人工智能,机器学习,深度学习,统计机器学习等相关概念;
学习常用算法原理。了解算法优缺点,原理,步骤,应用即可,不必过多关注数学公式;
学习建模分步过程。如:CRISP-DM;
学习建模工具。如:scikit-learn;
在小数据集上练习。如:UCI数据集;
将模型打包或序列化后的结果部署为 Flask API 或 Streamlit\Gradio 应用;
补充内容:
了解自动化机器学习工具。
了解处理大数据集的 python 库。
推荐阅读:
《深度学习:从基础到实践》 (上册)- [美] Andrew Glassner
3、阶段 2:深度学习
深度学习,主要内容参考如下:
了解深度学习相关概念;
学习深度学习常用算法及深度学习方法体系(CNN,RNN,LSTM,Transformer,等);
学习深度学习框架\工具(keras,PyTorch,Tensorflow,FastAI);
学习自然语言处理,计算机视觉;
在 KAggle,阿里天池上练习;
补充内容:
机器学习算法深度解析,需要一定数学基础(线性代数,微积分,概率论与数理统计)。
从头开始理解机器学习算法将帮助您为任务选择正确的算法,解释结果,解决高级问题,将算法扩展到新应用程序,并提高现有算法的性能。
深度解析机器学习算法;
学习深度学习自制框架:DeZero;
学习框架\工具源码;
推荐阅读:
《深度学习:从基础到实践》 (下册)- [美] Andrew Glassner
《深度学习入门基于Python的理论与实现》 - [日] 斋藤康毅
《深度学习入门2自制框架》 - [日] 斋藤康毅
《深度学习进阶:自然语言处理》 - [日] 斋藤康毅
《深度学习入门4:强化学习》 - [日] 斋藤康毅
《achine Learning Algorithms in Depth》 - VADIM SMOLYAKOV
《统计学习方法》 (第2版) - 李航
《机器学习》(西瓜书)- 周志华
4、阶段 3:生成式人工智能
深入研究高级人工智能主题,关注生成模型:
学习提示工程(专注于创建和改进提示)。如:coze;
NLP 的生成模型,LLM(大语言模型);
计算机视觉的生成模型;
了解如何从头开始构建这些生成模型;
了解生成人工智能的最新趋势和研究;
推荐阅读:
2024 年学习生成式人工智能的最佳路线图 — analyticsvidhya
机器学习的最新进展带代码的论文 — paperswithcode
10 个学习法学硕士的免费资源 — kdnuggets
5、阶段 4:模型部署
MLOps,机器学习的部署和生命周期管理:
基础知识:git\ github\ Linux\容器化\云,HF Spaces\ Streamlit Sharing;
部署方式:在线部署:批处理,实时(数据库触发器、发布/订阅、Web 服务、应用内);离线部署(在本地开发环境、测试环境或内部离线环境中部署批处理,实时处理);
主要内容:自动化管道,监控,生命周期管理,治理;
核心概念:持续集成与持续部署(CI/CD),版本控制,模型监控;
管理工具:MLFlow,Polyaxon,Metaflow,Kubeflow;
推荐阅读:
成为 MLOps 工程师所需的唯一免费课程:MLOps Zoomcamp — kdnuggets
掌握 MLOps 的 10 个 GitHub 存储库 — kdnuggets
6、补充知识
6.1、集成学习
主要内容参考如下:
了解集成学习相关概念;
学习集成学习常用算法及集成学习方法体系(Bagging,Boosting,Stacking,Blending,等);
学习集成学习 Python 库(Scikit-learn,XGBoost,LightGBM,CatBoost);
练习\实践。如,小数据集 UCI 数据集 或 kaggle 等;
通过 Flask API 或 Streamlit\Gradio 部署应用;
推荐阅读:
《集成学习:基础与算法》 - 周志华,李楠
6.2、领域专业知识
作为数据科学家,需要具备解决相关领域的问题,需要理解相关领域的专业知识
领域专业知识:
学习不同领域专业知识,如保险,信贷,物流,电商等;
通过研究竞赛平台多领域数据科学问题,获得 多样化的经验 培养 解决问题的技能;
可以通过收集的行业知识\信息,分析案例,创建行业知识库;
7、创建投资组合
选择与众不同的新颖项目创建投资组合:
以 Kaggle 和阿里天池等竞赛网站为起点;
将报告在微信公众号、知乎、掘金等平台展示结果;
在 Github 上托管个人博客;