DS/ML:数据科学技术之机器学习领域六大阶段最强学习路线(初步探索性数据分析EDA→数据预处理/广义的特征工程→模型训练/评估/推理→模型分析/反思/再优化→模型部署与监控→模型全流程优化)详解
导读:数据科学和机器学习实战最强学习路线,博主这次花了真的是好久好久的时间(大概数不清的凌晨吧),以数据科学生命周期和机器学习工程化的视角进行了精心整理,今天终于结束了,真心不容易……希望能够对家学习数据科学和机器学习技术有所帮助。本文章是博主在数据科学和机器学习领域,先后实战过几百个应用案例之后的精心总结,应该是完全覆盖了数据科学的整个生命周期及其各个阶段的要点。其中机器学习领域六大阶段更是在整个数据科学生命周期中扮演着极其重要的角色。同时,因为涉及到博主出书中出版社要求在线去重的需要,博主并没有完全把书内的所有内容罗列在本文章内(而以……符号代替原书内容),但是本文章的内容已经足以完整地列出了数据科学领域处理现实任务的思维架构路线。如果大家需要查看更多详细内容,请详见详见博主即将出版的新书《数据驱动世界:机器学习在现实世界中的实战应用》、《语言之舞:跳动的自然语言与大模型实战案例》,同时也感谢大家对本文章提出更加宝贵的意见和建议。
目录
一、初步探索性数据分析EDA
1.0、相关术语
对比:特征VS特征工程
对比:数字VS数值
对比:定性变量VS定量变量
对比:【类别型】特征、定性特征、“离散性”特征
1.1、载入数据集
1.2、初步把握数据基本信息
ML之FE:数据分析之数据概要报告的简介(生成探索性分析EDA报告)、使用方法之详细攻略
1.3、特征类型划分:【类别型】特征和【数值型】特征
1.4、分离特征与标签label
ML之FE:在特征工程/数据预处理阶段分离特征与标签/目标变量的三种实现方法之详细攻略
二、数据预处理/广义的特征工程
实战:综合案例
ML之R:通过数据预处理(缺失值/异常值/特殊值的处理/长尾转正态分布/目标log变换/柱形图-箱形图-小提琴图可视化/构造特征/特征筛选)利用算法实现二手汽车产品交易价格回归预测之详细攻略
ML之LightGBM:通过数据预处理(分布图/箱型图/模型寻找异常值/热图/散点图/回归关系/修正分布正态化/QQ分位图/构造交叉特征/平均数编码)利用十种算法模型调优实现工业蒸汽量回归预测(交叉训练/R2-MSE曲线/模型融合)之详细攻略
ML之FE:金融风控—基于预处理(PSI+标签编码+文本型抽数字+缺失值RF模型拟合填充)+多种筛选指标(PCA/IV值/Gini/熵/丰富度)利用CatBoost实现贷款违约二分类预测案例之详细攻略
2.0、数据预处理/广义的特征工程的简介
2.0.0、数据预处理和特征工程的对比
2.0.1、数据预处理/广义的特征工程的概述
ML之FE:树类模型、基于样本距离的模型在特征工程/数据预处理阶段各自的特点和处理技巧之详细攻略
ML之FE:在机器学习领域,常见的机器学习算法各自对【数值型】特征和【类别型】特征的处理技巧总结以及有哪些算法喜欢高斯分布类型的数据
2.1、数据清洗
2.1.1、数据对齐
ML之FE:基于titanic泰坦尼克数据集对object列的字符串数据内提取关键信息并进行数据对齐(统一特征子类别的含义)实现代码
2.1.2、缺失值的分析与处理
ML之FE:特征工程/数据预处理中的数据缺失值的简介、检测方法、处理方法(删除/三种填充思路七种方法)、经典案例应用实现(包括基础函数代码)之详细攻略
Python之pandas:pandas中缺失值与空值处理的简介及常用函数(drop()、dropna()、isna()、isnull()、fillna())函数详解之详细攻略
2.1.2.1、缺失值的统计与分析
2.1.2.2、缺失值的处理
2.1.3、异常值的分析与处理
ML之FE:特征工程/数据预处理中的数据异常值的简介、检测方法(【十类二十种算法:【数值型】+【类别型】)、处理方法(删除/填充/变换/区别对待)、经典案例应用实现(包括基础函数代码)之详细攻略
# 2.1.3.1、异常值检测与分析
# 2.1.3.2、异常值处理
2.1.4、特殊值/特定值/脏数据的分析与处理
2.2、数据分析/处理→挖掘信息
2.2.1、校验两份数据集是否同分布
# (1)、【数值型】分布对比可视化
2.2.2、目标变量label/target的分析与处理
2.2.2.1、查看label的分布
2.2.2.2、计算label的skew、kurt
2.2.2.3、label若非正态分布需变换
2.2.3、【类别型】特征分析——不包含编码化(在后边)
2.2.3.1、分布性分析/独立分析:单个特征的丰富度/多样性统计及其可视化
2.2.3.2、相关性分析/关联分析:各特征间或与label间的柱形图/箱形图/小提琴图可视化
2.2.4、【数值型】特征分析与处理
2.2.4.1、分布性分析/独立分析与处理:单个【数值型】特征的分布性
2.2.4.2、相关性分析/关联分析:【数值型】特征间的相关性
2.2.4.3、【数值型】特征编码之平均数编码
2.2.5、组合关联统计分析(针对【类别型】+【数值型】)
(1)、基于【类别型】特征不同子类颜色区分分组统计【数值型】特征
2.3、构造特征
2.3.1、基于常识经验/先验知识角度
T1、构造与时间信息相关的特征
T2、构造与地理信息相关的特征
T3、特征聚类:根据描述内容相似性/聚类算法构造新特征
T4、构造先验知识字段
2.3.2、构造基于技术的衍生式字段
T1、特征非线性变换实现构造特征—适合【数值型】特征
T2、构造特征组合四则运算/多项式的特征—适合【数值型】特征
T3、构造特征交叉的装箱统计/分组聚合—适合【数值型】特征+【类别型】特征
T4、构造统计量式字段—适合【数值型】特征
T5、构造分桶字段/数据分桶/特征分箱/离散化/二值化:尤其适合长尾分布字段等
T6、自动构造特征
2.3.3、构造基于业务规则/业务意义的特征
2.4、数据数字化/特征三化/数据规范化
NLP:自然语言处理技术之NLP技术实践—自然语言/人类语言“计算机化”的简介、常用方法分类(基于规则/基于统计,离散式/分布式)之详细攻略
NLP:自然语言处理领域常见的文本特征表示/文本特征抽取(本质都是“数字化”)的简介、四大类方法(基于规则/基于统计,离散式【one-hot、BOW、TF-IDF】/分布式)之详细攻略
ML之FE:树类模型、基于样本距离的模型在特征工程/数据预处理阶段各自的特点和处理技巧之详细攻略
ML之Tree:在机器学习算法python编程中,树类模型算法是如何体现处理【类别型】特征?可否直接将【类别型】特征object格式的数据输入到树类模型中对象中进行训练与预测?
ML之Tree:决策树模型常见分类(CART、ID3、C4.5算法的对比)、【数值型】特征中“离散性”特征和“连续性”特征的处理区别、树类模型处理【类别型】特征的两种策略及其代码实战
ML:基于泰坦尼克号数据集利用多种树类算法(独热编码/标签编码+DT/RF/XGBoost/LightGBM/CatBoost+主要探究各算法对【类别型】特征的处理)进行交叉验证训练并对比模型性能
2.4.1、【数值型】特征无量纲化
2.4.1.1、两大无量纲化技术(区间缩放归一化、Z-Score归一化(即标准化))的概述
2.4.2、【类别型】特征编码化
ML之FE:数据预处理/特征工程之两大类特征(连续型特征/离散型特征)、四大数据类型(数值型/类别型/字符串型/时间型)简介、类别型特征编码的基础代码实现之详细攻略
ML之FE:特征工程/数据预处理中的数据数字化/特征编码化之统计编码(基于统计量的编码,频率编码、概率编码、联合频率编码、权重编码、目标编码、CatBoost 编码、平均数编码等)的简介、案例应用之详细攻略
2.4.2.1、狭义—【类别型】数据编码
2.4.2.2、广义—【类别型】数据编码化—时间型特征
2.4.2.3、广义—【类别型】数据编码化—NLP领域的文本型特征
2.4.3、所有数据的向量化(标准化)—一般水到渠成(如果有需要)
(1)、对【类别型】离散值、【数值型】连续值两种类型拼接
2.5、定义入模特征
2.5.1、删除特征
T1、删除一些分布/严重倾斜不一致特征
T2、删除已基于此衍生新特征的字段/过程特征
2.5.2、特征筛选FS—广义的特征降维
ML之FE:特征工程/数据预处理之特征筛选FS三大技术简介之Filter、Wrapper(基于搜索策略的三类)、Embedded)及其代码实现
ML之FE之FS:特征工程/数据预处理—特征选择之利用过滤式filter、包装式wrapper、嵌入式Embedded方法(RF/LGBM)进行特征选择(基于boston房价数据集回归预测)实现代码
ML之FE之FS:特征工程/数据预处理—特征选择之利用过滤式filter、包装式wrapper、嵌入式Embedded方法(RF/SF)进行特征选择(mushroom蘑菇数据集二分类预测)案例应用
T1、过滤式filter:挑选相关性变量
T2、包裹式/包装式wrapper:递归地训练基模型,将权值系数较小的特征从特征集合中消除
T3、嵌入式Embedded(算法内置):训练基模型,选择权值系数较高的特征
2.5.3、特征降维—狭义的特征降维
2.6、导出入模数据集
三、模型训练/评估与推理
3.0、数据降内存:通过调整……——模型提效技巧点☆
3.1、数据集切分:划分训练集/验证集/测试集
ML之FE:机器学习算法建模中的特征穿越/数据泄露的简介、常见案例、解决方法之详细攻略
ML之FE:特征工程中常用的五大数据集划分方法(留1法/留p法、随机划分法、K折交叉验证法、自定义分割法、特殊类型数据分割法【时间序列数据】、自助采样法)理论讲解及其代码实现
3.2、模型搭建与训练
3.2.1、选择算法
3.2.2、模型训练
3.3、模型评估与验证(偏实战)
3.3.1、模型评估
3.3.2、模型调优
3.3.3、对比预测值与真实值:误差/残差绝对值的可视化
3.4、模型特征重要性可视化分析
T1、线性模型
T2、树类算法
3.5、误差/误分类分析
ML:机器学习模型提效之监督学习中概率校准的简介、案例应用之详细攻略
ML之LoR:基于泰坦尼克号数据集分别利用Platt校准和等距回归校准算法实现概率校准进而提高二元分类模型的预测准确性(模型提效)应用案例
A、【分类】任务中
B、【回归】任务中
3.6、模型导出与推理(基于无标签的新数据)
3.6.1、模型导出和模型载入
MLOPS:数据科学/机器学习工程化—模型开发四大技术之模型持久化技术(使用时不再训练)之模型导出与载入常用文件格式对比(pkl/pickle、pth、h5、PMML、ONNX 、json)之详细攻略
TF之DNN:基于泰坦尼克号数据集(独热编码)利用Tensorflow框架的浅层神经网络算法(h5模型文件/模型参数/json模型结构/onnx文件格式的模型导出和载入)实现分类预测应用案例
PT之DNN:基于泰坦尼克号数据集(独热编码/标签编码)利用PyTorch框架的浅层神经网络算法(pth和onnx文件的模型导出和载入推理)实现二分类预测应用案例
3.6.2、模型推理
四、模型分析/反思/再优化—提效总结
4.1、模型提效总结概述
4.2、数据扩展—特征构造、数据扩张(引入外部数据)
4.3、算法改进——模型提效技巧点☆
ML之FE:树类模型、基于样本距离的模型在特征工程/数据预处理阶段各自的特点和处理技巧之详细攻略
ML之FE:在机器学习领域,常见的机器学习算法各自对【数值型】特征和【类别型】特征的处理技巧总结以及有哪些算法喜欢高斯分布类型的数据
4.4、集成学习/模型融合/构建集成模型—模型提效技巧点☆
4.4.1、集成学习/模型融合/构建集成模型的概述
4.4.2、集成学习/模型融合/构建集成模型的三大层面、四大策略、四大分类
ML之EL:集成学习/模型融合/构建集成模型的简介(三大层面/四大策略/四大分类)、相关库函数/工具(Scikit-learn框架/PyTorch/TensorFlow框架等)、案例应用之详细攻略
ML之EL:集成学习/模型融合/构建集成模型的简介之Bagging和Boosting算法的联系和区别、Stacking和Blending算法的联系和区别
4.5、模型过拟合/欠拟合问题
ML/DL:机器学习模型优化技术之过拟合和欠拟合问题的简介(6大方法解决过拟合+3大方法解决欠拟合)、从欠拟合到过拟合的变化、案例应用之详细攻略
ML与Regularization:正则化理论(权值衰减即L1正则化-L2正则化/提前终止/数据扩增/Dropout/融合技术)在机器学习中的简介、常用方法、案例应用之详细攻略
五、模型部署与监控
5. 1、模型部署
5.1.1、模型部署概述
DS/ML:数据科学技术之数据科学生命周期(四大层次+机器学习六大阶段+数据挖掘【5+6+6+4+4+1】步骤)的全流程讲解之详细攻略
AI之MLOPS:数据科学/机器学习算法领域之工程化六大核心技术—MLOPS、模型开发(流水线/并行处理/持久化/可解释性)、模型部署(云端服务器)、模型监控、模型管理、自动化技术之详细攻略
ML:场景实战之模型部署、测试的疑难杂症(如Training-Serving Skew等,比如AUC指标线下上涨但线上却下降等问题)的经验总结
ML与Docker:《Deploy Machine Learning Pipeline on the cloud using Docker Container使用Docker容器在云端部署机器学习管道》的翻译与解读—PyCaret(训练和部署机器学习管道和模型到生产环境中)+Flask(构建Web应用程序)+Docker(通过使用容器来创建-部署-运行应用程序)+Microsoft Azure(云服务)
5.1.2、模型上线部署七大流程
AI/ML:人工智能领域-机器学习算法之模型部署的简介(八大核心技术/三大部署方法/三大服务方法)、模型上线部署七大流程、模型训练技术点VS模型部署技术点之详细攻略
5.2、模型监控
ML:机器学习之模型监控阶段—模型稳定性分析的简介、提高模型稳定性的通用方法、线性模型—提高模型稳定性的策略、基于树的模型—提高模型稳定性的策略
ML之CSI:特征稳定性指标(Characteristic Stability Index)的简介(特征筛选/特征监控、CSI和PSI指标对比)、使用方法、案例应用之详细攻略
ML之PSI:人群偏移度指标(Population Stability Index)的简介(特征筛选/特征监控/模型监控/AB测试)、使用方法、案例应用(风控业务/风险评估/市场分析等)之详细攻略
DataScience&ML:风控场景之模型监控的意义、具体内容【线上线下一致性监控、前端监控(客群稳定性/风控决策全流程)、后端监控(模型性能评估/资产质量分析)、模型表现监控和模型影响】之详细攻略
Tool之Airflow:Airflow(管理-调度-监控数据处理工作流的平台/DAG)的简介(可管理和调度机器学习模型的训练和预测过程)、安装、使用方法之详细攻略
六、模型全流程优化
AI之MLOPS:数据科学/机器学习算法领域之工程化六大核心技术—MLOPS、模型开发(流水线/并行处理/持久化/可解释性)、模型部署(云端服务器)、模型监控、模型管理、自动化技术之详细攻略
6.1、代码优化总结
6.2、系统优化
相关文章
DS/ML:数据科学技术之数据科学生命周期(四大层次+机器学习六大阶段+数据挖掘【5+6+6+4+4+1】步骤)的全流程最强学习路线讲解之详细攻略
https://yunyaniu./article/details/130592322
DS/ML:数据科学技术之机器学习领域六大阶段最强学习路线(初步探索性数据分析EDA→数据预处理/广义的特征工程→模型训练/评估/推理→模型分析/反思/再优化→模型部署与监控→模型全流程优化)详解
https://yunyaniu./article/details/128509774
AI之MLOPS:数据科学/机器学习算法领域之工程化六大核心技术—MLOPS、模型开发(流水线/并行处理/持久化/可解释性)、模型部署(云端服务器)、模型监控、模型管理、自动化技术之详细攻略
https://yunyaniu./article/details/13012
一、初步探索性数据分析EDA
1.0、相关术语
对比:特征VS特征工程
特征:数据中抽取出来的对结果预测有用的信息。
特征工程:使用专业背景知识和技巧处理数据,使得特征能在机器学习算法上发挥更好的作用的过程。
对比:数字VS数值
对比:定性变量VS定量变量
对比:【类别型】特征、定性特征、“离散性”特征
【类别型】特征:定性变量、“离散性”变量、连续变量;
【数值型】特征:定量变量、“连续性”变量、离散变量;【数值型】特征包含“连续性”特征和“离散性”特征。
备注:特征的类型中,之所以采用【数值型】而不采用【数字型】,因为有些类别型的表现形式也是【数字型】,但其实际意义是离散性,即数字之间没有大小之分(离散性数据无法比较大小,只是不同类别),只是个代号。
1.1、载入数据集
1.2、初步把握数据基本信息
ML之FE:数据分析之数据概要报告的简介(生成探索性分析EDA报告)、使用方法之详细攻略
https://yunyaniu./article/details/126161530
1.3、特征类型划分:【类别型】特征和【数值型】特征
ML之FE:数据预处理/特征工程之两大类特征(连续型特征/离散型特征)、四大数据类型(数值型/类别型/字符串型/时间型)简介、类别型特征编码的基础代码实现之详细攻略
https://yunyaniu./article/details/91361912
1.4、分离特征与标签label
ML之FE:在特征工程/数据预处理阶段分离特征与标签/目标变量的三种实现方法之详细攻略
https://yunyaniu./article/details/105375109
二、数据预处理/广义的特征工程
备注:本过程是按照数据预处理步骤顺序撰写,但是有些步骤是要经常性的交叉使用和回用。
实战:综合案例
ML之R:通过数据预处理(缺失值/异常值/特殊值的处理/长尾转正态分布/目标log变换/柱形图-箱形图-小提琴图可视化/构造特征/特征筛选)利用算法实现二手汽车产品交易价格回归预测之详细攻略
https://yunyaniu./article/details/129226043
ML之LightGBM:通过数据预处理(分布图/箱型图/模型寻找异常值/热图/散点图/回归关系/修正分布正态化/QQ分位图/构造交叉特征/平均数编码)利用十种算法模型调优实现工业蒸汽量回归预测(交叉训练/R2-MSE曲线/模型融合)之详细攻略
https://yunyaniu./article/details/128979166
ML之FE:金融风控—基于预处理(PSI+标签编码+文本型抽数字+缺失值RF模型拟合填充)+多种筛选指标(PCA/IV值/Gini/熵/丰富度)利用CatBoost实现贷款违约二分类预测案例之详细攻略
https://yunyaniu./article/details/109559217
2.0、数据预处理/广义的特征工程的简介
2.0.0、数据预处理和特征工程的对比
备注:鉴于以上关系,同时为了统一术语,后续的特征工程也都纳入到预处理阶段中,即预处理=数据预处理+特征工程。
2.0.1、数据预处理/广义的特征工程的概述
ML之FE:树类模型、基于样本距离的模型在特征工程/数据预处理阶段各自的特点和处理技巧之详细攻略
https://yunyaniu./article/details/130397774
ML之FE:在机器学习领域,常见的机器学习算法各自对【数值型】特征和【类别型】特征的处理技巧总结以及有哪些算法喜欢高斯分布类型的数据
https://yunyaniu./article/details/130599888
2.1、数据清洗
2.1.1、数据对齐
ML之FE:基于titanic泰坦尼克数据集对object列的字符串数据内提取关键信息并进行数据对齐(统一特征子类别的含义)实现代码
https://yunyaniu./article/details/130306523
2.1.2、缺失值的分析与处理
ML之FE:特征工程/数据预处理中的数据缺失值的简介、检测方法、处理方法(删除/三种填充思路七种方法)、经典案例应用实现(包括基础函数代码)之详细攻略
https://yunyaniu./article/details/114954135
Python之pandas:pandas中缺失值与空值处理的简介及常用函数(drop()、dropna()、isna()、isnull()、fillna())函数详解之详细攻略
https://yunyaniu./article/details/108504178
2.1.2.1、缺失值的统计与分析
2.1.2.2、缺失值的处理
2.1.3、异常值的分析与处理
ML之FE:特征工程/数据预处理中的数据异常值的简介、检测方法(【十类二十种算法:【数值型】+【类别型】)、处理方法(删除/填充/变换/区别对待)、经典案例应用实现(包括基础函数代码)之详细攻略
https://yunyaniu./article/details/129782360
# 2.1.3.1、异常值检测与分析
# T1、利用散点图scatter寻找异常点/分布间相关性:图中远离正斜角线的数据点,皆为异常点
# (1)、散点图可视化2个【数值型】特征分布
# (2)、【数值型】特征矩阵关系分布图(全散点图+对角线折线图)
# T2、利用百位数化分法之QQ分位数图可视化异常值
# T3、利用百位数化分法之BP箱线图/BP-N寻找异常点/异常值
# (1)、建议选择归一化后再BP可视化
# (2)、若特征中包含缺失值,则该特征不会绘制BP
# BP图所有特征在一个大图中
# BP图矩阵可视化:各个特征各个BP可视化
# T4、利用模型预测计算残差标准差的3σ原则方法找出异常值
ML之FE:基于波士顿房价数据集利用LightGBM算法进行模型预测然后通过3σ原则法(计算残差标准差)寻找测试集中的异常值/异常样本
https://yunyaniu./article/details/130606128
# 2.1.3.2、异常值处理
# T1、基于指定成对列的删除异常样本点:删除散点图右下角、左上角区域的异常点
# T2、基于3-Sigma标准差的删除异常样本点+箱线图对比可视化:将基于当前特征的所有异常样本数据都删掉
# T3、对异常值执行截断处理:只针对异常值,截断阈值要具体看分布
2.1.4、特殊值/特定值/脏数据的分析与处理
2.2、数据分析/处理→挖掘信息
2.2.1、校验两份数据集是否同分布
分布可视化:校验训练集与测试集数据是否同分布
# (1)、【数值型】分布对比可视化
2.2.2、目标变量label/target的分析与处理
2.2.2.1、查看label的分布
T1、折线图/QQ图/饼状图分布可视化
2.2.2.2、计算label的skew、kurt
2.2.2.3、label若非正态分布需变换
2.2.3、【类别型】特征分析——不包含编码化(在后边)
2.2.3.1、分布性分析/独立分析:单个特征的丰富度/多样性统计及其可视化
T1、【类别型】特征的频数统计柱状图/饼状图/词云图可视化
2.2.3.2、相关性分析/关联分析:各特征间或与label间的柱形图/箱形图/小提琴图可视化
(1)、各个特征间的关系可视化
(2)、单特征与label之间的关系可视化
(3)、多个组合特征与label之间的关系可视化
2.2.4、【数值型】特征分析与处理
2.2.4.1、分布性分析/独立分析与处理:单个【数值型】特征的分布性
ML之FE:特征工程/数据预处理—转换和变换的区别、线性变换和非线性变换的区别、数据变换/特征变换的简介(特征的线性变换+特征的非线性变换)、案例应用之详细攻略
https://yunyaniu./article/details/129108740
(1)、统计并可视化所有【数值型】变量的偏态skew、峰态kurt
(2)、【数值型】特征分布性可视化
(3)、【数值型】特征的长尾分布转为正态分布
2.2.4.2、相关性分析/关联分析:【数值型】特征间的相关性
(1)、各个特征间的交互关系可视化
T2、散点图关系可视化
T3.1、散点图可视化两个【数值型】特征分布
T3.2、散点图2+1特征可视化:两个特征结合label相关的散点图可视化
T3.3、散点图可视化所有【数值型】特征分布
T3、【数值型】特征间的散点图可视化
T3.1、【数值型】特征矩阵关系分布图(全散点图+对角线折线图)
T3.2、【数值型】特征矩阵关系分布图(全散点趋势线图+对角线折线图)
T3.3、【数值型】特征散点趋势线图之单个特征与label
T6、热图关系可视化
T1、PCC皮尔森矩阵线性相关性可视化
(1)、手动批量计算两个特征之间的PCC
(2)、for循环计算挑选N个特征与label的PCC
(3)、PCC皮尔森矩阵线性相关性可视化:两种风格可视化
T2、MIC最大互信息系数相关性热图可视化
(1)、单独计算某个重要特征与label之间的MIC值
(2)、for循环计算挑选N个特征与label的MIC
(3)、计算整个数据集进行MIC矩阵值
(4)、整个数据集MIC矩阵热图可视化
(2)、单特征与label之间的关系可视化
T7、PCP(平行坐标图)折线图可视化
2.2.4.3、【数值型】特征编码之平均数编码
DataScience之ME:平均数编码(Mean Encoding)的简介、代码实现、案例应用之详细攻略
https://yunyaniu./article/details/129001861
ML之CatBoost:金融风控之通过数据预处理(中位数填充/校验同分布/文本型日期拆解/平均数编码-标签编码)利用CatBoost算法+模型可解释性(Shap/LIME)预测用户的车险是否为欺诈行为
https://yunyaniu./article/details/125591806
2.2.5、组合关联统计分析(针对【类别型】+【数值型】)
(1)、基于【类别型】特征不同子类颜色区分分组统计【数值型】特征
2.3、构造特征
2.3.1、基于常识经验/先验知识角度
T1、构造与时间信息相关的特征
T2、构造与地理信息相关的特征
T3、特征聚类:根据描述内容相似性/聚类算法构造新特征
T4、构造先验知识字段
ML之FE:基于titanic泰坦尼克数据集对object列的字符串数据内提取关键信息并进行数据对齐(统一特征子类别的含义)实现代码
https://yunyaniu./article/details/130306523
2.3.2、构造基于技术的衍生式字段
T1、特征非线性变换实现构造特征—适合【数值型】特征
ML之FE:特征工程/数据预处理—转换和变换的区别、线性变换和非线性变换的区别、数据变换/特征变换的简介(特征的线性变换+特征的非线性变换)、案例应用之详细攻略
https://yunyaniu./article/details/129108740
T2、构造特征组合四则运算/多项式的特征—适合【数值型】特征
ML之FE:特征工程/数据预处理中的构造特征之构造特征组合四则运算/多项式的特征的应用案例(基于titanic泰坦尼克数据集)实现代码
https://yunyaniu./article/details/130312790
Py之featuretools:featuretools库的简介、安装、使用方法之详细攻略
https://yunyaniu./article/details/106027740
T3、构造特征交叉的装箱统计/分组聚合—适合【数值型】特征+【类别型】特征
T4、构造统计量式字段—适合【数值型】特征
T5、构造分桶字段/数据分桶/特征分箱/离散化/二值化:尤其适合长尾分布字段等
ML之FE:特征工程/数据预处理之构造特征之特征分箱/数据分桶的常用六大类方法—基于统计(等距/等频+分位数+标准差/f方差)、基于数据分布(自然断点+重尾分布)、基于评价指标的自适应(卡方/Best-KS分箱)、基于特征交互(WOE/IV)、基于模型算法预测(有监督决策树+无监督聚类)之详细攻略
https://yunyaniu./article/details/129929428
DataScience:机器学习—评分卡模型中数据分桶/变量分箱/特征分箱的简介(分箱的有效期/特征分箱的优势)、常用方法、案例应用(为例)之详细攻略
https://yunyaniu./article/details/125311299
(1)、从数据分布看该特征是否可以使用分桶技术
# T1、根据该字段desc的5个统计量进行自动分箱
# T2、手动分箱:根据字段的mean和75%确定分箱区间
T6、自动构造特征
(1)、自动构建二次加工特征:基于决策树叶节点编码自动构造特征的方法
ML之XGBoost:基于titanic泰坦尼克数据集(数据对齐+独热编码/标签编码+构造新特征【四则运算+采用DT/RF树叶节点编码自动构造特征】)利用XGBoost算法实现二分类预测应案例
https://yunyaniu./article/details/130393794
Py之featuretools:featuretools库的简介、安装、使用方法之详细攻略
https://yunyaniu./article/details/106027740
2.3.3、构造基于业务规则/业务意义的特征
2.4、数据数字化/特征三化/数据规范化
NLP:自然语言处理技术之NLP技术实践—自然语言/人类语言“计算机化”的简介、常用方法分类(基于规则/基于统计,离散式/分布式)之详细攻略
https://yunyaniu./article/details/128877887
NLP:自然语言处理领域常见的文本特征表示/文本特征抽取(本质都是“数字化”)的简介、四大类方法(基于规则/基于统计,离散式【one-hot、BOW、TF-IDF】/分布式)之详细攻略
https://yunyaniu./article/details/128877833
ML之FE:树类模型、基于样本距离的模型在特征工程/数据预处理阶段各自的特点和处理技巧之详细攻略
https://yunyaniu./article/details/130397774
ML之Tree:在机器学习算法python编程中,树类模型算法是如何体现处理【类别型】特征?可否直接将【类别型】特征object格式的数据输入到树类模型中对象中进行训练与预测?
https://yunyaniu./article/details/130397623
ML之Tree:决策树模型常见分类(CART、ID3、C4.5算法的对比)、【数值型】特征中“离散性”特征和“连续性”特征的处理区别、树类模型处理【类别型】特征的两种策略及其代码实战
https://yunyaniu./article/details/130633620
ML:基于泰坦尼克号数据集利用多种树类算法(独热编码/标签编码+DT/RF/XGBoost/LightGBM/CatBoost+主要探究各算法对【类别型】特征的处理)进行交叉验证训练并对比模型性能
https://yunyaniu./article/details/130621317
2.4.1、【数值型】特征无量纲化
2.4.1.1、两大无量纲化技术(区间缩放归一化、Z-Score归一化(即标准化))的概述
ML之FE:特征工程/数据预处理—转换和变换的区别、线性变换和非线性变换的区别、数据变换/特征变换的简介(特征的线性变换+特征的非线性变换)、案例应用之详细攻略
https://yunyaniu./article/details/129108740
DataScience:数据预处理/特征工程之线性变换—四种特征缩放Scaling算法简介、区间缩放归一化和非固定区间归一化(即标准化)的各自角度的概述与对比、国外文章的解读
https://yunyaniu./article/details/130312586
T1、Z-Score标准正态化/StandardScaler函数
T2、归一化/MinMaxScaler函数/MaxAbsScaler函数
# MinMaxScaler归一化对比可视化:单个特征
# MinMaxScaler归一化:多个特征
(1)、对比是否归一化的效果
T1、X和Y都不做归一
T2、X和Y都做归一
T3、X做归一且Y不做归
2.4.2、【类别型】特征编码化
ML之FE:数据预处理/特征工程之两大类特征(连续型特征/离散型特征)、四大数据类型(数值型/类别型/字符串型/时间型)简介、类别型特征编码的基础代码实现之详细攻略
https://yunyaniu./article/details/91361912
ML之FE:特征工程/数据预处理中的数据数字化/特征编码化之统计编码(基于统计量的编码,频率编码、概率编码、联合频率编码、权重编码、目标编码、CatBoost 编码、平均数编码等)的简介、案例应用之详细攻略
https://yunyaniu./article/details/130316172
2.4.2.1、狭义—【类别型】数据编码
T2、OneHotEncoder独热向量编码化/哑变量编码
#比如颜色 红、蓝、黄 会被编码为[1, 0, 0],[0, 1, 0],[0, 0, 1]
T4、LabelEncoder标签编码化
# (1)、基本类别编码,直接在train上执行LabelEncoder,不考虑test中的新值
# (2)、高级类别编码,test中的新值映射为unknown
调用本函数前提:所有数据均已填充
T5.1、Mean Encoding均值编码
T6、Embedding嵌入
T7、Hash与聚类处理
2.4.2.2、广义—【类别型】数据编码化—时间型特征
2.4.2.3、广义—【类别型】数据编码化—NLP领域的文本型特征
2.4.3、所有数据的向量化(标准化)—一般水到渠成(如果有需要)
(1)、对【类别型】离散值、【数值型】连续值两种类型拼接
前6列是标准化过后的连续值特征,后面是编码后的离散值特征
2.5、定义入模特征
2.5.1、删除特征
T1、删除一些分布/严重倾斜不一致特征
T2、删除已基于此衍生新特征的字段/过程特征
2.5.2、特征筛选FS—广义的特征降维
ML之FE:特征工程/数据预处理之特征筛选FS三大技术简介之Filter、Wrapper(基于搜索策略的三类)、Embedded)及其代码实现
https://yunyaniu./article/details/81711158
ML之FE之FS:特征工程/数据预处理—特征选择之利用过滤式filter、包装式wrapper、嵌入式Embedded方法(RF/LGBM)进行特征选择(基于boston房价数据集回归预测)实现代码
https://yunyaniu./article/details/129902180
ML之FE之FS:特征工程/数据预处理—特征选择之利用过滤式filter、包装式wrapper、嵌入式Embedded方法(RF/SF)进行特征选择(mushroom蘑菇数据集二分类预测)案例应用
https://yunyaniu./article/details/129915144
T1、过滤式filter:挑选相关性变量
ML之FE之FS:特征工程/数据预处理—特征选择之利用过滤式filter之利用方差阈值的特征筛选(自定义数据集,多种方法实现)案例实现代码
https://yunyaniu./article/details/130058743
ML之chi-square:卡方检验(chi-square test)的简介、代码实现、使用方法之详细攻略
https://yunyaniu./article/details/127723156
ML之FE之chi2:基于mushroom蘑菇数据集利用对RF模型采用chi2算法(基于P值调参的k值挑选)实现特征筛选并可视化特征个数与模型得分的变化曲线、输出最佳特征个数Top_i的特征名称应用案
https://yunyaniu./article/details/129930807
(1)、基于信息相关的四种特征选择法
T2、包裹式/包装式wrapper:递归地训练基模型,将权值系数较小的特征从特征集合中消除
ML之FS之RFE:RFE递归特征消除算法的简介、代码实现、案例应用之详细攻略
https://yunyaniu./article/details/130354807
XAI之PFI:PFI/Permutation排列重要性/置换重要性算法(What—哪些特征对预测的影响最大)的简介(原理/意义/优缺点/应用/改良)、常用工具包、案例应用之详细攻略
https://yunyaniu./article/details/128795667
T3、嵌入式Embedded(算法内置):训练基模型,选择权值系数较高的特征
ML与Regularization:正则化理论(权值衰减即L1正则化-L2正则化/提前终止/数据扩增/Dropout/融合技术)在机器学习中的简介、常用方法、案例应用之详细攻略
https://yunyaniu./article/details/107929447
2.5.3、特征降维—狭义的特征降维
更多内容详见,5.4、降维任务中的算法
2.6、导出入模数据集
三、模型训练/评估与推理
3.0、数据降内存:通过调整……——模型提效技巧点☆
3.1、数据集切分:划分训练集/验证集/测试集
ML之FE:机器学习算法建模中的特征穿越/数据泄露的简介、常见案例、解决方法之详细攻略
https://yunyaniu./article/details/130215772
ML之FE:特征工程中常用的五大数据集划分方法(留1法/留p法、随机划分法、K折交叉验证法、自定义分割法、特殊类型数据分割法【时间序列数据】、自助采样法)理论讲解及其代码实现
https://yunyaniu./article/details/108411370
3.2、模型搭建与训练
3.2.1、选择算法
此处部分主要是以应用案例为主,有关于算法理论本身的介绍,主要详见算法介绍章节
ML:数据科学/机器学习领域经验总结—对于特征个数大于样本量的高维数据集,用什么算法进行预测,效果会更好?
https://yunyaniu./article/details/129828539
A、【分类】任务中
(1)、二分类预测
ML之LoR:利用LoR算法对足球世界杯各个组进行输赢预测
T1、利用OLS对岩石-水雷数据集构建分类器
T2、利用RiR对岩石-水雷数据集构建分类器+AUC度量分离器性能
T3、用回归工具将岩石-水雷二分类转为回归问题并采用LARS算法构建分类器
T4、利用ElasticNet回归对岩石水雷数据集构建二分类器(DIY交叉验证+分类的两种度量PK)
T5、EL之RF(RFC):利用RF对二分类问题(声纳数据集)进行建模并预测(未爆炸的水雷)
T6、EL之GB(GBC):利用GB对二分类问题(声纳数据集)进行建模并预测(未爆炸的水雷)
ElasticNet之PLoR:在二分类(岩石水雷)数据集上调用Glmnet库训练PLoR模型(T2)
ElasticNet之PLoR:在二分类(岩石水雷)数据集上调用Glmnet库训练PLoR模型(T2)
(2)、多分类预测
T1、使用PLiR实现对玻璃样本进行多分类
T2、EL之RF(RFC):利用RF对多分类问题(玻璃数据集)进行建模(六分类+分层抽样)并评估
T3、EL之GB(GBC):利用GB对多分类问题(玻璃数据集)进行建模(分层抽样+调1参)并评估
B、【回归】任务中
(1)、整数值预测
A、鲍鱼数据集
T1、EL之RF(RFR):利用RF对(鲍鱼物理指标)回归(性别属性编码)问题(整数值年龄预测)建模
T2、EL之GB(GBM):利用GB对(鲍鱼物理指标)回归(性别属性编码+调2参)问题(整数值年龄预测)建模
B、红酒数据集
T1、在红酒品质数据集上利用FSR(前向逐步回归)
T2、在红酒品质数据集上利用RiR(岭回归)
T3、在红酒品质数据集上利用基扩展BasisExpand
(2)、浮点数预测
T1、ML之LGBMRegressor:利用LGBMRegressor算法对住房月租金进行预测
C、【聚类】任务中
(1)、结构化数据聚类
(2)、非结构化数据聚类
A、图片聚类
B、文本聚类
3.2.2、模型训练
3.2.2.1、模型一次性训练
3.2.2.2、模型交叉训练
# 注意:但交叉验证不适合基于时间序列数据集的回归预测
# 选择几个最佳模型再进行交叉训练确保模型稳定性
(1)、同时绘制在10份数据上的错误平均值,每一份上绘制错误随α 变化的曲线
3.2.2.3、模型训练曲线可视化
绘制基于交叉验证的train和val学习曲线
3.3、模型评估与验证(偏实战)
3.3.1、模型评估
A、【分类】任务中模型常用评估指标:6个
T1、正确率和误分类率
T1.1、正确率ACC
T1.2、误分类率—最初不考虑代价
(1)、对模型性能评价:输出最好的误分类error值及其对应的决策树个数
(2)、绘出deviance偏差、误分类误差随着GB中决策树的个数变化曲线图
1)、偏差展示了训练的过程。测试数据集的误分类误差用来确定模型(或算法)是否过拟合。
但在DT数目达到200左右后,性能也不再提升,因此可以终止测试。
2)、使用的是RF基学习器。这导致误分类率改善了大概10%
绘制误分类错误随惩罚参数减少的变化图
(3)、在性能随α变化的图上,选择离左边较远的点往往是一个不错方案。因为右侧的点更容易充分拟合数据。
(4)、选择离左边较远的解是相对保守的方案,在这种情况下,很有可能部署错误与交叉验证的错误程度一致。
T2、混淆矩阵CE的6个指标AP、mAP、P、R、F1分数、PR曲线
1)、选择一些阈值并计算最佳预测的混淆矩阵,选取25、50和75百分位的阈值
2)、请注意,GBM预测不在(0,1)范围内。
3)、阈值为3个四分位数,结果显示了当阈值从一个分位数转移到另外一个分位数时,假阳性、假阴性是如何变化的。
4)、计算总分、总阳性和总阴性
输出不同阈值下的混淆矩阵,依次输出25th、50th和75th阈值的混淆矩阵
5)、输出最好预测值的混淆矩阵
T3、ROC曲线和AUC值
(1)、ROC的曲线各点反映相同的感受性
(2)、绘制ROC曲线:绘制出最佳性能分类器的ROC曲线,即为最大化AUC分类器的ROC曲线;
T2.1、ROC感受性曲线即TPR~FPR曲线
T2.2、AUC即ROC曲线下的面积值
(1)、测试集上,绘制AUC曲线度量分类器性能
测试集上计算AUC的值。生成的曲线从上往下看类似于误分类错误曲线,从上到下是因为AUC的值越大越好,误分类错误越小越好。
AUC与alpha 参数的关系,该图展示了在系数向量上使用欧式长度限制可以降低解的复杂度。
B、【回归】任务中模型常用评估指标:4种
T1、MSE和RMSE
绘制训练集和测试集的errors随着GB中决策树的个数变化曲线
T2、MAE和MAPE
T3、R2
C、【聚类】任务中模型常用评估指标:6个
更多内容详见——聚类任务章节中的聚类模型评估指标
3.3.2、模型调优
ML/DL模型调参:机器学习和深度学习中模型调优的简介、模型参数调优VS超参数调优、常用调参优化方法(整体调优-手动调参/随机调参/网格调参/贝叶斯调参)之详细攻略
https://yunyaniu./article/details/125548554
3.3.2.1、模型算法选择调优
3.3.2.2、模型参数调优
3.3.2.3、超参数调优
模型结构相关参数的调优:比如增加神经网络的深度和宽度会改变模型的拓扑结构,从而影响模型的性能和训练效率。
(1)、在深度学习中,通常采用试错的方式调整模型结构,尝试不同的深度和宽度组合,从而找到最优的结构。这个过程可以手动进行,也可以使用自动调参工具进行优化,如……等方法。
ML/DL模型调参:深度学习神经网络超参数调优简介、自适应调参、基于网格搜索(逐个调优,如batch_size/epoch/lr/优化器/激活函数/Dropout 正则化/神经元个数等)
https://yunyaniu./article/details/104833424
T1、模型内部超参数调优
(1)、当决策树深度=12 时,Bagging 集成方法的均方误差与决策树数目的关系
可知,可以采用更深的树、更多的决策树个数可以进一步提升Bagging 集成方法的性能
(2)、当treeDepth=10、bagFract=1.0时,训练用的自举样本规模与初始数据集规模一样。在上述参数设置条件下,Bagging 取得了与RF、GB同级别的性能。
(3)、绘制训练集和测试集的errors随着RF中决策树的个数变化曲线
展示了RF算法的减少方差的特性。随着RF数目的增加,预测误差在下降,曲线的统计波动也在减少。RF产生近乎独立的预测,然后取它们的平均值。因为是取平均值,增加更多的决策树不会导致过拟合,因此图中曲线上的最小值是统计上的波动造成的,不是可重复的最小值。
T2、模型外部超参数调优(网络结构的深度和宽度)
3.3.2.4、模型调参方法
T1、随机搜索参数/随机调参
T2、……调参(交叉验证取平均):耗时最短
T3、……调参(交叉验证取平均):耗时最长
T4、……调参(交叉验证取平均)
T5、……调参(交叉验证取平均)
3.3.3、对比预测值与真实值:误差/残差绝对值的可视化
T1、【分类】任务中折线图可视化
(1)、预测值与真实值相差对比之折线图可视化
T1、折线图可视化之实值对比
T2、折线图可视化之误差绝对值对比:比较两个不同的回归模型预测值与真实y值,并输出误差绝对值、对比可视化
ML之FE:基于波士顿房价数据集利用LightGBM算法进行模型预测然后通过3σ原则法(计算残差标准差)寻找测试集中的异常值/异常样本
https://yunyaniu./article/details/130606128
ML:根据不同机器学习模型输出的预测值+且与真实值相减得到绝对误差对比+误差可视化
https://yunyaniu./article/details/94052293
QuantitativeFinance:量化金融之金融时间序列分析—时间序列建模之ARIMA建模流程以及如何通过ACF和PACF图确定ARIMA模型的参数p、d、q之详细攻略
https://yunyaniu./article/details/129640276
Math之ARIMA:基于statsmodels库利用ARIMA算法(ADF检验+差分修正+ACF/PACF图)对上海最高气温实现回归预测案例
https://yunyaniu./article/details/129633598
Math之ARIMA:基于statsmodels库利用ARIMA算法对太阳黑子年数据(来自美国国家海洋和大气管理局)实现回归预测(ADF检验+LB检验+DW检验+ACF/PACF图)案例
https://yunyaniu./article/details/129651655
Math之ARIMA:基于statsmodels库利用ARIMA算法(ADF检验+差分修正+ACF/PACF图)对上海最高气温实现回归预测案例
https://yunyaniu./article/details/129633598
T2、【分类】任务中散点图可视化
实际分类结果与分类器预测结果的散点图。该图与红酒预测中的散点图类似。因为实际预测的输出是离散的,所以呈现2 行水平的点。
3.4、模型特征重要性可视化分析
T1、线性模型
T1.1、LiR算法可以输出其截距与各个特征权重
由代码导出所有特征及其对应权重,观察最高权重和最低权重对应的字段
T1.2、Lasso算法的系数曲线:分别为基于归一化属性以及非归一化属性
1)、基于非归一化属性的系数曲线,相较于归一化属性的系数曲线更加无序。
2)、几个早期进入解的系数相对于后续进入解的系数更接近于0。这种现象正好证明了系数进入模型的顺序,与最佳解的系数尺度的顺序存在本质不同。
T2、树类算法
3.5、误差/误分类分析
ML:机器学习模型提效之监督学习中概率校准的简介、案例应用之详细攻略
https://yunyaniu./article/details/130570112
ML之LoR:基于泰坦尼克号数据集分别利用Platt校准和等距回归校准算法实现概率校准进而提高二元分类模型的预测准确性(模型提效)应用案例
https://yunyaniu./article/details/130570325
A、【分类】任务中
B、【回归】任务中
3.6、模型导出与推理(基于无标签的新数据)
3.6.1、模型导出和模型载入
MLOPS:数据科学/机器学习工程化—模型开发四大技术之模型持久化技术(使用时不再训练)之模型导出与载入常用文件格式对比(pkl/pickle、pth、h5、PMML、ONNX 、json)之详细攻略
https://yunyaniu./article/details/130656042
TF之DNN:基于泰坦尼克号数据集(独热编码)利用Tensorflow框架的浅层神经网络算法(h5模型文件/模型参数/json模型结构/onnx文件格式的模型导出和载入)实现分类预测应用案例
https://yunyaniu./article/details/130652148
PT之DNN:基于泰坦尼克号数据集(独热编码/标签编码)利用PyTorch框架的浅层神经网络算法(pth和onnx文件的模型导出和载入推理)实现二分类预测应用案例
https://yunyaniu./article/details/130653053
3.6.2、模型推理
四、模型分析/反思/再优化—提效总结
4.1、模型提效总结概述
4.2、数据扩展—特征构造、数据扩张(引入外部数据)
4.3、算法改进——模型提效技巧点☆
ML之FE:树类模型、基于样本距离的模型在特征工程/数据预处理阶段各自的特点和处理技巧之详细攻略
https://yunyaniu./article/details/130397774
ML之FE:在机器学习领域,常见的机器学习算法各自对【数值型】特征和【类别型】特征的处理技巧总结以及有哪些算法喜欢高斯分布类型的数据
https://yunyaniu./article/details/130599888
4.4、集成学习/模型融合/构建集成模型—模型提效技巧点☆
4.4.1、集成学习/模型融合/构建集成模型的概述
4.4.2、集成学习/模型融合/构建集成模型的三大层面、四大策略、四大分类
ML之EL:集成学习/模型融合/构建集成模型的简介(三大层面/四大策略/四大分类)、相关库函数/工具(Scikit-learn框架/PyTorch/TensorFlow框架等)、案例应用之详细攻略
https://yunyaniu./article/details/81746396
ML之EL:集成学习/模型融合/构建集成模型的简介之Bagging和Boosting算法的联系和区别、Stacking和Blending算法的联系和区别
https://yunyaniu./article/details/130668384
4.5、模型过拟合/欠拟合问题
ML/DL:机器学习模型优化技术之过拟合和欠拟合问题的简介(6大方法解决过拟合+3大方法解决欠拟合)、从欠拟合到过拟合的变化、案例应用之详细攻略
https://yunyaniu./article/details/90579459
ML与Regularization:正则化理论(权值衰减即L1正则化-L2正则化/提前终止/数据扩增/Dropout/融合技术)在机器学习中的简介、常用方法、案例应用之详细攻略
https://yunyaniu./article/details/107929447
五、模型部署与监控
5.1、模型部署
5.1.1、模型部署概述
DS/ML:数据科学技术之数据科学生命周期(四大层次+机器学习六大阶段+数据挖掘【5+6+6+4+4+1】步骤)的全流程讲解之详细攻略
https://yunyaniu./article/details/130592322
AI之MLOPS:数据科学/机器学习算法领域之工程化六大核心技术—MLOPS、模型开发(流水线/并行处理/持久化/可解释性)、模型部署(云端服务器)、模型监控、模型管理、自动化技术之详细攻略
https://yunyaniu./article/details/13012
ML:场景实战之模型部署、测试的疑难杂症(如Training-Serving Skew等,比如AUC指标线下上涨但线上却下降等问题)的经验总结
https://yunyaniu./article/details/130148050
ML与Docker:《Deploy Machine Learning Pipeline on the cloud using Docker Container使用Docker容器在云端部署机器学习管道》的翻译与解读—PyCaret(训练和部署机器学习管道和模型到生产环境中)+Flask(构建Web应用程序)+Docker(通过使用容器来创建-部署-运行应用程序)+Microsoft Azure(云服务)
https://yunyaniu./article/details/12974
5.1.2、模型上线部署七大流程
AI/ML:人工智能领域-机器学习算法之模型部署的简介(八大核心技术/三大部署方法/三大服务方法)、模型上线部署七大流程、模型训练技术点VS模型部署技术点之详细攻略
https://yunyaniu./article/details/129783816
5.2、模型监控
ML:机器学习之模型监控阶段—模型稳定性分析的简介、提高模型稳定性的通用方法、线性模型—提高模型稳定性的策略、基于树的模型—提高模型稳定性的策略
https://yunyaniu./article/details/125252250
ML之CSI:特征稳定性指标(Characteristic Stability Index)的简介(特征筛选/特征监控、CSI和PSI指标对比)、使用方法、案例应用之详细攻略
https://yunyaniu./article/details/125382811
ML之PSI:人群偏移度指标(Population Stability Index)的简介(特征筛选/特征监控/模型监控/AB测试)、使用方法、案例应用(风控业务/风险评估/市场分析等)之详细攻略
https://yunyaniu./article/details/115191030
DataScience&ML:风控场景之模型监控的意义、具体内容【线上线下一致性监控、前端监控(客群稳定性/风控决策全流程)、后端监控(模型性能评估/资产质量分析)、模型表现监控和模型影响】之详细攻略
补充链接:风控模型监控报告系统设计 - 知乎
Tool之Airflow:Airflow(管理-调度-监控数据处理工作流的平台/DAG)的简介(可管理和调度机器学习模型的训练和预测过程)、安装、使用方法之详细攻略
https://yunyaniu./article/details/111569808
六、模型全流程优化
AI之MLOPS:数据科学/机器学习算法领域之工程化六大核心技术—MLOPS、模型开发(流水线/并行处理/持久化/可解释性)、模型部署(云端服务器)、模型监控、模型管理、自动化技术之详细攻略
https://yunyaniu./article/details/13012
6.1、代码优化总结
6.2、系统优化
DS/ML:数据科学技术之机器学习领域六大阶段最强学习路线(初步探索性数据分析EDA→数据预处理/广义的特征工程→模型训练/评估/推理→模型分析/反思/再优化→模型部署与监控→模型全流程优化)详解