生产系统中的机器学习数据生命周期

在《生产系统中的机器学习工程(MLOps)》专业课程的第二门课程中,您将通过收集、清理、验证数据集和评估数据质量来构建数据管道;使用TensorFlow Extended(TFX)实现特征工程、转换和选择,并从数据中获得最大的预测能力;利用数据沿袭和来源元数据工具建立数据生命周期,并使用企业数据模式跟踪数据发展。

课程大纲

第一章:收集、标记和验证数据

本章节共有12个视频 、5个阅读 、6个练习 ,完成时间342分钟。

12个视频

1. 整体概览 (6分钟)

2. 分课概览 (2分钟)

3. 概览 (11分钟)

4. 机器学习管道 (6分钟)

5. 数据的重要性 (8分钟)

6. 应用举例:跑步建议 (8分钟)

7. 负责任的数据:安全、隐私和公平 (11分钟)

8. 案例研究:模型性能减退 (9分钟)

9. 生产机器学习中的数据和概念变化 (5分钟)

10. 处理反馈和人工标记 (11分钟)

11. 检测数据问题 (7分钟)

12. TensorFlow数据验证 (6分钟)

5个阅读

1. 有疑问?请联系我们 (1分钟)

2. 第一章选读文献 (3分钟)

3. 如何下载笔记本 (10分钟)

4. 第一章课程讲义 (3分钟)

5. 部分打分的作业 (3分钟)

6个练习

1. 介绍MLEP (12分钟)

2. 数据收集 (15分钟)

3. 数据标记 (5分钟)

4. 训练数据的问题 (10分钟)

5. TFDV练习 (不计分)(10分钟)

6. 数据验证 (180分钟)

第二章:特征工程、转换和选择

本章节共有12个视频 、2个阅读 、7个练习 ,完成时间396分钟。

12个视频

1. 介绍预处理 (5分钟)

2. 预处理操作 (6分钟)

3. 特征工程技巧 (10分钟)

4. 特征组合 (3分钟)

5. 规模化预处理数据 (12分钟)

6. TensorFlow Transform (14分钟)

7. tf.Transform的Hello World (7分钟)

8. 特征空间 (5分钟)

9. 特征选择 (4分钟)

10. 过滤法 (6分钟)

11. 包装法 (5分钟)

12. 嵌入法 (5分钟)

2个阅读

1. 第二章选读文献 (3分钟)

2. 第二章课程讲义 (3分钟)

7个练习

1. 特征工程和预处理 (15分钟)

2. 简单特征工程 (不计分)(50分钟)

3. 特征工程管道 (不计分)(50分钟)

4. 特征转换 (15分钟)

5. 特征选择 (不计分)(50分钟)

6. 特征选择 (8分钟)

7. 特征工程 (120分钟)

第三章:数据旅程和数据存储

本章节共有8个视频 、2个阅读 、6个练习 ,完成时间291分钟。

8个视频

1. 数据旅程 (6分钟)

2. 介绍机器学习元数据 (8分钟)

3. 机器学习元数据的用处 (4分钟)

4. 模式开发 (4分钟)

5. 模式环境 (4分钟)

6. 特征存储 (6分钟)

7. 数据仓库 (3分钟)

8. 数据湖 (2分钟)

2个阅读

1. 第三章选读文献 (3分钟)

2. 第三章课程讲义 (3分钟)

6个练习

1. 机器学习元数据 (不计分)(50分钟)

2. 数据旅程 (5分钟)

3. 迭代模式 (选修,不计分)(60分钟)

4. 模式环境 (5分钟)

5. 企业数据存储 (8分钟)

6. 生产机器学习的数据管道组件 (120分钟)

第四章:高级标记方法、数据增强和数据预处理

本章节共有6个视频 、4个阅读 、6个练习 ,完成时间205分钟。

6个视频

1. 半监督学习 (4分钟)

2. 主动学习 (4分钟)

3. 弱监督 (5分钟)

4. 数据增强 (4分钟)

5. 时间序列 (8分钟)

6. 传感器和信号 (3分钟)

4个阅读

1. 第四章选读文献 (3分钟)

2. 第四章课程讲义 (3分钟)

3. 第二课选读文献 (3分钟)

4. 鸣谢 (3分钟)

6个练习

1. 高级标记 (选修)(5分钟)

2. 数据增强 (选修)(5分钟)

3. 用天气数据执行特征工程 (选修,不计分)(50分钟)

4. 用加速器数据执行特征工程 (选修,不计分)(50分钟)

5. 用图像执行特征工程 (选修,不计分)(50分钟)

6. 不同数据类型 (选修)(5分钟)

讲师介绍

Robert Crowe

TensorFlow开发工程师,Google

简介:Robert Crowe是谷歌TensorFlow的工程师,他热衷于帮助开发人员快速学习提高生产效率所需的知识。从很早的时候起,他就开始使用TensorFlow,并对它的快速发展感到兴奋。在转向数据科学之前,Robert领导了大公司和小公司的软件工程团队,专注于为定义良好的需求提供干净、优雅的解决方案。

Robert Crowe

TensorFlow开发工程师,Google

简介:Robert Crowe是谷歌TensorFlow的工程师,他热衷于帮助开发人员快速学习提高生产效率所需的知识。从很早的时候起,他就开始使用TensorFlow,并对它的快速发展感到兴奋。在转向数据科学之前,Robert领导了大公司和小公司的软件工程团队,专注于为定义良好的需求提供干净、优雅的解决方案。