第七周学习笔记(简述机器学习与python)
机器学习是人工智能的核心分支,其核心思想是让计算机从数据中自动学习规律和模式,并利用这些规律对未知数据进行预测或决策。
主要分类
监督学习
特点:数据集包含特征和对应的标签
目标:建立从特征到标签的映射关系
应用场景:分类问题(如图像识别、垃圾邮件过滤)和回归问题(如房价预测、销量预测)
典型算法:线性回归、逻辑回归、决策树、支持向量机、随机森林
无监督学习
特点:数据集只有特征,没有标签
目标:发现数据内在的结构和模式
应用场景:聚类分析(如客户分群)、降维处理(如数据可视化)、关联规则挖掘
典型算法:K均值聚类、主成分分析、关联规则
强化学习
特点:智能体通过与环境交互学习最优策略
核心机制:试错学习和延迟奖励
应用场景:游戏AI、机器人控制、自动驾驶
典型工作流程
数据收集与准备:获取原始数据集
数据预处理:处理缺失值、异常值,数据标准化
特征工程:特征提取、特征选择和特征转换
模型选择:根据问题类型选择合适的算法
模型训练:使用训练数据学习模型参数
模型评估:在测试集上评估模型性能
超参数调优:优化模型参数提升性能
预测部署:将训练好的模型应用于新数据
机器学习与Python
Python凭借其丰富的生态系统成为机器学习领域的首选语言,提供从数据预处理到模型部署的完整工具链。
核心工具库
数据处理基础
NumPy:提供高效的数值计算和多维数组操作
Pandas:专为数据清洗和分析设计的强大数据结构
数据可视化
Matplotlib:基础绘图库,支持各种静态图表
Seaborn:基于Matplotlib的高级统计图形库
机器学习核心库
Scikit-learn:包含绝大多数经典机器学习算法,提供统一且简洁的API接口,涵盖数据预处理、模型训练、评估和选择的完整功能
深度学习框架
TensorFlow:谷歌开发的工业级深度学习框架
PyTorch:Facebook主导的研究友好型框架
典型应用模式
在Python中实施机器学习项目通常遵循标准化流程:首先使用Pandas进行数据加载和清洗,接着利用Scikit-learn进行特征工程和模型训练,然后通过交叉验证评估模型性能,最后使用训练好的模型进行预测。整个流程体现了Python在机器学习领域的集成优势和高效性。