第七周学习笔记
一、机器学习的概念
机器学习是一门让计算机从数据中学习规律,然后利用这些规律做出预测或决策的科学。是通过“训练”来自动获得这种能力。
二、核心概念
样本:数据集中的一条数据
特征:描述样本的属性
标签:需要测试的目标值
模型:从数据中学习到的模式表示
训练集:训练样本组成的集合
数据集:样本的集合,分为训练集和测试集
三、机器学习的分类
1.监督学习:使用带有标签的数据进行训练,建立特征与标签之间的映射关系。
2.无监督学习:使用无标签数据,发现数据内在结构。
四、核心算法
1.监督学习
线性回归:就是找到一条直线来拟合数据点
K-近邻算法:一个样本的类别由其k个最近邻居的多数投票来决定
决策树:构建一棵树状模型,将数据划分到不同的“叶子节点”(类别或值)中。
随机森林:就是有多颗决策树,然后每棵树使用不同的训练数据子集和特征子集进行训练,最终通过投票或平均得到结果。
2.无监督学习
K-均值聚类:就是将数据划分为k个“簇”,先随机选择k个初始中心点,然后反复迭代将样本分配到最近的簇中,并更新簇中心点,直至簇内样本相似度高、簇间相似度低
第七周学习笔记
http://localhost:8090//archives/di-qi-zhou-xue-xi-bi-ji