机器学习
机器学习
机器学习的分类
目标值:类型-分类问题
目标值:连续的数据-回归问题
目标值:无目标值-无监督学习
机器学习的流程
1 获取数据
2 数据处理
3 特征工程
4 机器学习算法训练-模型
5 模型评估
6 应用
数据集
sklearn
kaggle
UCI
sklearn
sklearn的安装
1 | pip install sklearn |
sklearn.datasets
加载获取数据集
datasets.load_*() 获取小规模数据集
datasets.fetch_*()获取大规模数据集
数据集的返回值
datasets.base.Bunch(继承自字典)
查看iris的数据集
1 | #-*- coding: utf-8 -*- |
数据集的划分
训练数据
测试数据 20%~30%
sklearn中的数据集划分
1 | sklean.model_selection.train_test.split(arrays,*option) |
训练集的特征值 x_train
测试集特征值 x_test
训练集的目标值 y_train
测试集目标值 y_test
1 | #数据集划分 |
训练集此时的shape为120行,因为取了0.2给测试集
特征工程
特征抽取
将任意数据转换成可以给用于机器学习的数字特征
sklearn的特征提取
1 | sklearn.feature_extraction |
字典的特征提取
在sklearn中实现特征提取
特征预处理
特征降维
All articles in this blog are licensed under CC BY-NC-SA 4.0 unless stating additionally.