机器学习

机器学习的分类

目标值:类型-分类问题

目标值:连续的数据-回归问题

目标值:无目标值-无监督学习

机器学习的流程

1 获取数据

2 数据处理

3 特征工程

4 机器学习算法训练-模型

5 模型评估

6 应用

数据集

sklearn

kaggle

UCI

sklearn

sklearn的安装

1
pip install sklearn

sklearn.datasets

  • 加载获取数据集

    datasets.load_*() 获取小规模数据集

    datasets.fetch_*()获取大规模数据集

数据集的返回值

datasets.base.Bunch(继承自字典)

查看iris的数据集

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
#-*- coding: utf-8 -*-
#@Time : 2022/1/12 18:45
#@Author: Shyee

from sklearn.datasets import load_iris
"""
sklearn的数据集使用
"""
def datasets_demo():

iris=load_iris()
print("鸢尾花数据集:\n",iris)
print("查看数据集的描述:\n",iris["DESCR"])
print("查看特征值的名字:\n",iris.feature_names)
print("查看特征值:\n",iris.data,iris.data.shape)
return None

if __name__=="__main__":
datasets_demo()

数据集的划分

训练数据

测试数据 20%~30%

sklearn中的数据集划分

1
sklean.model_selection.train_test.split(arrays,*option)

训练集的特征值 x_train

测试集特征值 x_test

训练集的目标值 y_train

测试集目标值 y_test

1
2
3
4
#数据集划分
x_train,x_test,y_train,y_test=train_test_split(iris.data,iris.target,test_size=0.2,random_state=22)
print("训练集的特征值:\n",x_train,"\n测试集的目标值:\n",y_test)
return None

训练集此时的shape为120行,因为取了0.2给测试集

特征工程

特征抽取

将任意数据转换成可以给用于机器学习的数字特征

sklearn的特征提取

1
sklearn.feature_extraction

字典的特征提取

在sklearn中实现特征提取

特征预处理

特征降维