基于pytorch框架的图像分类实践(CIFAR-10数据集)

   2023-03-08 学习力970
核心提示:在学习pytorch的过程中我找到了关于图像分类的很浅显的一个教程上一次做的是pytorch的手写数字图片识别是灰度图片,这次是彩色图片的分类,觉得对于像我这样的刚刚开始入门pytorch的小白来说很有意义,今天写篇关于这个图像分类的博客.收获的知识1.torchvison

在学习pytorch的过程中我找到了关于图像分类的很浅显的一个教程上一次做的是pytorch的手写数字图片识别是灰度图片,这次是彩色图片的分类,觉得对于像我这样的刚刚开始入门pytorch的小白来说很有意义,今天写篇关于这个图像分类的博客.

收获的知识

1.torchvison

在深度学习中数据加载及预处理是非常复杂繁琐的,但PyTorch提供了一些可极大简化和加快数据处理流程的工具。同时,对于常用的数据集,PyTorch也提供了封装好的接口供用户快速调用,这些数据集主要保存在torchvison中,torchvison实现了常用的图像数据加载功能,例如Imagenet、CIFAR10、MNIST等,以及常用的数据转换操作,这极大地方便了数据加载,并且代码具有可重用性。

2.transform = transforms.Compose([

    transforms.ToTensor(), # 转为Tensor
    transforms.Normalize((0.5, 0.5, 0.5),(0.5, 0.5, 0.5)), # 归一化
                         ])

根据我手上的中文文档,Compose方法大概是把多个transform组合起来使用
基于pytorch框架的图像分类实践(CIFAR-10数据集)
基于pytorch框架的图像分类实践(CIFAR-10数据集)
关于这个ToTensor()我自己跑了一下例子,这个方法就是根据图像的像素,色彩情况把一张图片转化为pytorch中的一个tensor便于数据化处理图像。
归一化我的博客以前写过就是一种处理数据的手段既可以让数据保留特征又可以控制数据在一个很小的范围,便于计算。

import torch
import torchvision
import numpy as np
data=np.random.randint(0,255,size=300)
img=data.reshape(10,10,3)
print(img.shape)
img_tensor=torchvision.transforms.ToTensor()(img)
print(img_tensor)

截图:
基于pytorch框架的图像分类实践(CIFAR-10数据集)

3.pytorch中常用数据集的加载和使用

我是用的Jupter做的这个实践,首先先把数据集下载到本地,最好直接下载到jupter的路径里面,然后运行就可以发现开始下载了。
基于pytorch框架的图像分类实践(CIFAR-10数据集)

基于pytorch框架的图像分类实践(CIFAR-10数据集)
Dataset对象:我们事先会把下载好的数据集命名为 dataset和trainset
基于pytorch框架的图像分类实践(CIFAR-10数据集)
基于pytorch框架的图像分类实践(CIFAR-10数据集)

模型的训练

使用自己的网络

起初我看那个教程上的网络使用的LeNet,我就把上次做手写数字的模型拿过来改了一下,多加了两个全连接层


import torch as t
import torch.nn as nn
from torch.autograd import Variable
import torch.utils.data as Data
import torchvision as tv
import numpy
class CNN(nn.Module):#继承了nn.Model
    def __init__(self):
        #继承了 CNN 父类的的属性
        super(CNN, self).__init__()#用父类的初始化方式来初始化所继承的来自父类的属性
       #按照网络的前后顺序定义1号网络
        self.conv1 = nn.Sequential(         # input shape (3, 32, 32)
            nn.Conv2d(#这里的nn.Conv2d使用一个2维度卷积  
                in_channels=3,      #in_channels:   因CIFAR-10是3通道彩图这里用3        
                out_channels=16,    #  out_channels:卷积产生的通道数,有多少个out_channels,就需要多少个一维卷积(也就是卷积核的数量)       
                kernel_size=5,      #kernel_size:卷积核的尺寸;卷积核的第二个维度由in_channels决定,所以实际上卷积核的大小为kernel_size * in_channels         
                stride=1,           #步长,每次移动的单位格子     
                padding=2,          #padding:对输入的每一条边,补充0的层数         
            ),                              # output shape (16, 32, 32)
            nn.ReLU(),    #激活函数ReLU   # activation
            #在2X2的池化层里选出最大值
            nn.MaxPool2d(kernel_size=2),    # choose max value in 2x2 area, output shape (16, 16, 16)
        )
        #按照网络的前后顺序定义2号网络,
        self.conv2 = nn.Sequential(  # input shape (16, 16, 16)
            #使用一个二维卷积
            nn.Conv2d(16, 32, 5, 1, 2),     # output shape (32, 16, 16)
            nn.ReLU(),                      # activation
            nn.MaxPool2d(2),                # output shape (32, 8, 8)
        )
        #全连接层
        self.fullconnect1 = nn.Linear(32 * 8 *8 , 120)   #因为在pytorch中做全连接的输入输出都是二维张量,不同于卷积层要求输入4维张量
        self.fullconnect2 = nn.Linear(120,84)
        self.fullconnect3 = nn.Linear(84,10)
    def forward(self, x):
        x = self.conv1(x)
        x = self.conv2(x)
        x = x.view(x.size(0), -1)           # flatten the output of conv2 to (batch_size, 32 * 8 * 8)
        x = self.fullconnect1(x)
        x=self.fullconnect2(x)
        x = self.fullconnect3(x)
        return x
net=CNN()
print(net)

训练效果是很糟糕的:
基于pytorch框架的图像分类实践(CIFAR-10数据集)
基于pytorch框架的图像分类实践(CIFAR-10数据集)
10%就是在猜,那么这个模型和猜的差不多

继续使用自己的网络把全连接层改成一层

基于pytorch框架的图像分类实践(CIFAR-10数据集)

效果依旧很糟糕

使用教程的网络模型

import torch.nn as nn
import torch.nn.functional as F

class Net(nn.Module):
    def __init__(self):
        super(Net, self).__init__()
        self.conv1 = nn.Conv2d(3, 6, 5) 
        self.conv2 = nn.Conv2d(6, 16, 5)  
        self.fc1   = nn.Linear(16*5*5, 120)  
        self.fc2   = nn.Linear(120, 84)
        self.fc3   = nn.Linear(84, 10)

    def forward(self, x): 
        x = F.max_pool2d(F.relu(self.conv1(x)), (2, 2)) 
        x = F.max_pool2d(F.relu(self.conv2(x)), 2) 
        x = x.view(x.size()[0], -1) 
        x = F.relu(self.fc1(x))
        x = F.relu(self.fc2(x))
        x = self.fc3(x)        
        return x


net = Net()
print(net)

基于pytorch框架的图像分类实践(CIFAR-10数据集)
训练的结果好很多:
基于pytorch框架的图像分类实践(CIFAR-10数据集)

代码部分:

graph LR 使用torchvision加载并预处理CIFAR-10数据集 --> C(定义网络) C --> D(定义损失函数和优化器) D-->F(训练网络并更新网络参数) F-->测试网络

import torch as t
import torchvision as tv
import torchvision.transforms as transforms
from torchvision.transforms import ToPILImage
show = ToPILImage() # 可以把Tensor转成Image,方便可视化
# 第一次运行程序torchvision会自动下载CIFAR-10数据集,
# 大约100M,需花费一定的时间,
# 如果已经下载有CIFAR-10,可通过root参数指定

# 定义对数据的预处理

transform = transforms.Compose([
        transforms.ToTensor(), # 转为Tensor
        transforms.Normalize((0.5, 0.5, 0.5),(0.5, 0.5, 0.5)), # 归一化
                             ])

# 训练集
trainset = tv.datasets.CIFAR10(
                    root='./CIFAR10/', 
                    train=True, 
                    download=False,
                    transform=transform)

trainloader = t.utils.data.DataLoader(
                    trainset, 
                    batch_size=4,
                    shuffle=True, 
                    num_workers=2)

# 测试集
testset = tv.datasets.CIFAR10(
                    './CIFAR10/',
                    train=False, 
                    download=True, 
                    transform=transform)
#数据集按照 bitch_size(批处理大小设置),shuffle(是否进行洗牌)把数据封装成一个Batch Size大小的Tensor,用于后面的训练。
testloader = t.utils.data.DataLoader(
                    testset,
                    batch_size=4, 
                    shuffle=False,
                    num_workers=2)#是否进行多进程加载数据

classes = ('plane', 'car', 'bird', 'cat',
           'deer', 'dog', 'frog', 'horse', 'ship', 'truck')
import torch.nn as nn
import torch.nn.functional as F
#定义神经网络
class Net(nn.Module):
    def __init__(self):
        super(Net, self).__init__()
        self.conv1 = nn.Conv2d(3, 6, 5) #输入通道3,彩色图片的输入通道要改成三,输出通道为6,卷积核大小(5*5)
        self.conv2 = nn.Conv2d(6, 16, 5)  #第二个卷积层输入通道是上一个卷积的输出通道6,输出通道为16,卷积核大小(5*5)
        self.fc1   = nn.Linear(16*5*5, 120)  #全连接层1 fullconnect
        self.fc2   = nn.Linear(120, 84)#全连接层2
        self.fc3   = nn.Linear(84, 10)#全连接层3

    def forward(self, x): 
        x = F.max_pool2d(F.relu(self.conv1(x)), (2, 2)) 
        x = F.max_pool2d(F.relu(self.conv2(x)), 2) 
        x = x.view(x.size()[0], -1) #把数据对整齐,防止输入输出不匹配
        x = F.relu(self.fc1(x))
        x = F.relu(self.fc2(x))
        x = self.fc3(x)        
        return x


net = Net()
print(net)    

#定义损失函数和优化器
from torch import optim
criterion = nn.CrossEntropyLoss() # 交叉熵损失函数
optimizer = optim.SGD(net.parameters(), lr=0.001, momentum=0.9)  


#训练网络更新网络参数
t.set_num_threads(8)
for epoch in range(10):  
    
    running_loss = 0.0
    for i, data in enumerate(trainloader, 0):
        
        # 输入数据
        inputs, labels = data
        inputs, labels = Variable(inputs), Variable(labels)#转换成Variable 可以自动微分求导
        
        # 梯度清零
        optimizer.zero_grad()
        
        # forward + backward 
        outputs = net(inputs)
        loss = criterion(outputs, labels)
        loss.backward()   
        
        # 更新参数 
        optimizer.step()
        
        # 打印log信息
        running_loss += loss.item()
        if i % 2000 == 1999: # 每2000个batch打印一下训练状态
            print('[第%d轮, 第%5d张图片] 损失函数:loss: %.3f' \
                  % (epoch+1, i+1, running_loss / 2000))
            running_loss = 0.0
print('Finished Training')



#测试网络
dataiter = iter(testloader)
images, labels = dataiter.next() # 一个batch返回4张图片
print('实际的label: ', ' '.join(\
            '%08s'%classes[labels[j]] for j in range(4)))
#打印标签对应的正确照片,前提是得复原成归一化前的数据
show(tv.utils.make_grid(images / 2 - 0.5)).resize((400,100))
# 计算图片在每个类别上的分数
outputs = net(Variable(images))
# 得分最高的那个类
_, predicted = t.max(outputs.data, 1)

print('预测结果: ', ' '.join('%5s'\
            % classes[predicted[j]] for j in range(4)))
correct = 0 # 预测正确的图片数
total = 0 # 总共的图片数
for data in testloader:
    images, labels = data
    outputs = net(Variable(images))
    _, predicted = t.max(outputs.data, 1)
    total += labels.size(0)
    correct += (predicted == labels).sum()

print('10000张测试集中的准确率为: %d %%' % (100 * correct / total))
    

运行截图:
基于pytorch框架的图像分类实践(CIFAR-10数据集)
基于pytorch框架的图像分类实践(CIFAR-10数据集)
基于pytorch框架的图像分类实践(CIFAR-10数据集)
网络层数太少,训练10轮效果和五轮差不多可能后面的训练造成了过拟合。大家也可以动手做一下上面的小实验。

 
反对 0举报 0
 

免责声明:本文仅代表作者个人观点,与乐学笔记(本网)无关。其原创性以及文中陈述文字和内容未经本站证实,对本文以及其中全部或者部分内容、文字的真实性、完整性、及时性本站不作任何保证或承诺,请读者仅作参考,并请自行核实相关内容。
    本网站有部分内容均转载自其它媒体,转载目的在于传递更多信息,并不代表本网赞同其观点和对其真实性负责,若因作品内容、知识产权、版权和其他问题,请及时提供相关证明等材料并与我们留言联系,本网站将在规定时间内给予删除等相关处理.

  • 今天来捋一捋pytorch官方Faster R-CNN代码
    今天来捋一捋pytorch官方Faster R-CNN代码
    AI编辑:我是小将本文作者:白裳https://zhuanlan.zhihu.com/p/145842317本文已由原作者授权 目前 pytorch 已经在 torchvision 模块集成了 FasterRCNN 和 MaskRCNN 代码。考虑到帮助各位小伙伴理解模型细节问题,本文分析一下 FasterRCNN 代码,帮助新手理解
    03-08
  • 从零搭建Pytorch模型教程(三)搭建Transformer网络
    从零搭建Pytorch模型教程(三)搭建Transformer
    ​前言 本文介绍了Transformer的基本流程,分块的两种实现方式,Position Emebdding的几种实现方式,Encoder的实现方式,最后分类的两种方式,以及最重要的数据格式的介绍。 本文来自公众号CV技术指南的技术总结系列欢迎关注公众号CV技术指南,专注于计算机
    03-08
  • 几种网络LeNet、VGG Net、ResNet原理及PyTorch实现
    几种网络LeNet、VGG Net、ResNet原理及PyTorch
    LeNet比较经典,就从LeNet开始,其PyTorch实现比较简单,通过LeNet为基础引出下面的VGG-Net和ResNet。LeNetLeNet比较经典的一张图如下图LeNet-5共有7层,不包含输入,每层都包含可训练参数;每个层有多个Feature Map,每个FeatureMap通过一种卷积滤波器提取输
    03-08
  • Focal Loss 的Pytorch 实现以及实验
    Focal Loss 的Pytorch 实现以及实验
     Focal loss 是 文章 Focal Loss for Dense Object Detection 中提出对简单样本的进行decay的一种损失函数。是对标准的Cross Entropy Loss 的一种改进。 F L对于简单样本(p比较大)回应较小的loss。如论文中的图1, 在p=0.6时, 标准的CE然后又较大的loss
    03-08
  • Pytorch-基础入门之ANN pytorch零基础入门
    在这部分中来介绍下ANN的Pytorch,这里的ANN具有三个隐含层。这一块的话与上一篇逻辑斯蒂回归使用的是相同的数据集MNIST。第一部分:构造模型# Import Librariesimport torchimport torch.nn as nnfrom torch.autograd import Variable# Create ANN Modelclas
    03-08
  • 分享一个PyTorch医学图像分割开源库 python医学图像处理dicom
    分享一个PyTorch医学图像分割开源库 python医学
    昨天点击上方↑↑↑“OpenCV学堂”关注我来源:公众号 我爱计算机视觉授权  分享一位52CV粉丝Ellis开发的基于PyTorch的专注于医学图像分割的开源库,其支持模型丰富,方便易用。其可算为torchio的一个实例,作者将其综合起来,包含众多经典算法,实用性比
    03-08
  • 搞懂Transformer结构,看这篇PyTorch实现就够了
    搞懂Transformer结构,看这篇PyTorch实现就够了
    搞懂Transformer结构,看这篇PyTorch实现就够了昨天下面分享一篇实验室翻译的来自哈佛大学一篇关于Transformer的详细博文。"Attention is All You Need"[1] 一文中提出的Transformer网络结构最近引起了很多人的关注。Transformer不仅能够明显地提升翻译质量,
    03-08
  • 行人重识别(ReID) ——基于MGN-pytorch进行可视化展示
    行人重识别(ReID) ——基于MGN-pytorch进行可视
    https://github.com/seathiefwang/MGN-pytorch下载Market1501数据集:http://www.liangzheng.org/Project/project_reid.html模型训练,修改demo.sh,将 --datadir修改已下载的Market1501数据集地址,将修改CUDA_VISIBLE_DEVICES=2,3自己的GPU设备ID,将修改--
    03-08
  • Pytorch:通过pytorch实现逻辑回归
    Pytorch:通过pytorch实现逻辑回归
    logistic regression逻辑回归是线性的二分类模型(与线性回归的区别:线性回归是回归问题,而逻辑回归是线性回归+激活函数sigmoid=分类问题)模型表达式:f(x)称为sigmoid函数,也称为logistic函数,能将所有值映射到[0,1]区间,恰好符合概率分布,如下图所示
    03-08
  • 在 Windows 上为 Pytorch 和 Pytorch Geometric 构建 GPU 环境
    在 Windows 上为 Pytorch 和 Pytorch Geometric
    介绍这是我的第一篇文章。在研究机器学习时,我在使用 Pytorch 和 Pytorch Geometric 构建 GPU 环境时遇到了很多麻烦,所以我想留下我构建环境所做的工作。我希望这可以帮助任何处于类似情况的人。环境操作系统语GPUWindows 11 家庭 64 位蟒蛇 3.9.13RTX3060
    03-08
点击排行