几种网络LeNet、VGG Net、ResNet原理及PyTorch实现

   2023-03-08 学习力788
核心提示:LeNet比较经典,就从LeNet开始,其PyTorch实现比较简单,通过LeNet为基础引出下面的VGG-Net和ResNet。LeNetLeNet比较经典的一张图如下图LeNet-5共有7层,不包含输入,每层都包含可训练参数;每个层有多个Feature Map,每个FeatureMap通过一种卷积滤波器提取输

LeNet比较经典,就从LeNet开始,其PyTorch实现比较简单,通过LeNet为基础引出下面的VGG-Net和ResNet。

LeNet

LeNet比较经典的一张图如下图

几种网络LeNet、VGG Net、ResNet原理及PyTorch实现

LeNet-5共有7层,不包含输入,每层都包含可训练参数;每个层有多个Feature Map,每个FeatureMap通过一种卷积滤波器提取输入的一种特征,然后每个FeatureMap有多个神经元。

1.INPUT层-输入层

  • 输入图像的尺寸统一归一化为: 32 x 32。

2.C1层 卷积层

  • 输入图片:32 x 32
  • 卷积核大小:5 x 5
  • 卷积核种类:6
  • 输出featuremap大小:28 x 28 (32-5+1)=28
  • 神经元数量:28 x 28 x 6
  • 可训练参数:(5 x 5+1) x 6(每个滤波器5 x 5=25个unit参数和一个bias参数,一共6个滤波器)
  • 连接数:(5 x 5+1) x 6 x 28 x 28=122304

3.S2层 池化层(下采样层)

  • 输入:28 x 28
  • 采样区域:2 x 2
  • 采样方式:4个输入相加,乘以一个可训练参数,再加上一个可训练偏置。结果通过sigmoid
  • 采样种类:6
  • 输出featureMap大小:14 x14(28/2)
  • 神经元数量:14 x 14 x 6
  • 可训练参数:2 x 6(和的权+偏置)
  • 连接数:(2 x 2+1) x 6 x 14 x 14
  • S2中每个特征图的大小是C1中特征图大小的1/4。

4.C3层 卷积层

5.S4层 池化层(下采样层)

6.C5层 卷积层

7.F6层 全连接层

  • 输入:c5 120维向量
  • 计算方式:计算输入向量和权重向量之间的点积,再加上一个偏置,结果通过sigmoid函数输出。
  • 可训练参数:84 x (120+1)=10164

8.output层 全连接层

  • Output层也是全连接层,共有10个节点,分别代表数字0到9,且如果节点i的值为0,则网络识别的结果是数字i。采用的是径向基函数(RBF)的网络连接方式。假设x是上一层的输入,y是RBF的输出,则RBF输出的计算方式是:几种网络LeNet、VGG Net、ResNet原理及PyTorch实现
  • 上式w_ij 的值由i的比特图编码确定,i从0到9,j取值从0到7 x 12-1。RBF输出的值越接近于0,则越接近于i,即越接近于i的ASCII编码图,表示当前网络输入的识别结果是字符i。该层有84x10=840个参数和连接。

几种网络LeNet、VGG Net、ResNet原理及PyTorch实现

下面基于PyTorch实现LeNet

 1 #coding=utf-8
 2 import torch
 3 import torch.nn as nn
 4 import torch.nn.functional as F
 5 from torch.autograd import Variable
 6 
 7 class Net(nn.Module):
 8     #定义Net的初始化函数,这个函数定义了该神经网络的基本结构
 9     def __init__(self):
10         super(Net, self).__init__() 
11         #复制并使用Net的父类的初始化方法,即先运行nn.Module的初始化函数
12         self.conv1 = nn.Conv2d(1, 6, 5) 
13         # 定义conv1函数的是图像卷积函数:输入为图像(1个频道,即灰度图),输出为 6张特征图, 卷积核为5x5正方形
14         self.conv2 = nn.Conv2d(6, 16, 5)
15         # 定义conv2函数的是图像卷积函数:输入为6张特征图,输出为16张特征图, 卷积核为5x5正方形
16         self.fc1   = nn.Linear(16*5*5, 120) 
17         # 定义fc1(fullconnect)全连接函数1为线性函数:y = Wx + b,并将16*5*5个节点连接到120个节点上。
18         self.fc2   = nn.Linear(120, 84)
19         #定义fc2(fullconnect)全连接函数2为线性函数:y = Wx + b,并将120个节点连接到84个节点上。
20         self.fc3   = nn.Linear(84, 10)
21         #定义fc3(fullconnect)全连接函数3为线性函数:y = Wx + b,并将84个节点连接到10个节点上。
22 
23     #定义该神经网络的向前传播函数,该函数必须定义,一旦定义成功,向后传播函数也会自动生成(autograd)
24     def forward(self, x):
25         x = F.max_pool2d(F.relu(self.conv1(x)), (2, 2)) 
26         #输入x经过卷积conv1之后,经过激活函数ReLU,使用2x2的窗口进行最大池化Max pooling,然后更新到x。
27         x = F.max_pool2d(F.relu(self.conv2(x)), 2) 
28         #输入x经过卷积conv2之后,经过激活函数ReLU,使用2x2的窗口进行最大池化Max pooling,然后更新到x。
29         x = x.view(-1, self.num_flat_features(x)) 
30         #view函数将张量x变形成一维的向量形式,总特征数并不改变,为接下来的全连接作准备。
31         x = F.relu(self.fc1(x)) 
32         #输入x经过全连接1,再经过ReLU激活函数,然后更新x
33         x = F.relu(self.fc2(x)) 
34         #输入x经过全连接2,再经过ReLU激活函数,然后更新x
35         x = self.fc3(x) 
36         #输入x经过全连接3,然后更新x
37         return x
38 
39     #使用num_flat_features函数计算张量x的总特征量(把每个数字都看出是一个特征,即特征总量),比如x是4*2*2的张量,那么它的特征总量就是16。
40     def num_flat_features(self, x):
41         size = x.size()[1:] 
42         # 这里为什么要使用[1:],是因为pytorch只接受批输入,也就是说一次性输入好几张图片,那么输入数据张量的维度自然上升到了4维。【1:】让我们把注意力放在后3维上面
43         num_features = 1
44         for s in size:
45             num_features *= s
46         return num_features
47 
48 
49 net = Net()
50 net
51 
52 # 以下代码是为了看一下我们需要训练的参数的数量
53 print net
54 params = list(net.parameters())
55 
56 k=0
57 for i in params:
58     l =1
59     print "该层的结构:"+str(list(i.size()))
60     for j in i.size():
61         l *= j
62     print "参数和:"+str(l)
63     k = k+l
64 
65 print "总参数和:"+ str(k)

VGG

VGG结构图

几种网络LeNet、VGG Net、ResNet原理及PyTorch实现

VGG-16

Faster R-CNN用到了VGG-16

彩色图片输入到网络,白色框是卷积层,红色是池化,蓝色是全连接层,棕色框是预测层。预测层将全连接层输出的信息转化为相应的类别概率,而起到分类作用。
VGG16 是13个卷积层+3个全连接层叠加而成。

 1 class Vgg16(torch.nn.Module):
 2     def __init__(self):
 3         super(Vgg16, self).__init__()
 4         self.conv1_1 = nn.Conv2d(3, 64, kernel_size=3, stride=1, padding=1)
 5         self.conv1_2 = nn.Conv2d(64, 64, kernel_size=3, stride=1, padding=1)
 6  
 7         self.conv2_1 = nn.Conv2d(64, 128, kernel_size=3, stride=1, padding=1)
 8         self.conv2_2 = nn.Conv2d(128, 128, kernel_size=3, stride=1, padding=1)
 9  
10         self.conv3_1 = nn.Conv2d(128, 256, kernel_size=3, stride=1, padding=1)
11         self.conv3_2 = nn.Conv2d(256, 256, kernel_size=3, stride=1, padding=1)
12         self.conv3_3 = nn.Conv2d(256, 256, kernel_size=3, stride=1, padding=1)
13  
14         self.conv4_1 = nn.Conv2d(256, 512, kernel_size=3, stride=1, padding=1)
15         self.conv4_2 = nn.Conv2d(512, 512, kernel_size=3, stride=1, padding=1)
16         self.conv4_3 = nn.Conv2d(512, 512, kernel_size=3, stride=1, padding=1)
17  
18         self.conv5_1 = nn.Conv2d(512, 512, kernel_size=3, stride=1, padding=1)
19         self.conv5_2 = nn.Conv2d(512, 512, kernel_size=3, stride=1, padding=1)
20         self.conv5_3 = nn.Conv2d(512, 512, kernel_size=3, stride=1, padding=1)
21  
22     def forward(self, X):
23         h = F.relu(self.conv1_1(X))
24         h = F.relu(self.conv1_2(h))
25         relu1_2 = h
26         h = F.max_pool2d(h, kernel_size=2, stride=2)
27  
28         h = F.relu(self.conv2_1(h))
29         h = F.relu(self.conv2_2(h))
30         relu2_2 = h
31         h = F.max_pool2d(h, kernel_size=2, stride=2)
32  
33         h = F.relu(self.conv3_1(h))
34         h = F.relu(self.conv3_2(h))
35         h = F.relu(self.conv3_3(h))
36         relu3_3 = h
37         h = F.max_pool2d(h, kernel_size=2, stride=2)
38  
39         h = F.relu(self.conv4_1(h))
40         h = F.relu(self.conv4_2(h))
41         h = F.relu(self.conv4_3(h))
42         relu4_3 = h
43  
44         return [relu1_2, relu2_2, relu3_3, relu4_3]

Jianwei Yang 大神 Faster R-CNN中的vgg16 code

 1 import torch
 2 import torch.nn as nn
 3 import torch.nn.functional as F
 4 from torch.autograd import Variable
 5 import math
 6 import torchvision.models as models
 7 from model.faster_rcnn.faster_rcnn import _fasterRCNN
 8 import pdb
 9 
10 class vgg16(_fasterRCNN):
11   def __init__(self, classes, pretrained=False, class_agnostic=False):
12     self.model_path = 'data/pretrained_model/vgg16_caffe.pth'
13     self.dout_base_model = 512
14     self.pretrained = pretrained
15     self.class_agnostic = class_agnostic
16 
17     _fasterRCNN.__init__(self, classes, class_agnostic)
18 
19   def _init_modules(self):
20     vgg = models.vgg16()
21     if self.pretrained:
22         print("Loading pretrained weights from %s" %(self.model_path))
23         state_dict = torch.load(self.model_path)
24         vgg.load_state_dict({k:v for k,v in state_dict.items() if k in vgg.state_dict()})
25 
26     vgg.classifier = nn.Sequential(*list(vgg.classifier._modules.values())[:-1])
27 
28     # not using the last maxpool layer
29     self.RCNN_base = nn.Sequential(*list(vgg.features._modules.values())[:-1])
30 
31     # Fix the layers before conv3:
32     for layer in range(10):
33       for p in self.RCNN_base[layer].parameters(): p.requires_grad = False
34 
35     # self.RCNN_base = _RCNN_base(vgg.features, self.classes, self.dout_base_model)
36 
37     self.RCNN_top = vgg.classifier
38 
39     # not using the last maxpool layer
40     self.RCNN_cls_score = nn.Linear(4096, self.n_classes)
41 
42     if self.class_agnostic:
43       self.RCNN_bbox_pred = nn.Linear(4096, 4)
44     else:
45       self.RCNN_bbox_pred = nn.Linear(4096, 4 * self.n_classes)      
46 
47   def _head_to_tail(self, pool5):
48     
49     pool5_flat = pool5.view(pool5.size(0), -1)
50     fc7 = self.RCNN_top(pool5_flat)
51 
52     return fc7

ResNet

使用了一种连接方式叫做“shortcut connection”,差不多就是抄近道的意思。

 

 
反对 0举报 0
 

免责声明:本文仅代表作者个人观点,与乐学笔记(本网)无关。其原创性以及文中陈述文字和内容未经本站证实,对本文以及其中全部或者部分内容、文字的真实性、完整性、及时性本站不作任何保证或承诺,请读者仅作参考,并请自行核实相关内容。
    本网站有部分内容均转载自其它媒体,转载目的在于传递更多信息,并不代表本网赞同其观点和对其真实性负责,若因作品内容、知识产权、版权和其他问题,请及时提供相关证明等材料并与我们留言联系,本网站将在规定时间内给予删除等相关处理.

  • 基于pytorch框架的图像分类实践(CIFAR-10数据集)
    基于pytorch框架的图像分类实践(CIFAR-10数据集
    在学习pytorch的过程中我找到了关于图像分类的很浅显的一个教程上一次做的是pytorch的手写数字图片识别是灰度图片,这次是彩色图片的分类,觉得对于像我这样的刚刚开始入门pytorch的小白来说很有意义,今天写篇关于这个图像分类的博客.收获的知识1.torchvison
    03-08
  • 今天来捋一捋pytorch官方Faster R-CNN代码
    今天来捋一捋pytorch官方Faster R-CNN代码
    AI编辑:我是小将本文作者:白裳https://zhuanlan.zhihu.com/p/145842317本文已由原作者授权 目前 pytorch 已经在 torchvision 模块集成了 FasterRCNN 和 MaskRCNN 代码。考虑到帮助各位小伙伴理解模型细节问题,本文分析一下 FasterRCNN 代码,帮助新手理解
    03-08
  • 从零搭建Pytorch模型教程(三)搭建Transformer网络
    从零搭建Pytorch模型教程(三)搭建Transformer
    ​前言 本文介绍了Transformer的基本流程,分块的两种实现方式,Position Emebdding的几种实现方式,Encoder的实现方式,最后分类的两种方式,以及最重要的数据格式的介绍。 本文来自公众号CV技术指南的技术总结系列欢迎关注公众号CV技术指南,专注于计算机
    03-08
  • Focal Loss 的Pytorch 实现以及实验
    Focal Loss 的Pytorch 实现以及实验
     Focal loss 是 文章 Focal Loss for Dense Object Detection 中提出对简单样本的进行decay的一种损失函数。是对标准的Cross Entropy Loss 的一种改进。 F L对于简单样本(p比较大)回应较小的loss。如论文中的图1, 在p=0.6时, 标准的CE然后又较大的loss
    03-08
  • Pytorch-基础入门之ANN pytorch零基础入门
    在这部分中来介绍下ANN的Pytorch,这里的ANN具有三个隐含层。这一块的话与上一篇逻辑斯蒂回归使用的是相同的数据集MNIST。第一部分:构造模型# Import Librariesimport torchimport torch.nn as nnfrom torch.autograd import Variable# Create ANN Modelclas
    03-08
  • 分享一个PyTorch医学图像分割开源库 python医学图像处理dicom
    分享一个PyTorch医学图像分割开源库 python医学
    昨天点击上方↑↑↑“OpenCV学堂”关注我来源:公众号 我爱计算机视觉授权  分享一位52CV粉丝Ellis开发的基于PyTorch的专注于医学图像分割的开源库,其支持模型丰富,方便易用。其可算为torchio的一个实例,作者将其综合起来,包含众多经典算法,实用性比
    03-08
  • 搞懂Transformer结构,看这篇PyTorch实现就够了
    搞懂Transformer结构,看这篇PyTorch实现就够了
    搞懂Transformer结构,看这篇PyTorch实现就够了昨天下面分享一篇实验室翻译的来自哈佛大学一篇关于Transformer的详细博文。"Attention is All You Need"[1] 一文中提出的Transformer网络结构最近引起了很多人的关注。Transformer不仅能够明显地提升翻译质量,
    03-08
  • 行人重识别(ReID) ——基于MGN-pytorch进行可视化展示
    行人重识别(ReID) ——基于MGN-pytorch进行可视
    https://github.com/seathiefwang/MGN-pytorch下载Market1501数据集:http://www.liangzheng.org/Project/project_reid.html模型训练,修改demo.sh,将 --datadir修改已下载的Market1501数据集地址,将修改CUDA_VISIBLE_DEVICES=2,3自己的GPU设备ID,将修改--
    03-08
  • Pytorch:通过pytorch实现逻辑回归
    Pytorch:通过pytorch实现逻辑回归
    logistic regression逻辑回归是线性的二分类模型(与线性回归的区别:线性回归是回归问题,而逻辑回归是线性回归+激活函数sigmoid=分类问题)模型表达式:f(x)称为sigmoid函数,也称为logistic函数,能将所有值映射到[0,1]区间,恰好符合概率分布,如下图所示
    03-08
  • 在 Windows 上为 Pytorch 和 Pytorch Geometric 构建 GPU 环境
    在 Windows 上为 Pytorch 和 Pytorch Geometric
    介绍这是我的第一篇文章。在研究机器学习时,我在使用 Pytorch 和 Pytorch Geometric 构建 GPU 环境时遇到了很多麻烦,所以我想留下我构建环境所做的工作。我希望这可以帮助任何处于类似情况的人。环境操作系统语GPUWindows 11 家庭 64 位蟒蛇 3.9.13RTX3060
    03-08
点击排行