[pytorch]手动构建一个神经网络并且训练

0.写在前面

上一篇博客全都是说明类型的,实际代码能不能跑起来两说,谨慎观看.本文中直接使用fashions数据实现softmax的简单训练并且完成结果输出.实现一个预测并且观测到输出结果.

并且更重要的是,在这里对一些训练的过程,数据的形式,以及我们在softmax中主要做什么以及怎么做来进行说明.

前提要求:一些数据包的需求先写在这里了,根据pip3进行按照需求下载即可

import torch
import torchvision
from torch.utils import data
from torchvision import transforms
from d2l import torch as d2l
import pandas
from torch import nn

1.对于数据的下载以及处理

(1)数据的下载:

首先对于数据的下载,这里我们选择的方式是直接在都d2l环境下(D2L是什么请自行进行百度),下载这个名为fashions的数据集合.

#这个就是下载数据集合了,这里获取到了数据集合并且放到内存里面
d2l.use_svg_display()

数据下载以后应该是在我们自己的内存里面,在这里我指定的是./data,不同的人大概是不同的目录,请自行参考.

然后接下来对数据进行处理,这个数据集合是一个PIL形式,在这里我们需要把每个图像转化为浮点数形式,这里有个很重要的函数dataset,他可以理解为一种容器,一般是以一个二维数组的方式来存储我们的数据.

# 通过ToTensor实例将图像数据从PIL类型变换成32位浮点数格式,
# 并除以255使得所有像素的数值均在0~1之间
trans = transforms.ToTensor()
mnist_train = torchvision.datasets.FashionMNIST(
    root="./data", train=True, transform=trans, download=True)
mnist_test = torchvision.datasets.FashionMNIST(
    root="./data", train=False, transform=trans, download=True)

mnist_train和mnist_test都是我们俗称的一个dataset对象,故名思意,就算数据集合.

虽然这个东西并不是二维数组,但是我们可以使用二维数组的方式进行读取
mnist_train是一个dataset对象,是一个[n,2]形状的二维数组
举个例子[0][0]为一个1×28×28的图像张量,也就是我们的输入input
print(mnist_train[0][1])  label就是一个单独的数字,在这个数据中是一个数字,或者说标量张量

如果我们在python中输出,效果就是这样子的

print(mnist_train[0][0].shape)  #Tensor.Size([1,28,28])
print(mnist_train[0][1])        #Tensor(9)

#这里需要注意到的问题后面都会解释到位

(2)数据的处理

数据的处理其实我们要考虑到两个方面进行处理,一个用来训练的时候,我们需要把这东西转化为张量的形式,而且更重要的是我们不可能一次性投入这么多数据(提示一下,虽然fashion数据集合只有60000条,但是这个想法很重要),主要是在计算损失的时候,要保证低耦合度,一次性寻找适量数目的数据(这个将会在后面有补充)

其次就是,我们需要对整体的情况有一个总览,所以说我们要根据数据的整体计算一个损失,但是问题是dataset对象并不是张量,我们需要对其进行一些简单的处理;

那么首先是第一条:如何对数据进行读取,这也是我们进行遍历训练的时候需要做的事情,这里我们需要知道的另一个很重要的对象dataloader,这个东西吧dataset对象分成多个批次,然后设置成一个迭代器对象,如图所示

batch_size=256
train_iter=data.DataLoader(mnist_train,batch_size=256,shuffle=True,num_workers=4) #将这个数据集划分为256一打,洗牌模式随机抽取,四个线程进行读取
test_iter=data.DataLoader(mnist_test,batch_size=256,shuffle=True,num_workers=4) # 这样就生成一个类似迭代器的东西了,使用for循环可以进行读取

这个iter明显就是一个迭代的意思,很简单,但是有个问题,据我所知这个东西只能for循环来进行读取

如果我们强还行print,那么啥都得不到

print(train_iter)
#dataloader所产生的数据可以使用for循环来进行获取,也只能使用for循环才能得到对象

正确的读取方法应该是这样子的,通过这样的方法进行读取数据,这样子能保证每次返回的都是一批张量

for features,labels in train_iter:
    print(features,labels)

在这里需要单独说明,首先我们之前设定为批次是256,并且feature是一个三维张量,label是一个常量张量(注意常量张量和向量张量是完全不同的两个东西),所以这里print出来的张量应该是这两个形状的东西

[256,1,28,28]
[256,1]

批次在这里的体现就是,我们把256个作为一个批次,然后合并在一起.

可能你就要问了,唉,256这个多出来的维度不影响训练吗,问题不大吗,因为神经网络有自己的处理方法

-----------------------------------------------

另一个需要处理的数据其实就是整体,毕竟我们后面需要用损失函数计算一个整体的估计情况,来确定一个总的训练效果.

这里就没什么奇怪的东西了,需要手动操作,把从mnist_train和muist_test中遍历出来的数据转化出来,变成一个我们能接受的张量的性质

#使用方法把完整的数据集合改成张量
# 定义空的张量用于存储输入和输出
inputs = []
outputs = []

# 遍历数据集的每个样本
for sample in mnist_train:
    image = sample[0]  # 图像数据
    label = sample[1]  # 标签数据

    # 将图像数据和标签数据分别添加到张量中
    inputs.append(image)
    outputs.append(label)

# 将列表转换为张量对象
inputs = torch.stack(inputs)
outputs = torch.tensor(outputs)

# 打印张量的形状,这里一共检测到60000个数据
print("输入张量的形状",inputs.shape)  # 输入张量的形状
print("输出张量的形状",outputs.shape)  # 输出张量的形状

至于这两个东西后面怎么用,我们后面会详细解释

2.关于神经网络的构建

(1)大致构建以及对于数据的处理

首先是我们在这个代码中构建的神经网络的大致结构

net=nn.Sequential(
    nn.Flatten(),
    nn.Linear(784,256),
    nn.ReLU(),
    nn.Linear(256,10),
    nn.Softmax(dim=1)
)

先解释一下神经网络是干什么的,在这个神经网络中,首先使用一个Flatten对于张量进行展平,展平的效果就是这样子的,

[256,1,28,28] => [256,784]

然后经过两个密集层,就变成了

[256,10]=====>

内部大致的结构如下:
0:[1,2,3,4,5,6,7,8,9,10]
1:[1,2,3,4,5,6,7,8,9,10]
..........
255:[1,2,3,4,5,6,7,8,9,10]

最后softmax函数在这里我们就不加解释了,在这里我们注明了dim=1.也就是沿着行的生长方向进行softmax归一化操作

0:[0.1,0.3,............]
1:[0.4,................]
2:[....................]
.............

当然这里很容易遇到两个问题:首先是第一个,我们的数据是被绑定成了一个巨大的张量,把256个数据绑定在了一起,这也就是我们想要在这里说明的事情.

首先是第一点,前向传播这个过程中,我们可以很清楚的看到(事实上你对於每个层进行这种操作也会发现一个肥肠类似的结果)对于一个层{linear([256,10])}来说,如果我们传入的是Size=[60000,256]这样的一个尺寸的张量 , 则我们可以得到一个向前传播的计算结果[60000,10], 仅仅是对最后一个维度实现了神经元上的收敛,别的好像没什么.

这是因为神经网络的一个重要特性,在代码中我们经常是按照批次来传入的,这就要求批次处理好数量.因此pytorch中秉持的原则就是,在向前传播的时候,只对最后一层的维度进行计算.

然后是第二点,可以看到在传入的时候把数据传输为一个[256,1,28,28]的部分,第一步我们进行的是一个展平的操作,但是要注意的一点是,我们对某个层进行单独的操作以后,可以看到最终在内部进行输出结果的是[256,784].因为flatten这个展平,永远不会操作第一个维度

所以综上所述我们可以看到一个东西,net对批量数据的操作其实是依赖于一些层和函数本身的性质/数学运算,而不是net的刻意的准备.这样我们就结合矩阵运算,实现了一个批量计算

(2)关于权重的配置

首先要说明一点,对于这种神经网络初始化权重的方法有很多,可以直接对某一层的属性进行访问和配置.当然我们更多是借用神经网络对象的apply函数.


#但是这里首先也需要初始化一下 nn.init.normal_(m.weight, std=0.01),这个是比较重要的初始化吧
def init(m):
    if type(m)==nn.Linear:
        nn.init.normal_(m.weight,std=0.1)
        nn.init.constant_(m.bias,0.1)

#apply函数会保证每个层都能用的上这个初始化函数
net.apply(init)

其中,apply自动会对每个层都执行一遍这个函数.只要我们判断出这一层是神经网络层,就进行这种操作

init.normal_主要用来给权重初始随机数值

init.constant_是给权重一个固定数值

(3)关于一些其他函数的配置

首先是训练函数,也就是迭代器,我们使用随机梯度下降的函数,并且传入net的参数

#训练函数
train = torch.optim.SGD(net.parameters(), lr=0.03)    

然后是损失计算函数,损失计算函数其实是可以自己进行编写的,但是写好了为啥不用

监狱我们使用softmax进行一个数据的计算,所以这里我们使用"交叉熵损失函数"

这个函数大致的原理:

softmax这种分类问题最好用到别的损失函数,比如交叉商损失函数nn.CrossEntropyLoss(reduction='none')
这里解释一下输入  [0.7,0.2,0.1],[0.1,0.1,0.8]  (每种可能性标签的概率)  和标签[0,2](真实的标签应该是什么),然后这个函数会返回一个张量形式的东西
 这个公式其实是整理过一次了,在之前写过的csdn里面,这里的计算结果就是
1×log(0.7)+ 0×log(0.2)+ 0*log(0.1),以及
0×log(0.1)+ 0×log(0.2)+ 1*log(0.8),这两个元素,形成一维张量

其公式是这样子的,对于第c个输入和输出数据,假设其中第i个标签为真实的,并且对这个标签的预测概率为yci, 则这个数据的损失是

loss(c)=1*log(y_{c}^{i})

则对于总的这一批数据n,我们需要取平均值,就能找到其cost,这个在这里就不演示了

(4)模式

在开始训练之前,net对象其实存在有两个模式

net.train() # 训练模式
net.eval() #评估模式

训练模式会存储梯度,而评估模式不会存储,也就是对应了一个用来训练一个用来评估

3.训练过程,数据处理

其实训练过程都是大同小异:计算损失,清除梯度,计算梯度,更新四步,如果有需要,可以对每一个循环增加的时候进行检查loss

epoch_num=10
for epoch in range(epoch_num):
    for X,y in train_iter:
        l=loss(net(X),y).mean()        
        train.zero_grad()
        l.backward()            
        train.step()
    l=loss(net(inputs),outputs)
    print(f'epoch {epoch + 1}, loss {l.mean():f}')

 对于这里就要注意两点

(1)不同的loss对于输入和输出的要求是不一样的.比如交叉熵损失函数要求的输入和输出分别是:

举个例子

 [0.7,0.2,0.1],[0.1,0.1,0.8]  (每种可能性标签的概率)  和标签[0,2](真实的标签应该是什么),然后这个函数会返回一个张量形式的东西

但是对于MSLoss这种损失函数,我们得到的结果则完全不一样,输入和输出都是同样尺寸的一维数组,然后直接计算出一个纳米孔数据.

(2)反向传播只能针对一个数字的标量张量计算,这也就是我们使用mean和sum这种函数压缩计算得到的结果.

4.一点小小的总结和完整代码

一点简单的小小总结:

1.首先是关于net:
net可以接受小批量,甚至是一个完整那个的数据list的输入的,也就是说我们传入的小批量其实是[256,1,28,28]
然后我们最终的输出结果为[256,1],虽然这不是我们要的东西
其实net本质就是一个张量处理机,’压缩‘成需要的格式
张量处理机:一开是的猜测是会根据批量逐一处理那些张量,但是事实是net本身并不会对其进行太多的区分
传入进来的仍然是一个整体张良,需要在net中自己操作dim得到需要的结果以及形式

而且那个自定义层因为没有可训练的参数,所以可能不被接受?因此在训练的过程中,loss没有发生任何变化

另外注意一个问题,Fattern是无法展平dim=0这个维度的,这也就是为什么小批量的size保持了稳定

2.还有一个问题,其实在计算的时候大多问题就出在loss上面,这个函数计算误差的时候,最基本的要求就是输入和输出是同一个形式的,比如这里
loss希望net(x)和y都是长度一样的Size[256],然后自动进行sum计算,但是因为第一层无法折叠,所以net(x)为[256,1],所以我们在loss计算的时候就是用reshape([-1])来进行处理
很多时候都是这样的问题,所以要进行一点处理

3.在估算整体误差的时候要转化成张量,这里用函数处理成张量
这个有点复杂,但是记住net只是一个tensor压缩机

4.dataset对象是可以通过二维数组的方法获取标签和数据
dataloader可以转化为一个迭代器iter,迭代器通过for循环(或许有别的手段)得到的是小批量数据,而且是张量格式

5.最后就是lr记得小一点,不然就爆炸了
爆炸以后直接nan,我做梦都没想到在js没踩过的坑,在这里实现了,这是因为最开始梯度设置为0.5太大而导致的

6.另外记住两个初始化函数,用来给某个层初始化权重的
        nn.init.normal_(m.weight,std=0.1)  用来随机赋值,一般是w
        nn.init.constant_(m.bias,0.1)      用来常量赋值,一般是b

7.最后总结一下这段流程
神经网络构建(sequential)===》参数设置(使用方法,然后对模型apply)===》损失函数设置(使用库函数即可)===》优化函数设置(传入net的参数parameter)===》训练

训练就是:计算损失===》梯度清零以后进行反响传播计算===》执行优化迭代

数据就是:从文件中读取dataset对象(这个对象是保存了数据[][]),然后使用dataloader获取可以用来训练的迭代器

import torch
import torchvision
from torch.utils import data
from torchvision import transforms
from d2l import torch as d2l
import pandas
from torch import nn

#这个就是下载数据集合了,这里获取到了数据集合并且放到内存里面
d2l.use_svg_display()

# 通过ToTensor实例将图像数据从PIL类型变换成32位浮点数格式,
# 并除以255使得所有像素的数值均在0~1之间
trans = transforms.ToTensor()
mnist_train = torchvision.datasets.FashionMNIST(
    root="./data", train=True, transform=trans, download=True)
mnist_test = torchvision.datasets.FashionMNIST(
    root="./data", train=False, transform=trans, download=True)



batch_size=256
train_iter=data.DataLoader(mnist_train,batch_size=256,shuffle=True,num_workers=4) #将这个数据集划分为256一打,洗牌模式随机抽取,四个线程进行读取
test_iter=data.DataLoader(mnist_test,batch_size=256,shuffle=True,num_workers=4) # 这样就生成一个类似迭代器的东西了,使用for循环可以进行读取
print(train_iter)



net=nn.Sequential(
    nn.Flatten(),
    nn.Linear(784,256),
    nn.ReLU(),
    nn.Linear(256,10),
    nn.Softmax(dim=1)#先用softmax处理一下
)


# 得出结论,展平层永远对最开始的一层都不起效果

#所以上面那一层的问题就是:我们期待的输出是[256],而不是[256,1]

#神经元先设定为训练模式
net.train()

#损失函数
#loss = nn.MSELoss()
loss = nn.CrossEntropyLoss(reduction='none')



#但是这里首先也需要初始化一下 nn.init.normal_(m.weight, std=0.01),这个是比较重要的初始化吧
def init(m):
    if type(m)==nn.Linear:
        nn.init.normal_(m.weight,std=0.1)
        nn.init.constant_(m.bias,0.1)

#apply函数会保证每个层都能用的上这个初始化函数
net.apply(init)

#训练函数
train = torch.optim.SGD(net.parameters(), lr=0.03)    

#使用方法把完整的数据集合改成张量
# 定义空的张量用于存储输入和输出
inputs = []
outputs = []

# 遍历数据集的每个样本
for sample in mnist_train:
    image = sample[0]  # 图像数据
    label = sample[1]  # 标签数据

    # 将图像数据和标签数据分别添加到张量中
    inputs.append(image)
    outputs.append(label)

# 将列表转换为张量对象
inputs = torch.stack(inputs)
outputs = torch.tensor(outputs)

# 打印张量的形状,这里一共检测到60000个数据
print("输入张量的形状",inputs.shape)  # 输入张量的形状
print("输出张量的形状",outputs.shape)  # 输出张量的形状


epoch_num=10
for epoch in range(epoch_num):
    for X,y in train_iter: 
        l=loss(net(X),y).mean()        
        train.zero_grad()
        l.backward()          
        train.step()
    l=loss(net(inputs),outputs)
    print(f'epoch {epoch + 1}, loss {l.mean():f}')



    
#然后把模型切换为评估模式
net.eval()










本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mfbz.cn/a/118479.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

02|LangChain | 从入门到实战 -六大组件之Models IO

by:wenwenC9 上一篇文章 01|LangChain | 从入门到实战-介绍 一、Models IO 组成及其说明 与语言模型的交互,比如在线GPT系列,或各种离线模型 任何语言模型应用程序的核心元素都是XXX模型。LangChain 提供了与任何语言模型交互的…

QQ邮箱批量发送

场景 已有用户邮箱,需要批量对他们发送一些广告信息。 完整代码 # coding=gbk import smtplib import csv from email.mime.text import MIMEText from email.mime.multipart import MIMEMultipartdef send_email(msg_from, passwd, msg_to_list, text_content)

Harbor企业级Registry基础镜像仓库的详细安装使用教程(保姆级)

Harbor Docker 官方提供的私有仓库 registry,用起来虽然简单 ,但在管理的功能上存在不足。 Harbor是vmware一个用于存储和分发Docker镜像的企业级Registry服务器,harbor使用的是官方的docker registry(v2命名是distribution)服务去完成。 ha…

有趣的数学 sign是什么函数

在数学中&#xff0c;函数sign指的是符号函数&#xff0c;它的定义如下&#xff1a;对于任意实数x&#xff0c;若x>0&#xff0c;则sign(x)1&#xff1b;若x0&#xff0c;则sign(x)0&#xff1b;若x<0&#xff0c;则sign(x)-1&#xff1b;简单来说&#xff0c;sign函数就…

【ChatOCR】OCR+LLM定制化关键信息抽取(附开源大语言模型汇总整理)

目录 背景技术方案存在的问题及解决思路关键信息提取结果其他解决方案替换文心一言LangChain大型多模态模型&#xff08;Large Multimodal Model, LMM&#xff09; 开源大模型汇总LLaMA —— Meta 大语言模型Stanford Alpaca —— 指令调优的 LLaMA 模型Lit-LLaMA —— 基于 na…

GEE错误——XXX is not a function,如何解决这个问题?

错误&#xff1a; 这里的时错误原始的代码链接&#xff1a; https://code.earthengine.google.com/4bf0975a41e14d0c40e01925c6f3cf2a 这里主要的问题时这个单一影像不存在&#xff1a; ImageCollection (Error) ImageCollection.load: ImageCollection asset LANDSAT/LC0…

【HTML】播放器如何自动播放【已解决】

自动播放器策略 先了解浏览器的自动播放器策略 始终允许静音自动播放在以下情况&#xff0c;带声音的自动播放才会被允许 2.1 用户已经与当前域进行交互 2.2 在桌面上&#xff0c;用户的媒体参与指数阈值(MEI)已被越过&#xff0c;这意味着用户以前播放带有声音的视频。 2.3 …

weblogic弱口令漏洞复现

文章目录 一、漏洞特征1.可以直接获取passwd文件2.可以直接获取密文文件3.可以直接获取密钥文件4.解密密码5.登录后台 二、命令执行复现1.部署webshell2.Shell命令执行3.jsp一句话木马 一、漏洞特征 1.可以直接获取passwd文件 http://192.168.232.131:7001/hello/file.jsp?p…

Android 应用流量监控实践

背景 得物Apm系统本身包含网络接口性能监控的能力&#xff0c;但接口监控主要关注的是接口的耗时、异常率等信息&#xff0c;没有流量消耗相关维度的统计信息&#xff0c;并且一部分流量消耗可能来自于音视频等其他特殊场景&#xff0c;在接口监控的盲区外。 为了了解用户目前…

QML 仪表盘小示例

本次项目已发布在CSDN->GitCode,下载方便,安全,可在我主页进行下载即可,后面的项目和素材都会发布这个平台。 个人主页:https://gitcode.com/user/m0_45463480怎么下载:在项目中点击克隆,windows:zip linux:tar.gz tar # .pro TEMPLATE = appTARGET = dialcontrol​#…

最新 vie-vite框架下 jtopo安装使用

官方地址 官方源码 安装下载 1.官方好像都没有给git地址&#xff0c;尝试npm安装报错 2.找到1.0.5之前的版本npm i jtopo2&#xff0c;安装成功后使用报错&#xff0c;应该是版本冲突了 1.本地引入&#xff0c; 点击官方源码下载&#xff0c;需要jtopo_npm文件 2.引入到本…

计算机毕设 基于大数据的服务器数据分析与可视化系统 -python 可视化 大数据

文章目录 0 前言1 课题背景2 实现效果3 数据收集分析过程**总体框架图****kafka 创建日志主题****flume 收集日志写到 kafka****python 读取 kafka 实时处理****数据分析可视化** 4 Flask框架5 最后 0 前言 &#x1f525; 这两年开始毕业设计和毕业答辩的要求和难度不断提升&a…

基于SSM的鲜花商城系统

基于SSM的鲜花商城系统的设计与实现~ 开发语言&#xff1a;Java数据库&#xff1a;MySQL技术&#xff1a;SpringSpringMVCMyBatis工具&#xff1a;IDEA/Ecilpse、Navicat、Maven 系统展示 主页 鲜花列表 热销商品 商品详情 登录界面 购物车 管理员界面 摘要 基于SSM的鲜花商…

oracle 数据库 LISTAGG详解

目录 简介: 效果展示&#xff1a; 举例&#xff1a; 测试表及数据&#xff1a; 简介: Oracle数据库的LISTAGG函数用于将多行数据合并为单个字符串&#xff0c;常见于分组操作&#xff0c;实现数据的垂直到水平的转换。 解决问题如&#xff1a;一个人有多个手机号&#xff0c…

AI 绘画 | Stable Diffusion 提示词

Prompts提示词简介 在Stable Diffusion中&#xff0c;Prompts是控制模型生成图像的关键输入参数。它们是一种文本提示&#xff0c;告诉模型应该生成什么样的图像。 Prompts可以是任何文本输入&#xff0c;包括描述图像的文本&#xff0c;如“一只橘色的短毛猫&#xff0c;坐在…

pandas - 数据分组统计

1.分组统计groupby()函数 对数据进行分组统计&#xff0c;主要适用DataFrame对象的groupby()函数。其功能如下。 &#xff08;1&#xff09;根据特定条件&#xff0c;将数据拆分成组 &#xff08;2&#xff09;每个组都可以独立应用函数&#xff08;如求和函数sum()&#xff0…

C++多态基础

文章目录 1.多态概念2.多态使用3.多态析构4.多态隐藏5.多态原理5.1.单类继承5.1.1.问题一&#xff1a;非指针或引用无法调用多态5.1.2.问题二&#xff1a;同类对象共用虚表5.1.3.问题三&#xff1a;子类对象拷贝父类对象虚表5.1.4.问题四&#xff1a;打印虚表地址和虚表内容 5.…

【C++类和对象中:解锁面向对象编程的奇妙世界】

【本节目标】 1. 类的6个默认成员函数 2. 构造函数 3. 析构函数 4. 拷贝构造函数 5. 赋值运算符重载 6. const成员函数 7. 取地址及const取地址操作符重载 1.类的6个默认成员函数 如果一个类中什么成员都没有&#xff0c;简称为空类。 空类中真的什么都没有吗&#xf…

Nginx默认会自动忽略请求头Headers里带下划线_的参数

起因&#xff1a;该接口设置了必须要传送app_code和app_secret才能正常访问。实际我在本地环境测试中&#xff0c;发现该接口是正常访问的&#xff0c;但是部署到正式系统之后发现&#xff0c;该接口一直提示app_code和app_secret不能为空。 后续排查&#xff1a;发现正式系统…

GitLab CI/CD 持续集成/部署 SpringBoot 项目

一、GitLab CI/CD 介绍 GitLab CI/CD&#xff08;Continuous Integration/Continuous Deployment&#xff09;是 GitLab 提供的一种持续集成和持续部署的解决方案。它可以自动化软件的构建、测试和部署过程&#xff0c;以便开发者更快地、更频繁地发布可靠的产品。 整体过程如…