[论文笔记] PAI-Megatron中qwen和mistral合并到Megtron-LM

article2024/4/28 0:03:00/文章来源:https://blog.csdn.net/Trance95/article/details/135546940

一、千问

关于tokenizer的改动：

1.1、更改build_tokenizer中tokenizer类的加载。

/mnt/nas/pretrain/code/Megatron-LM/megatron/tokenizer/__init__.py 或者 tokenizer.py

在build_tokenizer.py函数中：


    elif args.tokenizer_type == "QwenTokenizer":
        assert args.tokenizer_name_or_path is not None
        from .tokenization_qwen import QWenTokenizer
        tokenizer = QWenTokenizer.from_pretrained(
            args.tokenizer_name_or_path,
            model_max_length=args.seq_length,
            padding_side='right',
            use_fast=False,
        )
        tokenizer.pad_token_id = tokenizer.pad_id
        tokenizer.eos_token_id = tokenizer.eod_id
        args.padded_vocab_size = tokenizer.vocab_size + args.extra_vocab_size

1.2、dlc时创建主函数.sh文件 or debug时更改主函数参数命名

debug时

本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处：http://www.mfbz.cn/a/316176.html

如若内容造成侵权/违法违规/事实不符，请联系我们进行投诉反馈qq邮箱809451989@qq.com，一经查实，立即删除！

代码随想录 Leetcode160. 相交链表

题目： 代码(首刷看解析 2024年1月13日）： class Solution { public:ListNode *getIntersectionNode(ListNode *headA, ListNode *headB) {ListNode *A headA, *B headB;while (A ! B) {A A ! nullptr ? A->next : headB;B B ! nullpt…

Legion R7000 2021(82JW)原装出厂Win10/WIN11系统预装OEM系统镜像

LENOVO联想拯救者R7000 2021款(82JW)笔记本电脑原厂Windows10/11系统链接：https://pan.baidu.com/s/1m_Ql5qu6tnw62PbpvXB0hQ?pwd6ek4 提取码：6ek4 原装出厂系统自带所有驱动、出厂主题壁纸、系统属性专属联机支持标志、系统属性专属联想的LOGO标…

金蝶云星空和吉客云单据接口对接

金蝶云星空和吉客云单据接口对接对接系统：吉客云吉客云是基于“网店管家”十五年电商ERP行业和技术积累基础上顺应产业发展需求，重新定位、全新设计推出的换代产品，从业务数字化和组织数字化两个方向出发，以构建流程的闭环为依归…

阿里云服务部署docker容器

1.1 为什么要用docker 问题开发、测试、生产环境不统一，造成项目测试、部署时产生问题解决方案使用容器化技术，将环境和项目一起发送给测试、部署人员，测试人数和运维人员直接使用发过来的环境和项目进行操作，避免环境不统一…

详解Skywalking 服务Overview页面的参数含义（适合小白）

本文针对刚刚接触skywalking的同学，重点讲解服务Overview页面中各个参数的含义，为大家快速上手skywalking会起到帮助作用！ 最重要的三个指标 Service Apdex（数字）:当前服务的评分 Successful Rate（数字&a…

分布式系统架构设计之分布式消息队列的实际应用场景分析以及未来展望

一、分布式消息队列的实际应用场景随着企业业务的不断发展和数据量的持续增长，分布式消息队列已经成为了许多系统中不可或缺的一部分。它提供了异步通信、流量削峰、数据缓冲等功能，为构建高并发、高可用、可扩展的系统提供了有力的支持。本部分会通过…

列表解析与快速排序

排序是在对文本、数值等数据进行操作时常用的功能，本文介绍两种常用的排序方式，借此学习列表解析，并巩固递归算法。 1 选择排序说到排序，以数值为例，肯定涉及到值大小的对比，选择排序即通过依次在子集中…

win11下载Hbuliderx 安装闪退解决教程+安装包分享

在官网下载目录在官网下载出现闪退下载失败 2.2. 最终在百度网盘里下载了历史版本 2.3. 然后解压文件 2.4. 双击打开 2.5. 安装成功出现闪退下载失败结果下载失败，一下子弹出的下载框就会闪退 2.2. 最终在百度网盘里下载了历史版本下载的网盘链接: …

【详解】结构体的内存对齐（每步配图）

目录引言： 为什么存在结构体内存对齐? 结构体内存对齐规则： 练习一： 测试代码： 结果如下： 第二个练习：结构体的嵌套问题测试代码： 代码结果如下： 两个关于结构体的易错…

第七讲单片机驱动彩色液晶屏控制RA8889软件:显示文字：Part3.自建字库

单片机驱动TFT彩色液晶屏系列讲座目录第一讲单片机最小系统STM32F103C6T6通过RA8889驱动彩色液晶屏播放视频第二讲单片机最小系统STM32F103C6T6控制RA8889驱动彩色液晶屏硬件框架第三讲单片机驱动彩色液晶屏控制RA8889软件:如何初始化第四讲单片机驱动彩色液晶屏控…

【重明】机器视觉QT/C++实现工业相机二次开发框架

工业相机二次开发是机器视觉行业必不可少的技能之一。而如何实现一个框架，能够兼容所有工业相机二次开发，从而支持多种类型的工业相机，就是机器视觉行业的进阶技能了。重明工业相机二次开发项目就是在实现相机二开框架的基础上&#xff0c…

Java面试汇总——redis篇

1、什么是缓存穿透 ? 怎么解决 ? 缓存穿透是指客户端请求的数据在缓存中和数据库中都不存在，这样缓存就形同虚设（只有数据库查到了，才会让redis缓存，但现在的问题是查不到），会频繁的去访问数据库。解决…

6. 逻辑删除

逻辑删除对应的是物理删除，分别介绍一下这两个概念： 物理删除 ：指的是真正的删除，即：当执行删除操作时，将数据表中的数据进行删除，之后将无法再查询到该数据逻辑删除 ：并不是真正意…

whistle代理+mock轻松解决“页面端“测试接口没数据难题

0、whistle是什么？怎么用？ 自行百度，此处不再赘述！ 1、示例演示（交易订单测试） 背景和痛点最近在测试一个小需求，需要涉及订单侧服务商品库侧服务库存侧服务财务侧线下交易服务。痛点主要在订…

淘宝商家实现批量上货API接口调用接入说明（淘宝开放平台免申请接入）

API接入详细步骤： 第一步：在淘宝开放平台中选择接口塡写应用申报递交给我司，确认接口是否都有。第二步：确认接口都有，需交1000元进行测试，可以测试三天，测试数据符合淘宝开放平台接口参数说明&…

【python】09.面向对象进阶

面向对象进阶在前面的章节我们已经了解了面向对象的入门知识，知道了如何定义类，如何创建对象以及如何给对象发消息。为了能够更好的使用面向对象编程思想进行程序开发，我们还需要对Python中的面向对象编程进行更为深入的了解。 property装…

轴组【CAN】

如果有126个轴，你程序里挨个添加轴很麻烦。可以用轴组批量添加。【数组】 CAN驱动器 0x164 就是下个驱动器 p_CAN主站地址:ADR(IoConfig_Globals.CANopen_Manager_SoftMotion);p_CAN从站地址1:ADR(IoConfig_Globals.DMA882_CAN);p_CAN从站地址2:ADR(IoConfig_Gl…

超维空间M1无人机使用说明书——61、ROS无人机物体识别与精准投放

引言：基于空中物流的项目背景。我们提供了使用基于诗句的物体识别和精准投放、降落。实现原理如下： 1、在ROS下使用机载电脑实现物体识别 2、记载电脑根据反馈的位置发布运动控制指令 3、PX4解析机载电脑发布的命令，作出运动控制 4、设置…

PCL 使用克拉默法则进行四点定球（C++详细过程版）

目录一、算法原理二、代码实现三、计算结果本文由CSDN点云侠原创，PCL 使用克拉默法则进行四点定球（C++详细过程版），爬虫自重。如果你不是在点云侠的博客中看到该文章，那么此处便是不要脸的爬虫与GPT生成的文章。一、算法原理已知空间内不共面的四个点，设其坐标为 A (…

【Maven】003-基于 IDEA 创建 Maven 工程

【Maven】003-基于 IDEA 创建 Maven 工程文章目录【Maven】003-基于 IDEA 创建 Maven 工程一、关于 Maven 工程的 GAVP1、GAVP 简介2、GAV 坐标规范3、Packaging 定义规则二、基于 IDEA 创建 Maven 工程1、创建 Maven 项目2、创建结果3、项目结构说明一、关于 Maven 工程的…