​Wenzhong-GPT2-3.5B​ 国产大模型封神榜版本

news/2024/2/28 0:45:47

  • Github: Fengshenbang-LM

  • Docs: Fengshenbang-Docs

简介 Brief Introduction

善于处理NLG任务,目前最大的,中文版的GPT2

Focused on handling NLG tasks, the current largest, Chinese GPT2.

模型分类 Model Taxonomy

需求 Demand任务 Task系列 Series模型 Model参数 Parameter额外 Extra
通用 General自然语言生成 NLG闻仲 WenzhongGPT23.5B中文 Chinese

模型信息 Model Information

为了可以获得一个强大的单向语言模型,我们采用GPT模型结构,并且应用于中文语料上。具体地,这个模型拥有30层解码器35亿参数,这比原本的GPT2-XL还要大。我们在100G的中文语料上预训练,这消耗了32个NVIDIA A100显卡大约28小时。据我们所知,它是目前最大的中文的GPT模型。

To obtain a robust unidirectional language model, we adopt the GPT model structure and apply it to the Chinese corpus. Specifically, this model has 30 decoder layers and 3.5 billion parameters, which is larger than the original GPT2-XL. We pre-train it on 100G of Chinese corpus, which consumes 32 NVIDIA A100 GPUs for about 28 hours. To the best of our knowledge, it is the largest Chinese GPT model currently available.

使用 Usage

模型下载地址 Download Address

Huggingface地址:Wenzhong-GPT2-3.5B

加载模型 Loading Models

from transformers import GPT2Tokenizer, GPT2Model
tokenizer = GPT2Tokenizer.from_pretrained('IDEA-CCNL/Wenzhong-GPT2-3.5B')
model = GPT2Model.from_pretrained('IDEA-CCNL/Wenzhong-GPT2-3.5B')
text = "Replace me by any text you'd like."
encoded_input = tokenizer(text, return_tensors='pt')
output = model(**encoded_input)

使用示例 Usage Examples

from transformers import pipeline, set_seed
set_seed(55)
generator = pipeline('text-generation', model='IDEA-CCNL/Wenzhong-GPT2-3.5B')
generator("北京位于", max_length=30, num_return_sequences=1)

引用 Citation

如果您在您的工作中使用了我们的模型,可以引用我们的论文:

If you are using the resource for your work, please cite the our paper:

@article{fengshenbang,author    = {Junjie Wang and Yuxiang Zhang and Lin Zhang and Ping Yang and Xinyu Gao and Ziwei Wu and Xiaoqun Dong and Junqing He and Jianheng Zhuo and Qi Yang and Yongfeng Huang and Xiayu Li and Yanghan Wu and Junyu Lu and Xinyu Zhu and Weifeng Chen and Ting Han and Kunhao Pan and Rui Wang and Hao Wang and Xiaojun Wu and Zhongshen Zeng and Chongpei Chen and Ruyi Gan and Jiaxing Zhang},title     = {Fengshenbang 1.0: Being the Foundation of Chinese Cognitive Intelligence},journal   = {CoRR},volume    = {abs/2209.02970},year      = {2022}
}

http://www.ppmy.cn/news/400169.html

相关文章

使用 docker 搭建 mongodb 6 单节点副本集

1、拉取 mongodb 镜像 docker pull mongo 2、启动一个 mongodb 的容器,通过副本集的形式运行 docker run --name mongoRs -d -p 27017:27017 mongo --replSet rs0 --name 创建容器的名称。 自定义 -d 以守护进程方式启动容器 -p 2701:27017:MongoD…

2023年年度最佳配色就是它-我已经为大家配好了色卡,还不快来用?

洋红或者又称为胭脂红 今年的「洋红万岁」,PANTONE 称其是[非常规时代的非常规红] 它源自 PANTONE 的红色家族,灵感来自一种叫胭脂虫的小昆虫,在色轮上介于红色和粉红色之间,是天然染料家族中最珍贵的染料之一,也是世界上已知的最浓烈、最明亮的染料之一。 据 PANTONE …

Java代码精简之道-10条代码精简方案

场景 一、Java中利用try-with-resource语句 JDK7 开始新增了对需要关闭资源处理的特殊语法 try-with-resource。 所有实现Closeable接口的“资源”,均可采用try-with-resource进行简化。 例如 InputStream, OutputStream ,Connection&…

excel VLOOKUP和MATCH结合使用匹配数据

IFERROR(VLOOKUP($B452,表1-5!$A$1:$N$106,MATCH(C$1,表1-5!$A$1:$N$1,FALSE),FALSE)&"","")

MySQL学习--union

union查询 背景&#xff1a; 查询两张表中的数据&#xff0c;然后将留言板表中的数据输出到网页表格中。&#xff1a; <?php$conn mysqli_connect(localhost,root,azb123);$sql use shop;;mysqli_query($conn,$sql);$sql set name utf8;; mysqli_query($conn,$sql);/…

MAX78000FTHR简单介绍与初次上手

特点 MAX78000FTHR是基于MAX78000的小型板微控制器单元&#xff08;MCU&#xff09;。 该 MCU 面向在边缘运行的人工智能 (AI) 应用程序。在这种情况下&#xff0c;“边缘”并不意味着技术的前沿&#xff08;尽管这就是芯片&#xff09;&#xff1b;这意味着靠近需要它的地方…

DataX及DataX-Web

大数据Hadoop之——数据同步工具DataX数据采集工具-DataX datax详细介绍及使用 一、概述 DataX 是阿里云DataWorks数据集成的开源版本&#xff0c;在阿里巴巴集团内被广泛使用的离线数据同步工具/平台。DataX 实现了包括 MySQL、Oracle、OceanBase、SqlServer、Postgre、HDFS、…

VMwareWorkStation如何添加万兆网卡,万兆网卡添加教程

1.引言 不同于ESXi&#xff0c;在VMware WorkStation&#xff08;后文简称VMware&#xff09;中添加网卡后没有选择网卡速度等级的选项&#xff0c;例如百兆、千兆、万兆等。就算点开右下角的”高级“也不管用。不过按照VMware的默认设定&#xff0c;当新建虚拟机选择32位操作系…

5800xm使用有感

自从上次去了武夷山&#xff0c;e63掉水里面之后&#xff0c;我的手机就一直是nokia的1100&#xff0c;再也不能使用google地图&#xff0c;opera上网冲浪了&#xff0c;郁闷了好久。后来终于下定决心再重新买一个智能手机&#xff0c;最开始想买g2&#xff0c;但是2400以上的价…

ERROR: AddressSanitizer: heap-use-after-free on address

内存错误"heap-use-after-free"&#xff0c;这是因为在C中&#xff0c;当使用delete关键字释放对象的内存后&#xff0c;该对象仍然会保留指向已经被释放内存的指针。这个指针称为悬挂指针&#xff08;Dangling Pointer&#xff09;。如果我们试图访问已经被释放的内…

【大学物理实验】示波器

文章目录 选择题选择题 函数信号发生器产生的电信号调节频率和调整幅度大小的旋钮是: A. 1,2 B. 2,3 C. 3,4 D. 1,4 正确答案: D 信号输入示波器Y2通道后,示波器面板上工作方式和内触发的选择应该是: A. 工作方式选Y1,内触发选Y2 B. 工作方式选Y2,内触发选Y2 C. 工作方…

PyTorch 深度学习入门

&#x1f482; 个人网站:【 海拥】【萌怪大冒险】【2048】&#x1f91f; 风趣幽默的前端学习课程&#xff1a;&#x1f449;28个案例趣学前端&#x1f485; 想寻找共同学习交流、摸鱼划水的小伙伴&#xff0c;请点击【摸鱼大军】&#x1f4ac; 免费且实用的计算机相关知识题库&…

2023 Archlinux NVIDIA 3070 intel 双显卡驱动 + i3wm 解决方案

2023 Archlinux NVIDIA 3070 intel 双显卡驱动 i3wm 解决方案 设备信息背景安装过程安装桌面环境 设备信息 华硕天选3&#xff0c;CPU&#xff1a;12700H&#xff0c;GPU&#xff1a;GeForce 3070。 操作系统&#xff1a;6.1.4-arch1-1&#xff08;默认linux内核&#xff0c…

封神榜科技成果 - 国产训练大模型

封神榜科技成果 Fengshenbang 1.0: 封神榜开源计划1.0中英双语总论文&#xff0c;旨在成为中文认知智能的基础设施。 BioBART: 由清华大学和IDEA研究院一起提供的生物医疗领域的生成语言模型。(BioNLP 2022) UniMC: 针对zero-shot场景下基于标签数据集的统一模型。(EMNLP 2022)…

如何知道mysql是否有设置密码

可以通过以下几种方式知道MySQL是否设置了 root 用户的密码: 1. 尝试使用root用户登录MySQL 打开终端窗口,运行以下命令尝试使用root用户登录MySQL: bash mysql -u root -p如果显示MySQL提示符mysql>,则说明没有为root用户设置密码。 如果提示输入密码,说明root用户已设置…

AnimeGAN v2:动漫风格化GAN

点击上方“机器学习与生成对抗网络”&#xff0c;关注星标 获取有趣、好玩的前沿干货&#xff01; 金磊 丰色 发自 凹非寺 量子位 报道 | 公众号 QbitAI “排队1241人&#xff0c;等待2600秒……” ——这届网友为了看一眼自己在动漫里的样子&#xff0c;可真是拼了&#xff01…

一行命令aigc stable-diffusion 文本生成图片(动漫,艺术图,涩图,成人) 快速部署体验,微信端,小程序

本技术方案来自于cube-studio开源社区。 cube-studio社区开源了mlops平台和ai应用市场。AI应用市场的应用都可以在mlops平台中训练&#xff0c;部署&#xff0c;推理&#xff0c;web产品。 stable-diffusion是启动的一个应用。 需要先star项目才能进入体验集群。 项目地址在 …

图片卡通化

用Python调用百度API的方式实现图片的卡通化 第一步&#xff0c;在百度AI平台 https://ai.baidu.com/创建应用。路径如下图所示&#xff1a; 创建应用后的效果如下&#xff1a; 第二步&#xff0c;编码实现&#xff1a; import base64 import requestsdef get_access_token():…

《Stable Diffusion web UI 使用—1文生图 (动漫风)》

上一篇文章下载了模型&#xff0c;但是在刷新模型发现根本不行&#xff0c;原来是在下载模型时候选择错误。 第三步要选红色框这个——然后点击4th-Download Model才是对的 回到我们的colab要看见下载有多大&#xff0c;有多少个G开始下载才正确 今天才选择正确&#xff0c;开…

人像动漫化

人像动漫化 一、生成二次元动漫图二、生成戴口罩的二次元动漫人像 一、生成二次元动漫图 import requests import base64# 获取 访问秘钥 # client_id 去官网获取的AK&#xff0c; # client_secret 去官网获取的SK def access_token():AK # client_id …
最新文章