布朗大学90后研究生:我们复现了15亿参数GPT-2模型,你也行!


我想在4天前分享新智慧

[新的明智阅读]布朗大学计算机科学专业的毕业生Vanya Cohen最近分享了他在媒体中复制GPT-2模型的整个过程。作者重新制定了Open-AI 15亿参数模型,允许其他人建立并进一步改进其预训练模型。

诸如BERT,XLNet,GPT-2和Grover等大型语言模型在生成文本和多个NLP任务方面取得了显着成果。

本文试图研究用于研究人员的15亿GPT-2模型。

谷歌Colab地址:

模型权重单独提供:

复制品

延迟模型发布的安全策略之所以是因为这些模型难以重现并且需要高度专业化的领域知识。

但是布朗大学的两位硕士生已经证明,这篇文章的许多结果并不那么难以重现。不仅是他们两个,而且大多数感兴趣的人都可以重新制定GPT-2。

其中一名研究生:Vanya Cohen

此外,Zellers等人。表明像GPT-2这样的大型语言模型是一种非常有用的工具,可以抵制使用与文本生成器相同的模型。

仔细考虑之后,两位研究生认为重新雕刻工作并不是独一无二的,而且大规模语言模型是目前抵制文本生成的最有效手段,因此以这种方式发布该模型是有益的。反对滥用未来模式的可能性。

该模型的实现基于Grover模型,其代码库经过修改以匹配GPT-2语言建模培训目标。由于他们的模型是在类似的大型语料库上训练的,因此大多数代码和超参数都可以重复使用。此模型不会显着改变Grover的超参数。

使用此型号代码从头开始训练模型的成本约为50,000美元。请注意,此数字是云计算的估算值,不包括其他各种微妙的内部成本。

存在显着的时间 - 成本平衡,并且较慢的训练方法具有相对较小的成本,因此降低了使用阈值。

数据集

原始文件提供了有关如何清理数据集的最少详细信息。

与在WebText中一样,所有超过3个向上投票的链接首先从Reddit解析。接下来,从PushshiftRedditscrape开始。这是一个包含不断更新的Reddit帖子,评论和相关元数据集合的数据集。

然后过滤一些链接以删除不太可能包含可用文本或HTML(即视频文件,PDF和CSS样式文件)的文件类型的直接链接。

它还过滤网页以删除Wikipedia,因为它被各种评估基准和数据集使用。目前无法确定过滤条件是否与OpenAI匹配,因为此信息从未发布过。

使用Newspaper Python库从HTML页面中提取文本,然后使用fastText Python库提取英文文本并过滤掉其他语言。具体来说,使用WhatTheLangpython Wrapper。

使用局部敏感哈希(LSH)来减轻重量。然后将文档散列成5克的集合,并删除具有大于0.5的相似性阈值的所有文档。

使用启发式清理算法从数据集中删除少于128个令牌的文档。这些较短的文档往往质量较低,这是由文本连贯性决定的。最后,此数据集将作为OpenWebTextCorpus发布。

使用Radford等人发布的小型模型对数据集进行编码。和二进制模式编码器,以及OpenWebText web-scrapingcodebase的修改版本被用作数据集集合的起点。

勘误表

从WebText公开发布的260k文档集中,研究人员发现所有文件都具有最小的字节对(BPE)编码,长度为40,最大为1024.

OpenWebText之间的区别在于文档长度的下限(不是BPE代码)设置为128个令牌,并且最大文档长度不受限制。

原始WebTextCorpus在这些样本可用之前发布,因此该信息不用于生成清理启发式。

研究人员一再试图联系Radford等人。澄清评估和模型细节,但最终失败了。

结果

尽管培训分布存在差异,但它确实报告了与大多数数据集类似的混淆。

示例:输入“回收利用对世界有益。不!你可能不会错!”输出如下:

参考链接:收集报告投诉

[新的明智阅读]布朗大学计算机科学专业的毕业生Vanya Cohen最近分享了他在媒体中复制GPT-2模型的整个过程。作者重新制定了Open-AI 15亿参数模型,允许其他人建立并进一步改进其预训练模型。

诸如BERT,XLNet,GPT-2和Grover等大型语言模型在生成文本和多个NLP任务方面取得了显着成果。

本文试图研究用于研究人员的15亿GPT-2模型。

谷歌Colab地址:

模型权重单独提供:

复制品

延迟模型发布的安全策略之所以是因为这些模型难以重现并且需要高度专业化的领域知识。

但是布朗大学的两位硕士生已经证明,这篇文章的许多结果并不那么难以重现。不仅是他们两个,而且大多数感兴趣的人都可以重新制定GPT-2。

其中一名研究生:Vanya Cohen

此外,Zellers等人。表明像GPT-2这样的大型语言模型是一种非常有用的工具,可以抵制使用与文本生成器相同的模型。

仔细考虑之后,两位研究生认为重新雕刻工作并不是独一无二的,而且大规模语言模型是目前抵制文本生成的最有效手段,因此以这种方式发布该模型是有益的。反对滥用未来模式的可能性。

该模型的实现基于Grover模型,其代码库经过修改以匹配GPT-2语言建模培训目标。由于他们的模型是在类似的大型语料库上训练的,因此大多数代码和超参数都可以重复使用。此模型不会显着改变Grover的超参数。

使用此型号代码从头开始训练模型的成本约为50,000美元。请注意,此数字是云计算的估算值,不包括其他各种微妙的内部成本。

存在显着的时间 - 成本平衡,并且较慢的训练方法具有相对较小的成本,因此降低了使用阈值。

数据集

原始文件提供了有关如何清理数据集的最少详细信息。

与在WebText中一样,所有超过3个向上投票的链接首先从Reddit解析。接下来,从PushshiftRedditscrape开始。这是一个包含不断更新的Reddit帖子,评论和相关元数据集合的数据集。

然后过滤一些链接以删除不太可能包含可用文本或HTML(即视频文件,PDF和CSS样式文件)的文件类型的直接链接。

它还过滤网页以删除Wikipedia,因为它被各种评估基准和数据集使用。目前无法确定过滤条件是否与OpenAI匹配,因为此信息从未发布过。

使用Newspaper Python库从HTML页面中提取文本,然后使用fastText Python库提取英文文本并过滤掉其他语言。具体来说,使用WhatTheLangpython Wrapper。

使用局部敏感哈希(LSH)来减轻重量。然后将文档散列成5克的集合,并删除具有大于0.5的相似性阈值的所有文档。

使用启发式清理算法从数据集中删除少于128个令牌的文档。这些较短的文档往往质量较低,这是由文本连贯性决定的。最后,此数据集将作为OpenWebTextCorpus发布。

使用Radford等人发布的小型模型对数据集进行编码。和二进制模式编码器,以及OpenWebText web-scrapingcodebase的修改版本被用作数据集集合的起点。

勘误表

从WebText公开发布的260k文档集中,研究人员发现所有文件都具有最小的字节对(BPE)编码,长度为40,最大为1024.

OpenWebText之间的区别在于文档长度的下限(不是BPE代码)设置为128个令牌,并且最大文档长度不受限制。

原始WebTextCorpus在这些样本可用之前发布,因此该信息不用于生成清理启发式。

研究人员一再试图联系Radford等人。澄清评估和模型细节,但最终失败了。

结果

尽管训练分布不同,但报告了类似于大多数数据集的谜题。

示例:输入“回收利用对世界有益。不!你可能不会错!”输出如下:

参考链接:

http://weather.amyloveamy.cn