谷歌DeepMind研究：Transformer模型无法超越训练数据进行泛化

2023-11-06 15:00:52 站长之家网络整理0

生活网11月6日消息:谷歌DeepMind的研究人员进行了实验，旨在探讨Transformer模型是否能够在超出预训练数据范围之外泛化出新的认知和能力。他们的研究发现，几乎不可能要求模型在超出预训练数据范围之外解决新问题。

研究侧重于探讨预训练过程中使用的数据对模型的少样本学习能力的影响，结果显示模型在上下文学习过程中可以在预训练的函数类别中进行模型选择，但难以超出预训练数据的范围。

论文地址:https://arxiv.org/pdf/2311.00871.pdf

实验还涵盖了模型在处理不同函数类别混合的情况下的性能，并指出模型在处理未见过的函数和极端版本的函数时存在一些限制，表明模型的模型选择能力受到与预训练数据的接近程度的限制。

这一研究强调了预训练数据对于模型性能的重要性，强调了数据质量对于模型的关键作用。虽然Transformer模型在某些情况下能够在预训练的函数类别中进行模型选择，但其泛化能力在处理新问题和函数类别时存在限制。这些发现有助于深入理解Transformer模型的局限性，特别是在超越预训练数据范围时。这对于机器学习和人工智能领域的研究和发展具有重要意义。

--结束END--

举报投诉请发送至: 邮箱/1585958358@qq.com QQ/

本文标题: 谷歌DeepMind研究：Transformer模型无法超越训练数据进行泛化

更多>最新的资讯

• 通信能力大提升！iQOO Z9 Turbo 支持四频北斗、	• 美国IT业今年已裁员13.7万人！投100份简历仅两
• 超帅！《黑神话：悟空》猪八戒人形脸模演员：我	• 淘宝首家销量破亿女装店关闭！创始人：顺应市场
• Unity 6引擎定档10月17日！影视级demo《Time Gh	• 男子花46万竟买到二手水淹车法院：退一赔三！
• 《黑神话：悟空》嫦娥私会男子身份成谜！美术总	• iPhone 16使用钢壳电池陷“爆炸”阴谋论！苹果
• 华为Mate XT三折叠最新黄牛价格曝光：能买6.5台	• 12306回应台风天退票收退票费：不符合24小时内

《黑神话：悟空》嫦娥	595元！Redmi Note 14
2024 vivo开发者大会	遭20人拦门要烟接亲