百万链- 分类目录网址导航大全_免费外链发布平台
免费加入

Tokenization不存在了?Meta最新研究,无需Tokenizer的架构来了|字节|鲁棒性|meta|tokenizer

文章编号:503时间:2024-12-17人气:


微信扫码二维码

20241217130224_68812.jpg" alt="Tokenization不存在了?Meta最" loading="lazy">

分享至好友和朋友圈

BLT 在许多基准测试中超越了基于 token 的架构。

最近几天,来自 Meta 、芝加哥大学机构的合著论文《 Byte Latent Transformer: Patches Scale Better Than Tokens 》火了,在 Hacker News 上受到广泛讨论。

有人表示,非常期待这项研究取得成功,这样就可以和 tokenizer 拜拜了!

还有人担心的表示,「现在 tokenization 是大多数模型的基础,这项研究被采用的可能性究竟有多大?」

总结而言,该研究提出了一种新的 LLM 思想。传统的语言模型依赖于 tokenizer 来预处理数据,但 tokenization 有其固有的局限性,包括固定的词汇表、处理多语言或噪声数据的效率低下,以及由压缩启发式方法引入的偏见。

该研究提出字节潜在 Transformer(Byte Latent Transformer,简称 BLT)挑战了这种常规做法。BLT 通过直接建模原始字节流,将它们根据熵动态分组为 patch 以实现高效计算。

具体而言,BLT 不需要 tokenizer 架构,可以直接从原始字节数据中学习,避免了静态词汇表的限制,并能更好地处理多样化和带噪声的输入。

基于熵的 Patch:根据信息复杂度动态地将字节分组为 Patch,对高熵区域(复杂输入)分配更多的计算资源,在低熵区域节省资源。

高效扩展:通过优化 patch 大小并利用轻量级局部模型,BLT 实现了与基于 token 模型(如 LLaMA)相当或更好的性能,并在推理过程中节省高达 50% 的计算资源。

鲁棒性与灵活性:BLT 在需要字符级理解、噪声输入或长尾泛化的任务中表现出色,在许多基准测试中超越了基于 token 的架构。

此外,该研究首次提出了对字节级模型进行 flop 控制的扩展研究,参数规模高达 8B,训练字节高达 4T,从而展示了在没有固定词汇表 tokenization 的情况下,从字节级别端到端地大规模训练模型。

总体而言,BLT 在训练时的 flop 控制性能与 Llama 3 相当,同时在推理时使用的 flop 减少了高达 50%。该研究还进行了 inference-flop 控制的扩展实验(图 1),并观察到与基于 tokenization 架构相比,BLT 扩展趋势明显更好。

这篇论文贡献如下:

这种无需 tokenizer 的方法代表了语言建模的重大转变,为更高效、可扩展和鲁棒的人工智能系统铺平了道路。

对此,有研究者表示:「Meta 刚刚杀死了 TOKENIZATION,他们发布的 BLT 是一种无 tokenizer 的架构,可以动态地将字节编码为 patch,并实现更好的推理效率和稳健性!」

2025 年可能是我们告别 tokenization 的一年。」

BLT 由一个对 patch 表征进行操作的大型全局自回归语言模型以及两个较小的局部模型组成,两个较小的局部模型将字节序列编码为 patch 并将 patch 表征解码回字节(图 2)。

潜在全局 Transformer 是一个具有 l_G 层的自回归 transformer 模型 G,它将一系列潜在输入 patch 表征 p_j 映射到一系列输出 patch 表征 o_j。

论文使用下标 j 表示 patch,使用下标 i 表示字节。全局模型使用块因果注意力掩码(Dubey et al., 2024)。

该研究展示了字节级模型扩展趋势的整体图景,可以为 BLT 模型的进一步扩展提供信息,旨在通过以下方式解决先前字节级模型研究的局限性:

参数匹配计算最优扩展趋势

使用 Llama 2 数据集,该研究训练了四种不同大小(参数范围从 1B 到 8B)的各种计算最优 bpe 和 BLT 模型。然后在训练数据混合物的代表性子集上根据语言建模性能绘制训练 flops 图。BPE 模型使用 Llama 3 确定的模型参数与训练数据的最佳比率进行训练(Dubey et al., 2024)。这种计算最优设置理论上旨在在给定的训练预算内实现训练数据集的最佳性能(Hoffmann et al., 2022),为模型提供鲁棒的基线。对于每个 bpe 模型,该研究还使用与相应 bpe Transformer 的大小和架构相匹配的潜在 Transformer 在相同数据上训练相应的 BLT 模型。

如图 6(右)所示,BLT 模型要么相当,要么优于 BPE 模型,并且随着扩展模型大小和 flops,这种趋势仍然存在。

为了进一步评估扩展特性,该研究在更大的高质量数据集 BLT-1T 上训练了一个 8B 参数规模的 BLT 模型。表 1 比较了在 BLT-1T 数据集上训练的三个模型,基于 tokenizer 的 BPE Llama 3 模型和 BLT 模型的两个变体(一个采用空间 - patch 方案 (BLT-Space),另一个采用基于熵的 patch 方案 (BLT-Entropy))。

结果显示,BLT-Entropy 模型在 7 项任务中的 4 项上的表现优于 Llama 3 模型。这种改进是由于 (1) 通过动态 patch 更好地利用了训练计算,以及 (2) 直接对字节级信息进行建模,而不是对 token 进行建模。

此外,论文还介绍了 Patch 比 Token 更容易扩展。

总结来说,对 patch 长度扩展研究表明,BLT 这种基于 patch 的架构可以通过同时增加 patch 和模型的大小来实现更好的扩展趋势。这样的趋势似乎在更大规模的模型中持续存在,甚至有所改善。

字节建模提高鲁棒性

在对带噪声的 HellaSwag 测试结果发现,BLT 确实在鲁棒性方面全面超越了基于 tokenizer 的模型,平均优势达到 8 个百分点,甚至超过了在更大数据集上训练的 Llama 3.1 模型。

图 7 展示了 Llama 3 tokenizer 模型表现不佳,但 BLT 模型表现良好的几个场景。

表 4 表明,BLT 的表现超过了使用 Llama 3 tokenizer 训练的模型。在流行的语言对中,BLT 的表现与 Llama 3 相当或略好。然而,在资源较少的语言对上,BLT 的表现超过了 Llama 3,这强调了字节建模在泛化到长尾字节序列上的有效性。

很明显,经过 Llama 3.1 初始化的 BLT 显著优于 Llama 3 和 BLT 基线,这些基线是用相同数量的 flop 训练的。



相关标签: 字节鲁棒性metatokenizer

上一篇:全国沃尔玛门店入驻美团闪购全渠道知名企业

下一篇:ChatGPT搜索,全球免费Her动嘴实时搜,暴打谷歌

内容声明:

1、本站收录的内容来源于大数据收集,版权归原网站所有!
2、本站收录的内容若侵害到您的利益,请联系我们进行删除处理!
3、本站不接受违法信息,如您发现违法内容,请联系我们进行举报处理!
4、本文地址:https://www.baiwanlian.cn/article/9697f0cb70449df245e2.html,复制请保留版权链接!


温馨小提示:在您的网站做上本站友情链接,访问一次即可自动收录并自动排在本站第一位!
随机文章
减肥不吃晚餐不会瘦 并非断食 管住嘴是控制饮食 (减肥不吃晚餐的危害有哪些)

减肥不吃晚餐不会瘦 并非断食 管住嘴是控制饮食 (减肥不吃晚餐的危害有哪些)

在当今追求苗条身材的社会中,减肥已成为人们热议的话题,诸多减肥方法层出不穷,其中管住嘴被公认为最有效的手段,网上盛传的过度节食、戒晚餐等极端减肥方式却广受追捧,对此,专家表示,轻断食并非不吃饭,过度节食是不可取的,轻断食≠不吃饭,科学控制热量摄入轻断食并非完全不吃饭,而是在保证每天摄取足够蛋白质、微量元素、维生素和水分的基础上,根据体...。

最新资讯 2025-01-06 16:53:42

尹锡悦律师团将举报公调处处长等人涉嫌妨碍公务及违法逮捕 (尹锡悦律师团队)

尹锡悦律师团将举报公调处处长等人涉嫌妨碍公务及违法逮捕 (尹锡悦律师团队)

韩国总统尹锡悦的律师团于1月5日发表声明,将以妨碍特殊公务执行及侵入特殊建筑物、违反军事基地及军事设施保护法等嫌疑,向检察机关举报韩国高级公职人员犯罪调查处,公调处,处长吴东运、公调处部长检察官李大焕等3名检察官、代理警察厅长的警察厅次长李昊荣、代理国防部长的国防部次官金善镐、首尔警察厅生活安全次长崔贤锡,音,、龙山警察署长胡旭镇,音...。

最新资讯 2025-01-05 17:30:57

揭秘打鼾对身体的严重威胁 危险的呼噜声 (打鼾对健康的危害)

揭秘打鼾对身体的严重威胁 危险的呼噜声 (打鼾对健康的危害)

随着年龄的增长,加入打鼾队伍的人越来越多,到65岁之后,一半的人都无鼾不眠,打鼾,这一常见现象看似无关紧要,但其实可能隐藏着潜在的健康问题,人为什么会打鼾,当气体通过一段通畅的管道时,通常不会发出声音,但如果管道中存在障碍或狭窄,气体的流动就会受到影响,局部的紊乱气流和由此导致的管壁振动就会产生声音,如果咽腔小、上呼吸道阻塞、上呼吸道...。

最新资讯 2025-01-03 00:33:34

在马背上找回身心平衡 马术运动 年轻一代的疗愈之途 (在马背上被上下抛落)

在马背上找回身心平衡 马术运动 年轻一代的疗愈之途 (在马背上被上下抛落)

近年来,马术运动在年轻群体中风靡一时,成为一种备受追捧的解压方式,马术运动在中国的蓬勃发展根据,马术,杂志和马术在线联合发布的,2024中国马产业发展调查报告,,截至2024年,中国全国共有2815家马术俱乐部,令人瞩目的是,马术俱乐部的会员年龄主要集中在7至18岁之间,占比高达82.72%,这一数据表明,年轻一代正成为马术运动的主力...。

最新资讯 2025-01-01 15:44:27

春运火车票开售 15天预售正式开启 (春运火车票开售首日, 你抢到票了吗?)

春运火车票开售 15天预售正式开启 (春运火车票开售首日, 你抢到票了吗?)

2025年春运将于1月14日正式启动,根据目前火车票提前15天开始发售的规定,2024年12月31日将开售春运第一天的火车票,记得定好闹钟,准时购票,购票攻略提前准备好身份证号、银行卡号等购票信息,提前登录12306网站或APP,绑定好支付方式,开售时间前5分钟左右开始刷新购票页面,如果抢票失败,可以尝试使用候补购票功能,退改签政策春...。

最新资讯 2024-12-31 08:57:29

首映礼热力来袭 帕丁顿荣获橘子酱驻华大使称号 帕丁顿熊3 (首映礼在哪里举行)

首映礼热力来袭 帕丁顿荣获橘子酱驻华大使称号 帕丁顿熊3 (首映礼在哪里举行)

body,font,family,Arial,Helvetica,sans,serif,.container,max,width,900px,margin,0auto,.title,text,align,center,font,size,2rem,font,weight,bold,.intro,margin,bottom,1re...。

最新资讯 2024-12-30 23:25:43

实拍新疆吐鲁番盆地雅丹地貌的奇幻景观 地球上的外星球奇观 (新疆吐鲁番百度百科)

实拍新疆吐鲁番盆地雅丹地貌的奇幻景观 地球上的外星球奇观 (新疆吐鲁番百度百科)

在新疆吐鲁番盆地的西端,托克逊县西北部,有一片由风和时间...。

最新资讯 2024-12-30 22:05:55

维修试穿被冷遇 杜淳妻子曝品牌专柜遭遇歧视 (维修工穿的衣服)

维修试穿被冷遇 杜淳妻子曝品牌专柜遭遇歧视 (维修工穿的衣服)

事件背景10月22日,杜淳妻子王灿在社交平台发文讲述了在品牌专柜遇到的两次歧视经历,第一次经历发生在一家奢侈品专柜,王灿当时怀孕,身着休闲服饰,前往专柜维修包包,柜姐看到她后,态度冷淡,反复强调,如果我们发现这个包是假的,我们这边是会自动销毁的,王灿对此感到不适,第二次经历发生在另一家门店,王灿试穿了一件衣服,发现不合适,于是决定...。

最新资讯 2024-12-29 18:15:15

因不满押金被扣 男子搬空出租屋被判拘役及罚金 (因不满押金被法院起诉)

因不满押金被扣 男子搬空出租屋被判拘役及罚金 (因不满押金被法院起诉)

基本案情2022年8月至2023年1月,韦某与女友租住在黄女士位于柳州市城中区一小区的出租屋内,2022年10月,韦某到广东打工,其女友在租赁到期后退租,黄女士检查房屋后,认为出租屋内的空调被人为损坏,拒绝退还韦某之前交的1000元押金,韦某怀恨在心,2023年5月9日,韦某从河池乘车到柳州,当晚8时许确认出租屋无人居住后,以锁孔卡住...。

最新资讯 2024-12-29 06:21:27

新生儿奇迹 47天大的宝宝对爸爸的话语展现出惊人的反应 (新生儿奇形有什么症状)

新生儿奇迹 47天大的宝宝对爸爸的话语展现出惊人的反应 (新生儿奇形有什么症状)

新生儿对语言的理解能力是逐步发展的,通常在6个月左右开始能通过动作回应大人的指令,近期一位宝妈分享了一个令人惊讶的视频,她47天大的宝宝竟然能够听懂并执行简单的指令,视频中,年轻帅气的爸爸抱着宝宝,宝宝非常乖巧,不哭也不闹,当爸爸说摸摸爸爸时,宝宝真的伸出手摸了爸爸的脸,让爸爸笑得合不拢嘴,接着,爸爸又说亲亲爸爸,宝宝真的用小嘴亲了一...。

最新资讯 2024-12-29 01:18:16

呼吁国际支持彻底调查 乌克兰总统就阿塞拜疆坠机事件表示慰问 (呼吁国际支持英语作文)

呼吁国际支持彻底调查 乌克兰总统就阿塞拜疆坠机事件表示慰问 (呼吁国际支持英语作文)

body,font,family,Arial,Helvetica,sans,serif,h1,margin,bottom,1em,p,margin,bottom,1em,line,height,1.5em,ol,ul,list,style,position,inside,padding,0,margin,0,li,margin...。

最新资讯 2024-12-29 01:02:15

古尔曼称苹果将迎重大突破:自研调制解调器芯片有望明年登陆iPhoneSE4

古尔曼称苹果将迎重大突破:自研调制解调器芯片有望明年登陆iPhoneSE4

苹果内部团队多年来一直对高通调制解调器占用空间过大颇有微词。为此,苹果设计了一款代号为Sinope的新调制解调器,与自家的其他组件无缝整合。这一设计不仅节省空间,还可以降低电耗。

互联网资讯 2024-12-17 12:46:54