没有 Tokenization 的端到端序列建模
本文提出了一种名为H-Net的端到端分层网络,该网络通过递归和数据依赖的动态分块(DC,即动态分块)技术对原始数据进行压缩,具体过程可参考图1。在确保与token化流程保持同等效率的前提下,H-Net通过采用从数据中学习到的内容感知和上下文依赖的分割方法,替代了传统的人工启发式分割,从而显著增强了其建模能力。
分层处理
H-Net 采用了分层架构,其工作流程分为三步:
这种设计构建了一种自然的认知结构,其外层负责识别细微的模式,而内层则专注于处理抽象的理念。
关键在于,该主网络涵盖了绝大多数参数,并且具备适应各种标准架构的能力,诸如Transformer或状态空间模型(SSM)。
动态分块
H-Net的核心技术是动态分块(DC)机制,这一机制坐落于主网络与编码器/解码器网络之间,其主要功能在于学习如何对数据进行分割,并在此过程中运用了标准的可微优化策略。DC机制由两种相辅相成的创新技术构成:
(i) 路由模块,通过相似度评分预测相邻元素之间的边界;
平滑模块,采用路由器输出插值进行表示,有效减轻了不确定边界带来的影响,从而显著增强了学习能力的提升。
通过融合这些技术与一款新型的辅助损失函数,同时运用现代的基于梯度的离散选择学习技术,DC模型使得H-Net得以实现数据的端到端压缩学习。
信号传播
本文引入了多种架构与训练策略,旨在增强端到端优化阶段的稳定性与扩展性。具体措施有:首先,通过精心设计的投影层和归一化层,实现交互子网络间信号传递的均衡;其次,针对每一层的维度和实际批次规模,灵活调整其优化参数。
总体而言,H-Net采纳了与主干网络协同优化的分割方法,并依据上下文信息,将输入向量灵活地转化为有价值的数据片段。
H-Net标志着首个实现端到端、无需分词器的语言模型:借助动态分块技术,该模型在超过10亿参数的庞大规模中,其困惑度和下游性能与采用BPE分词的强大Transformer相当。
依据过往经验,动态分块模块能够自然而然地将数据压缩至与BPE分词器相近的粒度(每块4.5至5字节),而且即便没有外部监督或采用启发式策略,也能定性识别出有意义的分界点。
实验及结果
在实验过程中,本研究所采纳的核心语言模型结构具体如下,其中MambaByte模型即采用了纯粹的Mamba-2层构建而成的同向性模型。
图3展示了在训练过程中,针对大型和小型模型规模,验证BPB指标的演变曲线。

图 3 展示了在训练全过程中,Large 和 XL 两种规模模型所呈现的验证 BPB 指标变化情况。
在较大规模上,本文注意到:
各类同向性模型在效能方面普遍不及分层架构的模型。具体来看,MambaByte 在这些模型中表现尤为突出,其性能显著超越了 LlamaByte。
SpaceByte 在性能上不及 SpaceByte++,这一发现证实了本文在对外部网络环境下应用 Mamba 的实际效果。同时,SpaceByte++ 的表现也劣于 H-Net(space),这进一步证明了本文所提出的改进信号传播技术的有效性。
H-Net(空间)模型功能强大,其性能与BPE Transformer相当,这一成果证明了数据依赖的分块策略以及精心设计的分层架构的有效性。
表 2 展示了不同模型在多个下游基准测试上的零样本准确率。
SpaceByte++、H-Net(space)以及H-Net(1-stage)在处理大规模数据时,其性能与BPE Transformer相当,而在XL规模的数据处理上,它们的表现略胜一筹。
表3对模型在HellaSwag数据集上的鲁棒性进行了评估。相较之下,H-Net(2-stage)模型展现出更为显著的鲁棒性提升。
图 4 展示了 H-Net(单阶段)与 H-Net(双阶段)在动态绘制边界时的图像。这些图像揭示了模型在确定边界时的关键认识。
即便采用了Llama3分词器,本研究揭示H-Net(两阶段模型)在中文及代码处理方面展现出更强的适应性(见图5),而且在其性能衰退期过后,其压缩比也显著低于BPE Transformer和H-Net(基于空格的分词模型)(见表4)。
先前的研究成果显示,在DNA序列的建模任务中,SSM模型相较于Transformer模型具有更佳的表现。具体来说,通过实验(如表5所示)的验证,我们可以看到,即便将Mamba-2作为核心网络,SSM模型的优势依然明显存在。
实际上,通过对训练稳定期困惑度曲线(见图 6)进行直接对比分析,本研究发现,即便数据量仅扩大至 3.6 倍,H-Net 模型依然能够展现出与各向同性模型相媲美的性能。这一结论对于两种不同的主网络架构选择均适用。
最终,Albert 亦创作了一系列引人入胜的博客文章,详细阐述了 H-Net 的背后故事以及独到见解。对此感兴趣的读者不妨前往一读。


Copyright C 2018All Rights Reserved 版权所有 丽水招聘网 鄂ICP备2025091810号-6
地址:丽水市经济开发区生态产园集聚区 EMAIL:
Powered by PHPYun.