Token为什么叫“词元”

  • 打印
  • 收藏
收藏成功

3月25日,全国科学技术名词审定委员会发布公告,将人工智能领域Token的中文名定为“词元”。

在语言模型中,Token是文本经过切分或字节级编码后得到的最小离散单元。在“词元”这一定名中,“词”点明其在语言场景下的根源,体现出Token与表达对象语义的密切关联;“元”传达出“基本单元”之意。“词元”能清晰表达“作为语言基本语义单元”的本质,更贴合其在人工智能中的初始角色。(剩余0字)

monitor