“Token”有了中文名“词元”,那么Token(词元)到底是什么
2026-05-22 09:01:08
  • 0
  • 0
  • 0

来源:上观新闻

作者:王坚

在不久前举行的中国发展高层论坛年会上,国家数据局局长刘烈宏给一个人工智能领域的核心概念Token赋予了中文名——词元。那么,Token(词元)到底是什么?人工智能和数据产业的未来会怎样?请听中国工程院院士王坚在央视财经频道“中国经济大讲堂”上的解读。

『大模型处理文本的最小单元』

人类发展的速度非常快,之前是信息时代,很快又进入了AI时代。可是,在很长时间里,我们并没有把信息和数据进行很好的区分。我们过去讲的比特、字节都是信息的计量单位,在很长时间里我们也用这些计量单位来计算数据。而Token(词元)这一概念的出现,使数据有了明确的计量单位。这是把数据和信息区分开来的一个非常重要的分水岭。

Token(词元)是大模型理解、处理、生成信息的最小单元。打个比方,在过去的信息领域,一般情况下我们是用两个字节表达一个汉字,所以,如果要表达“我喜欢你”,加起来就是8个字节。而在AI模型中,如何把“我喜欢你”这4个字拆成最小的数据单元呢?按照我们的理解,“我”是一个最小的单元,“喜欢”是一个最小的单元,“你”是一个最小的单元。但是从Token的角度来看并不是这样,“我喜欢”可能是一个最小的单元,那么“我喜欢你”就变成了两个Token。在很多场景中,它跟我们平时的经验是不一致的。所以,Token(词元)是以它自己的方式组合、供模型处理信息的最小基础单元,它更像是一个“词块”,可以是一个完整的词、一个常见短语,甚至是一个标点符号或特殊字符。

同时,Token(词元)也是AI领域的计量单位。用通俗的话来说,Token(词元)这个概念像我们平时讲的斤、两之类的计量单位。而且,就像生活中一斤肉比一斤青菜贵一样,不同的Token(词元)也有不同的价值。如果一种Token(词元)背后消耗的资源比较多、生成比较复杂,那么它本身就比较有价值,可能这种Token(词元)就会贵一些。所以,Token(词元)不能简单地等同于货币,它是数据的通用计量单位。

Token(词元)在人工智能领域被大家所认识,是因为2017年发表的一篇文章《你所需要的只是注意力》。这篇文章由谷歌的8位科学家创作,其中提出的Transformer架构成为人工智能模型的基石,同时也提出了Token(词元)这个概念。Token(词元)的出现,意味着数据有了自己的“人格”,数据有了自己独立的身份。也就是说,任何数据如果没有Token(词元)的身份,就进不了人工智能模型。

我们平时使用的普通的数据,也称为原始数据。人工智能模型使用原始数据之前,首先必须把所有的数据Token(词元)化。我们可以把模型理解成一个“文字翻译器”,但它并不像人类那样直接理解句子或段落,它必须先将输入的文字切分成一个个小块,然后给每个小块分配一个唯一的数字ID,再把这些数字交给神经网络进行计算。这些被切分出来的“小块”,就是Token(词元)。它既不是英文里的单词,也不是中文里的字,它是以它自己的方式组合的最小单元。

人工智能模型的运行逻辑,就是找到不同Token(词元)之间的关系。试想一下,要训练一个大语言模型,可能要用上亿个Token(词元),所以就要找准它们之间的关系,并且很好地在模型中表达出来。当大模型与某个应用结合时,比如你向大模型提问,它就会在算力“算”完后输出相应的Token(词元)作为答案。

总之,Token(词元)是大模型处理文本的最小单元,它综合反映了数据的价值以及模型的好坏、算力的多少,所以,Token(词元)是AI系统运行的核心。

『标志着数据要素市场的开启』

在人工智能大模型领域,Token(词元)是衡量算力与成本的计量单位,因此它具有可计量、可定价、可交易的特征。

在Token(词元)出现之前,数据的价值很难界定。但随着人工智能的发展,原始数据变成了Token(词元),Token(词元)通过大模型以一定的方式进行流通,并向那些应用人工智能的消费者收取一定的费用。可以说,Token(词元)使数据本身完成了华丽转型。

如果没有基本的计量单位,是不可能形成一个新兴产业的。打个比方,你跑到菜市场去买菜,如果没有计量单位,称不出几斤几两,这个菜市场就不成立。卖鱼的、卖肉的、卖鸡鸭的都没有统一的计量单位,那是难以形成一定的经济规模的。这也是过去数据要素市场一直没有建立起来的主要原因。

因此,Token(词元)的出现,事实上标志着数据要素市场的开启。这是一件具有深远意义的事情。我们知道,一个东西在市场上流通时,它会经过很多人的手,每次过手的时候,它都要做一次结算。有了Token(词元)这么一个可计量、可计价的单位,就意味着所有的数据在流通过程中可以自动结算,这将使产业链的成本大大降低,流通速度大大加快,并成为人工智能产业商业化的重要路径。将来,当一个企业为另一个企业生产Token(词元)时,它们在网络上可以轻松完成交易,因此,数据要素市场将比其他要素市场更加高效。

没有任何一家企业是可以不和生产要素市场打交道的。所以,我们一定要把Token(词元)放到数据要素市场的背景下,而不是简单地放到人工智能的背景下去理解。

我认为,新的数据要素市场的出现,对创新型企业、中小企业、初创企业可能会更加友好。因为,大多数传统企业会更多享受传统要素市场的好处,而对新的数据要素市场可能会有一定的惰性。所以,这是企业创新发展的一个最好的时机。

从数据要素市场的角度来说,它还将有利于数据和算力的全球流通。比如,你今天拿着手机到南美一个地方应用了AI,这就意味着Token(词元)从中国到了南美。如果一个南美的开发者用中国的模型开发了应用,并向南美消费者提供服务的话,自然而然Token(词元)就流通到了南美。所以,当人工智能平台服务全球的时候,Token(词元)就变成了一种结算方式。

此前,很多人对人工智能的关注大多停留在大模型的技术竞速上,而Token(词元)的价值显现正在把一场深层的产业变革带到所有人的面前,它不仅反映在技术层面,更将重构整个行业、整个产业的成本结构、商业模式和协作方式,继而全面影响人们的生活。

『“小龙虾”突然爆火的背后』

2026年1月底,一款名为Open Claw(昵称“小龙虾”)的开源AI智能体突然爆火,从技术圈迅速席卷全网,开启了全民“养虾”时代。这款以卡通小龙虾为Logo的智能体,彻底打破了传统AI只会聊天、不会干活的局限,凭借感知、决策、执行的闭环能力和24小时自主运行,成为能够接收指令、调用工具、读写文件、执行脚本的全功能数字助手。

但是,真正用过“小龙虾”的开发者和用户都知道一个痛点:Token(词元)消耗太猛了。一个看似简单的查询,就能消耗几十万Token(词元),从而让消费者收到超出想象的高额账单。

其实,在过去几年,人工智能的背后已经有Token(词元)的概念了。人们使用豆包或千问时,你问一句,它答一句,Token(词元)的消费量没那么大,也就是说算力的消费量没那么大,所以公众可以免费使用豆包或千问。

但是,像“小龙虾”之类的应用,意味着人工智能发展到了一定水平,它对数据的需求大大增加。为什么这次“小龙虾”的出现会引爆Token(词元)这个概念呢?因为“小龙虾”的Token(词元)消耗不是按需触发,而是持续产生的,所以其消费的Token(词元)量大大超出了原来那些人工智能的应用,从而导致使用者需要为消耗的巨量Token(词元)支付账单。“小龙虾”在本质上与其他的人工智能应用相比,由于Token(词元)调用量特别大,才使这个问题暴露出来。

无独有偶,2026年3月25日,美国人工智能公司OpenAI宣布终止旗下AI视频生成模型Sora所有的服务与运营。事实上,自2024年2月首次亮相以来,Sora在约25个月的运营时间里,应用程序的总收入仅约210万美元。而据福布斯测算,Sora项目年化运营成本高达50多亿美元。每日数亿级的Token(词元)消耗,让即使获得了大量投资的OpenAI仍感不堪重负,只能忍痛将其关停。像Sora这样的事件,正是因为生成视频需要耗费比大家想象多得多的Token(词元),结果,耗费那么多Token(词元)生成的视频的价值还抵不过Token(词元)本身的价值,所以商业逻辑无法成立。

AI大模型出现以后,大家一直有这样一个困惑的问题:到底用什么形式、什么方法来使用人工智能模型呢?这在过去是一个问题。而“小龙虾”的出现,说明人工智能有它自己独特的应用方式。比如,“小龙虾”把过去App的概念颠覆了,使用人工智能应用不需要再去装一个个App。一个“小龙虾”实际上做了过去十几个、二十几个App做的事情。可以说,“小龙虾”的形态和构建方式与人工智能是相匹配的。

随着“小龙虾”从小众工具成为大众应用,国家互联网应急中心与中国网络空间安全协会于2026年3月发布了《Open Claw安全使用实践指南》,面向普通用户、企业用户、云服务商以及技术开发者等提出安全防护建议,为这一新兴生态系上“安全带”。

『Token爆发式增长意味着什么』

国家数据局局长刘烈宏在今年3月24日国务院新闻办举行的新闻发布会上公布了一组令人震惊的数据:2024年初,中国日均Token(词元)调用量为1000亿,至2025年底该数据跃升至100万亿,到今年3月已经突破140万亿。两年间,增长超过1000倍。

Token(词元)的爆发式增长意味着什么?

首先,意味着人工智能应用本身发生了质的变化。

在软件时代,一个软件有多少行代码,基本上代表了这个软件的复杂度,也就是它的价值。今天,当我们用AI模型的时候,Token(词元)就会产生流通,这个流通既显示出原来训练模型时所消耗的算力,同时也显示出其本身运行需要消耗的算力。所以,Token(词元)的消费量激增,代表人工智能应用发展到了一个新的水平。

拿电来打比方。早期的时候,家里只有一个电灯,只用一点点电,后来有了冰箱、洗衣机、空调,用电量大增,这代表了生活水平的提高,也说明电对社会生活和经济的影响。Token(词元)的爆发式增长也是一样,这是一个非常可喜的巨大变化。所以说,Token(词元)的消耗量是人工智能时代的标尺。

其次,意味着人工智能在中国的发展到了一个非常重要的拐点。在国内,开发、使用人工智能的人越来越多,每个人使用的量也越来越多。日均Token(词元)调用量的大量增加,充分表明中国的人工智能发展已经进入了快速增长的阶段。从能对话的语言大模型到能决策执行的智能体,随着应用场景的不断深化,中国人工智能产业的竞争力也显著增强。

另外,需要指出的是,Token(词元)的爆发式增长是需要强大的物质基础来支撑的,因此,单个Token(词元)的成本一定要降低。大家设想一下,如果用电成本不降到足够低的话,老百姓是不可能普遍使用空调的。而单位Token(词元)成本的降低,除了进一步提升人工智能技术、算力技术外,还需要不断改进人工智能模型的应用。这就像早年我们用白炽灯,大部分的电都被热量消耗掉了,所以现在我们普遍使用节能灯。我相信未来的人工智能应用也会不断改进,尽量控制Token(词元)的消费量,这是一个不断迭代、不断发展的过程。

『一种新经济模式可能会出现』

在信息时代,软件在很长一段时间里不知道怎么才能挣钱。在微软公司出现之前,软件只是硬件的附庸,所以软件产业一直没有发展起来,直到微软公司成为第一家挣钱的软件企业。所以今天,我们不能用静态的方式来看待人工智能,因为这是一个变革性的产业,就像当年软件产业突然诞生并迅速发展那样,可能人工智能产业的发展也会出现这样的局面。

我认为,人工智能的变革将远远超出之前所有技术带来的变革,这可能是自人类发明电以来最大的一次变革。大家想一下,自从发明电以后,产生了多少产业,产生了多少不同的工业门类,人工智能也会有那么大的能量。

以“小龙虾”为例,它本质上使我们的工作方式发生了一次很大的改变。以前我们经常讲,要提高工作效率或者改变工作方式,而以“小龙虾”为代表的智能体的出现,甚至改变了工作本身,几乎每一项工作都会面临大的变化。

这里需要强调的是,“智能体”这个词的翻译不太准确,其实它原本的意思是“代理”,翻译成“智能代理”应该更合适。从这个角度来看,将来会出现各种各样不同的“智能代理”,比如“旅行代理”“看病代理”等,可以帮助我们解决生活中方方面面的问题。

设想一下,我们的工作有多少分工,将来就会出现多少不同形式的工作代理。“小龙虾”只是其中的一种代理而已。但是有意思的是,“小龙虾”完成的一部分工作是以前没有人做过的。如果你用过“小龙虾”就会发现,以前没有人会把自己所有硬盘上的东西都看一遍,把自己几十年的照片都看一遍,但“小龙虾”可以做到,只要它觉得这件事跟工作是有关系的。所以我认为,将来“智能代理”会完成一些没有人做过的工作。这样的话,一种新的经济模式可能会出现。

总而言之,Token(词元)在人工智能时代是一个非常关键的概念,它与技术、商业、应用以及产业发展都息息相关。希望大家能够了解Token(词元),用好我们手里非常宝贵的资源——数据资源。

 
最新文章
相关阅读