
开头:商场资讯实盘配资平台查询
(开头:大象新闻)
本日金价,一克1000.06元;
95号汽油,每升8块5毛7;
电费是路线计价,家庭用电最多每千瓦时8毛9;
克、升、千瓦时实盘配资平台查询——单元一朝详情,便不错被标注价钱,而价钱决定了消费,也潜移暗化地塑造着每个东谈主的生计。大大量时候,咱们并不关注这些单元自身,只须它们鼓胀康健,康健到不错比拟、不错结算,它们就会肃静荫藏我方,了债到缴费单和购物小票背后。
但面前,一种全新的、生分的计量单元,正浮出水面,走入更多东谈主的生计。
它叫Token。
如若你最近玩过、外传过,致使我方试着调用过多样 AI 助手或“智能体”(比如近期流行起来的 Openclaw “小龙虾”),那么你应该照旧和它打过照面了。你与 AI 的每一次对话,不论是让它回答一个问题、写一封邮件,如故转头一篇论文,后台阿谁肃静高出的计价数字,单元便是Token。
张开剩余91%Token,便是AI天下的“克”“升”和“千瓦时”。
Token到底在计量什么?
在OpenAI的官方页面上,用一句话浅薄地抽象了Token:Token是天然话语的数学暗示。
在汉文里,Token常被翻译为“词元”,你不错将它贯通成为大模子用来处理天然话语的基本单元,或大模子处理信息的最小信息单元。一段话、一个问题在插足 AI 模子被计较机处理前,最初要被“分词器(Tokenizer)”拆分红一个个Token。
一个Token可能是一个标点、一个汉字、一个英文单词,或者一个常见的词组——这取决于不同 AI 模子分词器的规画。比如“一又友买了西瓜手机!”可能被拆为“一又友”“买”“了”“西瓜”“手机”“!”,“Transformer”可能被拆成“Trans”“former”。
这些被拆分好的Token,对于你我来说是挑升想的翰墨,但对于大模子而言,它并不料志,更不睬解。为了让AI“贯通”,大模子会先给每个Token分派一个数字编号,然后将这个编号转机为一组数字坐标(向量)。这个坐标决定了AI怎样“贯通”这个词。
更垂死的是,AI理免除何一个词,齐要看它和其他词的联系。比如“西瓜”这个词,AI在教训中既见过它和“手机”“汽车”“公司”“发布会”悉数出现,也见过它和“吃”“食品”“厚味”悉数出现。当AI看到“西瓜手机”这个组合时,它领悟过“汽车”这个词的坐标,来改革“西瓜”在现时这句话里的含义——让它的坐标更接近“品牌”,远隔“食品”。
AI的悉数“想考”经过,便是计较一整句话里悉数Token坐标之间的复杂联系。它不会死记硬背“小米=品牌”或“小米=食品”,而是笔据高下文动态计较。
图源:用AI生成的
聊到这里,你还会以为,Token的虚耗便是你输入和输出的字数浅薄相加吗?接下来,咱们通过一次往常对话,望望Token到底是怎样被虚耗掉的。
咱们让AI写一封信给十年后的我方:
图片开头:我方截取的
提醒输入十几个字,AI恢复四五百字,看起来不外几百个Token,但事实上虚耗的Token远不啻屏幕上那几行字:
系统预设提醒(System Prompt):在你启齿之前,AI照旧被输入了一段看不见的提醒,被用来法例和你聊天的AI的身份,口吻,恢复用词特征和安全领域。好多东谈主会嗅觉不同公司的AI产物有不同的脾性特征,机密就在这里。这段提醒不会泄漏在对话中,然而也参与了模子的计较,会虚耗掉一部分Token。
对话的历史高下文(Context):如若你不是第一次发问,模子往往就需要斟酌之前的高下文信息,才能知谈悉数对话在聊什么,保证对话的运筹帷幄性。是以之前的发问与它之前的回答,齐会插足最新这轮对话的计较。也便是说,对话越长,对话的轮次越多,最新的单轮肯求虚耗的Token也就越多。
想考经过(Reasoning):这是更瞒哄的虚耗,好多具备深度推理形态的模子,在回答之前,它会进行一轮里面计较去比拟推演不同的回答,最终将它以为最优的回答呈现出来。这些不展示出来的“想考范例”,相似虚耗资源。
总之,Token计量的,并不仅仅你看到AI模子给出的谜底,而是生成这个谜底所需的全部计较资源。而插足以Openclaw为代表的agent场景,这种Token的虚耗会被指数级扩大。
比如让一只小龙虾替你干活,把“帮我整理一下文献夹”这句话甩给它之后,它可能需要先读懂这个条目,然后拆解成十几个子任务,每个子任务永别调用一次AI,每次调用齐带着完整的系统提醒和高下文,必要的时候还要反复检查有莫得作念对,是否需要修正。
这背后可能是几十轮对话、几万个 Token 的连锁虚耗,这亦然它看起来只干了点往常的活,但却特殊虚耗 Token 的原因。
为什么“输出Token”
比“输入Token”贵6倍?
对于Token的价钱,好多东谈主可能没什么感知,毕竟不论和哪个AI聊天,对话Token的虚耗齐打包在了免费额度或者订阅制里,很难径直感受到。
咱们以OpenAI为例,来征询一下它的价钱表:
不错看出,模子越雄伟,Token越贵,从Nano到范例版,每百万Token价钱差距高达十倍。这很容易贯通:参数领域越大、模子才智越强,越能科罚越复杂问题的模子,Token的价钱天然越贵。
而对比起不同公司,同为面前顶级的AI模子,每百万TokenGPT-5.4 的报价是15好意思元,Claude Opus 4.6 是25好意思元,Gemini 3.1 Pro的报价则笔据prompt长度不同列出了12好意思元和18好意思元两个价钱。差距依然存在,这里的订价政策就比拟复杂了,公司的定位与生意形态,模子的资本、受众、才智齐会有所影响。
这些道理齐很容易贯通,但确实的谜题还不是这个。仔细望望,团结个模子的“输入Token”和“输出 Token”居然也存在6倍的订价差距,这是何如回事?
输入(prefill)的时候,AI 要贯通你的全部问题,每个词齐要和其他悉数词作念有关计较(即“自注见识机制”,计较量会跟着文本长度的增多急剧增长);而输出(decode)时,模子照旧将输入的内容分析计较完毕,只需要把甘休一个字一个字“吐”出来即可,似乎应该更马虎才对。
其实,谜底并不在计较量,而在计较着力上。
处理输入时,悉数的Token齐是同期送入处理器的,层见迭出个计较中枢并走时行,这是大领域的矩阵乘矩阵运算,GPU蓝本便是为了这种大领域并行计较而规画的。是以在应酬这类任务时,计较着力极高,致使不错说在允许范围内,Token输入越长,越容易让GPU的计较中枢接近满载责任景况。
但输出的时候,情况天悬地隔了。模子必须一个Token 一个Token生成回答,每一个齐需要依赖上一个生成的甘休,无法并行张开。每次生成,模子齐需要从显存中读取一次参数,同期团结照旧生成的高下文进行计较,全体更接近矩阵乘向量的运算。
这个经过的瓶颈取决于内存带宽,也便是说,GPU绝大大量时代莫得在计较,而是在恭候数据从显存被传过来,确实作念计较的时代占比仅有1%~5%,计较着力骤降。
用更准确的话说,处理输入是计较密集型(compute-intensive)责任,GPU在作念它最擅长的事,生成输出是内存带宽密集型(memory-bound)责任,GPU的计较中枢大部分时代在空转等数据。
是以,输出Token的腾贵价钱,本色上是在为一块每小时房钱几好意思元的芯片,以不到百分之一的着力运转而被动恭候的时长付费。
这也便是为什么即使是团结种模子,输出Token的价钱会比输入Token贵那么多,这是算力和内存带宽之间树大根深的分歧称不匹配。
GPU的计较才智在迅速增长,然而显存的传输速率却跟不上,这种矛盾由来已久。它源于冯·诺依曼架构上钩算与存储分离带来的瓶颈问题,而险些悉数当代计较机齐没能绝对绕开它。
算力每一代翻倍,内存带宽的进步速率大致独一它的一半,这意味着每一代新芯片出来,处理输入会变得更快更低廉,但生成输出的改善幅度要小得多。
业界天然有在试图缓解这个问题。举例投契采样(Speculative Decoding)让一个小模子先快速猜出几个词,再让大模子一次性考证,把串行计较的一部分酿成并行计较。又或者 MoE 架构让每个Token只激活一小部分参数,减少每次需要搬运的数据量。
这些时代齐在缓解症状,但莫得一种能根治病因,只须计较和存储如故物理上分开的两个东西,数据搬运的瓶颈就会一直存在。这也便是为什么Groq、Cerebras、Etched这些推理芯片创业公司,本色上齐在赌我方能绕开这个七十多年前的规画遗产。
Token价钱到底由什么决定?
为什么近几年一直暴跌?
在聊这个问题之前,咱们要先理明晰Token的资本由什么决定。
咱们不错用一个浅薄的想路来分析,以面前数据中心主流使用的Nvidia H100 为例,云租出的价钱大致在每小时2.5~3.5好意思元之间。这笔钱里,电费的花销占10%~20%,水冷、网罗、运维这些加在悉数也莫得若干,大头如故在芯片自身的采购资本、硬件折旧以及做事商的利润上。
一度电能产出若干Token,和电自身的联系不大,主要取决于这度电供给了什么芯片、跑的是什么架构、优化作念到了什么进程。相似一度电,喂给一块在处理输入时满载运行的GPU,和一块在生成输出时空转百分之九十九的GPU,处理的Token数就不错差出数目级。
是以当咱们问“Token的价钱由什么决定”时,最准确的回答是:由一块芯片在单元时代内能处理若干 Token 决定。
问题来了:既然Token的价钱不是被某一个要素单独决定的,而是由芯片物理结构、动力资本、模子架构致使是商场竞争共同作用的甘休。那它的价钱按说应该相对康健,毕竟电费不会一年跌十倍,芯片也不会每个季度降价一半。
那么,为什么这几年Token的价钱在暴跌?
2023岁首,要达到GPT-4 水平的性能,每百万Token大致要20好意思元。到2026年,同等性能照旧降到了 0.4好意思元近邻,五十倍的差距是何如来的?
这并非来自某一项时代的冲突,而是几个要素在同期影响,其影响甘休是以乘法体现的。
最初是硬件在更新换代,GPU更快更低廉了,H100的云租出价钱也从2023年峰值的接近8好意思元/小时降到了2.5~3.5好意思元。
然后是软件的优化,运筹帷幄批处理和 PagedAttention 这类阅兵,提高了 KV cache 的运用率和并发才智,在适合的负载下,隐隐擢升可达数倍。
接下来,模子架构也在变聪惠,搀杂各人架构(MoE)让模子无谓为处理每个 Token 动用悉数参数,这一项又能将推理资本显耀裁减。
单独每一项看齐不算太惊东谈主,乘起来恶果就很较着,硬件一层、系妥洽层、架构一层,再加上开源带来的价钱竞争,推理资本就被一层层压了下去。
同期,模子自身在用更少的参数作念到更多的事。往时的模子经常依赖连接扩大参数领域来擢升才智,但近两年,更大量据、更好的教训次第以及更纯熟的架构规画,使得较小领域的模子也能面临致使在部分任务上卓越上一代更大的模子。
这意味着,相似的才智不再需要相似领域的计较资源。模子变小,带来的不仅是显存占用着落,更垂死的是每一步推理所需的数据搬运和计较支拨齐随之裁减了。
是以Token低廉了。
低廉了若干?
大致不错拿咱们更熟悉的手机流量来对比。从 2014 年到面前,中国的手机流量价钱降了几十倍致使几百倍。固然群众的话费账单差距不大,但流量低廉后催生的各色使用样貌,网罗应用、短视频、手机游戏,照旧十足改变了咱们的生计。
尽管 Token 并不算一个无缺的计量单元,价钱细节繁复,变化太多,大大量用户对它无比生分,但它也应该也会和流量走上团结条路,可能速率更快,可能带来的变化更大。
克、升、千瓦时,从面前运转,你大致需要多意志一个计量单元——Token。
发布于:北京市实盘配资平台排名_股票配资参考信息提示:本文来自互联网,不代表本网站观点。