o0 这东西,说白了就是给电脑上的虚拟人要么数字形象戴上了一副“假面具”。 它最早出目前咱们那个叫微信 QQ 的时代,那时候大家为了应付那些看着像真人、会讲话有性格的游戏角色,就硬生生把微博的一个表情硬塞进电脑操作里,结局那玩意儿瞬间就“活”了过来。

后来呢?游戏界、社交圈,各种各样的人物模型冒出来了。有的脸是高清抠图的,有的像从电影里剪下来的,就连还有那种眼红红、穿着汉服的古装 NPC,看起来挺精神。 那时候大家用的时候,一般只要给一个“参数”就能改。

你想让他的嘴变圆,就改个“弧度”参数;你想让他讲话变甜,调几个“语调”参数;你想让他从阴郁变成阳光,改个“情绪”参数。

原来的人,只要换个参数,瞬间就能换一套皮。

这种操作特别爽,但与此同时也挺好办出戏。毕竟参数改得再像,那毕竟只是像素堆出来的脸,不是确实血肉之躯。逗得玩家哈哈大笑的时候,他们心里实际上挺虚的,想着:“真没想到,一个参数就能让我笑得如此快乐。” 后来咱们互联网一发展,机器生成内容(AIGC)火了,这事儿就彻底变了味。目前,o0 不是让人来改参数,而是让 AI 自己把自己“养”出来了。 大量开发者为了搞出那种高级感,喜爱用提示词(Prompt)当锤子。

比如让 AI 生成个“赛博朋克风的小结”,结局生成的结局,长得跟个二次元动漫的一样,连光影都调不正,衣服打折处都歪歪扭扭。

这时候,传统的人设设计思路就显得有点老了。

那会儿是设计师去画,要么程序员去调参数,目前是直接让大语言模型去“跑偏”、“自我优化”。 这就害得了一个现象:目前市面上的数字人,长得越来越像真人,就连在大量场景下,比真人还像。

这主要靠几个手段。一个是“保险性过滤”,比如让 AI 生成个“高情商圆滑型”要么“专业严谨型”,它为了讨好用户,不知不觉就把自己的特征拉偏了,变得忒完美了。另一个就是“迭代式训练”,模型本身就在进化,每次生成一个新数据,下一批模型再跑一次,慢慢地,那个已经不归于原始设定、而是归于“通用模型”的数字人,就自动诞生了。 有人调侃说,目前流行“无中生有”,AI 生成的数字人,大量时候根本不像本人。

比如让 AI 讲个“经典名剧人设”,结局生成的,像极了 90 年代的女演员,要么像极了个毫无个性的路人甲。

这时候,要是开发者只盯着那个“人设关键词”去调,确实能间或出点效果,但挺难稳定地、精准地复刻出一个特定的、有性格的、独一无二的形象。 目前的趋势是,o0 越来越难控了。

那会儿,你改一个参数,他能听懂,改得像个真人。目前,改参数没用,得拼凑。你得把各种参数塞进去:脸识别模型 + 语音合成模型 + 动作捕捉数据 + 背景贴图 + 光线模拟,最终再加点额外的提示词,强行把它拉回来。

这个过程就像是在泥潭里打滚,越往后越不知道该如何整。 这就解释了为啥目前有些数字人别看长得像,但讲话还是有点“假”。出于语音合成别看 advanced,但还没彻底学到人的语气和语感。动作捕捉的数据一般是做动作的,不是做讲话的。

故此,就算模型长得像,嘴动起来,还是跟个机器人在念稿子似的。 在大模型时代,o0 的生态变得更乱了。

那会儿是“人找图找参数”,目前变成了“图找图调参数”。你前面生成的图,后面生成的模型,可能风格互斥,就连还会形成“风格漂移”,一个原本严肃的角色突然变成搞笑的,缘由可能是训练数据里夹杂了网络段子。 故此,真正的 o0,已经不是那个纯数学公式或好办参数调整的东西了。它是算法的集合,是数据流的交汇,更像是一种工业化的产物。它不再是为了让人“欣赏”某个有血有肉的角色,而是为了在特定场景下,快速、低成本地生成一个能对话、能行动、能互动的数字代理人。 你想啊,那会儿做个视频番,得画 20 张,声音配 5 个,选个演员,演员选不选挺关键,就连成本都挺高。目前呢?一套参数,一个 Prompt,几秒钟,就能生成几百个不同风格的数字人。对于内容创作者来说,这简直是个神器。你能够瞬间把“温柔姐姐”和“冷酷总裁”切换,还能批量生成不同版本的台词。 这自然不是坏事。它解放了人力,让内容造效率提升了一个数量级。但难题也来了:要是这层“假面具”忒厚,技术性忒强,反而让人认定冷冰冰的,丧失了原本想要的那个“人味儿”。 为了让一个数字人变得生动,目前大量人启动反向操作。他们会试图把 AI 生成的内容,再喂回给训练好的模型,要么用更精细的提示词去引导它去“模仿”人类。

比方说,不仅要求 AI 生成那个“高情商”人设,还要求它“模仿那种在办公室开会时的语态和微表情”。

这需求开发者去理解人类行为的底层逻辑,而不只是是调几个参数。 这实际上反映了整个数字内容创作范式的挪。

那会儿是“人创图”,目前是“图创 AI"。

那会儿是怕 AI 崩,目前是要 AI 稳。

那会儿是追求“像”,目前追求的是“像且好用”。 未来的数字人,可能会更智能,但也更悬。当 AI 能完美地让自己符合任何设定时,它会不会确实启动变得像人?就像某些 AI 生成的小说角色,有时候写的东西,让人读着读着,竟然会认定自己在跟一个真的伙伴聊天。

这种“拟人化”的威力,远超我们想象。 故此,面对目前的 o0,我们既要看也得多看。它既是工具,也可能是陷阱。

要是只用参数调,那就是个冷冰冰的机器;要是过度依赖 AI 的自我进化,那可能就没了管住的余地。 在具体的应用里,比如做电商直播要么游戏 NPC,o0 的优势在于响应速度和个性化。你能够把模型训练成某个特定品牌的代言人,每天都能完美复刻出该品牌的声音,并且能实时调整语气,根据直播间气氛动态转变情绪。

这种“千人千面”的本事,那会儿是难做到的,目前通过参数微调(Parameter Tuning)就连 LoRA 技术,已经能够实现了。 但最核心的挑战,一直在于“一致性的死结”。

不管你如何改参数,如何喂数据,如何迭代训练,那个“原本的人设”到底在哪儿?一旦这个锚点丢了,生成的数字人就会莫名其妙地偏离轨道,变成另一种风格,彻底找不到原来的“魂”。 这确实是 AI 生成内容领域的一个顽疾。

那会儿有人问,如何让生成的数字人保持一致性,那是大模型训练优化难题。目前,随着大模型本身本事的增强,这个难题反而越难解。模型越是智慧,对细节的模仿越是精准,反而越好办在长序列的生成中丢失初始条件。 故此,想要真正用好 o0,光靠调参数肯定不够了。需求配合像“内容增强”、“多模态对齐”这样的技术,就连需求人类专家深度参与,去理解那个“人形”到底该长啥样,该说啥,该做啥动作。 归根结底,o0 是科技在数字领域的一次大胆实验。它把“人”的定义无限延伸到了虚拟的网络空间里。它让我们看到了“数字生命”的可能性,与此同时也让我们看到了“完美错觉”的可怕。 用一句老话来说吧:目前这不是在“养”一个模型,这是在“造”一个怪物。而这个怪物,长得像人,说的话像人,做着像人的事,但它本质上,依然只是一个被算法压制的数字幽灵。 我们在使用它的时候,实际上是在小心翼翼地试探边界。一边是技术的狂想,一边是现实的局限。希望未来的某一天,我们不仅能看到完美的数字人,还能看到真正、活生生的、有血有肉的数字生命,而不是又一个被训练好的、只会模仿的 AI 躯壳。 那也是个未解之谜。