你跟AI说,给我画个没猴子的房间。你猜怎么着?它八成得给你画只猴子进去。
这事儿听起来像个段子,但却戳到了如今人工智能一个相当尴尬的痛点上。我们总觉得AI无所不能,上知天文下知地理,写诗作曲不在话下,怎么就在别画猴子这么个简单要求上栽了跟头?这就好比你让一个学霸算微积分他眼睛都不眨,你让他别想大象,他脑子里立马就蹦出一头粉色的大象。
这背后的逻辑,跟我们人类的思维方式可以说是南辕北辙。当我们听到没有猴子的房间时,我们的大脑其实是分两步走的。第一步,先调出一个有猴子的房间的画面,这是一个我们很熟悉的概念。第二步,也是最关键的一步,就是执行排除指令,把那只猴子从画面里拿走,最后剩下干净的房间。这是一个先建立再否定的过程。
AI不这么玩。在它庞大的数据库里,猴子和房间这两个词,因为无数图片和文本的关联,被绑得死死的。你下达指令时,它同时激活了房间和猴子这两个关键词。而那个至关重要的没有,在它的理解里,不是一个绝对的删除指令,更像是一个降低概率的建议。它会想:哦,用户想要一个猴子出现概率很低的房间。但概率再低,它也不是零啊。于是,为了保险起见,一只若隐若现、或者干脆明目张胆的猴子,就这么诞生了。它不是不听话,是它根本理解不了什么叫真正的不存在。
这种思维上的错位,在其他地方也一样暴露无遗。比如,你让它画一个人的手。这东西我们天天看,五根手指头,再简单不过。可AI画出来的手,时常会让你怀疑人生,六根指头是常态,七八根也别惊讶。它会对着数据库里成千上万张手的图片进行学习,但它的学习方式是像素级别的。它知道手大概长什么样,有几个分叉,但它没有人有五根手指这个牢不可破的生理学常识。在它的像素世界里,多一根少一根,对整体画面的正确性影响,可能还不如光影画错来得严重。所以它会在一个它认为差不多的范围内随机组合,结果就是各种光怪陆离的六指琴魔。你跟它掰扯,它还会一本正经地告诉你,根据它的数据分析,这只手非常完美。
更有意思的是文字。对于我们来说,懿这个字,虽然复杂,但它是一个整体,有它的结构和意义。但对于图像生成AI,这玩意儿就是一堆极其复杂的像素点集合。少一个点,多一条线,整个字的感觉就全变了。AI在处理这种高密度信息时,特别容易糊掉,最后给你一团无法辨识的乱码。它能理解文字这个概念,却无法精准复刻构成这个概念的每一个像素。
最能体现AI与人类视觉差异的,可能就是那些视错觉图片了。一张我们一眼就能看出藏着一颗爱心的图案,AI却完全看不出来。它可能会告诉你这里有红色和蓝色的斑点,甚至分析出像素的分布规律,但就是看不到那个由动态视觉和大脑补完功能共同创造出来的爱心。这是因为它看世界的方式,就像是抽帧看照片。它能以极高的清晰度分析每一帧静态画面里的所有信息,但它无法将这些静止的画面,在我们大脑里那样,连贯成一个流动的、充满动态变化的世界。我们看到的潺潺流水,在它眼里,就是无数张水面的高清照片而已。
聊到这,是不是觉得有点毛骨悚t然?我们创造出的这个聪明的工具,它在模仿我们的行为,学习我们的知识,甚至试图理解我们的情感。但它通往智能的路径,与我们生命演化几百万年走出来的路,截然不同。它没有我们的常识体系,缺乏我们那种举一反三、排除否定的推理能力,更不懂我们视觉和感官上的骗局。
它正在以一种我们无法完全理解的方式飞速进化。今天它还画不好的手,数不清的指头,可能明天就已经修复了。可这种修复,是基于更庞大的数据和更优化的算法,而不是因为它真的理解了为什么人是五根手指。
这就引出了一个终极问题,如果有一天,AI进化到可以完美隐藏这些漏洞,当一个东西越来越像我们,却在最根本的地方与我们背道而驰时,我们又该如何分辨呢?这或许才是最值得思考的地方。