Gemini 3初体验：告别AI味，不废话不讨好！但这价格让我手抖……

2025-11-20 -

谷歌 3终于在凌晨正式揭幕。

在背负了一整年，那种被质疑为“起大早赶晚集”的情况之后，到了周二，谷歌正式发布了它的年度重磅模型 3 。和以往那种小修小补样式的迭代不一样，此次更新被看成是谷歌针对某种事物，进行的最为猛烈的一回反击。依据知情人士所透露的内容表明， 3 的发布甚至在特定范围内部引发了颇为不小的“焦虑”，竞争对手的员工们在私底下进行推测，要是谷歌在自动编程以及图像生成方面达成超越，他们所拥有的先发优势或许将会完全消失不见。

从事投资工作的机构里担任首席市场策略师一职的米克·奥罗克（Mike O’），很直接并且敏锐深刻地作出这样的表示：“依靠谷歌在搜索这个领域所具有的巨大规模数量以及率先开展业务从而获得的领先优势，它有着极大的可能性去重新获取市场份额，进而使得处于其背后并且与之相关的微软公司陷入到一种不主动的状况之中。”。

谷歌把3直接植入到有着数十亿用户的搜索框之际，这种分发能力具备毁灭性的打击力量。相反看看，尽管当前依旧占据流量霸主地位，然而面对甲骨文以及微软给出的资费高昂的算力账单来讲，其商业模式所存在的用以接纳错误、失误的空间远远赶不上谷歌。

硬核亮点：不只更聪明，还能“生成界面”

3所具备的核心技术亮点，大概能够归纳成为一点，那就是尝试去突破文本对话框的限定范围。

——生成式UI ( UI)：

这是此次更新最为突出的亮点，以往你向AI询问旅游攻略，它仅仅给你文字内容，如今能够直接生成一个交互式界面，当你去查询某一个历史或者艺术方面的问题时，它能够对图形与文本进行混合，甚至能够实时构建成微型应用程序，这并非只是在回答问题，而是在“生成体验” 。

——编程工具：

这乃是谷歌专门针对开发者领域所投放的，一枚极具重磅性质的炸弹。此“智能体优先”的编码环境，具备可让AI自行完成软件编写的能力，还能够让AI完成软件测试，并且能让AI完成软件部署的操作。

——告别“马屁精”：

谷歌特地着重表明，3削减了“阿谀奉承（）”。当下遵循的原则是“告知你真的情况，并非你期望听到的话语。”这表明3在遭遇错误前提之际，会具备更强的批判性思维，并非仅仅一味地迎合用户。

——准确率和智能度提升：

谷歌宣称，3是它最为智能的模型，该模型能够助力用户把任何想法转变为现实。于标准基准测试里，3的信息准确率达成了72%。尽管此数字在绝对值方面看上去并不高，然而在生成式AI领域毫无疑问是稳居前列的。

大V亲测：三年练成“博士级”智能

沃顿商学院的教授，AI领域的意见领袖伊桑·莫利克（Ethan ），才刚刚针对3开展了一回深度测评。

此次，他未去堆砌枯燥的基准测试分数，而是借由一次跨越三年的对比测试，展现出AI令人惊叹的进化速度：那个往昔仅是会陪你聊天的AI，如今已然变成了能够独立干活的“数字同事”。

——从“描述”到“创造”

那么，在三年之前发布还未开始的时候即发布前夕，莫利克曾经给早期的GPT - 3输入端了一个荒谬的提示词，这个提示词就是描述为写一个关于糖果驱动的超光速飞船躲避逃离水獭的故事，在那个时候，AI仅仅是能够勉强写出一段连贯的文字或者一首水平不怎么高的蹩脚诗。

今日，面对相同的提示词，莫利克针对3给出了更高的需求，什么需求呢，就是“借助实际行动呈现出AI进步了多少” 。

结果， 3进行了编写，进而生成了一个网页游戏，这个网页游戏具备可交互的特性，还能够试玩。在这个游戏当中，你需要真正去驾驶那艘糖果飞船，以此来躲避水獭的追击。

莫利克发出感叹，称2022年的AI仅仅能够做到描述；当到了2025年呢，AI已然能够去编写引擎代码了，还能够设计界面，并且能让你亲自去驾驶飞船。

——全能助手

随3一块儿发布的，还有开发工具，好多人觉得这仅仅是供程序员使用的，然而在莫利克眼里，这更像是一个通用的“智能体工作台”。

他所秉持的核心理念关键在于，于计算机之上所开展的任何行为，从本质层面来讲皆是代码。鉴于人工智能能够处理代码，所以只要是代码相关的任何事务它都能够予以完成，不管是对Excel进行处理，亦或是制作PPT，又或者是对本地文件加以分析，它都可以做到。

莫利克将电脑里，那个存放着过往所有文章的文件夹权限，全都交给了，并且下达指令：“帮我把所有关于AI的预测，整理成一个漂亮页面，并且上网搜索，验证哪些我说对了，哪些说错了。”。

3的表现像极了一位靠谱的员工：

它把那文件予以读取，从而去制定相应计划，并且呢，还会于计划生成之后的关键节点处停顿下来，等着莫利克给予批准，在获得批准之后呀，它自行上网去搜索，接着编写代码，而后生成网页，甚至能够控制浏览器来进行测试。

原先那种依靠复杂提示词来“引导”对话的方式已有所改变，现在莫利克与AI的交互方式呈现出本质不同，变成了运用自然语言去“指挥”队友干活，而这种可控感以及理解力是朝着智能体时代迈进的要害一步。

——写出“博士级”论文

莫利克为了测试3的智能极限，祭出了终极考验，那是一套旧科研文件，十年前的，格式混乱，甚至包含损坏数据。

他所给出的指令并非清晰明确，而是十分含混模糊，这与导师针对博士生所提出的要求存在相似之处，其所涉要求包括“将这些数据结构梳理清晰”，以及“撰写一篇具备原创性的论文，且要有深入程度的理论方面的探讨，要如同向学术期刊进行投稿时那样来撰写”。

那么，结果3呢，它先是修复了数据，接着提出了原创的研究假设，随后自己编写了一套，用于衡量众筹项目“独特性”指标的自然语言处理，也就是NLP算法，并且完成了统计分析，最终，它交出了一篇厚度达14页的论文。

的确有着那般情况，3存在着并非尽善尽美的局部之处。恰似一位刚刚开启博士学习进程的学士的那种状态，它的某些用于计算统计的方式方法需要予以修正，某些依据原理进行的推导显得稍微有些激进。然而在莫利克给出了可供修改的相关意见之后，它能够快速地领会其中所表达的意思并且做出大幅度的改进。

莫利克进行了总结，表示，要是我们把“博士级智力”界定为能够如同合格的研究生那般去开展工作，那么它确实是达成了这一点。

风评炸锅： 3“真香”？

——数据派：智商爆表，但是“昂贵话痨”

权威评测机构给出的结论喜忧参半，但总体偏向乐观：

具有超乎寻常的智力表现：于智能指数这个测试当中，3 Pro取得了73分这样的高分数，然而同类模型的平均分数却仅仅只有42分。这并非只是处于领先状态，而是呈现出一种断层式的压倒性优势形态。。

极速响应，有着每秒一百二十八的生成速度，使得三在处理复杂任务之际依旧能够“健步如飞”，明显超越业内平均水准（每秒五十六），。

钱包发出预警，强大所带来的代价是高昂的。尽管输入价格处于适中状态，然而输出价格却高达每1M12美元，平均水平为8.40美元。并且，它还是一个如同“话痨”般的模型，在测试期间它生成了92M，这是平均水平27M的三倍有余。

这个人聪明，这个人反应快，这个人废话稍微多了些，这个人说的每一个字都有着颇高的价值。

@意味着“基准测试结果”十分惊人，十分令人赞叹，十分让人感到惊叹不已，并且它“堪称智能体编码工作流的新基石。”。

“@也参考数据表明观点，觉得3在计算机操作层面更是构建起了绝对占优的态势，表示：‘这是全能电脑特工即将出现的一种趋势’。”。

——体验派：没有AI味，碾压优势

当3和的访问权限依序逐步开放之际，那群科技博主一批接着一批上手展开亲自测试随后发表评论。

某个人，也就是作为早期测试者的@，对3的强项以及局限细细地进行了评估，声称它“令人印象深刻”，然后在发布当天，把自己的详细测评给分享出来了。

行业观察家@则认为，谷歌 3大幅拉高了同类产品的标准。

甚至科技播客，更是凭借一幅图，突显了谷歌3上线以后，相较于其他竞争对手的那种绝对优势。

对于那位每天都得和AI打交道的硬核玩家@Matt而言，3变成了他的“日常主力工具”（Daily ）。他所发表的评测更具感性色彩，且聚焦于生产力。

写作出现进化，创意写作终于呈现出“像人”的状态，告别了那一眼看上去就特别假的“AI味”，其行文逻辑连贯，节奏自然，其性格变得干练直接，不再存在那些为了凑字数而有的客套开场白。

前端杀手，这堪称是堪称最大的惊喜，@Matt坦言指出其前端本领「极其出色」，在设计细节、微交互以及响应式布局这些方面，常常一回就能够予以搞定，设计本事的跨度达成了极大的飞跃。

——冷静派：也并不是所有用户都买账。

重返产品自身，谷歌骄傲地宣告，3的信息精确率达成了72%，对于大模型来讲，这是个相当了不起的数目，然而在部分用户的看法里，这或许仍旧不足。

刚刚创立的公司Oumi的联合创始人Manos，毫不隐晦地表示：“要是人们期望凭着谷歌将自身从‘蓝色链接’的众多之中解救而出，并且让谷歌代劳完成工作，那如今所处境地相去甚远，远远达不到要求。”。

与搜索引擎深度整合了之后，3具备检索信息以及验证事实的功能，然而“幻觉”依旧存在着。用户所期待的是具备100%的可靠性，可是72%表明仍然有着将近三成的概率会出现“一本正经地胡说八道”的情况。

3正式上线后没过多久，便有用户于社交平台X发布内容，像是给相关事物泼了一盆冷水，表述为虽说它会如同“资深工程师那般声称自己‘完毕解决’，可是用户仍旧需做检查”，和其他模型在情况上并无二致，都存在容易出现差错、进行到一半就停止的状况。

有的用户在体验3预览版本的时候，觉得有的时候还比不上2.5 Pro，就像将二者生成“鹈鹕骑自行车”的图片作比较，前面那个并没有显著的优势。

谷歌新推出的IDE，其虽具备强大的特性，然而却存在两面性，这是@Matt也提及到的，它即便强大，却仍旧需要人类去开展“保姆级”的看护工作，目的在于捕捉模型所遗漏掉的错误。

战局观察：罕见沉默，友商紧急“抱团”

评价一个模型的强弱，别看它说什么，要看它的对手在做什么。

以一个更为有趣的视角，来解读3的是那位位于硅谷的观察家约翰·库根（John ），。

——在寻觅靠山，就在谷歌施展大招之际，赶忙向微软靠拢，实现价值达300亿美元的算力合作，且获取了英伟达与微软的巨额投资，这种“抱团取暖”态势。恰恰证实了谷歌所带来的压迫感。

以前热衷于在谷歌发布会前进行“截胡”的，此次变得异常安静，显得格外沉默，仅开展了一些与群聊功能以及广告业务相关的动作。公司CEO萨姆·奥特曼（Sam ）在X平台上向谷歌表达祝贺。谷歌CEO桑德尔·皮查伊（）作出了回应。

——xAI有着焦虑情绪，马斯克所带领的xAI作出了简单又直接的“硬刚”选择，在发布会前后，于X平台上大肆投放Grok的广告，这使得人们不禁去猜测，它是不是在尝试争夺谷歌所能获得的关注度的行为呢。

结语：技术狂欢背后仍需冷静

按照麦肯锡给出的数据，直至2030年，整个AI行业预估将会耗费将近7万亿美元用以构建数据中心以及超级计算机。

这是一个天文数字。

在3的发布这件事上，研究机构的首席分析师本·巴贾林，也就是Ben，表现得颇为冷静，他表示，我们需要那种真正具备能力、质量上乘的用例，如此才能够看到收入产生实质性的流转，然而我们目前还尚未达到那一步。

当前，AI主要是被应用于传统的搜寻查找以及辅助程序编写方面。投资人已然开始产生疑问：就连谷歌，真的能够创造出充足的销售额用以涵盖这万亿美元规模级别的基础设施投入吗？

针对此情况，谷歌首席执行官戴密斯·哈萨比斯（Demis ）展现出比较淡定的态势。在3上线之前接受采访之时，他表明，尽管私募市场或许存有泡沫，然而谷歌具备真正的收入推动因素。公司云业务一个季度的销售额增长了三分之一，实现了150亿美元的数额。他将谷歌的状况描述为“全情投入（in）"，而且对最终能够获胜满怀信心。