当前位置：首页 > 科技资讯 > 正文

Gemini 3震撼发布：AI全模态革命与硅谷未来格局深度解析

主机测评网
科技资讯
2026-01-26
723

毫无疑问，谷歌最新推出的Gemini 3模型再次在硅谷的人工智能领域掀起波澜。当OpenAI与Anthropic竞争白热化之际，谷歌凭借其深厚的基础设施积累与全模态技术路线，已从曾经的追赶者转变为领跑者。

此次Gemini 3不仅在多模态能力上实现了飞跃，更被视为谷歌对Scaling Law最为极致的一次执行。

硅谷101在11月20日举办了一场直播，邀请了四位处于AI研发与应用前沿的嘉宾：

田渊栋，前Meta FAIR研究总监、AI科学家
陈羽北，加州大学戴维斯分校助理教授、Aizip联合创始人
Gavin Wang，前Meta AI工程师、负责Llama 3后训练及多模态推理
Nathan Wang，资深AI开发者、硅谷101特约研究员

Gemini 3震撼发布：AI全模态革命与硅谷未来格局深度解析 3 多模态AI Scaling Law 开发者生态第1张

我们试图透过Gemini 3的发布，探讨AI未来的关键问题：Gemini 3的核心优势何在？谷歌做对了什么？全球大模型竞争格局将如何演变？LLM的未来趋势，以及最前沿的AI实验室在关注什么？

以下是我们直播中嘉宾观点的浓缩，如需观看完整内容，请关注YouTube和B站回放。

01 体验实测：Gemini 3到底强在哪里？

在Gemini 3发布后的48小时内，各大榜单被迅速刷新。不同于以往模型仅在单一维度上的提升，Gemini 3被认为是真正意义上的“全模态原生”模型。对于使用者而言，这种技术提升如何转化为实际体验？

Gemini 3震撼发布：AI全模态革命与硅谷未来格局深度解析 3 多模态AI Scaling Law 开发者生态第2张

来源：LM Arena

陈茜：各位这两天都在高强度测试Gemini 3，它真的如排行榜那样霸榜吗？大家能不能举例说说，它到底好在哪里？

Nathan Wang：我这两天集中使用了三个主要产品：Gemini主App、针对开发者的Google AntiGravity，以及今天刚发布的Nano Banana Pro。

说实话，AntiGravity给我感觉像是一个Agentic时代的IDE。它和Cursor或Claude Code不同之处在于，界面分为“Manager View”和“Editor View”。

以前在Cursor里，AI帮写代码，但感觉仍是“我”在写。而在AntiGravity里，Manager View让你感觉是经理，底下有8到10个Agent在分工协作，有的写程序，有的运行单元测试。

最惊艳的是它结合了Browser Use功能。例如，我写了一个前端网页，它使用Screenshot Pro功能，直接调用Chrome浏览器打开网页，“看”着屏幕测试。如果让它上传文件或点击按钮，它能像人一样操作。这意味着测试与开发完全自动化，成为一体式体验。

另外，Nano Banana Pro在生成幻灯片上解决了我的痛点。以前让AI做PPT，逻辑链常断。但这次它不仅能理顺逻辑，还能生成复杂图表。我觉得市面上的幻灯片软件可能被取代。

Gemini 3震撼发布：AI全模态革命与硅谷未来格局深度解析 3 多模态AI Scaling Law 开发者生态第3张

田渊栋：前Meta FAIR研究总监、AI科学家

田渊栋：我的习惯是新模型出来先测“续写小说”。这是我个人的基准测试，不会过拟合。

一两年前，模型写小说是“公文风”，脱离语境。到Gemini 2.5时，文笔变好，能细致描写，但情节平铺直叙。

但Gemini 3让我惊喜。它不仅文笔好，还懂得“反转”。它设计的情节互动有趣，甚至给我启发，似乎理解了作者深层动机。

不过，在科研头脑风暴上，它仍像博闻强记的博士生。你能得到新名词、新工具，但无法深入探讨问题本质或判断方向。它缺乏资深研究员的直觉，仍是顶级“做题家”，创造性思维未有本质突破。

Gemini 3震撼发布：AI全模态革命与硅谷未来格局深度解析 3 多模态AI Scaling Law 开发者生态第4张

陈羽北：加州大学戴维斯分校助理教授、Aizip联合创始人

陈羽北：我收集了团队反馈，有一些负面观察。

首先，Vision组发现，Gemini 3在真实世界视觉理解上性能下降。例如，在安防摄像头、门铃场景中分析用户行为时，表现不如上一代。技术报告中仅有一个相关基准，未覆盖复杂场景。

这暴露了行业通病：公榜基准与实际落地场景存在巨大差距。如果为刷榜优化模型，实际性能可能走偏。

另外，Coding组反馈，在科学写作和辅助编程时，Gemini 2.5更顺手。Gemini 3虽推理长度增加，但在处理多跳搜索、整合多年财报等复杂任务时，不如GPT-5 Pro稳定。可能是早期版本未摸透提示。

02 谷歌技术秘密：是“Deep Thinking”还是“超能力”?

谷歌从落后到反超，Gemini项目负责人称秘密在于“改进了预训练和后训练”。这句官方回答背后，隐藏着怎样的技术路线？是算法胜利，还是算力堆砌？

Gemini 3震撼发布：AI全模态革命与硅谷未来格局深度解析 3 多模态AI Scaling Law 开发者生态第5张

谷歌DeepMind首席科学家Oriol Vinyals X平台推文

陈茜：谷歌这次不仅是追赶，更是超越。“改进了预训练和后训练”是否意味着Scaling Law未“撞墙”？谷歌的秘密武器是什么？

田渊栋：“改进了预训练和后训练”基本是废话。模型是系统工程，数据、架构、训练稳定性都提升，结果自然强。

我更关注的是，如果预训练足够好，模型变“聪明”，后训练就像天才学生，给少量样本就通。Gemini 3的基座能力确实强。

关于秘密武器，有传言说谷歌修掉了训练流程中的Bug。对于谷歌这种公司，工程不犯错，细节拉满，Scaling Law就有效。

Gemini 3震撼发布：AI全模态革命与硅谷未来格局深度解析 3 多模态AI Scaling Law 开发者生态第6张

Gavin Wang：前Meta AI工程师，负责Llama 3后训练及多模态推理

Gavin Wang：我问Gemini 3“你为什么这么厉害？”。它提到Tree of Thoughts概念。

以前CoT是线性推理。但Gemini 3似乎在内部采用树状搜索，配合Self-rewarding机制。它同时跑多条思路，自己打分，丢弃不合理路径，适应有前途路径。

这是工程封装与模型科学的深度结合。以前需外部提示，现在谷歌内置到模型环境。这不仅是垂直堆料，更在水平方向引入MoE和搜索机制，技术令人印象深刻。

Nathan Wang：我补充一个细节。Gemini开发者API文档中有一行注释：“Context Engineering is a way to go.”

这让我思考。以前是Prompt Engineering，现在谷歌提Context Engineering。我的体感是，生成推文时，先让AI搜索方法论作为上下文，再填入内容生成。

谷歌似乎自动化了这一过程。生成答案前，可能自动抓取相关上下文，构建丰富思维链环境再生成结果。这使其用起来“懂你”，是在工程环境中思考。

陈羽北：从经济学视角，谷歌能彻底执行Scaling Law，因其硬件优势——TPU。

其他公司需买NVIDIA显卡，利润率高达70%以上。但谷歌软硬件整合，用自研TPU，无中间商赚差价，单位经济模型优秀。同样预算下，可训练更大模型、跑更多数据、做昂贵实验。

只要Scaling Law需堆算力，谷歌的不对称优势就对OpenAI和Anthropic形成挤压。除非NVIDIA降价或他家自造芯片，否则护城河很深。

03 开发者生态：Coding之争结束了吗？

随着Gemini 3和AntiGravity发布，及在代码榜单上屠榜，社交媒体称“Coding之争已结束”。谷歌是否利用其生态系统构建让创业公司无法逾越的护城河？

陈茜：很多人说Coding之争已经结束，Gemini 3配合谷歌全家桶将横扫一切。这对Cursor等创业公司意味着什么？

Gavin Wang：谷歌这次有“降维打击”意味。AntiGravity对标Codex加Cursor，因拥有Chrome底层权限，实现视觉与代码对齐。

体验是AI一边看网页，一边改代码，多模态原生体验是下一层次。相比之下，Figma或Cursor更像Chatbot。如果谷歌打通Chrome、Cloud、IDE，对创业公司确实难受。

但这也催生新机会。如Palantir提出的Forward Deployed Engineer概念。未来工程师可能打通从商业化、产品定义到开发的全链路。既然基模能力提升，我们应站在巨人肩上创造价值，而非卷基模已能做的事。

就像Nathan所说，简单前端工作可能被谷歌包圆，但这逼我们寻找新商业模式和产品形态。

Gemini 3震撼发布：AI全模态革命与硅谷未来格局深度解析 3 多模态AI Scaling Law 开发者生态第7张

Nathan Wang：资深AI开发者、硅谷101特约研究员

Nathan Wang：说“结束”言之过早。AntiGravity确实强，但在处理后端部署、复杂系统架构时，易卡住。

例如，用Browser use上传文件测试时，常需干预。它更像强大前端生成器。且对企业，把代码交给谷歌生态系统，数据隐私有顾虑。Cursor等独立厂商仍有生存空间，特别是在灵活性和特定语言优化上。

田渊栋：网上的Demo有误导性。Demo多是一键生成酷炫前端页面，大家看“漂亮程度”和“完整性”。

但真正写代码的人关注Instruction Following。例如，改代码逻辑或处理琐碎边缘情况，模型能否听懂改对？

我试过让它写3D第一人称射击游戏。写出来了，画面好，但一跑发现方向键反了。这种小Bug在大规模工程中是灾难。所以对专业程序员，它仍是降低门槛的辅助工具，非替代者。

04 后LLM时代：AI是否“绑架”了美国GDP？

尽管谷歌证明Scaling Law有力，但硅谷目光已投向更远。近期，一批“NeoLab”非主流AI实验室受风投追捧。在LLM之外，AI的下一个范式转移在哪？

Gemini 3震撼发布：AI全模态革命与硅谷未来格局深度解析 3 多模态AI Scaling Law 开发者生态第8张

来源：The Information

陈茜：除了Scaling Law，大家看到什么非主流的AI发展趋势？特别是NeoLab们关注的领域。

田渊栋：我一直认为：Scaling Law是有用工程规律，但不去探索本质，终将资源枯竭。难道把地球变显卡？算力需求指数增长，地球资源有限，此路不通。

我坚持做AI可解释性和顿悟机制研究。相信高效神经网络背后有优美数学内核。从第一性原理出发，理解涌现机制，也许有一天不需梯度下降就能找到更好算法。

另外，我用AI加速研究。例如ICML反驳期间，新想法丢给Cursor，3分钟代码写完，图画出，立即验证。效率提升成百上千倍，加速对AI本质探索。

陈羽北：我同意渊栋观点。如果Scaling Law是唯一定律，人类未来悲观。我们没有那么多电，数据都交给AI，人类价值何在？

自然界有悖论：越高级智能，越依赖学习，但所需数据越少。

人类小孩13岁前接触所有语言数据，不到100亿。相比大模型几万亿训练量，人类数据效率极高。但大脑结构复杂。所以，大模型未必大在数据，可能大在架构。

现在LLM更像蒸馏现有文明，压缩更好。但我希望未来AI，如机器人或世界模型，能像生物探索未知，发明新文明。这需研究者做些看似怪异或疯狂的研究，寻找Scaling Law外第二条曲线。

Gavin Wang：顺着羽北的话，世界模型绝对是下一战场。

现在LLM是纯语言维度。但真正世界模型需理解物理规律。目前主要有三条路线：一是像Genie 3这种基于视频的，模拟3D世界；二是基于网格/物理的，带物理碰撞体积；三是像李飞飞团队的高斯泼溅，用点云表征空间。

另外，我呼吁关注开源和端侧小模型。

现在智能被“囚禁”在GPU数据中心。普通人用智能需付费买API，像给空气付费。这是数字集权。

如果端侧小模型发展，让每个人在手机、电脑上跑高性能AI，不需联网或付昂贵订阅费，才是真正AI for Everyone。这需在模型架构上优化，而非仅堆显卡。

05 泡沫还是奇点？

Gemini 3的发布，是谷歌对“AI泡沫论”的强力回击。它证明只要有足够算力、数据和工程优化，Scaling Law仍有巨大红利。

然而，直播中嘉宾观点指出，单纯Scaling不是通向AGI的唯一路径。

今天我们的直播，不仅聊Gemini 3发布下的谷歌“技术秀肌肉”，还有硅谷一线的冷静思考。Gemini 3暂时领先当前战役，对谷歌是重要里程碑；但AI大战役，才刚刚开始。

性价比服务器免费vps 性价比vps

本文由主机测评网于2026-01-26发表在主机测评网_免费VPS_免费云服务器_免费独立服务器，如有疑问，请联系我们。
本文链接：https://vpshk.cn/20260120933.html

Gemini 3震撼发布：AI全模态革命与硅谷未来格局深度解析

01 体验实测：Gemini 3到底强在哪里？

02 谷歌技术秘密：是“Deep Thinking”还是“超能力”?

03 开发者生态：Coding之争结束了吗？

04 后LLM时代：AI是否“绑架”了美国GDP？

05 泡沫还是奇点？

Flutter开发开源鸿蒙自律软件问题全解析

前百度高管景鲲与朱凯华携手创立AI搜索独角兽Genspark，B轮融资2.75亿美元估值达12.5亿美元

Gemini 3震撼发布：AI全模态革命与硅谷未来格局深度解析

01 体验实测：Gemini 3到底强在哪里？

02 谷歌技术秘密：是“Deep Thinking”还是“超能力”?

03 开发者生态：Coding之争结束了吗？

04 后LLM时代：AI是否“绑架”了美国GDP？

05 泡沫还是奇点？

Flutter开发开源鸿蒙自律软件问题全解析

前百度高管景鲲与朱凯华携手创立AI搜索独角兽Genspark，B轮融资2.75亿美元估值达12.5亿美元

相关文章