欢迎来到亲仁善邻网网首页

“谷歌版o1”Gemini 2

来源:亲仁善邻网 时间:2026-01-04 18:18:18

OpenAI直播了12天,谷歌谷歌疯了。谷歌

就在深夜,谷歌「谷歌版o1」Gemini 2.0 Flash thinking突然发布。谷歌

类似于o1的谷歌策略,它也投入了更多的谷歌计算能力「推理时计算」——也就是说,模型实际解决问题的谷歌时间长。

但不同的谷歌是,Flash Thinking可以清晰地展示思维过程。谷歌

一旦发布,谷歌它将直接屠杀Chatbotbot Arena。谷歌

从战绩来看,谷歌新模型在总榜单中排名第一,谷歌数学榜单第一,谷歌创意写作第一。谷歌Hard Promt第一,视觉列表第一!

举一个概率问题复杂的例子。

要是一直扔硬币,直到你得到它们「正正正」或「正反正」,得到一个的概率和另一个的概率之比是多少?

绝大多数LLM都会在这个级别的概率题中崩溃。

然而,该模型显示了一个详细而完整的思维过程,并在34.7秒内给出了最终的答案——2:3。

现在,Gemini 2.0 Flash thinking已经在Google上了 AI Studio和Vertex 人工智能在线,开发者可以免费测试。

对此,网友们纷纷表示,明明是OpenAI的圣诞特别活动,怎么发出爆裂结果的全是谷歌?

现在谷歌每天都在欺负OpenAI

谷歌版o1完全疯了,都是第一个

在LLM竞技场,Gemini 2.0 Flash Thinking和Geminining-Exp-1206一起,「横扫所有类别,荣登榜首」。

无论是复杂的提示、代码、数学、创意写作、指令跟踪、长QA等。

然而,这些排名并不包括OpenAI的完整o1模型。

但无论如何,Flash Thinking打了一场相当漂亮的仗。

这个模型很有可能是谷歌对OpenAI的比赛 o1系列武器,很可能不是最强版本,也许还有Pro或Ultra Thinking的存在。

据外媒THE介绍 DECODER报道,Flash Thinking似乎是AI研究员Noam Shazer进入谷歌后的第一份工作成果。

如果是这样的话,谷歌以27亿美元的天价请回天才老员工的生意也是值得的。

Shazer是著名论文「Attention is All You Need」的作者之一

在80%位的情况下,Flash Thinking的响应速度几乎是o1-mini的两倍!

例如,OpenAI的o1和o1 Pro分别用了102秒和138秒,Gemini 2.0 Flash Thinking只花了14秒。

一举冲顶成为最强的理科生,最难的高考题也不在话下

有些人试图声称自己的名字「史上最难」高考数学题扔给Flash Thinking,它甚至给出了准确的答案。

这种表现震惊了所有网友。

要知道,这个问题连o1都做不出来。

而且更厉害的是,这个题目是中文题。

没有必要详细解释数学高考题的含金量。

毕竟中国的高考被Erudera评为地球上最难的考试。

而在Chatbot 在Arena的数学领域,Flash 与Flash相比,Thinking也有了显著的进步。

物理方面,Flash Thinking展示了如何解决一个物理问题,并阐明了它的推理过程。

演示中的标题是:一个电子被限制在一个一维无限深陷阱中,潜在陷阱壁位于x=- 0.15nm和x= 0.15nm处。在势陷中能级跳跃时,找出四种最长波长的光子。

Flash 首先,Thinking会清楚地复述问题本身,然后开始逐步思考问题的解决步骤。

经过16.9s的计算分析,Flash Thinking给出了最终的答案,即98.9nm,59.3nm,42.4nm ,37.1nm。

还展示了Flash 如何处理与视觉和文本线索相关的挑战性问题?

在演示中,用户首先上传了一张四个台球的照片,并提出了问题「在这三个数字中,我怎样才能使其总和为30?」

在这个演示中,有一个有趣的地方是,中间的第二个台球可以识别为9,也可以颠倒,识别为6。

Flash 在第一次尝试中,Thinking首先将其识别为正常观察的9,但发现问题无法解决。

因此,他聪明地做出了一个判断:「标题中没有明确说明每个数字只能出现一次」。

因此,它开始尝试重复使用数字,但仍然无法解决问题。

然后,有趣的地方来了,它惊讶地认为9可以被识别为6,这表明它成功地意识到这不仅仅是一个数字游戏,而是一个可以滚动的台球。

最后得到了问题的正确答案:使用11、13、63个数字可以实现总和为30。

整个思维过程一目了然。

从解决问题的过程中可以看出,Gemini 2.0 Flash Thinking不仅可以处理多模态信息,还可以学会从多个角度灵活地看待问题,最终灵活地获得问题的解决方案,从而解决实际问题。

谷歌DeepMind研究人员要求Thinking模型尝试使用不同的方法来解决普特南2024年的一到数学问题,然后验证答案是否正确。

模型在35.9秒内给出了答案。

网友实测

手快的网友们已经把它扔给了Gemini 2.0 Flash 一堆难题Thinking。

网友给出的题目并不难。

比如这个数列问题需要写一个数列的前六个数字,每个数字是前一个数字的三倍,第一个数字是2。

最后,模型给出了正确的答案——E。

经过实测,网友发现新模型的推理能力真的很强,不仅解决了单词网格问题,还解决了复杂的经济问题。

假设太阳能和模块化核反应堆的广泛应用带来了巨大的能源供应。从经济学的角度来看,我们应该深入思考未来十年可能发生的经济变化。请详细分析可能的影响。

该模型的答案是:通货膨胀率会下降,经济环境会发生重大变化。

结论:如果太阳能和模块化核反应堆在变化的十年内发生变化(SMR)实现电力的充足性和负担性,将在未来十年见证深刻的经济变化。我们可以预期通货膨胀率会下降,经济环境会发生重大变化。

Hallid.Ai联创indigo给了它一个填数题,Thinking只需20秒就能做出来。

而且给出了正确的答案。

相比之下,o1花了40秒,而且还错了。

但是,不知道是不是测试版,Flash Thinking能否清楚地数清楚「草莓」里面的r似乎完全取决于你给了什么prompt...

相比之下,我们在本地运行的QWQ可以很容易地解决这个问题。

参考资料:

https://x.com/JeffDean/status/1869789813232341267

https://the-decoder.com/googles-gemini-2-0-flash-thinking-is-googles-answer-to-openais-o1/

本文来源:新智元