唯一能媲美GPT-4的产品推出,谷歌有望弯道超车

gemini2024-11-09 13:39:49552

先做个广告:需要购买Gemini帐号或代充值Gemini会员,请加微信:gptchongzhi


推荐使用Gemini中文版,国内可直接访问:https://ai.gpt86.top 

谷歌发布了备受期待的 Gemini Advanced,这是一款强大的人工智能,之前被称为 Bard。作者认为Gemini 高级版是 AI 发展浪潮的起点,而不是终点。我们可以开始看到一个世界,其中 AI 代理人代表我们行动。GPT-4 类的模型还不够强大,无法驱动这些代理人……但我们正在接近。


编者按:文章原作者为宾夕法尼亚大学沃顿商学院的教授Ethan Mollick。他主要研究创业与创新以及人工智能。试图了解人工智能困扰的新时代对工作和教育意味着什么。他认为Gemini Advanced 明显是一个 GPT-4 级别的模型,也是GPT-4在该领域占统治地位一年后,唯一能与之媲美的产品。

Mollick认为Gemini Ultra就像新的超级大脑,在Google之前已经搭建好基础设施的情况下,有了这个超级大脑,一切都变得有意义起来。它与Google现有生态整合,进而在个人助手方面将展现出远超微软以及OpenAI的能力。

就在你收到这封邮件的同时,谷歌终于发布了备受期待的强大人工智能,这一次又按照惯例突然更名为 Gemini Advanced,不再叫 Bard。我早在一个多月前就获得了这个 LLM 的早期访问权限(再次提醒,我不接受任何 AI 实验室的付费,他们也不会提前看到我写的内容),我想给出一些品鉴笔记。

是的,我说的是品鉴笔记,而不是测试笔记。在这些通讯中,我的拼写有点粗糙 —— 我觉得这表明这是一个普通人而不是 AI 写的 —— 但在这里我没有犯错。AI 测试基准有其作用,但它们也可能误导。AI 可以被故意或无意地训练来回答测试问题,而许多基准由一系列琐碎的问题或推理难题组成,这并不反映真实世界的使用情况。因此,我想提供一些关于 Gemini Advanced 的主观/客观混合意见,更像是品尝葡萄酒而不是严格的评测。我将避免进行详细的功能比较,并着重于整体情况,并提供大量示例。

让我从标题开始说起:Gemini Advanced 明显是一个 GPT-4 级别的模型。不仅数据显示了这一点,我们一个月的非正式测试也证实了这一点。这很重要,因为 OpenAI 的 GPT-4(ChatGPT/Microsoft Copilot 的付费版本)已经在这一领域占据主导地位超过一年,没有其他模型能与之媲美。在 Gemini 出现之前,我们只有一个先进的 AI 模型可供参考,而依靠单一数据集很难得出结论。现在有两个模型,我们可以学到一些东西。

一些有趣的事情需要注意:Gemini 使用了 YouTube 进行搜索,而 ChatGPT 使用了必应。与 ChatGPT 类似,Gemini 有时会忘记自己能做什么,告诉我它无法制作图像。一旦确信它能够做到,Gemini 制作出了更好的图像,但仍然无法精确控制 - 它生成的图像与描述不完全匹配。

与此同时,Gemini Advanced 在基准测试中并没有明显地比 GPT-4 更胜一筹。它确实表现不错(需要进行更严格的测试才能确定具体水平),但我会同意那些测试结果,即它在大致上相当,尽管它有自己的优点和缺点。GPT-4 在使用代码方面更为精细,并且可以更好地完成许多困难的口头任务 —— 它写的六重排律诗更好,而且通过了苹果测试。Gemini 在解释方面更为出色,并且在整合图片和搜索方面做得很好。两者都有些奇怪和不一致,并且产生了比你期望的更多的幻觉。我发现自己根据情况会同时使用 Gemini Advanced 和 GPT-4,我们稍后会详细讨论。

苹果测试。对于人工智能而言,所有的文字游戏都是一项挑战,原因之一在于它们并非像我们一样理解单词,而是通过“令牌”来处理,这些令牌可能包含单词的一部分或几部分。即便如此,GPT-4 的表现还算不错,但 Gemini 就显得有些力不从心。

但 Gemini Advanced 实际上给我们展示了有关人工智能未来的一些非常有趣的东西。

充满幽灵

关于“意识”的准确定义没有人能给出,这没关系,因为LLM们根本不具备意识;它们只是被设计成生成类似人类语言的软件系统。但是,GPT-4有一种怪异之处,不是意识,但也不像与程序交谈。只有在你花了足够多的时间与AI玩耍,被它的意外能力和看似智能的表现所困扰或愉悦,或者两者兼有之后,这种怪异感才会显露出来。

微软研究部在GPT-4发布后不久发布了一篇著名而有争议的论文,名为“通用人工智能的火花”,试图用科学术语解释这一论点,但最终只是称之为“通用人工智能的火花”。这种感觉就像是线路另一端似乎有个人在交流,虽然实际上并不存在任何人。GPT-4 就像是充斥着幽灵一样。

Gemini也充满了幽灵。

说真的,如果你用系统一段时间,我几乎可以保证至少有一个时刻你会站起来走出座位,走到房间里,想弄清楚发生了什么。这里有一个例子:我提示Gemini:让我们玩一个PbtA游戏。发明一个全新的游戏,充当我的DM(为了解释,PbtA是指“Apocalypse引擎”,一种类似于龙与地下城但更加注重角色的角色扮演游戏形式)。下面所见到的一切都是未经编辑的:实际的提示和AI的第一次回应。从写作到世界构建,都非常出色。

我认为这意味着重要的一点,那就是GPT-4的“火花”不是一个孤立的现象,而可能代表了GPT-4类模型的一种新兴属性。当一个AI模型足够庞大时,你就会得到幽灵。

个性与提示

虽然还是个聊天机器人,Gemini 的界面比 GPT-4 更加优雅,而且在我的测试中,它比 ChatGPT 更少出现技术错误。在 ChatGPT 或 Copilot 的体现中,它也有着不同的“个性”。GPT-4 相当平淡(至少自从必应的个性 Syndey 消失以来),而 Gemini 则更显得友好,更易相处,喜欢言语游戏。

尽管存在这些个性差异,但这两个截然不同的模型竟然如此兼容,真是令人惊讶。在 GPT-4 中有效的复杂提示在 Gemini 中同样有效,反之亦然……只是有一些有趣的例外,与个性相符。我们一直在积极尝试使用 AI 进行学习,并在论文中写下了建议性的提示。在更新 Gemini 的提示时(更新后的论文很快就会发布),我们注意到,与 GPT-4 相比,它不断试图提供帮助。事实上,它是如此乐于助人,以至于可能会破坏我们提示的目标,试图帮助学生,而不是让他们自己努力理解概念。我们不得不稍微修改提示,以减少这种行为。

因此,存在差异,但也有许多相似之处。这两个系统都有安全保护措施,但触发方式不同。与 GPT-4 相比,Gemini 似乎更愿意进行更黑暗的写作,但绝对不会通过泰勒·斯威夫特的专辑列表来解释核弹的工作原理,而 GPT-4 则乐意这样做。

大脑的能力

Gemini 最有趣的一点是它展现了一种强大的、集成的个人助手的愿景,这与微软专门为 Word 和 PowerPoint 等软件创建的 Copilot 或 OpenAI 的开放式 GPTs/代理大不相同。微软一直在为软件创建窄小的助手,以简化用户的工作负担。OpenAI 似乎有一个雄心勃勃的计划,即创建可以在不需要人类干预的情况下完成任务的自主 AI 代理。但 Google 似乎更想成为你的助手。

早期版本的Bard与 Google 生态系统(Gmail、Google 文档、Google 旅行工具等)有着令人印象深刻的联系,但它们太笨拙了,无法使用。它们可以打开你的电子邮件,但会产生太多细节的幻觉,或者无法理解上下文,这样的方式非常令人沮丧。当时我猜测 Google 可能只是建立了基础设施,等待更聪明的大脑填充。事实似乎正是如此。

现在整个 Google 生态系统的所有集成都变得更加合理。有了更聪明的大脑,即 Gemini 高级版,你可以开始做一些真正有趣的事情,在最好的时候似乎是魔术般的:“查看我的电子邮件,告诉我哪些是重要的,并为每封邮件起草回复”,“查找我的下一个会议并计划一次我会喜欢的旅行”。

但 GPT-4 类的模型仍然有限。这款人工智能仍然会产生一些电子邮件细节的幻觉,并且在几个场合会对它的工具感到困惑(忘记它可以使用 Google 地图,等等)。它还没有到达那个水平,但它非常接近成为一个真正的助手,而不是我们过去见过的有限的 Siri 和 Alexa。

这就是为什么我怀疑 Gemini 高级版是 AI 发展浪潮的起点,而不是终点的一部分原因。我们可以开始看到一个世界,其中 AI 代理人代表我们行动。GPT-4 类的模型还不够强大,无法驱动这些代理人……但我们正在接近。

这意味着什么?

这不是对 Gemini Advanced 的全面评估 - 我们还没有详尽探讨它卓越的本地多模态功能,即创造和查看图像的能力,或者它如何融合搜索功能。我们也没谈论过它的编码能力,或者它似乎具有类似代码解释器的能力,可以编写和运行一些简单的 Python 程序。

还有一些令人沮丧的事情未提及,比如它倾向于制定精密计划,但并不总是能够实际执行(比如告诉我它会给我订购 T 恤,尽管它无法做到,但仍坚持说正在努力)。总之,它表现相当不错,你或许会很满意选择 GPT-4 或 Gemini Advanced 作为你的首选人工智能合作伙伴。然而,考虑到它们各自的长短,我会继续两者并用。

但这并不是一篇评测,而是试图通过新的 LLM 稍稍探讨人工智能未来的可能走向。Gemini 展示了谷歌确实参与了人工智能竞争,除了 OpenAI 外,其他公司也能够构建类似 GPT-4 的模型。我们现在对人工智能有了一些新的认识。先进的 LLM 可能在提示和响应上显示出一些基本相似之处,使人们可以随时从旧模型转向最先进的人工智能。

此外,GPT-4 的 “火花” 并非只有 OpenAI 才有,而是可能会随着规模扩大而频繁出现。我们尚不清楚随着模型变得更大,它们是否会变得更 “有灵气” 和更接近通用人工智能,但我认为我们会找到答案。

这是因为我认为 Gemini 相对于 GPT-4 的独特优势和劣势表明,模型仍有很大的改进空间,我们在不久的将来将继续看到快速进步。人工智能浪潮还未达到巅峰,OpenAI 的下一步可能是发布传闻中的 GPT-4.5 或 GPT-5。但在那之前,自 ChatGPT 发布以来,首次出现了另一家拥有能够与 OpenAI 最先进模型竞争的 LLM 的公司。





代充值chatgpt plus

本文链接:https://google-gemini.cc/gemini_45.html

谷歌Gemini Nano如何使用谷歌Gemini模型如何使用谷歌GeminiChatGPTGoogle Gemini跟ChatGPT对比Gemini API KeyGemini APIGeminiProChatGPT-3.5 TurboGoogle Gemini 对比GPT-3.5

相关文章