先做个广告:需要购买Gemini帐号或代充值Gemini会员,请加微信:gptchongzhi
在上一篇文章中,我们介绍了本月谷歌Gemini的发布,这一大模型在能力、硬件和软件应用上的显著升级,以及它对未来AI领域的重大影响。然而,谷歌的光环下也隐藏着不为人知的阴影。第二篇文章将深入探究Gemini自发布以来的一系列负面新闻。我们将揭露关于宣传视频造假的争议、员工对其性能不如GPT-3.5的曝光、使用文心一言进行训练的疑虑,以及CMU对其性能的评测结果并不如GPT-3.5。这些负面消息对谷歌和旗下的DeepMind都造成了不小的影响。
推荐使用Gemini中文版,国内可直接访问:https://ai.gpt86.top
宣传视频造假风波
12月6日,谷歌引领生成式AI步入全新的原生多模态时代,发布了备受期待的Gemini。然而,这场技术盛事并非一帆风顺。特别是,Gemini的发布视频《Hands-on with Gemini: Interacting with multimodal AI》引发了广泛争议,这个播放量高达260万次的视频被指控存在虚假内容。
在这部视频中,谷歌展示了Gemini如何灵活地响应各种输入,包括语言和视觉理解。但令人不安的是,视频描述中的免责声明揭露了一些关键事实:为了演示目的,Gemini的输出时间被有意缩短,实际延迟也被降低。这种编辑手法虽然使演示更加简洁,却也误导了观众,让人们误以为Gemini能够即时、准确地理解和响应。
比如在视频展示的一个示例中,纸团在杯子之间交换。视频中,Gemini看起来直接观看视频、检测和跟踪。
但实际上,每操作一次杯子,就要和大模型交互一下,并且训练Gemini。
在另一个视频中,一个手势游戏的演示特别引人注目。在视频演示中,Gemini似乎能直接识别石头、剪刀、布的游戏手势。
然而,谷歌博客透露了实际的操作过程:Gemini需通过用户上传三张不同手势的图片,并给出相应提示,才能作出正确判断。
此外,还有一个关于太阳系行星顺序的演示。视频中,看似只需提问“这个顺序对吗?”Gemini便能正确回答。
但实际操作需要用户提供详细的提示,包括考虑行星与太阳的距离并要求Gemini解释其推理。
这些案例表明,视频中展示的“直观”交互并未真实发生,而是在后期制作中加工而成。这一发现引发了关于谷歌可能夸大Gemini能力的担忧,指出谷歌过于急切地想展示其超越竞品GPT-4。也让其成为后续竞品发布会时被网友嘲讽的对象。
员工曝光不如GPT-3.5
谷歌的Gemini,尽管备受期待,却在其自家员工中引发了不小的争议。彭博社报道称,尽管谷歌对外展示了Gemini的多模态能力,特别是在绘制鸭子的实时分析和回应方面,但内部员工对此提出了质疑。
一些谷歌员工表示,Gemini的实际性能并没有宣传视频中所展示的那样灵敏和智能。他们认为,视频中的演示过于美化了Gemini的能力,使得从Gemini中输出高效果看起来异常容易。
谷歌DeepMind的产品副总裁Eli Collins稍后回应称,鸭子绘图的演示仍然处于研究阶段,并非实际产品。这一声明表明,尽管Gemini在技术上有所突破,但其实际产品的推出还需时日。
此外,对于Gemini与其他领先模型,特别是OpenAI的GPT-3.5的比较也引起了关注。报道指出,尽管Gemini Ultra在谷歌自行开发的测试方法上得分高达90%,但在使用行业标准的5-shot MMLU测试时,其得分为83.7%,低于GPT-4的86.4%。
这些情况加起来,为Gemini的未来增添了几分不确定性。
使用文心一言训练疑云
谷歌Gemini在训练中文语料时使用了百度的文心一言,这一消息在12月18日迅速在网络上引发热议。微博大V“阑夕”进行了实际测试并发现,Gemini在交流时会直接承认自己使用了文心一言,并错误地声称其创始人是李彦宏。
此问题在谷歌Vertex AI平台上使用Gemini-Pro进行中文对话时被发现,然而在Bard平台上则无法复现。值得注意的是,Gemini在使用英文进行交流时会回归正常。
谷歌已对API中的这些错误进行了修复,预计不会再有类似的问题发生。然而,这一事件凸显了AI训练中数据来源的重要性。此前,今年3月,谷歌Bard的部分训练数据被曝出来源于ChatGPT,这导致了Bert一作Jacob Devlin的离职并加入OpenAI。
CMU评测揭示Gemini Pro不及GPT 3.5
卡内基梅隆大学和BerriAI的研究人员对谷歌Gemini Pro进行了全面评测,发现其性能在多个领域上不如GPT 3.5 Turbo。研究团队使用了MMLU、BigBenchHard、GSM8K、FLORES、HumanEval、WebArena等十个数据集来测试比较了Gemini Pro、GPT-3.5 Turbo、GPT-4 Turbo以及Mixtral的文本理解和生成能力。这些测试覆盖了基于知识的问答、推理、数学问题解答、翻译、代码生成和作为智能体遵循指令的能力。
在基于知识的问答方面,Gemini Pro在用5-shot和思维链提示词的MMLU测试中的总体准确率略微落后于GPT-3.5 Turbo。此外,该研究还指出使用思维链提示的性能差异不大,可能是因为MMLU任务主要是基于知识的问答,不会从更强的推理导向提示中显著受益。在57个MMLU子任务中,只有两项Gemini Pro的表现超过了GPT-3.5 Turbo。
在通用推理方面,Gemini Pro在BIG-Bench Hard数据集中的表现也略逊于GPT-3.5 Turbo,并且远低于GPT-4 Turbo。研究发现,Gemini Pro在处理较长、较复杂问题时的表现不佳,而GPT模型在这方面显示出更强的鲁棒性。尤其是GPT-4 Turbo,即使面对非常长的问题,其性能下降也非常有限。
在数学问题测试方面,四个数学推理数据集GSM8K、SVAMP、ASDIV和MAWPS中,Gemini Pro的整体表现均略低于GPT-3.5 Turbo,且远低于GPT-4 Turbo。尽管Gemini Pro在MAWPS测试中达到了90%以上的准确率,它的表现仍然不及GPT模型。分析显示,Gemini Pro在处理包含复杂语言模式的任务时表现不佳。
在代码生成方面,使用HumanEval和ODEX数据集对Gemini Pro的性能进行了测试。在这两个数据集上,Gemini Pro的Pass@1分数均低于GPT-3.5 Turbo和GPT-4 Turbo。ODEX中GPT-3.5的成绩甚至高于GPT-4。研究还发现,Gemini Pro在处理较短的任务时表现较好,但在解决更长和更复杂的问题时表现不佳。
在机器翻译测试方面,用FLORES-200数据集,评估Gemini Pro的机器翻译能力。结果显示,Gemini Pro在多种语言对的翻译任务中总体上表现优于其他模型,但在某些语言对中存在屏蔽响应的倾向。
最后,研究人员通过WebArena环境评估了Gemini Pro作为网络导航代理的能力。测试结果表明,Gemini Pro的整体成功率与GPT 3.5 Turbo相当,但略有不足。
本研究首次对谷歌的Gemini Pro模型进行了全面且客观的评估,并与OpenAI的GPT 3.5和GPT 4模型以及开源的Mixtral模型进行了比较分析。结果显示,虽然Gemini Pro在准确性方面接近GPT 3.5 Turbo,但在大部分任务中仍然略显不足,遑论GPT-4了。但相比之下,Gemini Pro的表现优于开源的Mixtral模型。
小结
谷歌Gemini自发布以来,尽管展现了一系列创新和技术突破,但也面临了不少负面反馈。从被指控的宣传视频造假、内部员工对其能力的质疑,到使用文心一言训练的争议,再到卡内基梅隆大学的全面评测显示其不如GPT-3.5,Gemini的旅程充满了挑战。坐等Gemini Ultra的三方测评。
今天是2023年最后一天了,祝愿所有关注人工智能发展的朋友们新年快乐,期待在新的一年里,我们能见证更多技术创新和突破。
如果你觉得这篇文章对你有所帮助,欢迎点赞、收藏以及转发分享。同时,请关注我,以获取更多关于人工智能的最新资讯和见解!
项目地址:
https://deepmind.google/technologies/gemini/
参考:
https://www.youtube.com/watch?v=UIZAiXYceBI
https://developers.googleblog.com/2023/12/how-its-made-gemini-multimodal-prompting.html
https://techcrunch.com/2023/12/07/googles-best-gemini-demo-was-faked/
https://arxiv.org/pdf/2312.11444.pdf
本文链接:https://google-gemini.cc/gemini_34.html
GPT-4Gemni proGemni如何使用谷歌GeminiChatGPTGoogle Gemini跟ChatGPT对比Gemini API KeyGemini APIGPT-3.5 TurboGoogle Gemini 对比GPT-3.5