先做个广告:需要购买Gemini帐号或代充值Gemini会员,请加微信:gptchongzhi
推荐使用Gemini中文版,国内可直接访问:https://ai.gpt86.top
当地时间 12 月 6 日,谷歌 CEO 桑达尔・皮查伊官宣 Gemini 1.0 版正式上线。
A note from Google and Alphabet CEO Sundar Pichai:
Sundar Pichai——Google和Alphabet的首席执行官,他讨论了人工智能(AI)技术转变的重要性以及它对人类进步的潜在影响。Sundar Pichai认为,我们正在经历的人工智能转型将是我们一生中最深刻的变革,其影响远超之前的移动或网络转型。他强调AI不仅能够在日常生活中创造机会,还能在全球范围内为人们带来非凡的可能性,并促进创新、经济发展、知识传播、学习、创造力和生产力。他还提到,作为一家以AI为首要发展方向的公司,Google在AI方面的进展正在加速。数百万用户已开始利用Google产品中的生成型AI完成他们一年前无法实现的任务。同时,开发者们利用Google的模型和基础设施来构建新的生成型AI应用,世界各地的初创企业和大企业也正通过Google的AI工具实现增长。Sundar Pichai强调,尽管进展迅速,人工智能的潜力仍只是初步探索。他表示,Google在推进这项工作时,既要大胆又要负责任。这意味着在研究上要有雄心,并追求能够为人们和社会带来巨大利益的能力,同时建立安全防护措施,并与政府和专家合作,共同应对随着AI能力提升可能出现的风险。Google将继续投资于最好的工具、基础模型和基础设施,并且遵循其AI原则将这些投资应用到自己的产品和服务中。最后,Sundar Pichai介绍了Gemini,这是Google目前为止最有能力、最通用的AI模型,它在众多领先的基准测试中都表现出了最先进的性能。Gemini的首个版本1.0针对不同的规模进行了优化,包括Ultra、Pro和Nano。这些是Gemini时代的第一批模型,也是今年早些时候成立Google DeepMind时所设想的愿景的第一次实现。Sundar Pichai表示,这一新时代的模型代表了Google作为一家公司所进行的最大规模的科学和工程努力之一。他对未来的可能性以及Gemini为全球人民解锁的机会感到兴奋。Introducing GeminiBy Demis Hassabis, CEO and Co-Founder of Google DeepMind, on behalf of the Gemini teamDemis Hassabis(Google DeepMind的首席执行官和联合创始人)代表Gemini团队谈到了人工智能(AI)作为他以及许多研究同事一生工作的焦点。他回顾了他少年时期为电脑游戏编程AI的经历,以及作为神经科学研究员试图理解大脑工作原理的岁月,他一直坚信,如果人们能够构建更智能的机器,就能够以惊人的方式利用它们造福人类。这种由人工智能负责任地赋能世界的承诺继续驱动Google DeepMind的工作。长期以来,他们一直希望构建一代新的AI模型,这些模型的灵感来自于人类理解和与世界互动的方式。这些AI模型感觉起来不像是一个智能软件,而更像是有用且直观的东西——一个专家助手或助理。Demis Hassabis宣布,随着Gemini的推出,他们离这一愿景又近了一步。Gemini是谷歌构建过的最有能力和最通用的模型。Gemini是Google团队之间大规模协作努力的成果,包括Google研究部门的同事们。它从头开始就被设计为多模态的,这意味着它能够泛化,并无缝理解、操作跨越并结合不同类型的信息,包括文本、代码、音频、图像和视频。这一特性使得Gemini具有处理多种形式的数据和任务的潜力,从而创造出更自然、更直观的用户体验,并在各种不同的应用场景中提供帮助。Gemini也是谷歌迄今为止最灵活的模型 - 它能够高效运行在从数据中心到移动设备的所有设备上。它的最先进的功能将显著增强开发人员和企业客户使用AI构建和扩展业务的方式。谷歌优化了Gemini 1.0,第一个版本,适用于三种不同的规模:Gemini Ultra - 最大且最有能力的模型,用于处理高度复杂的任务。Gemini Pro - 谷歌最佳的模型,可在广泛的任务范围内进行扩展。Gemini Nano - 我们用于设备内任务的最有效的模型。最先进的性能。谷歌一直在严格测试Gemini模型,并评估它们在各种任务上的性能。从自然图像、音频和视频理解,到数学推理,Gemini Ultra在大型语言模型(LLM)研究和开发中使用的32个广泛使用的学术基准测试中的30个上,性能超过了当前的最先进结果。以90.0%的得分,Gemini Ultra是第一个在MMLU(massive multitask language understanding,大规模多任务语言理解)上超越人类专家的模型,该模型使用了57种主题(如数学、物理、历史、法律、医学和伦理等)的组合,用于测试世界知识和问题解决能力。谷歌对MMLU的新基准测试方法使得Gemini能够在回答困难问题之前更仔细地运用其推理能力进行思考,这比仅使用其第一印象的方法带来了显著的改善。Gemini在一系列基准测试中超越了最先进的性能,包括文本和编程。这意味着Gemini模型不仅可以理解和生成人类语言文本,而且还能处理编程代码,这使其在多种任务中都表现出色。这样的能力使得Gemini在许多领域都具有广泛的应用可能性,比如自然语言处理、编程辅助工具、教育工具等等Gemini Ultra还在新的MMMU基准测试中获得了59.4%的最先进得分,这个基准测试包含了跨越不同领域需要深思熟虑的推理的多模态任务。在谷歌测试的图像基准中,Gemini Ultra在没有物体字符识别(OCR)系统的帮助下(OCR系统从图像中提取文本进行进一步处理),就超过了之前的最先进模型。这些基准测试凸显了Gemini的原生多模态性,并显示了Gemini更复杂推理能力的早期迹象。到目前为止,创建多模态模型的标准方法涉及训练不同模态的独立组件,然后将它们拼接在一起,大致模仿某些功能。这些模型在执行某些任务(如描述图像)时可能表现良好,但在处理更概念性和复杂的推理时可能会遇到困难。谷歌设计Gemini是天然的多模态的,从一开始就在不同的模态上进行预训练。然后,通过额外的多模态数据对其进行微调,以进一步提升其效果。这帮助Gemini从基础开始,无缝地理解和推理各种输入,远超现有的多模态模型——它在几乎每个领域的能力都是最先进的。复杂的推理能力Gemini 1.0的复杂的多模态推理能力可以帮助理解复杂的书面和视觉信息。这使得它在从大量数据中挖掘难以辨识的知识方面具有独特的技能。它从数十万份文档中通过阅读、过滤和理解信息提取洞察力的显著能力,将有助于在许多领域(从科学到金融)以数字速度实现新的突破。理解文本、图像、音频等Gemini 1.0被训练成可以同时识别和理解文本、图像、音频等,因此它能更好地理解细微的信息,并能回答与复杂主题相关的问题。这使得它在解释如数学和物理这类复杂主题的推理方面特别出色。
Gemini首个版本能够理解、解释并生成世界上最流行的编程语言(如Python、Java、C++和Go)的高质量代码。它在多语言间工作并推理复杂信息的能力使其成为全球领先的编程基础模型之一。Gemini Ultra在多个编程基准测试中表现出色,包括HumanEval(评估编程任务性能的重要行业标准)和Natural2Code(我们的内部保留数据集,它使用作者生成的源代码而不是基于网络的信息)。Gemini也可以作为更高级编程系统的引擎。两年前,谷歌展示了AlphaCode,这是首个在编程比赛中达到竞争级性能的AI代码生成系统。使用专门版本的Gemini,谷歌创建了一个更先进的代码生成系统,AlphaCode 2,它擅长解决复杂数学和理论计算机科学问题的竞赛级编程问题。在与原始AlphaCode相同的平台上进行评估时,AlphaCode 2显示出巨大的改进,解决了近两倍的问题,谷歌估计其性能超过了85%的比赛参与者——而AlphaCode的性能只有近50%。当程序员与AlphaCode 2合作,为要遵循的代码样本定义某些属性时,它的性能表现得更好。我们非常期待程序员们越来越多地使用高能力的AI模型作为协作工具,帮助他们推理问题、提出代码设计并协助实施——这样他们可以更快地发布应用程序并设计更好的服务。更可靠、可扩展和高效,谷歌在AI优化基础设施上大规模训练了Gemini 1.0,使用的是Google内部设计的张量处理单元(TPUs)v4和v5e。我们设计它成为我们最可靠和可扩展的模型进行训练,并且是我们最有效的服务。在TPUs上,Gemini的运行速度显著快于早期、更小且能力较差的模型。这些定制设计的AI加速器是Google的AI驱动的产品的核心,例如Search、YouTube、Gmail、Google Maps、Google Play和Android,这些产品服务了数十亿用户。它们还使全球各地的公司能够以成本效益高的方式训练大规模AI模型。今天,谷歌宣布迄今为止最强大、最高效和最可扩展的TPU系统,Cloud TPU v5p,它专为训练最先进的AI模型而设计。这一下一代TPU将加速Gemini的开发,并帮助开发人员和企业客户更快地训练大规模的生成AI模型,使新产品和功能能够更早地到达客户。以责任和安全为核心,谷歌致力于在所有工作中推进大胆和负责任的人工智能。在谷歌的人工智能原则和产品中的健全安全政策的基础上,谷歌正在增加新的保护措施,以考虑“Gemini”多模能力所带来的潜在风险,并努力进行测试和缓解。与迄今为止任何谷歌人工智能模型相比,“Gemini”具有最全面的安全评估,包括偏见和有害性。谷歌对潜在风险领域进行了新颖的研究,如网络攻击、说服力和自主性,并应用了谷歌研究的最佳对抗性测试技术,帮助在“双子座”部署之前提前识别关键的安全问题。为了在谷歌的内部评估方法中发现盲点,谷歌正在与一群多样化的外部专家和合作伙伴合作,对我们的模型进行一系列的压力测试。为了在“Gemini”的训练阶段诊断内容安全问题,并确保其输出符合我们的政策,谷歌使用了一些基准测试,比如真实有害提示(Real Toxicity Prompts),这是一组从网络上提取的具有不同毒性程度的10万个提示,由艾伦人工智能研究所的专家开发。有关这项工作的更多详细信息即将发布。为了减少伤害,谷歌构建了专用安全分类器,用于识别、标记和分离涉及暴力或负面刻板印象的内容。结合强大的过滤器,这种分层方法旨在使“Gemini”对所有人更加安全和包容。此外,我们还在继续解决模型面临的诸如准确性、依据、归因和协作等已知挑战。责任和安全将始终是谷歌模型开发和部署的核心。这是一项需要合作建设的长期承诺,因此谷歌正在与行业和更广泛的生态系统合作,通过诸如MLCommons、前沿模型论坛及其AI安全基金以及我们的安全AI框架(SAIF)等组织来定义最佳实践和设定安全和安全基准,该框架旨在帮助减轻公共和私人部门AI系统的安全风险。谷歌将继续与世界各地的研究人员、政府和民间社会团体合作,推进“Gemini”的开发。Gemini时代:实现创新的未来这是人工智能发展的重要里程碑,也是谷歌的一个新时代的开始,谷歌将继续迅速创新并负责任地推进我们模型的能力。到目前为止,Gemini上取得了巨大进展,正在努力进一步扩展其未来版本的能力,包括在规划和记忆方面的进展,以及增加处理更多信息的上下文窗口,以提供更好的回应。谷歌为由人工智能负责任地赋能的美好可能性感到兴奋-这是一种创新的未来,将增强创造力、扩展知识、推动科学进步,并改变全球数十亿人的生活和工作方式。
本文链接:https://google-gemini.cc/gemini_20.html