电子产品

ChatGPT 与 Gemini:真实世界测试显示出令人惊讶的结果

DailyWiz 的一项调查在七项实际测试中将 ChatGPT Plus 与 Gemini Advanced 进行了对比,揭示了令人惊讶的性能变化并挑战了人工智能霸权假设。

DailyWiz Editorial··4 分钟 阅读·378 浏览
ChatGPT 与 Gemini:真实世界测试显示出令人惊讶的结果

人工智能对决:智能新时代

人工智能的格局正在以前所未有的速度发展,大型语言模型 (LLM) 成为全球数百万人不可或缺的工具。处于这场革命最前沿的是 OpenAI 的 ChatGPT 和 Google 的 Gemini,这两个巨头正陷入激烈的霸主之战。虽然由于 ChatGPT 进入市场较早且广泛采用,人们对 ChatGPT 的看法往往比较好,但我们 DailyWiz 的技术团队最近进行的一系列七项实际测试揭示了性能动态方面令人着迷且常常出人意料的转变。

几个月来,技术社区一直在争论哪种 AI 提供了更优越的功能,特别是当 Google 推出其于 2023 年 12 月推出的 Gemini 平台,作为 OpenAI 已建立的 ChatGPT(后者于 2022 年 11 月首次亮相)的直接竞争对手时。为了超越理论基准,将高级版本 - ChatGPT Plus(采用 GPT-4o)Gemini Advanced(由 Gemini Ultra 1.5 提供支持) - 在反映日常专业和个人使用的实际场景中相互比较。正如 DailyWiz 的高级技术分析师 Evelyn Reed 博士所指出的那样,结果确实令人惊讶,挑战了许多关于这些强大人工智能助手的先入为主的观念。

现实世界的挑战:测试参数

我们的方法包括让两个人工智能模型接受七项不同任务的严格挑战,这些任务旨在评估创造力、逻辑推理、编码熟练程度、数据摘要、数学准确性、语言翻译和多模式理解。每个测试都根据速度、准确性、连贯性和整体实用性进行评分。例如,在创意写作测试中,两位人工智能都被要求起草一篇关于可持续城市农业的 500 字博客文章。 编码挑战涉及调试 Python 脚本并为简单的电子商务平台生成新函数。对于数据汇总,他们必须从 1,500 字的量子计算科学摘要中提炼出关键见解。

其他测试包括求解复杂的代数方程、将技术文档从英语翻译成日语、解释图表中的视觉数据(Gemini 的多模态测试,以及 ChatGPT 的基于文本的等效测试),以及根据特定预算和兴趣限制生成个性化旅行行程。每个场景的设计都是为了突破各自能力的界限,详细了解它们在实际应用中的优势和劣势。

揭开意外之谜:性能洞察

虽然 ChatGPT Plus 及其 GPT-4o 模型在创意写作和一般会话流畅性方面保持了预期的领先地位,平均在 45 秒内生成了更具吸引力和人性化的散文,但 Gemini Advanced 在 ChatGPT 传统上被认为强大的领域却出人意料地表现出色。在编码挑战中,Gemini Ultra 1.5 展示了卓越的调试功能,识别和建议修复我们的 Python 脚本的速度比 GPT-4o 快 15%,并生成更优化的代码片段。 Reed 博士评论道:“Gemini 对逻辑结构和语法的理解非常精确,通常会提供更优雅的解决方案,为开发人员节省大量时间。”

另一个重大惊喜来自于数学准确性测试。虽然这两种模型在标准问题上都表现良好,但 Gemini Advanced 在复杂的多步代数方程上始终胜过 ChatGPT Plus,显示出更少的错误和更清晰的逐步推理过程。然而,与 Gemini 更字面的输出相比,ChatGPT 在语言翻译测试中重新夺回了阵地,为技术文档提供了更加细致且文化上合适的翻译,尤其是惯用表达。在多模态测试中,Gemini 可以直接解释销售图表的图像,这赋予了它固有的优势,比 ChatGPT 的纯文本输入能够更快、更直接地进行分析。

定价、可访问性和建议

访问这些尖端的 AI 模型有多种选项。对于临时用户和学生,OpenAI 和 Google 都提供强大的免费套餐。 ChatGPT 的基本版本(由 GPT-3.5 提供支持)可直接通过 OpenAI 网站 及其移动应用程序获取。 Google 的 Gemini Pro 型号可通过 gemini.google.com 免费访问,并与一些 Google Workspace 应用程序集成。

对于那些需要高级功能的用户来说,高级订阅才是真正的力量所在。 ChatGPT Plus 每月收费 20 美元,提供更强大的 GPT-4o 模型、更高的使用限制和更快的响应时间。同样,Gemini Advanced 的定价为每月 19.99 美元(通常带有促销免费试用版),用户可以使用功能强大的 Gemini Ultra 1.5 型号。订阅通常直接通过各自的平台进行管理。

我们的建议:对于创意专业人士、内容创作者以及那些优先考虑细致入微的对话和引人入胜的散文的人来说,ChatGPT Plus 仍然是一个强有力的竞争者。它产生引人入胜的叙述和适应各种写作风格的能力仍然是一个基准。然而,对于需要强大的逻辑推理、精确的编码帮助和强大的数学问题解决能力的软件开发人员、数据科学家和用户来说,Gemini Advanced 已成为一个令人惊讶的强大且通常更优越的选择。它在这些技术领域的表现表明 Google 在使 Gemini 成为分析任务的首选工具方面投入了大量资金。最终,“最好的”人工智能取决于个人工作流程和特定任务要求,这使得这两种工具成为当今数字工具包中不可或缺的工具。

Recommended

* We may earn a commission from qualifying purchases at no extra cost to you.

Comments

No comments yet. Be the first!

相关文章

KuCoin 运营商在打击行动中被 CFTC 禁止进入美国市场

KuCoin 运营商在打击行动中被 CFTC 禁止进入美国市场

根据美国商品期货交易委员会 (CFTC) 的命令以及美国司法部 (DOJ) 之前采取的 2.97 亿美元执法行动,全球加密货币交易所 KuCoin 的运营商 Peken Global Limited 在未注册为外国交易委员会的情况下,将无法再为美国用户提供服务。

中东美国国债销售信号转向国内增长

中东美国国债销售信号转向国内增长

由于对流动性的需求不断增加,为雄心勃勃的国内经济多元化项目提供资金,中东主要石油生产国正在剥离美国政府债务。

摇滚小子的直升机敬礼引发美国陆军调查

摇滚小子的直升机敬礼引发美国陆军调查

乡村摇滚艺术家基德·洛克 (Kid Rock) 在发布一架军用直升机飞越其官邸的镜头后引发了美国陆军的调查,引发了有关未经授权使用军事资产的质疑。

滑铁卢突破提供了新的大爆炸解释

滑铁卢突破提供了新的大爆炸解释

滑铁卢大学的科学家提出了一种革命性的大爆炸理论,表明宇宙的早期爆炸性增长自然源于量子引力。

人工智能采用率飙升,但美国人的信任度却直线下降

人工智能采用率飙升,但美国人的信任度却直线下降

尽管人工智能工具在美国的采用率飙升,但昆尼皮亚克大学的一项民意调查显示,由于对透明度、监管和社会影响的担忧,人们的信任度正在直线下降。本文探讨了这一悖论并为用户提供了实用的建议。

Sysco 291 亿美元押注现购自运令投资者感到不安

Sysco 291 亿美元押注现购自运令投资者感到不安

Sysco 宣布以 291 亿美元的现金加股票交易收购 Jetro Restaurant Depot 后,股价暴跌,标志着向“现购自运”食品服务业务的重大战略转变。