本文作者:叶圣陶

号称要取代谷歌的 SearchGPT 竟出现幻觉,全网一手实测来了

号称要取代谷歌的 SearchGPT 竟出现幻觉,全网一手实测来了摘要: 号称要取代谷歌的 SearchGPT 竟出现幻觉,全网一手实测来了科技媒体TestingCatolog也率先进行了内测,并揭开了SearchGPT搜索机制的一角。甚至,Testin...

在回答“八月份在北卡罗来纳州布恩举行的音乐节”的问题时,他记错了时间并开始出现幻觉。

你不是说要取代谷歌吗?

全网第一手测试来了

Kesku 自己测试的另一个演示,展示了一个小部件。

她发现的一个现象是人们倾向于高度关注搜索结果。

“有时候你只需要清楚地告诉它你想做什么,而不是你想从互联网上得到什么。”

比如你询问伦敦的天气,它会首先给你未来七天的天气预报。

伦敦最适合野餐的时间和地点是什么?以类似小部件的格式提供一些选项。

Kesku 也在移动设备上测试了一些示例。

查询 股票将为您提供 股票整体的直观表示,然后进行一些分析。所有股票信息都无缝集成到页面中。

输入歌名《Never Gonna Give You Up》,歌曲视频会直接显示出来,不用跳转到其他网页,一个页面就能听歌、看视频。

除了搜索功能,网友们还热衷于进行“人性化测试”——

“你好吗”?

“作为 AI 语言模型,我没有情感,但我在这里,随时准备帮助您解答问题。我今天能为您提供什么帮助?”

“给我讲个笑话”

英语世界里一个经典的双关语由此诞生:

“科学家不相信原子。为什么科学家不相信原子?因为它们构成了一切!”

网友现场提问

羡慕的网友们在评论区提出疑问,并请求楼主帮忙测试。

第一个网友问“支持地区和新闻吗,比如最新消息?”

经过测试,Kesku 表示,“它可以通过 IP 地址或精确位置为您提供本地信息(后者默认关闭,可以在设置中打开)——例如,‘我附近的电影院’这样的查询效果很好。”

“帮我测试一下它的代理搜索的解释力。”

在高带宽内存的讲解中,蓝色标注的内容为参考讲解。

您可以尝试搜索一些付费文章吗?那些最近与 签署了合作协议的文章。

Kesku 给出了文章的内容,但似乎无法超越付费内容,而只是给出了文章的摘要。

更详细的内容目前还看不到。

您可以尝试搜索“月活跃用户”吗?

我想看看当它找不到我正在寻找的确切答案时,它是否会承认它找到的是 DAU 而不是 MAU,或者它是否会像那样装傻,只是复制并粘贴整个搜索结果并忽略实际查询。

Kesku搜索结果如下:

显然,根据提问者的问题给出了答案。

“相比之下怎么样?”

凯斯库表示,他还没有测试过复杂的任务管家婆的一肖一码免费公开,但他对目前的结果很满意。

在接下来的提示中,她直接问出了“Kesku 是谁?”这样的小众问题。

出乎意料的是,我给出了正确的答案,但回答错了。

一位网友评论道:“很酷的演示!也许它可以为本地搜索领域带来一些变化?它可以帮助你在现实世界中完成事情。从外观上看,它有一个很好的数据源,简单的小部件,而且速度超快。我想知道与谷歌相比,他们能把每次查询的成本降低多少。”

揭开搜索的秘密

科技媒体也率先进行了内测,并揭开了搜索机制的一角。

与目前提供的一般Bing搜索功能不同,它更擅长提供实时信息。

虽然它还是依赖于Bing的索引,但是它会有自己的网络爬虫(类似于)来动态获取实时数据,从而克服Bing速度慢的问题。

他甚至挖出了源代码,并在评论区信誓旦旦地说“绝对准确,我有内幕消息”。

源代码不仅揭示了 Bing 的界面管家婆一肖一码100中奖技巧,还表明搜索结果由多模式模型提供支持。

虽然具体的处理流程尚不清楚,但调用的模型应该具备自动理解图像的能力。

官方示威游行惨遭失败。

正当网友们热情尝试时,《大西洋月刊》却跳出来泼了它一盆冷水——官方演示版中存在明显的搜索结果错误。

用户给出的搜索问题是“八月份在北卡罗来纳州布恩举办的音乐节”。

这个问题其实很难体现出相对于传统搜索引擎的优势,如果同样的问题抛给,它会给出几乎一样的结果。

例如,“阿巴拉契亚夏季节日”(An)位于第一行,也是 搜索的第二个结果。

但尴尬的是,标题下方的AI摘要却犯了一个关键信息错误——经主办方确认,音乐节将于6月29日至7月27日举办。

如果你按照给出的信息购买门票,你将一无所获——7月29日至8月16日是售票处正式关闭的期间。

发言人凯拉·伍德向《大西洋月刊》承认了这一错误,并表示“这只是一个初始原型,我们将继续改进它。”

这个错误让人想起了巴德造成的悲剧。

2023年2月,谷歌推出这款聊天机器人产品进行反击,但首发时出现事实错误,导致其股价当天暴跌9%,市值瞬间蒸发1000亿美元。

巴德声称詹姆斯·韦伯太空望远镜拍摄了第一张系外行星的照片,但这一荣誉实际上属于欧洲南方天文台的甚大望远镜

幸好股价已经没有下跌空间,只开放内测也是慎重之举号称要取代谷歌的 SearchGPT 竟出现幻觉,全网一手实测来了,毕竟以谷歌的经验,可以预见,类似 LLM 这样的失误几乎是不可避免的。

即便我们能找到办法大幅降低这种错觉,但面对庞大的访问量,这也只是杯水车薪。

假设幻觉率仅为 1%(这个比率很难达到),以谷歌的规模,每天将产生数千万个错误答案。

更糟糕的是,我们还没有发现足够可靠和有效的方法来消除LLM的胡言乱语和幻想。

而且老板曾经在推特上表达过这样的观点:“幻觉不是一个bug,而是LLM最大的特点”。

将LLM比喻为一台“做梦机”:我们利用引导模型进行“做梦”,结合训练文档的模糊记忆,得到生成的结果。

虽然生成的结果大多数时候都是有用的,但既然是“梦”2024今晚新澳六我奖,就有可能失控。当LLM梦到事实错误时,我们称之为“幻觉”。

这看起来像是一个错误,但 LLM 只是在做它一直在做的事情。

这种机制与传统的搜索引擎完全不同,传统的搜索引擎收到提示后,只是逐字返回数据库中最相似的文档,因此您可以说它存在“创造力问题”,因为搜索引擎永远无法创建新的响应。

据悉,很难指望目前的LLM驱动的AI搜索能够产生100%真实准确的结果。

那么,这场搜索引擎革命将会如何展开?LLM 的“梦幻般的创造力”和传统搜索引擎的可靠性究竟会共存,还是最终会陷入“殊死搏斗”?

参考:

觉得文章有用就打赏一下文章作者

支付宝扫一扫打赏

微信扫一扫打赏

阅读
分享

发表评论

快捷回复:

评论列表 (暂无评论,22人围观)参与讨论

还没有评论,来说两句吧...