我爱我爱色 谷歌 Gemini 1.5 一眼看透 Sora 视频是 AI 生成,百万 token 险峻文才能碾压 GPT-4
发布日期:2024-09-26 04:59 点击次数:79Gemini 1.5 的真确水平到底怎么样我爱我爱色,从谷歌那处取得试用经历的大佬们,给大家进行了一波极限测试。让咱们望望谷歌最新推出的大模子到底有多强的实力。
当谷歌 Gemini 1.5,遇上抢了它头条的「罪魁罪魁」Sora 会怎么样?
这两天,拿到内测经历的 AI 圈大佬们,纷纷给渊博网友来了一波在线测试。这不,Gabor Cselle 就让 Gemini 1.5 去分析了阿谁知名的樱花雪景视频。
对此,Gemini 1.5 给出的评价是:
视频呈现的是日本一条掩饰着雪的街谈,樱花正怒放。但几处明显的问题线路这个视频可能是 AI 制作的。
最初,尽管雪下得相等大,樱花却依然绽放。经常,樱花在春季盛开,其时天气慈悲,不会有雪。
其次,雪以一种过于限定的神色落下,这与现实中雪的降落神色不符。
再者,尽管正下着大雪,视频中的东谈主们却莫得穿着任何冬季服装。
一言以蔽之,固然视频的视觉结果令东谈主赞好意思,但这些问题标明它并非真确场景所拍。
不得不说,就分析视频 AI 陈迹的准确度来看,Gemini 的回应相等贴题,证明它的识别和表露才能照实相等出色。
无独到偶,The Rundown AI 首创东谈主 Rowan Cheung,则测试了猫在森林里踱步的视频。
对此,Gemini 1.5 给出的评价是:
这段视频很有可能是由东谈主工智能(AI)创造的,但要细则地说如故有些繁重。
一些细节似乎标明这段视频是真确的,举例猫的算作当然流通,光影结果也颠倒传神。
然则,也有一些细节让东谈主怀疑,比如猫的眼睛颠倒放大,毛皮的质感也过于完好无瑕。
最终,视频是确凿假,如故要留给不雅众我方去判断。
照实 Sora 的视频生成依然到达了真假难辨的地步,而且 Gemini 的分析也基本到位,有理有据。
不外,需要矜重的是,在这两位大佬的 Prompt 里,要么昭示了视频便是 AI 生成的,要么线路了两者可能有所联系。
1,000,000 token 险峻文聪颖啥?人所共知,模子的险峻文窗口越大,它搞定给定教唆时大概弃取的信息就越多 —— 这就使得它的输出愈加连贯、联系和实用。
如今,谷歌胜仗把这个规模「卷」到了 100 万 token(极限为 1000 万 token),创下了最长险峻文窗口的记录。
在这个基础之上,好多之前难以联想的足下王人成为了现实。
比如,连气儿搞定 1 小时的视频、11 小时的音频、极度 30,000 行的代码库,或是极度 700,000 个单词的文本等等。
于是,一大波千奇百怪的实测就扑面而来:
比如,前文提到的 Rowan Cheung,就用了好多长视频来对 Gemini 1.5 的表露才能进行了测试。
最初他上传了本年通盘 NBA 扣篮大赛,问哪一个扣篮得分最高。
Gemini 1.5 相等大概从很长的视频中找到了阿谁取得 50 分满分的扣篮,并明晰地形容了扣篮的细节!
Mac McClung 的临了一记扣篮取得了当晚的最高分 ——50 分满分。他跳过两东谈主,将球轻敲篮板后板,然后用右手完成扣篮。
然后他又让 Gemini 1.5 表露并比较《星际穿越》和《星际探索》的完整电影脚本。
让 Gemini 1.5 去表露比较两部电影的完整翰墨履行,来匡助他决定应该看哪部电影。
Gemini 1.5 临了输出到:我爱我爱色
《星际探索》:归根结底,这是一个对于个东谈主成长和东谈主与东谈主之间联系的迫切性的故事,标明即使濒临寰宇的暴虐,找到本人的兴味和与他东谈主的联系亦然至关迫切的。
《星际穿越》:愈加乐不雅和充满但愿,强调了东谈主类灵敏的力量,以及濒临看似难以克服的挑战时金石可镂的迫切性。
接下来该看哪部电影取决于你的个东谈主喜好:
要是您正在寻找一个愈加自省、以东谈主物为驱能源、重视情感主题的故事,《星际探索》可能是一个可以的弃取。
要是你更可爱史诗般的算作冒险,保重东谈主类的生活,那么《星际穿越》可能更有勾引力。
两部电影王人为天外探索和东谈主类经历提供了零散而发东谈主深省的视角。
然后,他又让 Gemini 将一段英语翻译成一个全天下不极度 2000 东谈主使用的言语(萨特兰语)。
Gemini 1.5 经过推理之后将英语小册子的总计履行很快翻译成萨特兰语。
这个经过照实碉堡了。
然后他再让 Gemini 查找、表露长论文中的一个图标的含义。
Gemini 从 DeepMind 的 Gemini 1.5 Pro 论文中提真金不怕火「表 8」并证明了这个图表的含义。
表 8 的主要的履行是:
与 Gemini 1.0 Pro 比拟,Gemini 1.5 Pro 在总计中枢文本功能方面王人有显耀改变。这标明该模子的才能有了明显的提高。
Gemini 1.5 Pro 在许多基准测试中的发扬与 Gemini 1.0 Ultra 颠倒,以致极度了后者,尽管所需的老师诡计量更少。这突显了 1.5 Pro 模子效力的提高。
Gemini 1.5 Pro 在不同的任务和言语中王人发扬出很强的性能,这标明它具有很好的泛化才能。
总之,表 8 提供的根据标明,Gemini 1.5 Pro 不仅在长文才能略方面发扬出色,而且还保抓以致改变了其前代居品的中枢文本功能。这使它成为一个功能强劲、用途历害的模子,适用于多样基于文本的任务。
临了,他让 Gemini 表露通盘《星际穿越》的脚本履行,再把脚本中最振作的部分的台词提真金不怕火出来。
Gemini 1.5 输出了《星际穿越》翰墨记录中最饱读动东谈主心的 3 句台词。
av网站1. 「东谈主类出身于地球,但咱们的运谈远不啻于此。」—— Cooper
这句话深切地抒发了东谈主类探索未知、超越近况的挣扎不挠的精神。它提醒咱们,咱们的后劲不受现时所处环境的结果,咱们统统有才能克服挑战,追求更高的方针。
2. 「爱是独一能极度技术和空间,涉及咱们心灵的力量。」—— Brand
这句话揭示了爱的强劲才能,它大概极度远方的距离,以致是技术的界限,将咱们牢牢连续。它线路,爱是寰宇中的一股根底力量,能在困境中为咱们指明标的,带给咱们但愿。
3. 「也曾,咱们仰望星空,瞎想着我方在盛大寰宇中的位置。如今,咱们却千里溺于咫尺的琐事,健忘了我方的宏大期许。」—— Cooper
这句话是对酷好心、追乞降明志励志的迫切性的深情提醒。它对比了昔日东谈主类满怀但愿地探索星辰的期间,与如今忙于支吾平常挑战、失去对翌日的憧憬的近况。它引发咱们重新寻找那份对未知的酷好和对更好意思好翌日的追求。
Gemini 1.5 性能极限测试随后,Rowan Cheung 又对 Gemini 1.5 进行了一些愈加极限的测试:
他让 Gemini 读取了整部《哈利・波特与魔法石》(共 741,028 个 Token)。
Prompt:「请按照技术门径列出版中最迫切的 50 个(或 100 个)念念想或段落,并对它们的迫切性进行 1 到 10 的评分。」
完成这个任务耗时 4 分钟。
他又输入了梅西在对阵赫塔菲比赛中的经典单刀进球视频。
Prompt:「这个进球为什么如斯知名?」
固然莫得证明这个进球为什么那么知名,但它胜仗识别出了梅西,但是把赫塔菲的球员识别成了皇马球员。
这张图片之是以出名,是因为它捕捉到了有史以来最伟大的足球灵通员之一梅西在与巴塞罗那最大的敌手之一皇家马德里比赛时的场景。梅西的球技和灵通才能在这幅图片上得到了充分展示,视觉结果极佳。
他还进行了难度很高的数学和逻辑推理测试。
Prompt:「当一个点 P 在垂直线上出动时,该点在技术 t(t ≥ 0)的速率 v (t) 与加快度 a (t) 知足以下条目:(a) 当 0 ≤ t ≤ 2 时,v (t) = 2t^3 - 8t。(b) 当 t ≥ 2 时,a (t) = 6t + 4。请诡计点 P 从技术 t = 0 到 t = 3 出动的总距离。」
不外,大佬线路,我方并不细则这里给出的谜底是否正确,但据网友挑剔的说法,这个谜底是造作的。
他又让 Gemini 1.5 造 10 个句子,每个句子王人以「Apple」闭幕。
这个任务是熟谙聊天机器东谈主才能的一个很常用的门径。
Prompt:「请编写 10 个句尾为『apple』的句子。」
临了,Gemini 1.5 统统没能完成这项挑战。
于是他让 GPT-4 也来跑了一下这个问题,结果 GPT-4 也没给出正确的结果。
他又把《真金不怕火金方士》这本书的 PDF 全文输入到了 Gemini 1.5 中,主义是获取书中主东谈主公的形象形容。
接着,他又把这个形容在 DALL・E 3 中生成了图片。
Prompt:「读完整本书后,帮我构念念一个基于主角形象的形容,我想把它用在 AI 图像生成器里。」
1000 万极限费经心念念着实全绿临了,咱们来望望 Gemini 1.5 Pro 在多模态费经心念念测试中的得益。
对于文本搞定,Gemini 1.5 Pro 在搞定高达 530,000 token 的文本时,大概收场 100% 的检索完整性,在搞定 100 万 token 的文本时达到 99.7% 的检索完整性。
以致在搞定高达 1000 万 token 的文本时,检索准确性仍然高达 99.2%。
在音频搞定方面,Gemini 1.5 Pro 大概在纰漏 11 小时的音频尊府中,100% 胜仗检索到多样荫藏的音频片断。
在视频搞定方面,Gemini 1.5 Pro 大概在纰漏 3 小时的视频履行中,100% 胜仗检索到多样荫藏的视觉元素。
此外,谷歌商议东谈主员还开导了一个更通用的版块的「大海捞针」测试。
在这个测试中,模子需要在一定的文本边界内检索到 100 个不同的特定信息片断。
在这个测试中,Gemini 1.5 Pro 在较短的文本长度上的性能极度了 GPT-4-Turbo,况且在通盘 100 万 token 的边界内保抓了相对沉稳的发扬
与之对比昭着的是,GPT-4 Turbo 的性能则赶紧下落,且无法搞定极度 128,000 token 的文本,发扬惨烈。
参考尊府:
https://twitter.com/rowancheung/status/1759280384930459941
https://twitter.com/gabor/status/1758658652263875023
https://twitter.com/rowancheung/status/1759616797328998588
告白声明:文内含有的对外跳转纠合(包括不限于超纠合、二维码、口令等阵势)我爱我爱色,用于传递更多信息,粗略甄选技术,结果仅供参考,IT之家总计著作均包含本声明。