5月14日,这是一个人工智能圈集体失眠的晚上。 凌晨,openai公司发布了全新旗舰模型“gpt-4o”,将gpt从文字的二维拉升到语音的三维。新模型可以以平均仅320毫秒的速度响应语音,已经达到人类日常交互水准,并能够理解情绪,支持文本、音频和图像的多模态输入输出,堪称一场“升维打击”。 那么,gpt-4o到底为什么让从业者们集体“失眠”呢? 一则是其与以往语音模式人工智能完全不同的响应方式。传统人工智能接受语音的过程,就像好学生的“三段论”。接受语音转化文本、分析文本输出回答,把回答转化为语音。这样的三段论不仅拖慢回复,还丢掉了表情语气等一系列非内容信息。gpt-4o就完全不同,它“合三为一”,直接分析接收源的语音,情绪,一步到位给出回答,还能让回答更具有人性化,这无疑是人工智能交互上的一次大的飞跃。 二则是openai公司将gpt-4o免费提供给所有用户使用,一招破釜沉舟拉所有同类竞争者下水。这可谓是一招堂堂“阳谋”,免费这一招棋落下,原本趋于平衡的市场被打破,其他想用价格战击倒chatgpt的竞品全都打空,竞争对手们若是不也以免费相陪,难免被openai重新掌握主动权。 人工智能如同滚滚洪流,冲刷着传统行业,也推搡着新兴同业,本次新模型的推出,无疑对没有追上“实时性”步伐的同业是沉重的打击,甚至可能波及类似于分析策划,翻译等一系列相关行业。车轮转动便难以停下,在愈来愈汹涌的浪潮中,如何令行业与ai共生,是同行业者们应当在这个不眠之夜端着咖啡好好想想的话题。策划:李艳 王如林记者:王新蕾 徐佳 胡羽制作:龙女实习生: 刘缘 朱佳罗
上观号作者:大众日报