【寻新】五感俱全之后,“第六感官”将是AI的“下一块拼图”| 对话微软亚洲研究院邱锂力

近期,openai正式发布新旗舰模型gpt-4o,o意味omni,全能。发布会上,gpt-4o已展现出足以媲美真人的“听说读写”能力。

“五感”既然已被打通,

ai进化的下一步将会落棋何处?

近日,上海科技对话微软亚洲研究院副院长邱锂力,她用一块手掌大小的超表面正方形,向我们展示了她所看到的多模态大模型的确定未来——无线感知将成为ai的“下一块拼图”,成为名副其实的第六感官。



邱锂力


name


微软亚洲研究院副院长、

微软亚洲研究院(上海)负责人


2022年1月,邱锂力博士正式加入微软亚洲研究院,担任副院长一职,主要负责微软亚洲研究院(上海)的研究工作,以及与产学研各界的合作。加入微软亚洲研究院之前,邱锂力博士在美国得克萨斯大学奥斯汀分校担任计算机系教授。她也是全球为数不多同时拥有国际计算机学会会士(acm fellow)和电气电子工程师学会会士(ieee fellow)称号的华人学者。2022她成为美国国家发明家学会院士。


01

何以“第六感官”:

打破无线通信旧“悖论”的超表面

“传统的ai主要分析视频和语音数据,而无线感知可以赋予ai第六感官,它让我们能看到视野之外的东西,能隔墙感知事物,在黑暗中也能感知事物。”

为什么要无线感知?无线感知可以感知一些比较精细、细微的动作,而且也比较保护隐私。“比如在卫生间老人跌倒,我们不能放摄像头,但是可以用一些无线传感器来监测这些异常状况。”邱锂力说道,无线感知也有不少医疗应用,如检测呼吸,在医院里检测呼吸需要穿戴很多设备,这非常不舒服。“

无线感知可以用声波或wifi或毫米波实现。但在实际的应用中,目前却常常遭遇无线通信的悖论限制——无线感知需要兼具更快的通信速度与较远的感知距离,但这两者却往往不能两全。“为了增加通信速度,我们不断地提高频率,从之前的wifi到现在的毫米波,到太赫兹。提升频率是一个有效提高速率的方法,但是它也大大降低了通讯和感知的距离。”

在收发端加更多的天线似乎可行,但却非常昂贵,对此,微软亚洲研究院(上海)则提出了一个新型的方案——创新智能环境,建立更有利于通信和感知的无线信噪,比如在环境中加一个非常低成本的结构,能更好地提高无线信噪的通信效率和感知精度。

该方案的核心,是源于光学的超表面技术。最近几年,超表面正慢慢用于优化无线技术。它能更自由地修改波前,比如相位、振幅、偏振等等。

据介绍,在一块超表面结构上,有很多细小的单元,每个单元都像一个小天线。但是不同于传统的无线天线阵列,那些天线阵列需要外部的激励源来激励,超表面则可以用收到的电磁波来激励,然后改变波前。通过设计每个超表面的单元,能精准修改出射波的相位和振幅。

智能超表面可应用在不同的场景,包括低轨道卫星通信、毫米波、全网覆盖以及无线感知。据邱锂力介绍,超表面在无线通信上,具有成本较低且方便部署的优势。例如,在低轨道卫星的应用方面,对于上行链路和下行链路,它都能大大提升信噪比,它的信号能提升45倍。同样功能的天线阵列则需要几千美元。

基于超表面的赋能,更多层面的无线感知将得以通过更低廉的成本实现。目前,无线感知可以用声波或wifi或毫米波实现。例如,在家庭的智能音箱前,放置超表面结构,将能够进行对人体呼吸的感知,即使隔着被子,或者人在走动,也可以实现。



02

ai+健康:

ai是pilot还是co-pilot?

“对于我们来说,人永远是pilot(领航员),人是最核心的;即使是最好的ai,也只能做人的co-pilot,为人的工作与决策赋能。”

尽管大语言模型正展现出越来越强大的生成和推理能力,但在医学领域中直接应用大模型还存在一些壁垒。对于医学领域,大模型往往还需要特定的改造,包括但不限于“读懂”脑电波、“理解”呼吸……对此,微软亚洲研究院基于基础模型自研、无线感知突破等前沿技术,已在ai+健康领域取得了长足的进展。

据邱锂力介绍,其中,有一些项目已经取得了比较好的效果。例如ai neurologist,该系统能通过脑电波来检测用户是不是正在癫痫发作。“我们请医生对这个工具做了一些评估,得到了比较好的评价,它能提高医生对癫痫事件分类的准确率。”



对于脑健康的探索,微软亚洲研究院(上海)正走在前沿。在邱锂力看来,探索脑科学是一场人脑与ai的双向对话。“我们希望通过跨领域研究,用人工智能技术来帮助神经科学家更好地理解大脑,这种理解不仅有助于我们探索脑部疾病机理,促进脑健康,而且我们也可以通过从大脑汲取灵感,有望启发我们设计出更高效的人工智能。”邱锂力谈道,比如团队受大脑神经信号传输模式启发设计了一种新型神经网络,它用更少的参数能实现更好的效果。这些机器学习,也将继续用于医疗健康、新药发现等等场景。

而在脑科学之外,微软亚洲研究院(上海)也正尝试通过打通人类与ai的“五感”,对特殊的疾病进行更早诊断与介入。例如,在听与说方面,其正在开发智能语音早筛系统。“语音包含了很多丰富的信息,包括人的生理健康信息,比如我们的发音反映了发音器官的健康程度。发音的同时也能反映出头脑的健康程度,还有情绪的问题。”邱锂力介绍道,“所以,我们基于这些开发出了语音‘治疗师’,用于阿尔茨海默症的早筛,现在我们也正在关注通过语音来感知情绪。相关项目我们正在跟医院合作,希望能推动落地。”

同时,微软亚洲研究院(上海)也在探索通过视频做无监督的异常检测,比如自闭症患者有一些异常的刻板行为,通过建模,抽取2d、3d的关键点信息,利用刻板行为的一些特征,实现无监督异常行为监测。



03

“小模型”将带来大变局

“如果能在手机上享受这种交互的话,那么就能有更广泛的人群受益于ai。”

2024年4月底,微软正式发布了新一代phi-3,其中最小尺寸的phi-3-mini,在各大公开的学术基准和内部测试中,实现了与gpt等大尺寸模型相同的性能。

而这意味着,大模型可以不再需要强劲的显卡与电脑,在手机上,也能跑出媲美gpt 3.5的“小模型”。

模型从大到小,关键之一,便是如何突破长上下文的提示词。大模型的应用现在很多都是靠提示词(prompt),提示词的长短直接影响到执行的时长和成本。同时,微软亚洲研究院(上海)也和位于北京的团队合作,开发出长上下文的提示词。之前的提示词只能用到128k的token(标记),但在他们的工作下,他们做到了200万的tokens。

在邱锂力看来,小模型的出现,将大大拓宽ai的服务范围与使用场景,在之后,也许面对手机、手表等边缘设备,也可以实时对话了,不一定在电脑前进行这些操作,本地化的操作可以更好地保护隐私,不用传到云端。



“上海科技”出品,转载请注明来源

企业及专家观点不代表官方立场


↓分享

↓点赞

↓在看

上观号作者:上海科技