【寻新】五感俱全之后，“第六感官”将是AI的“下一块拼图”| 对话微软亚洲研究院邱锂力

近期，openai正式发布新旗舰模型gpt-4o，o意味omni，全能。发布会上，gpt-4o已展现出足以媲美真人的“听说读写”能力。

“五感”既然已被打通，

ai进化的下一步将会落棋何处？

近日，上海科技对话微软亚洲研究院副院长邱锂力，她用一块手掌大小的超表面正方形，向我们展示了她所看到的多模态大模型的确定未来——无线感知将成为ai的“下一块拼图”，成为名副其实的第六感官。

邱锂力

name

微软亚洲研究院副院长、

微软亚洲研究院（上海）负责人

2022年1月，邱锂力博士正式加入微软亚洲研究院，担任副院长一职，主要负责微软亚洲研究院（上海）的研究工作，以及与产学研各界的合作。加入微软亚洲研究院之前，邱锂力博士在美国得克萨斯大学奥斯汀分校担任计算机系教授。她也是全球为数不多同时拥有国际计算机学会会士（acm fellow）和电气电子工程师学会会士（ieee fellow）称号的华人学者。2022她成为美国国家发明家学会院士。

何以“第六感官”：

打破无线通信旧“悖论”的超表面

“传统的ai主要分析视频和语音数据，而无线感知可以赋予ai第六感官，它让我们能看到视野之外的东西，能隔墙感知事物，在黑暗中也能感知事物。”

为什么要无线感知？无线感知可以感知一些比较精细、细微的动作，而且也比较保护隐私。“比如在卫生间老人跌倒，我们不能放摄像头，但是可以用一些无线传感器来监测这些异常状况。”邱锂力说道，无线感知也有不少医疗应用，如检测呼吸，在医院里检测呼吸需要穿戴很多设备，这非常不舒服。“

无线感知可以用声波或wifi或毫米波实现。但在实际的应用中，目前却常常遭遇无线通信的悖论限制——无线感知需要兼具更快的通信速度与较远的感知距离，但这两者却往往不能两全。“为了增加通信速度，我们不断地提高频率，从之前的wifi到现在的毫米波，到太赫兹。提升频率是一个有效提高速率的方法，但是它也大大降低了通讯和感知的距离。”

在收发端加更多的天线似乎可行，但却非常昂贵，对此，微软亚洲研究院（上海）则提出了一个新型的方案——创新智能环境，建立更有利于通信和感知的无线信噪，比如在环境中加一个非常低成本的结构，能更好地提高无线信噪的通信效率和感知精度。

该方案的核心，是源于光学的超表面技术。最近几年，超表面正慢慢用于优化无线技术。它能更自由地修改波前，比如相位、振幅、偏振等等。

据介绍，在一块超表面结构上，有很多细小的单元，每个单元都像一个小天线。但是不同于传统的无线天线阵列，那些天线阵列需要外部的激励源来激励，超表面则可以用收到的电磁波来激励，然后改变波前。通过设计每个超表面的单元，能精准修改出射波的相位和振幅。

智能超表面可应用在不同的场景，包括低轨道卫星通信、毫米波、全网覆盖以及无线感知。据邱锂力介绍，超表面在无线通信上，具有成本较低且方便部署的优势。例如，在低轨道卫星的应用方面，对于上行链路和下行链路，它都能大大提升信噪比，它的信号能提升45倍。同样功能的天线阵列则需要几千美元。

基于超表面的赋能，更多层面的无线感知将得以通过更低廉的成本实现。目前，无线感知可以用声波或wifi或毫米波实现。例如，在家庭的智能音箱前，放置超表面结构，将能够进行对人体呼吸的感知，即使隔着被子，或者人在走动，也可以实现。

ai+健康：

ai是pilot还是co-pilot？

“对于我们来说，人永远是pilot（领航员），人是最核心的；即使是最好的ai，也只能做人的co-pilot，为人的工作与决策赋能。”

尽管大语言模型正展现出越来越强大的生成和推理能力，但在医学领域中直接应用大模型还存在一些壁垒。对于医学领域，大模型往往还需要特定的改造，包括但不限于“读懂”脑电波、“理解”呼吸……对此，微软亚洲研究院基于基础模型自研、无线感知突破等前沿技术，已在ai+健康领域取得了长足的进展。

据邱锂力介绍，其中，有一些项目已经取得了比较好的效果。例如ai neurologist，该系统能通过脑电波来检测用户是不是正在癫痫发作。“我们请医生对这个工具做了一些评估，得到了比较好的评价，它能提高医生对癫痫事件分类的准确率。”

对于脑健康的探索，微软亚洲研究院（上海）正走在前沿。在邱锂力看来，探索脑科学是一场人脑与ai的双向对话。“我们希望通过跨领域研究，用人工智能技术来帮助神经科学家更好地理解大脑，这种理解不仅有助于我们探索脑部疾病机理，促进脑健康，而且我们也可以通过从大脑汲取灵感，有望启发我们设计出更高效的人工智能。”邱锂力谈道，比如团队受大脑神经信号传输模式启发设计了一种新型神经网络，它用更少的参数能实现更好的效果。这些机器学习，也将继续用于医疗健康、新药发现等等场景。

而在脑科学之外，微软亚洲研究院（上海）也正尝试通过打通人类与ai的“五感”，对特殊的疾病进行更早诊断与介入。例如，在听与说方面，其正在开发智能语音早筛系统。“语音包含了很多丰富的信息，包括人的生理健康信息，比如我们的发音反映了发音器官的健康程度。发音的同时也能反映出头脑的健康程度，还有情绪的问题。”邱锂力介绍道，“所以，我们基于这些开发出了语音‘治疗师’，用于阿尔茨海默症的早筛，现在我们也正在关注通过语音来感知情绪。相关项目我们正在跟医院合作，希望能推动落地。”

同时，微软亚洲研究院（上海）也在探索通过视频做无监督的异常检测，比如自闭症患者有一些异常的刻板行为，通过建模，抽取2d、3d的关键点信息，利用刻板行为的一些特征，实现无监督异常行为监测。

“小模型”将带来大变局

“如果能在手机上享受这种交互的话，那么就能有更广泛的人群受益于ai。”

2024年4月底，微软正式发布了新一代phi-3，其中最小尺寸的phi-3-mini，在各大公开的学术基准和内部测试中，实现了与gpt等大尺寸模型相同的性能。

而这意味着，大模型可以不再需要强劲的显卡与电脑，在手机上，也能跑出媲美gpt 3.5的“小模型”。

模型从大到小，关键之一，便是如何突破长上下文的提示词。大模型的应用现在很多都是靠提示词（prompt），提示词的长短直接影响到执行的时长和成本。同时，微软亚洲研究院（上海）也和位于北京的团队合作，开发出长上下文的提示词。之前的提示词只能用到128k的token（标记），但在他们的工作下，他们做到了200万的tokens。

在邱锂力看来，小模型的出现，将大大拓宽ai的服务范围与使用场景，在之后，也许面对手机、手表等边缘设备，也可以实时对话了，不一定在电脑前进行这些操作，本地化的操作可以更好地保护隐私，不用传到云端。

“上海科技”出品，转载请注明来源

企业及专家观点不代表官方立场

↓分享

↓点赞

↓在看

上观号作者：上海科技