🌐IPLC专线推荐选购指南:
https://iplc.best/

🤝 联系频道主:
@IPLC_BEST_CHATBOT
苹果最新研究表明,LLMs 可以通过音频和运动数据判断你正在做什么

一篇题为“使用 LLMs 进行后期多模态传感器融合以进行活动识别”的新论文,揭示了苹果公司可能考虑结合 LLMs 分析与传统传感器数据,以更准确地了解用户的活动。

他们认为,这具有很大的潜力,可以在传感器数据不足的情况下,使活动分析变得更加准确。
传感器数据流为下游应用提供了有关活动和上下文的宝贵信息,不过整合互补信息可能颇具挑战性。

我们的数据表明,大型语言模型(LLMs)可用于对来自音频和运动时间序列数据的活动进行后期融合分类。

我们从 Ego4D 数据集中整理出了一部分数据,用于在不同上下文中(例如家庭活动、体育运动)进行多样化的活动识别。

经过评估的 LLM 实现了显著高于随机水平的 12 类零样本和少样本分类 F1 分数,且无需针对特定任务进行训练。

通过基于 LLM 的融合来自模态特定模型的零样本分类,可以在有限的对齐训练数据用于学习共享嵌入空间的情况下,实现多模态时间应用。

此外,基于 LLM 的融合能够实现模型部署,而无需为特定应用的多模态模型额外占用内存和计算资源。


换句话说,LLMs 实际上非常擅长从基本的音频和运动信号推断用户在做什么,即使他们没有受过专门的训练。此外,当只给出一个例子时,它们的准确性会进一步提高。

在这项研究中,LLM 并没有接收实际的音频录音,而是接收由音频模型和基于 IMU 的运动模型(通过加速度计和陀螺仪数据追踪运动)生成的简短文本描述。

研究人员介绍了他们使用的 Ego4D 数据集,是一个庞大的第一人称视角媒体资料库,涵盖了数千小时的真实环境和场景,包括家庭任务和户外活动。
我们从 Ego4D 数据集中筛选出日常活动,方法是在提供的描述中搜索日常生活中的活动。整理出一个包含 12 个主要活动的 20 秒样本数据集,包括吸尘、做饭、洗衣、吃饭、打篮球、踢足球、与宠物玩耍、读书、使用电脑、洗碗、看电视和锻炼/举重。这些活动的选择旨在涵盖家庭和健身任务的多样性,并且它们在更大数据集中较为常见。


苹果公司在这项研究的同时还发布了补充材料,包括 Ego4D 片段编号、时间戳、提示信息以及用于实验的一次性示例,旨在帮助研究人员复现研究结果。

🗒 标签: #Apple #LLMs #AI
📢 频道: @GodlyNews1
🤖 投稿: @GodlyNewsBot
 
 
Back to Top