偷偷撸1
新智元报说念
裁剪:peter东 乔杨
【新智元导读】只需要在手腕上戴一个腕带,就能够驱散隔空打字。Meta近期推出的开源名义肌电图(sEMG)数据集,可进行姿态揣测和名义类型识别,鞭策神经领略接口发展。
每一个新的磋商平台都带来了咱们与建立互动口头的范式飘扬。 鼠主义发明为今上帝导PC寰宇的图形用户界面(GUIs)铺平了说念路,而智高手机直到触摸屏的出现才运行着实取得影响力。
不异的国法也适用于可穿着建立和AR,念念象一下,在晨跑时只需轻轻一触指尖就能拍照,或者用简直察觉不到的手部看成来导航菜单。
AR期间转变东说念主机交互
在Connect 2024大会上,Meta展示了EMG腕带与Orion增强施行眼镜的家具原型。这两大神器重叠在全部,科幻电影中才会出现的「隔空打字」场景好像行将驱散。
Orion AR眼镜
meta推出的肌电图腕带
戴上这么一个腕带,你让双手欢快地放在身侧,同期进行鼠主义滑动、点击和滚动等操作,无缝遏抑数字内容。
翌日还将有好多其他应用场景,包括在增强施行中诈欺物体,或者像在键盘上打字一样——甚而更快,快速输入完好信息,简直无需劳作。
在近日的NeurIPS 2024 的「数据集和基」子会场中,Meta发布了两个数据集——emg2qwerty 和 emg2pose,展示在硬件层面只是依靠腕带的情况下,若何产生比微小手势更丰富的输入数据集。
原文地址:https://arxiv.org/abs/2410.20081
原文地址:https://arxiv.org/abs/2412.02725v1
用于隔空打字的数据集emg2qwerty
名义肌电图(sEMG)是在皮肤名义测量由肌肉产生的电势,它能够检测到由单个领略神经元引起的步履,同期长短侵入性的。
具体来说,关于单个的脊髓领略神经元,其细胞体位于脊髓中,向肌纤维中投射一条长轴突,每条肌纤维只被一个领略神经元诈欺。
脊髓领略神经元放电时,就会触发它诈欺的整个肌纤维松开,同期放大了来自神经元的电脉冲。恰是这些来自肌纤维的电信号,可被皮肤上的sEMG传感器检测到。
用于数据采集的名义肌电图究诘建立(sEMG-RD)偏执腕围电极舍弃的默示图
基于腕带的打字系统旨在贬责可穿着建立的文本输入问题,驱散无需物理键盘的触摸打字。
仅使用手腕上检测到的肌肉电信号,系统将可自动解码并对应至杜撰施行中投影的磋商机键盘按键。
这意味着,用户翌日不错在莫得物理键盘的情况下,不论在桌子上、腿上如故厨房桌子上打字,都能如同在实质键盘上一样输入。
一个针对领导「the quick brown fox」的名义肌电图(sEMG)纪录示例,表露傍边腕带上32通说念的名义肌电图信号和按键时刻;垂直线线路按键运行,每个电极通说念的信号经由高通滤波
emg2qwerty数据集包括从两只手腕获取的高分辨率sEMG 信号,与QWERTY 键盘的的确按键同步。该数据集系数包含108名参与者完成的、涵盖世俗单字和句子打字领导的346小时纪录,共计逾越520万次按键。
emg2qwerty数据集分割的可视化。每一列代表一个用户,每一个方块代表一个会话,方块的高度线路其握续时刻
若何仅通过名义肌电图数据中检测到用户按了哪个键呢?为了贬责这个中枢问题,Meta招引了受自动语音识别(ASR)领域启发的纪律。
该纪律不异模拟了给定承接多通说念时刻序列下,展望破碎字符输出序列的任务。为了给emg2qwerty构建雄壮的基线,Meta尝试了新颖的采集架构、不同的查考亏蚀以及谈话模子的使用,恒久关爱名义肌电图数据的独到领域特征要求。
究诘发现,在100个用户的范围上,尽管生理、剖解、步履、带宽大小和传感器舍弃存在各异,用户间的泛化仍然可出现。
当使用约莫半小时的个体用户打字数据来个性化模子时,性能的进一步升迁随之而来。通过整合谈话模子来优化后果,可将字符造作率降至 10%以下——这个值被以为是一个使文本模子可用的关键阈值。
跟着数据集的加多,近似谈话模子中的Scaling Law将会成功,从而使得对用户输入的展望愈加准确。
emg2pose姿态揣测:可十足展望用户的手部确立
另一个名为emg2pose的数据集,旨在贬责肌电信号与手部领略之间的映射问题,这关于东说念主机交互、康复工程和杜撰施行等领域具有进击意旨。
该数据集包含来自193名参与者的370小时sEMG和手部姿态数据,从29个不同的步履组中采集,包括拳头、从一数到五等无边看成。
数据集包含25253个HDF5文献,共计达到431GB。每个文献包含时刻对都的2kHz名义肌电图数据和单手在单一阶段的关键角度。
手部姿态标签是通过高分辨率看成捕捉阵列生成的。完好数据集包含逾越8000万个姿态标签,其等效范围依然不错与最大的磋商机视觉数据集并排。
emg2pose数据集组成:a)sEMG-RD腕带和看成捕捉符号(白色圆点)成立 b) 数据集剖析;i)用户被领导实施一系列看成类型(手势),如高下计数,同期纪录 sEMG 和姿态 ii) 特定手势类型的组合组成一个阶段
emg2pose数据集的主要性情在于其高频率的名义肌电图纪录(2kHz)与精确的看成捕捉数据相聚拢,提供了敌手部微小领略的潜入瞻念察。
此外,数据集包含缜密的元数据,如用户ID、会话、阶段、手部侧向、是否移动等,便于进行千般化的分析和实验。数据集还提供了查考、测试和考证的鉴识,因循多种泛化类型的究诘,包括跨用户、跨阶段以及跨用户和阶段的泛化。
在基准测试中,emg2pose还提供了具有竞争力的基线和具有挑战性的任务,这些任务评估了在摈斥用户、传感器舍弃和手势姿态方面的物理寰宇泛化场景。
该究诘还先容了一种新的伊始进模子,用于从名义肌电图进行姿态揣测的 vemg2pose模子,通过整合对姿态速率的展望来重建手势姿态。
究诘东说念主员将emg2pose以及另外两种现代基线用于sEMG的姿态揣测,并分析了它们在泛化要求下的性能。后果表露:emg2pose模子在对不同用户的数据集进行展望时,仅表露1厘米瑕玷,从而辞世俗的领略范围内驱散了高保真追踪。
在不同采集阶段及不同用户间,基于vemg2pose展望的泛化智商
emg2pose不仅升迁了看成识别的准确性,还为手势遏抑、康复调治等有潜在的应用可能。
在医疗康复领域,通过分析患者的sEMG信号,不错及时监测和评估手部功能的归附情况,为个性化康复决策的制定提供科学依据;
在东说念主机交互领域,该数据集因循招引愈加当然和精确的手势遏抑系统,升迁用户体验;
此外,emg2pose还可应用于杜撰施行和增强施行本事中,驱散愈加传神的手部看成捕捉和交互。