文\蔡宗桓 人工智能(AI)技术突破极限,仅凭一段8秒模糊录影带,便让一名沉默25年的失声母亲通过AI技术重获嗓音,也让两名子女首次听见属于母亲的声音,场面动人如奇迹。 英国伦敦艺术家Sarah Ezekiel在25年前怀孕期间确诊运动神经元病(MND,俗称渐冻症),随后完全失去说话能力。近日,她通过人工智能技术,仅凭一段长8秒、充满杂音的家庭录影带,便成功重建自己的声音,让两个从未听过母亲声音的孩子得以听到母亲原来的声音。 Ezekiel于2000年确诊渐冻症时,年仅34岁。这种神经系统疾病会损害运动神经元,导致口腔与咽喉肌肉衰弱,一些患者更因此最终失声。而她在确诊后数月内便失去说话与手部功能,婚姻亦告破裂。 根据英国MND协会提供的数据,每年约有1000人确诊渐冻症,其中80%更出现发音困难的迹象。 过去多年来,Ezekiel多使用电脑语音生成技术与人沟通,但语音生成技术发出的声音与她原本嗓音完全不同,而她的两个孩子,即28岁的Aviva和25岁的Eric也只是听过母亲的机械化电脑声。 近年来,英国辅助沟通技术公司Smartbox与纽约AI语音企业ElevenLabs携手,为她展开声音复原计划。 这项合作属于ElevenLabs Impact Program一部分,他们承诺为百万名因渐冻症、癌症或中风而失声的患者提供免费语音复制服务。 重建声音通常需长时间的高品质录音,但在智能手机普及前,这类素材难以取得。最终他们找到一段1990年代VHS家庭录影带,长度仅8秒,且声音模糊还夹杂背景杂音。 因此,技术专员曾坦言不可能从如此劣质音讯中重建声音。 过后,技术团队采用ElevenLabs开发的两阶段AI处理方式,即首先使用Voice Isolator工具从录影带中分离出Ezekiel的声音样本,接着运用经过数千种真实声音训练的AI系统,填补音讯空隙并预测自然语调,最终生成完整的个人化声音。 据悉,重建效果超乎预期,因不仅完美保留Ezekiel原有的伦敦口音,连她过去不太喜欢的轻微口齿不清特征也一并重现。 Ezekiel听到重建声音时感动落泪:“我已记不起自己的声音,近日重新听见自己的声音那一刻就像奇迹。” 儿子Eric也说:“我们终于能感受到妈妈真正的样子,而不是陌生的机械声。”女儿Aviva则惊讶地发现母亲带有Cockney口音,直言“在家里听到这声音很开心也很感动”。 Sheffield大学学者Susan Oman博士指出,AI语音比传统合成更贴近个人身份认同,尤其口音具有重要文化意义。 “如果声音与你毫无共鸣,你就不会觉得是自己。” 失声后的Ezekiel并未放弃艺术。自2012年起,她通过眼球追踪技术作画,并将作品收入投入渐冻症公益活动。 “我很高兴重拾真实的自己,这比当机械人好得多。” 对Ezekiel而言,重获声音不仅是科技的奇迹,更是找回“真实自我”的旅程。 ChatGPT Pulse化被动为主动 提供用户贴心资讯 人工智慧巨头OpenAI为旗下ChatGPT推出最新的ChatGPT Pulse功能,让AI从被动的“问答模式”,转变为能主动出击的贴心助手。 目前要获得ChatGPT的答覆与建议,一定都得先询问问题或是下达指令,然而,ChatGPT Pulse却会根据与用户的聊天内容、使用情境,甚至连结Gmail与Google日历的资讯,在每天早上以5至10张主题卡片的方式,提供为用户量身打造的专属资讯。 举例来说,当ChatGPT侦测到开学日即将到来,可能就会在早上提供最新的开学资讯或学校过去几个月的变化内容;若用户经常在对话中提到晚餐没有灵感,ChatGPT Pulse也可能会自动在早上推播几道简单的食谱;甚至根据用户的行事历资料,若发现下周是朋友的生日,提供建议的礼物指南、推荐餐厅等资讯。 当然,用户也可以主动要求ChatGPT Pulse提供指定资讯,像是锁定最新的网球赛事战况,或是在周五要参与攀岩活动,亦可下达指令要求提供新手教学内容。 OpenAI说明,ChatGPT Pulse代表AI互动方式的一大进展,它能成为一名主动的助手,即使没有获得指令,也能自行给予最合适的帮助。 同时,OpenAI也预告ChatGPT Pulse后续将支援更多应用程式连结,以获取更多用户资讯,并正在探索让ChatGPT Pulse在更多合适时间跳出提醒与通知的方式。该功能目前已在App版本推出,首批仅开放ChatGPT Plus 订阅用户。 Google Chrome 迎史上最大更新 整合Gemini及AI功能 随着Perplexity、OpenAI等AI巨头陆续抢进浏览器领域,身为市占龙头的Google Chrome终于展开反击,并于日前正式宣布将提供史上最大幅度更新,不仅整合Gemini助理,更将加入代理式AI功能。 根据Google部落格的最新资讯,Google Chrome即日起将先在美国的Mac、Windows英文版本加入Gemini助理,让用户能通过右上角的快捷键,以一键唤醒方式询问当前网页的相关资讯,或可通过Gemini串连Gmail、Google日历等其他服务,类似于目前Edge所推出的Copilot模式。万一用户不小心关闭网页,现在也能请Gemini重新开启,不用再回头翻找浏览记录。 通过整合Gemini,Chrome浏览器也将加入代理功能,即能由AI协助处理琐碎任务,例如预约美发、网购杂货,都可直接在对话框下达指令,由Gemini亲自操作浏览器完成任务,用户则可继续浏览其他页面。 此外,现在网址列也将支援Google搜寻的AI模式,用户可以直接输入复杂问题,接着网页会跳转至Google搜寻,并提供完整答覆。藉由Gemini,Chrome也将能更准确地揪出诈骗网站,向用户发出警告,并协助处理不必要的通知与权限。 不过,Google搜寻AI模式、Gemini代理等功能目前仅限美国用户使用,且暂时只支援英文,因此,我国用户恐怕还需要一段时间才有机会体验这项新功能。 港理大研发新型感应器 一滴血验癌症面世 香港理工大学研究团队成功研发新型3D微打印生物感应器,只需极少量血液样本便可检测癌症、老人痴呆症等疾病的早期迹象,比传统检测方法灵敏1000倍。 这项新技术名为“光学回音壁模式微雷射感应器”,原理如同一个极度敏感的“血液探测器”。当疾病在人体内出现时,血液中会产生称为“生物标志物”的特殊蛋白质,有如疾病留下的“指纹”。 传统检测血液中“疾病指纹”的方法,需要众多复杂步骤,而且须使用比头发丝还幼细50倍的精细光纤线,操作困难且容易出错。 理大电机及电子工程学系张阿平教授团队设计出螺旋状的微型感应器,大小仅为头发丝的几分之一。此感应器可发出雷射检测血液样本,不再需要使用容易折断的超细光纤线。 此感应器极为灵敏,能检测到浓度极低的疾病标志物。以人体免疫球蛋白G为例,即使血液中浓度低至70阿克/毫升(相当于一个标准泳池中仅有几滴墨水),感应器仍能准确检测。 这项技术的最大好处是能及早发现疾病。张阿平教授说,未来此感应器可制成手提式检测装置,方便在诊所甚至家中自行使用。病人只需提供一滴血或少量尿液样本,数分钟内便能得悉是否带有癌症、老人痴呆症等疾病的早期迹象。 及早发现疾病对治疗效果有决定性影响。以癌症为例,第一期发现的治愈率可高达90%以上,但第四期的治愈率却会降至20%以下。这项新技术将有助于在普通健康检查中发现极早期的疾病迹象。 研究成果已于国际顶级期刊《Optics Express》发表,并获国际光学学会公开报道,足证技术已达国际先进水平。 张教授团队现正与医院合作进行临床测试,预计2至3年内可投入实际应用。 未来,这项技术更有潜力发展至同步检测多种疾病标志物,实现一次检查可筛检多种疾病,从而大幅提升体检效率与准确度。 Neuralink 10 月启动语音脑机试验 将用户思想化为文字 马斯克(Elon Musk)旗下脑机介面公司Neuralink计划于10月在美国展开新临床试验,并通过植入式装置让用户所思所想可直接转换为文字,协助语言障碍患者以大脑讯号与人沟通。 美国食品药物管理局(FDA)已批准该研究的调查性医疗器材豁免申请,为试验清除监管障碍。 Neuralink总裁DJ Seo在韩国科学技术院演讲时指出:“当患者想像说某句话时,我们能侦测到这个讯号。” 这项技术是针对因渐冻人症(ALS)或严重中风而失声的患者,提供解码与语音相关的神经讯号,将他们的所思所想转化为文字输出。 与目前需操作虚拟键盘的脑机介面相比,直接从语音皮质翻译所思所想的式可大幅提升速度。研究显示,最新语音脑机介面已能达到每分钟62个字的输出速度,且错误率降至9.1%,逐渐接近自然对话。 Neuralink已在美国、加拿大、英国与阿联酋等5国展开临床试验,全球已有12名患者接受植入,累积使用超过1万5000 小时。首名美国患者已能利用装置玩游戏、上网、发文及控制滑鼠。 竞争对手Synchron Inc.也在开发类似装置,以协助运动障碍患者输入文字。加州大学柏克莱分校与旧金山分校团队近期则在《自然神经科学》发表突破性成果,展示能将脑部讯号近乎即时合成语音的串流方法。 Neuralink的语音复原模组已于4月获得FDA突破性装置认证,可加速审核与开发。 Seo说明,该公司计划于未来3至4年内为健康人士提供植入服务,实现以“思考速度”与AI对话的可能性,甚至可通过AirPods接收回馈。 然而,消费级脑机植入也引发外界对技术滥用的忧虑。专家提醒,必须在协助患者与防止科技“吞噬人性”之间取得平衡,避免重蹈覆辙的重新陷入智慧手机与社交媒体所带来的负面影响。