视频来自官方,翻译:小互
openai和be my eyes合作推出了一款新的app,旨在帮助视力受限人群实时了解身边场景并提供帮助。这款app利用了最新的模型,结合了实时视觉和语音能力。
通过这款app,盲人可以随时了解自己周围的环境,并通过语音助手的帮助做出一些决策。这标志着gpt不再只是一个简单的助手,而是向着朋友的方向迈出了一大步。的新能力让其可以与硬件结合,为用户带来更多可能性。
举例来说,openai在一段演示视频中展示了与专门为视障人士提供帮助的公司bemyeyes的合作。他们将gpt-4o植入到一位盲人游客的手机中,通过手机摄像头成为了盲人的眼睛。这使得盲人能够得知面前发生的一切,比如白金汉宫的样子、公园的环境,甚至是出租车是否停下等等。
应用特点
- 实时视觉与语音能力:gpt-4o模型结合了实时视觉和语音功能,使得盲人和视力受限用户能够通过语音助手的帮助,随时了解自己周围的环境。
- 决策辅助:通过实时的语音交互,该应用可以帮助用户做出决策,如识别物品、导航指引等。
- 模拟朋友的角色:与传统的ai助手相比,gpt-4o更像是一个朋友,能够以更自然的方式与用户进行交流。
实际应用场景
环境描述:应用可以描述用户面前的建筑、自然景观或其他场景,如白金汉宫的外观或公园的环境。
日常任务辅助:帮助用户识别出租车是否停下,或其他需要视觉判断的简单任务。
技术演示
openai在演示视频中展示了gpt-4o的实际应用,通过将模型植入盲人游客的手机中,借助摄像头功能,实时传递周围环境信息。
硬件结合潜力
gpt-4o的发布预示着ai与硬件结合的更多可能性,为视障人士提供更多便利。
社会意义
这款应用的开发不仅体现了openai在ai领域的技术实力,更重要的是,它强调了科技如何帮助解决社会问题,提高特定群体的生活质量。通过这样的合作,openai正将ai技术转化为具有深远社会影响的实际应用。