Новая модель ИИ от компании Apple ReaLM (Reference Resolution as Language Modeling) сможет понимать не только картинки на экране, но и контекст разговора. Это позволит наладить более интуитивное и естественное взаимодействие с разными гаджетами.
Разработчики модели утверждают, что она превосходит OpenAI GPT-4, так как теперь пользователь сможет максимально доступно описать элементы с экрана, а ИИ — распознать их. Взаимодействие человека с виртуальным помощником (например, Siri) станет гораздо более понятным.
Система способна расшифровать изображения на экране, контент, контекст беседы и подобные параметры, чтобы можно было более качественно и продуктивно вести взаимодействие с ИИ. Однако, при всех ее больших возможностях новинка просто устроена, в сравнении с прочими моделями, поэтому она и стала для экспертов самым отличным выбором для расшифровки контекста. Каких-либо негативных последствий для производительности устройства она не повлечет.
Система способна восстановить визуал экрана при помощи текстовых составляющих. Она анализирует объекты, их размер и расположение, затем формирует все в текстовый формат, отражающий суть.
Для более точного понимания системы и ее работы можно привести примеры. Вам, предположим, нужно показать список кондитерских — вы просите Siri вывести список на экран. Получая ответ на запрос, можно попросить помощника набрать номер той кондитерской, которая находится третьей по счету или по конкретному адресу. Исследователи утверждают, что ИИ сможет расшифровать такой запрос и позвонить по нужному номеру. Поскольку наша речь весьма двусмысленна и становится порой понятна только в определенном контексте, то голосовому помощнику очень сложно понять, что нам нужно. Однако новая система тем и примечательна, что улавливает контекст запроса, поэтому полноценный диалог становится возможен.
ReaLM также обучена интерпретировать и анализировать картинки из текста. Например, выделять номера телефонов или нужные фамилии и прочие данные из изображения. К слову: GPT-3.5 работает только с текстом, а мультимодальная GPT-4, умея понимать изображения, больше заточена под расшифровку реальных снимков или картинок, не скриншотов.
Кроме наличия трафика, у нас разрешены ссылки и упоминания бренда
В последнее время, по некоторым данным, разработчик айфонов отстает от таких гигантов как Microsoft, Google и Amazon в создании разговорного ИИ. Как правило, компания ценится тем, что долго и ответственно разрабатывает каждый свой новый продукт, тем самым вызывая доверие пользователей. Вот только гонка по внедрению ИИ в нашу современную жизнь идет очень яркая и скоростная — это может сыграть Apple не на руку. Но, судя по последним событиям и успеху системы ReaLM, технический гигант все же вступил в эту гонку.
Тим Кук, генеральный директор компании, сказал, что в этом году Apple будет готова рассказать о своих наработках и успехах в области искусственного интеллекта.