Напредъкът в разработките на изкуствен интелект от ключови компании в индустрията се ускорява значително. Новата технология позволява на AI да взаимодействат с уебсайтове по начин, наподобяващ човешкото поведение. Такъв е случаят с новия AI модел на Google – Gemini 2.5 Computer Use.
Изкуственият интелект, разработен от Google, притежава способността да извършва действия, присъщи за човешките потребители, като натискания на клавиши, писане на текст, превъртане на страници, задържане на курсора над определени области, отваряне на падащи списъци и навигация по URL адреси.
Gemini 2.5 Computer Use е проектиран да позволява на интелигентните агенти да взаимодействат с уебсайтове и потребителски интерфейси по начин, който е почти неразличим от човешкото поведение. Този модел вече е на разположение за публичен достъп чрез Gemini API в Google AI Studio и Vertex AI.
Основата на модела е изградена върху възможностите за визуално възприятие и разсъждение, присъщи на Gemini 2.5 Pro. Той разполага с умения за изпълнение на разнообразни действия в браузъра, които обикновено се извършват от хората.
Според информация от Google, техният AI модел превъзхожда много конкуренти в няколко ключови бенчмарка, включително Online-Mind2Web, WebVoyager и AndroidWorld, а също така демонстрира по-ниска латентност.
В контекста на традиционните модели на изкуствен интелект, които разчитат на API, Gemini 2.5 Computer Use подхожда различно, тъй като обработва екранни снимки на уеб интерфейси и генерира специфични действия в отговор на видяното.
Агенти на AI получават конкретна задача, екранна снимка на интерфейса и история на предишните действия. Те анализират интерфейса и генерират конкретни действия, като например кликване върху бутон или въвеждане на информация в текстово поле. Извършеното действие се осъществява от клиента, след което отново се извършва анализ с нова екранна снимка, за да продължи изпълнението на задачата в един непрекъснат цикъл.
Google демонстрира ефективността на модела с примери, при които агентът подрежда лепящи се бележки на дигитална бяла дъска и прехвърля информация за домашни любимци от уебсайт в CRM система.
Към момента, моделът поддържа 13 различни действия и показва най-добри резултати в уеб браузъри. Google уточнява, че въпреки впечатляващото му представяне, моделът все още не е оптимизиран за desktop приложения, но показва положителен потенциал в мобилни бенчмаркове.
Влезте в нашия Telegram канал! Натиснете тук .