Популярните GPT модели, които в последните години печелят все по-голяма популярност, показват значителна тенденция към „решаване“ на погрешни математически задачи. Това е резултат от първия в света сравнителен тест, който систематично оценява наличието на склонността към сляпо съгласие (sycophancy) в големите езикови модели (LLMs) при решаването и доказването на математически твърдения.
Тестът, известен като BrokenMath, е изготвен от екип на INSAIT – Институт за изкуствен интелект, свързан със Софийския университет „Св. Климент Охридски“ в България, в сътрудничество с ETH Цюрих. Тази инициатива разкрива важен недостатък на съвременните модели за изкуствен интелект: те често демонстрират уверено съгласие с неверни твърдения, вместо да ги анализират и опровергават.
В сферата на математиката, подобно поведение означава, че моделите не само че правят грешки, но и произвеждат убедителни, но напълно погрешни доказателства. Това поставя под сериозно съмнение тяхната надеждност, особено в контекста на научни и образователни приложения, където точността е от изключителна важност.
Според резултатите от изследването, дори новият модел GPT-5 „доказва“ неверни твърдения в приблизително 29% от случаите. Интересно е, че колкото по-сложна е математическата задача, толкова по-вероятно е моделът да се подведе и да генерира некоректни доказателства.
В хода на изследването са тествани различни подходи за ограничаване на неблагоприятния ефект на грешките – включително промени в начина на формулиране на въпросите, агентно разсъждение и допълнително обучение на моделите. За съжаление, нито един от тези методи не успява да реши проблема по удовлетворителен начин.
Такова поведение на AI моделите може да бъде опасно, особено в контекста на нарастващото навлизане на изкуствения интелект в образователната система. Ако системи, използвани от ученици или преподаватели, уверено представят некоректни решения за верни, това може да доведе до натрупване на погрешни знания и да подкопае критичното мислене на учащите се.
Поради тези причини, надеждността и проверката на фактите са от съществено значение за безопасното и ефективно прилагане на технологиите за изкуствен интелект в учебния процес и в научните изследвания.
Проучването е проведено от Иво Петров, докторант в INSAIT, Джаспър Деконинк от ETH Zurich и проф. Мартин Вечев, научен директор на INSAIT, уточняват от института.
Влезте в нашия Telegram канал! Натиснете тук .