В исследовательской статье, которая еще не была представлена на рассмотрение, было указано, что и GPT-3.5, и GPT-4 значительно изменили свое «поведение» за несколько месяцев.
В статье говорится, что GPT-4 очень хорошо определял простые числа в марте 2023 года и смог идентифицировать эти числа с точностью 97,6%. К концу июня заявлено, что только на 2,4 процента одних и тех же вопросов смог ответить правильно.
Исследователи также заявляют, что обе версии ухудшились в кодировании. Соответственно, в кодах, написанных чат-ботом в июне, ошибок форматирования больше, чем в марте.
Со слов специалистов, многие пользователи также жалуются на эту ситуацию. Некоторые даже думают, что чат-бот был изменен намеренно.
OpenAI, компания искусственного интеллекта, разработавшая чат-бот, опровергает эти слухи.
«Нет, мы не сделали GPT-4 глупее», — сказал Питер Велиндер, вице-президент компании по продуктам. «Наоборот: мы делаем каждую новую версию умнее предыдущей».
Утверждая, что изменения в пользовательском опыте могут быть результатом непрерывного использования, Велиндер продолжил свои слова следующим образом:
По мере более интенсивного использования ChatGPT вы можете начать замечать проблемы, которых раньше не замечали.
В исследовательской работе не рассматриваются причины снижения производительности ChatGPT. Однако утверждается, что снижение производительности доказуемо.
«Мы обнаружили, что производительность GPT-3.5 и GPT-4 значительно различалась между этими двумя версиями, и что производительность обеих версий в некоторых задачах со временем значительно ухудшилась», — говорится в статье.
При обновлении моделей вы стремитесь улучшить некоторые их аспекты. Но важно знать, не вредите ли вы другим возможностям модели.