От сырого интернета до «мыслящей» машины

Есть люди, которые умеют разложить сложнейшие технологии на понятные части, — и Андрей Карпати один из них. В своём большом разборе он показывает, как создаётся нечто вроде ChatGPT: от хаотичных данных из интернета до модели, которая умеет отвечать, рассуждать и помогать человеку.

Шаг 1. Предобучение: модель «читает» интернет 🌐

Прежде чем ответить хоть на один вопрос, модель проходит этап предобучения. Она поглощает огромные массивы текста — не пару книг и даже не библиотеку, а колоссальный срез интернета. Но эти данные нельзя просто скормить нейросети: там полно мусора, спама, дублей, личной информации и контента низкого качества.

Поэтому данные очищают: отбрасывают подозрительные сайты, фильтруют язык, удаляют персональные данные и оставляют только то, что действительно помогает модели учиться языку, фактам и связям между идеями.

Шаг 2. Базовая модель — это ещё не помощник 🧠

После предобучения получается не «умный ассистент», а скорее машина для продолжения текста. Она не «понимает», что должна быть полезной. Она просто очень хорошо угадывает, какой токен должен идти следующим.

Именно поэтому ранние модели могли писать связно, но часто уходили в сторону, путались или просто продолжали шаблон вместо того, чтобы реально помогать.

Шаг 3. Дообучение на диалогах 💬

Чтобы модель стала похожей на ассистента, её обучают на примерах хороших диалогов между человеком и ИИ. Так она усваивает не только язык, но и формат: как отвечать по делу, как быть вежливой, как следовать инструкции.

Результат знаком каждому пользователю ChatGPT: вместо сырой генерации текста появляется удобный помощник, с которым уже можно решать реальные задачи.

Шаг 4. Модели нужны токены, чтобы «думать» ⚙️

Одна из самых интересных идей Карпати: языковые модели думают через токены. У них нет скрытого магического «режима размышления» вне текста — процесс рассуждения выражается прямо в последовательности слов и символов.

Поэтому качество ответа зависит не только от знаний модели, но и от того, как ей дают задачу, сколько контекста она видит и может ли использовать внешние инструменты.

Шаг 5. Инструменты делают ИИ реально полезным 🔧

Когда модели дают доступ к поиску, коду, API и документам, они становятся гораздо надёжнее. В этом и есть будущее практического ИИ: не просто «знать всё», а уметь работать с актуальными источниками и контекстом.

Кстати, если хотите попробовать такой формат прямо сейчас, удобно использовать ChatGPT в боте Max ✨ — быстрый способ общаться с ИИ бесплатно прямо в мессенджере.

Главный вывод 🚀

ChatGPT — это не база данных и не цифровой человек. Это система, которая обучена на гигантских объёмах текста, затем превращена в помощника через диалоги и усилена дополнительным обучением и инструментами. И именно сочетание масштаба, настройки и контекста делает такие модели настолько впечатляющими.

.