ChatGPT всегда пытается создать «разумное продолжение» любого текста, который у него есть на данный момент. Под словами «разумное продолжение» мы подразумеваем «то, что можно ожидать, исходя из того, что люди уже написали на миллиардах веб-страниц».
я подозреваю, что успех ChatGPT раскрывает важный научный факт: осмысленный человеческий язык гораздо проще и структурированнее, чем мы привыкли думать, и работает в соответствии с довольно простыми правилами.
ChatGPT работает, используя две-три сотни миллиардов весов, что по количеству сопоставимо с общим количеством слов (или токенов), предоставленных ему в обучающих данных. В некотором смысле удивительно (хотя подобное мы наблюдаем и в других похожих на ChatGPT системах), что размер сети сопоставим с размером обучающих данных.
Эмбеддинг можно объяснить как способ представить сущность чего-либо с помощью массива чисел, где подобные объекты представлены близлежащими числами.
Так, например, мы можем объяснить эмбеддинг как попытку разместить слова в своего рода пространстве значений, где близкие по значению слова находятся рядом.
В конце концов, существует фундаментальное противоречие между обучаемостью и вычислительной несводимостью. Обучение, по сути, предполагает сжатие данных за счет использования закономерностей. Но вычислительная несводимость подразумевает, что в конечном счете есть предел количеству
Но дело в том, что вычислительная несводимость означает невозможность гарантировать, что непредвиденное не произойдет. И, только выполнив вычисления, вы можете сказать, что на самом деле происходит в каждом конкретном случае.
Значение конкретного нейрона определяется путем умножения значений предыдущих нейронов на их веса́, затем сложения результатов, далее добавления константы и, наконец, применения функции порогового значения (или активации). В математических терминах: если у нейрона есть входные данные x = {x1, x2 …}, то мы вычисляем f[wx + b], где обычно вес w и константа b выбираются по-разному для каждого нейрона в сети, а функция f не меняется.