{
  "cells": [
    {
      "cell_type": "markdown",
      "metadata": {
        "id": "MSPWRXaT2jgt"
      },
      "source": [
        "<style>\n",
        "  .justified {\n",
        "    text-align: justify;\n",
        "    text-justify: inter-word;\n",
        "  }\n",
        "</style>\n",
        "\n",
        "<div class=\"justified\">\n",
        "\n",
        "# Elementos de procesamiento de lenguajes naturales, o El Hacedor"
      ]
    },
    {
      "cell_type": "markdown",
      "metadata": {
        "id": "-peFXE2g2rLa"
      },
      "source": [
        "Este texto está inspirado en la serie sobre redes neuronales de Andrej Karpathy {cite}`KarpathyZeroToHero` y, más particularmente, en [makemore](https://github.com/karpathy/makemore). A continuación, crearemos un modelo de lenguaje basado en bigramas. Utilizando 21,209 nombres argentinos como base, nuestro modelo aprenderá patrones estadísticos para idear nuevos nombres en español[^1].\n",
        "\n",
        "```{margin}\n",
        "El conjunto de datos original se puede encontrar [aquí](https://www.kaggle.com/datasets/akielbowicz/nombres-de-personas-fsicas-de-argentina).\n",
        "```"
      ]
    },
    {
      "cell_type": "code",
      "execution_count": null,
      "metadata": {
        "id": "UIcRYjz7vVjx"
      },
      "outputs": [],
      "source": [
        "import pandas as pd\n",
        "import numpy as np\n",
        "import re\n",
        "\n",
        "#nombres = pd.read_csv('historico-nombres.csv').iloc[0:200000]\n",
        "#regex = \"[^a-z]\"\n",
        "#nombres = nombres['nombre'].str.lower()\n",
        "#filtro = nombres.str.contains(\"[^a-z]\")\n",
        "#nombres = nombres[~filtro].astype('str')\n",
        "\n",
        "#nombres.to_csv(r'nombres.txt', header=None, index=None, mode='a')\n",
        "#nombres.head(10)"
      ]
    },
    {
      "cell_type": "code",
      "execution_count": null,
      "metadata": {
        "id": "Z10MFTSUfSOv"
      },
      "outputs": [],
      "source": [
        "!wget https://github.com/DanteNoguez/CalculusRatiocinator/raw/main/data/nombres.txt"
      ]
    },
    {
      "cell_type": "code",
      "execution_count": null,
      "metadata": {
        "id": "cjPrWuX-O5-e"
      },
      "outputs": [],
      "source": [
        "palabras = open('nombres.txt', 'r').read().splitlines()"
      ]
    },
    {
      "cell_type": "code",
      "execution_count": null,
      "metadata": {
        "colab": {
          "base_uri": "https://localhost:8080/"
        },
        "id": "ndq9xKHVSXrz",
        "outputId": "5d0a02cf-6c8d-4817-8064-70a31f51c96d"
      },
      "outputs": [
        {
          "data": {
            "text/plain": [
              "['maria',\n",
              " 'rosa',\n",
              " 'jose',\n",
              " 'carmen',\n",
              " 'ana',\n",
              " 'juana',\n",
              " 'antonio',\n",
              " 'elena',\n",
              " 'teresa',\n",
              " 'angela']"
            ]
          },
          "execution_count": 4,
          "metadata": {},
          "output_type": "execute_result"
        }
      ],
      "source": [
        "palabras[:10]"
      ]
    },
    {
      "cell_type": "code",
      "execution_count": null,
      "metadata": {
        "colab": {
          "base_uri": "https://localhost:8080/"
        },
        "id": "wmSYx3STTUNL",
        "outputId": "956ce5e8-bf21-4f6e-d98b-791e399ad1e6"
      },
      "outputs": [
        {
          "data": {
            "text/plain": [
              "21029"
            ]
          },
          "execution_count": 5,
          "metadata": {},
          "output_type": "execute_result"
        }
      ],
      "source": [
        "len(palabras)"
      ]
    },
    {
      "cell_type": "markdown",
      "metadata": {
        "id": "YyY1K36iKgL1"
      },
      "source": [
        "### Bigrama\n",
        "\n",
        "Primero, formaremos bigramas (pares) de caracteres por cada nombre que hay en nuestro conjunto de datos. Al final e inicio de cada nombre, agregaremos un *token* `.` para indicar el inicio y fin de dicho nombre:\n",
        "\n",
        "```{margin}\n",
        "Cada *token* es una unidad indivisible de texto, aunque el diseño o especificación de *tokens* en un modelo es una decisión personal (técnica, para ser más precisos). Por ejemplo, podemos crear un conjunto de datos enfocado en palabras, de manera que «mesa» sea un *token*; pero también podemos considerar a cada letra del alfabeto —junto con el `.`— como un *token*, como estamos haciendo en nuestro caso. Para profundizar, recomiendo el blog de Elena Voita {cite}`VoitaNLP`.\n",
        "```"
      ]
    },
    {
      "cell_type": "code",
      "execution_count": null,
      "metadata": {
        "colab": {
          "base_uri": "https://localhost:8080/"
        },
        "id": "DBZVt_qPT0hc",
        "outputId": "8c59bc42-2401-46a3-9384-2f5e54556e72"
      },
      "outputs": [
        {
          "name": "stdout",
          "output_type": "stream",
          "text": [
            ". m\n",
            "m a\n",
            "a r\n",
            "r i\n",
            "i a\n",
            "a .\n",
            ". r\n",
            "r o\n",
            "o s\n",
            "s a\n",
            "a .\n",
            ". j\n",
            "j o\n",
            "o s\n",
            "s e\n",
            "e .\n"
          ]
        }
      ],
      "source": [
        "b = {}\n",
        "\n",
        "for p in palabras[:3]: # vemos los primeros tres nombres\n",
        "  cs = ['.'] + list(p) + ['.'] \n",
        "  for c1, c2 in zip(cs, cs[1:]): # iteramos sobre cada caracter para crear bigramas\n",
        "    bigrama = (c1, c2)\n",
        "    b[bigrama] = b.get(bigrama, 0) + 1 # hacemos un conteo de bigramas\n",
        "    print(c1, c2)"
      ]
    },
    {
      "cell_type": "markdown",
      "metadata": {
        "id": "k2TEq8Ine5Ij"
      },
      "source": [
        "El conteo de bigramas luce así:"
      ]
    },
    {
      "cell_type": "code",
      "execution_count": null,
      "metadata": {
        "colab": {
          "base_uri": "https://localhost:8080/"
        },
        "id": "4CBHxaLeUfyX",
        "outputId": "9a9dbde8-4ef7-422f-8ef4-de3b1036a205"
      },
      "outputs": [
        {
          "data": {
            "text/plain": [
              "{('.', 'm'): 1,\n",
              " ('m', 'a'): 1,\n",
              " ('a', 'r'): 1,\n",
              " ('r', 'i'): 1,\n",
              " ('i', 'a'): 1,\n",
              " ('a', '.'): 2,\n",
              " ('.', 'r'): 1,\n",
              " ('r', 'o'): 1,\n",
              " ('o', 's'): 2,\n",
              " ('s', 'a'): 1,\n",
              " ('.', 'j'): 1,\n",
              " ('j', 'o'): 1,\n",
              " ('s', 'e'): 1,\n",
              " ('e', '.'): 1}"
            ]
          },
          "execution_count": 7,
          "metadata": {},
          "output_type": "execute_result"
        }
      ],
      "source": [
        "b"
      ]
    },
    {
      "cell_type": "markdown",
      "metadata": {
        "id": "dgcHDqlkfxeM"
      },
      "source": [
        "Ahora, crearemos una lista de caracteres únicos (nuestro vocabulario) para luego asignarles un índice en un diccionario de Python. A este proceso de mapear o relacionar cada letra de nuestro vocabulario con un número se le denomina «incrustación» (*embedding*), mientras que el diccionario de Python resultante es una «tabla de consulta» (*lookup table*), debido a que en ella podemos buscar la letra que corresponde a un número y viceversa."
      ]
    },
    {
      "cell_type": "code",
      "execution_count": null,
      "metadata": {
        "colab": {
          "base_uri": "https://localhost:8080/"
        },
        "id": "7_IKLGkJXyIA",
        "outputId": "f9a2793b-ebd2-4ac5-b993-386354d02ac7"
      },
      "outputs": [
        {
          "data": {
            "text/plain": [
              "{1: 'a',\n",
              " 2: 'b',\n",
              " 3: 'c',\n",
              " 4: 'd',\n",
              " 5: 'e',\n",
              " 6: 'f',\n",
              " 7: 'g',\n",
              " 8: 'h',\n",
              " 9: 'i',\n",
              " 10: 'j',\n",
              " 11: 'k',\n",
              " 12: 'l',\n",
              " 13: 'm',\n",
              " 14: 'n',\n",
              " 15: 'o',\n",
              " 16: 'p',\n",
              " 17: 'q',\n",
              " 18: 'r',\n",
              " 19: 's',\n",
              " 20: 't',\n",
              " 21: 'u',\n",
              " 22: 'v',\n",
              " 23: 'w',\n",
              " 24: 'x',\n",
              " 25: 'y',\n",
              " 26: 'z',\n",
              " 0: '.'}"
            ]
          },
          "execution_count": 8,
          "metadata": {},
          "output_type": "execute_result"
        }
      ],
      "source": [
        "caracs = sorted(list(set(''.join(palabras)))) # lista de caracteres únicos (tokens)\n",
        "\n",
        "paf = {p:f+1 for f,p in enumerate(caracs)} # mapeamos letras a números de principio a fin\n",
        "paf['.'] = 0 # agregamos nuestro token «.»\n",
        "fap = {f:p for p,f in paf.items()} # invertimos el orden para que sea apropiado\n",
        "fap"
      ]
    },
    {
      "cell_type": "markdown",
      "metadata": {
        "id": "q-74Zf111-qG"
      },
      "source": [
        "Ahora, construiremos una matriz —vía PyTorch— con el conteo de todos los bigramas de nuestro conjunto de datos. Con esta matriz, podremos familiarizarnos más visualmente con lo que hemos estado preparando. Las dimensiones de la matriz serán 27x27 porque tenemos 27 elementos en nuestro vocabulario y queremos emparejarlos (hacer bigramas) con cada uno de los otros elementos del mismo:"
      ]
    },
    {
      "cell_type": "code",
      "execution_count": null,
      "metadata": {
        "id": "1EjZ7r_S1CAZ"
      },
      "outputs": [],
      "source": [
        "import torch\n",
        "\n",
        "N = torch.zeros((27,27))"
      ]
    },
    {
      "cell_type": "code",
      "execution_count": null,
      "metadata": {
        "id": "kL1qWrgSXNG2"
      },
      "outputs": [],
      "source": [
        "for p in palabras:\n",
        "  cs = ['.'] + list(p) + ['.']\n",
        "  for c1, c2 in zip(cs, cs[1:]):\n",
        "    ix1 = paf[c1]\n",
        "    ix2 = paf[c2]\n",
        "    N[ix1, ix2] += 1"
      ]
    },
    {
      "cell_type": "code",
      "execution_count": null,
      "metadata": {
        "colab": {
          "base_uri": "https://localhost:8080/",
          "height": 901
        },
        "id": "QdiAmBjNnQet",
        "outputId": "f302181b-29ce-4f02-fe91-95206daece39"
      },
      "outputs": [
        {
          "data": {
            "image/png": "",
            "text/plain": [
              "<Figure size 1152x1152 with 1 Axes>"
            ]
          },
          "metadata": {
            "needs_background": "light"
          },
          "output_type": "display_data"
        }
      ],
      "source": [
        "import matplotlib.pyplot as plt\n",
        "\n",
        "plt.figure(figsize=(16, 16))\n",
        "plt.imshow(N, cmap='Blues')\n",
        "for i in range(27):\n",
        "  for j in range(27):\n",
        "    cts = fap[i] + fap[j]\n",
        "    plt.text(j, i, cts, ha='center', va='bottom', color='gray')\n",
        "    plt.text(j, i, N[i, j].item(), ha='center', va='top', color='gray')\n",
        "plt.axis('off');"
      ]
    },
    {
      "cell_type": "markdown",
      "metadata": {
        "id": "1XCnltcd4DdD"
      },
      "source": [
        "Hemos contado la ocurrencia de cada bigrama en el documento de nombres. Ahora, podemos utilizar este conteo como una distribución de probabilidades acerca de cuál letra debe ser consecutiva con otra. Ejemplifiquemos con una fila:"
      ]
    },
    {
      "cell_type": "code",
      "execution_count": null,
      "metadata": {
        "colab": {
          "base_uri": "https://localhost:8080/"
        },
        "id": "sqWwRm5pnSj5",
        "outputId": "180317d7-87d5-4d77-85c6-73bb3e3ef1ac"
      },
      "outputs": [
        {
          "data": {
            "text/plain": [
              "tensor([   0., 2611.,  909., 1465., 1038., 2205.,  941.,  924.,  668.,  726.,\n",
              "         522.,   88., 1230., 1228.,  913.,  584.,  774.,   41., 1014., 1248.,\n",
              "         578.,  154.,  548.,  169.,    0.,  218.,  233.])"
            ]
          },
          "execution_count": 12,
          "metadata": {},
          "output_type": "execute_result"
        }
      ],
      "source": [
        "N[0]"
      ]
    },
    {
      "cell_type": "markdown",
      "metadata": {
        "id": "j7jFf9OX4szH"
      },
      "source": [
        "Obtendremos las probabilidades de cada valor al dividir cada uno por la sumatoria de los demás. Con este truco, todos los valores sumados entre sí nos darán 1:"
      ]
    },
    {
      "cell_type": "code",
      "execution_count": null,
      "metadata": {
        "colab": {
          "base_uri": "https://localhost:8080/"
        },
        "id": "BvCMSG3mqDXb",
        "outputId": "76604ed8-1362-4658-8adb-0d80b990f56e"
      },
      "outputs": [
        {
          "data": {
            "text/plain": [
              "tensor([0.0000, 0.1242, 0.0432, 0.0697, 0.0494, 0.1049, 0.0447, 0.0439, 0.0318,\n",
              "        0.0345, 0.0248, 0.0042, 0.0585, 0.0584, 0.0434, 0.0278, 0.0368, 0.0019,\n",
              "        0.0482, 0.0593, 0.0275, 0.0073, 0.0261, 0.0080, 0.0000, 0.0104, 0.0111])"
            ]
          },
          "execution_count": 13,
          "metadata": {},
          "output_type": "execute_result"
        }
      ],
      "source": [
        "p = N[0].float()\n",
        "p = p / p.sum()\n",
        "p"
      ]
    },
    {
      "cell_type": "code",
      "execution_count": null,
      "metadata": {
        "colab": {
          "base_uri": "https://localhost:8080/"
        },
        "id": "VBFUGeBOqRP8",
        "outputId": "b2a26f77-b74f-46c9-a688-5099a09d4464"
      },
      "outputs": [
        {
          "data": {
            "text/plain": [
              "tensor(1.0000)"
            ]
          },
          "execution_count": 14,
          "metadata": {},
          "output_type": "execute_result"
        }
      ],
      "source": [
        "p.sum()"
      ]
    },
    {
      "cell_type": "markdown",
      "metadata": {
        "id": "H-j5qXKy43fz"
      },
      "source": [
        "Ahora utilizaremos `torch.multinomial` para generar números enteros con base en las probabilidades de la distribución que creamos. Primero veamos un ejemplo:"
      ]
    },
    {
      "cell_type": "code",
      "execution_count": null,
      "metadata": {
        "colab": {
          "base_uri": "https://localhost:8080/"
        },
        "id": "czj2HBpgqbga",
        "outputId": "023ca1ac-74f0-4ae7-8106-00cc31f4c2bc"
      },
      "outputs": [
        {
          "name": "stdout",
          "output_type": "stream",
          "text": [
            "tensor([0.7762, 0.0321, 0.0691])\n",
            "tensor([0.8846, 0.0366, 0.0787])\n"
          ]
        }
      ],
      "source": [
        "p = torch.rand(3) #creamos tres valores aleatorios\n",
        "print(p)\n",
        "p = p / p.sum() # ahora, creamos una distribución de probabilidades con base en ellos\n",
        "print(p)"
      ]
    },
    {
      "cell_type": "code",
      "execution_count": null,
      "metadata": {
        "colab": {
          "base_uri": "https://localhost:8080/"
        },
        "id": "KelPqtfxrAfr",
        "outputId": "a25d4a3c-799b-4cba-8843-39041d2e495a"
      },
      "outputs": [
        {
          "data": {
            "text/plain": [
              "tensor([0, 0, 0, 0, 2, 0, 0, 0, 0, 0])"
            ]
          },
          "execution_count": 16,
          "metadata": {},
          "output_type": "execute_result"
        }
      ],
      "source": [
        "torch.multinomial(p, num_samples=10, replacement=True) # ahora tomamos muestras de números enteros con base en la distribución\n",
        "# Notemos que los números generados reflejan la distribución de probabilidades anteriores"
      ]
    },
    {
      "cell_type": "markdown",
      "metadata": {
        "id": "uLB5Od-u8ZyT"
      },
      "source": [
        "Podemos ejemplificar lo mismo con la primera fila de nuestra matriz:"
      ]
    },
    {
      "cell_type": "code",
      "execution_count": null,
      "metadata": {
        "colab": {
          "base_uri": "https://localhost:8080/"
        },
        "id": "PtHz_W1T7gtv",
        "outputId": "ce35c13c-ce3a-4fb3-e7af-c1e8b3455b5a"
      },
      "outputs": [
        {
          "data": {
            "text/plain": [
              "tensor([19,  5, 14,  4, 13])"
            ]
          },
          "execution_count": 17,
          "metadata": {},
          "output_type": "execute_result"
        }
      ],
      "source": [
        "p = N[0].float()\n",
        "p = p / p.sum()\n",
        "\n",
        "torch.multinomial(p, num_samples=5, replacement=True)"
      ]
    },
    {
      "cell_type": "markdown",
      "metadata": {
        "id": "t4IFA5zK8_kQ"
      },
      "source": [
        "Pero el resultado obtenido es el índice. Utilicemos nuestra tabla de consulta para obtener la letra correspondiente:"
      ]
    },
    {
      "cell_type": "code",
      "execution_count": null,
      "metadata": {
        "colab": {
          "base_uri": "https://localhost:8080/",
          "height": 37
        },
        "id": "kZHf54M09GUr",
        "outputId": "63197f8f-4128-4d6a-a443-78de8d00901d"
      },
      "outputs": [
        {
          "data": {
            "application/vnd.google.colaboratory.intrinsic+json": {
              "type": "string"
            },
            "text/plain": [
              "'g'"
            ]
          },
          "execution_count": 18,
          "metadata": {},
          "output_type": "execute_result"
        }
      ],
      "source": [
        "index = torch.multinomial(p, num_samples=1, replacement=True).item()\n",
        "ejemplo = fap[index]\n",
        "ejemplo"
      ]
    },
    {
      "cell_type": "markdown",
      "metadata": {
        "id": "9OOyvyyl7Y8N"
      },
      "source": [
        "Ahora haremos lo mismo con todos los bigramas:"
      ]
    },
    {
      "cell_type": "code",
      "execution_count": null,
      "metadata": {
        "id": "ygD1Dvp6LEYX"
      },
      "outputs": [],
      "source": [
        "P = (N+1).float() # agregamos 1 al conteo para que el logaritmo no tenga problemas eventualmente (smoothing)\n",
        "P /= P.sum(1, keepdim=True) # el 1 indica que la sumatoria se hace en la dimensión 1 (i. e., las columnas colapsan para sumarse)"
      ]
    },
    {
      "cell_type": "code",
      "execution_count": null,
      "metadata": {
        "colab": {
          "base_uri": "https://localhost:8080/"
        },
        "id": "Y9JPyyhANDvs",
        "outputId": "9b6ec448-c5ef-4e14-c75f-f3b206dc2446"
      },
      "outputs": [
        {
          "data": {
            "text/plain": [
              "(tensor(1.0000), torch.Size([27, 27]))"
            ]
          },
          "execution_count": 20,
          "metadata": {},
          "output_type": "execute_result"
        }
      ],
      "source": [
        "P[0].sum(), P.shape"
      ]
    },
    {
      "cell_type": "markdown",
      "metadata": {
        "id": "RGR25Noo5Wui"
      },
      "source": [
        "Las probabilidades de nuestra primera fila lucen así:"
      ]
    },
    {
      "cell_type": "code",
      "execution_count": null,
      "metadata": {
        "colab": {
          "base_uri": "https://localhost:8080/"
        },
        "id": "qqCwRN6Z7VOO",
        "outputId": "e933dea4-2f34-4914-d66a-c0baeeac07c6"
      },
      "outputs": [
        {
          "data": {
            "text/plain": [
              "tensor([4.7492e-05, 1.2405e-01, 4.3218e-02, 6.9624e-02, 4.9345e-02, 1.0477e-01,\n",
              "        4.4738e-02, 4.3930e-02, 3.1772e-02, 3.4527e-02, 2.4839e-02, 4.2268e-03,\n",
              "        5.8463e-02, 5.8368e-02, 4.3408e-02, 2.7783e-02, 3.6807e-02, 1.9947e-03,\n",
              "        4.8205e-02, 5.9318e-02, 2.7498e-02, 7.3613e-03, 2.6073e-02, 8.0737e-03,\n",
              "        4.7492e-05, 1.0401e-02, 1.1113e-02])"
            ]
          },
          "execution_count": 21,
          "metadata": {},
          "output_type": "execute_result"
        }
      ],
      "source": [
        "P[0]"
      ]
    },
    {
      "cell_type": "markdown",
      "metadata": {
        "id": "ElxBMJ3r5qvT"
      },
      "source": [
        "Ahora que ya tenemos una probabilidad asignada a cada bigrama, podemos comenzar a predecir el carácter que debe acompañar a su precedente con base en nuestra matriz de probabilidades. Experimentemos con cinco palabras:"
      ]
    },
    {
      "cell_type": "code",
      "execution_count": null,
      "metadata": {
        "colab": {
          "base_uri": "https://localhost:8080/"
        },
        "id": "6MFCryDhrgyk",
        "outputId": "c13eb5b6-9ee7-46dd-829c-11305fb415e3"
      },
      "outputs": [
        {
          "name": "stdout",
          "output_type": "stream",
          "text": [
            "macito.\n",
            "esaranartens.\n",
            "milioredia.\n",
            "hinitobal.\n",
            "rinoreria.\n"
          ]
        }
      ],
      "source": [
        "for i in range(5):\n",
        "  out = []\n",
        "  ix = 0\n",
        "  while True:\n",
        "    p = P[ix]\n",
        "    ix = torch.multinomial(p, num_samples=1, replacement=True).item()\n",
        "    out.append(fap[ix])\n",
        "    if ix == 0:\n",
        "      break\n",
        "    \n",
        "  print(''.join(out))"
      ]
    },
    {
      "cell_type": "markdown",
      "metadata": {
        "id": "6wvdrpg6ncXq"
      },
      "source": [
        "Aunque quizá no elijamos ninguno de estos nombres para uso personal, podemos ver que el modelo funciona y ha generado palabras que de alguna forma reflejan la estructura del español.\n",
        "\n",
        "También podemos observar las probabilidades asignadas a cada bigrama:"
      ]
    },
    {
      "cell_type": "code",
      "execution_count": null,
      "metadata": {
        "colab": {
          "base_uri": "https://localhost:8080/"
        },
        "id": "QmKkO8cxmENU",
        "outputId": "3eb94b65-73d8-4cfa-afbe-8a8955a24272"
      },
      "outputs": [
        {
          "name": "stdout",
          "output_type": "stream",
          "text": [
            ".m: 0.0584\n",
            "ma: 0.3492\n",
            "ar: 0.0863\n",
            "ri: 0.2349\n",
            "ia: 0.1907\n",
            "a.: 0.4568\n",
            ".r: 0.0482\n",
            "ro: 0.1212\n",
            "os: 0.0515\n",
            "sa: 0.1840\n",
            "a.: 0.4568\n",
            ".j: 0.0248\n",
            "jo: 0.2045\n",
            "os: 0.0515\n",
            "se: 0.1236\n",
            "e.: 0.0674\n"
          ]
        }
      ],
      "source": [
        "for p in palabras[:3]:\n",
        "  cs = ['.'] + list(p) + ['.']\n",
        "  for c1, c2 in zip(cs, cs[1:]):\n",
        "    ix1 = paf[c1]\n",
        "    ix2 = paf[c2] \n",
        "    prob = P[ix1, ix2]\n",
        "    print(f'{c1}{c2}: {prob:.4f}') "
      ]
    },
    {
      "cell_type": "markdown",
      "metadata": {
        "id": "HEwc0Xyvng9c"
      },
      "source": [
        "Dado que altas probabilidades en nuestros bigramas indican buen «aprendizaje», en el sentido de que nuestro modelo no es completamente aleatorio, sino que concede importancia a bigramas apropiadamente, entonces podemos medir la «precisión» o capacidad de nuestro modelo mediante la función de verosimilitud (*likelihood*), que es el resultado de multiplicar todas las probabilidades entre sí. Si el número es alto, eso indicaría que nuestro modelo funciona bien; si es bajo, eso indicaría que no tiene suficiente información para predecir caracteres.\n",
        "\n",
        "Por conveniencia, esta estimación utiliza el logaritmo natural de las probabilidades: sumar los logaritmos de las probabilidades es equivalente a multiplicar las probabilidades (es decir, podemos emplear cualquiera de las dos formas para estimar la verosimilitud). Esto es particularmente útil porque nuestras probabilidades están dadas en números decimales, de manera que multiplicarlas entre sí nos daría un número pequeño y poco intuitivo."
      ]
    },
    {
      "cell_type": "markdown",
      "metadata": {
        "id": "DOCmJusPqOMN"
      },
      "source": [
        "El logaritmo natural de una serie de números presenta como valor máximo al 0, pero como valor mínimo al infinito:"
      ]
    },
    {
      "cell_type": "code",
      "execution_count": null,
      "metadata": {
        "colab": {
          "base_uri": "https://localhost:8080/",
          "height": 299
        },
        "id": "_x9MfbXgpZJ2",
        "outputId": "cc7fe8bf-37c0-4c55-f8f3-6cb07dfb5d7c"
      },
      "outputs": [
        {
          "name": "stderr",
          "output_type": "stream",
          "text": [
            "/usr/local/lib/python3.7/dist-packages/ipykernel_launcher.py:1: RuntimeWarning: divide by zero encountered in log\n",
            "  \"\"\"Entry point for launching an IPython kernel.\n"
          ]
        },
        {
          "data": {
            "image/png": "",
            "text/plain": [
              "<Figure size 432x288 with 1 Axes>"
            ]
          },
          "metadata": {
            "needs_background": "light"
          },
          "output_type": "display_data"
        }
      ],
      "source": [
        "plt.plot(np.arange(1, 101, 1), np.log(np.arange(0, 1, 0.01)));"
      ]
    },
    {
      "cell_type": "markdown",
      "metadata": {
        "id": "-DJ2dYfAqZax"
      },
      "source": [
        "Pero, dado que quisiéramos números positivos para hacerlo más intuitivo, podemos volver positivo este número al multiplicarlo por -1:"
      ]
    },
    {
      "cell_type": "code",
      "execution_count": null,
      "metadata": {
        "colab": {
          "base_uri": "https://localhost:8080/",
          "height": 37
        },
        "id": "NmMa5IkKor2t",
        "outputId": "0ce4c006-0c0e-496f-a9ce-9af4e1ad2f45"
      },
      "outputs": [
        {
          "data": {
            "application/vnd.google.colaboratory.intrinsic+json": {
              "type": "string"
            },
            "text/plain": [
              "'Logaritmo natural de la probabilidad: -2.6970839500427246 | Logaritmo natural negativo: 2.6970839500427246'"
            ]
          },
          "execution_count": 25,
          "metadata": {},
          "output_type": "execute_result"
        }
      ],
      "source": [
        "logprob = torch.log(prob)\n",
        "nlog = -logprob\n",
        "f'Logaritmo natural de la probabilidad: {logprob} | Logaritmo natural negativo: {nlog}'"
      ]
    },
    {
      "cell_type": "markdown",
      "metadata": {
        "id": "Ed26rvhKqsDL"
      },
      "source": [
        "Y el logaritmo negativo de la verosimilitud (*negative log likelihood*) es la suma de todos los logaritmos negativos. Nuestra función de pérdida entonces podría ser el logaritmo negativo de la verosimilitud (`nll`), normalizada para obtener el promedio[^2]. Mientras esta función de pérdida sea menor, nuestro modelo será mejor:"
      ]
    },
    {
      "cell_type": "code",
      "execution_count": null,
      "metadata": {
        "colab": {
          "base_uri": "https://localhost:8080/"
        },
        "id": "zjNuu-lZI06c",
        "outputId": "f175920b-aa17-4be1-8f5e-ae381c6dc84a"
      },
      "outputs": [
        {
          "name": "stdout",
          "output_type": "stream",
          "text": [
            "Logaritmo negativo de verosimilitud: 375152.34375\n",
            "Logaritmo negativo de verosimilitud promedio: 2.2672061920166016\n"
          ]
        }
      ],
      "source": [
        "log_likelihood = 0.0\n",
        "n = 0.0\n",
        "\n",
        "for p in palabras:\n",
        "  cs = ['.'] + list(p) + ['.']\n",
        "  for c1, c2 in zip(cs, cs[1:]):\n",
        "    ix1 = paf[c1]\n",
        "    ix2 = paf[c2]\n",
        "    prob = P[ix1,ix2]\n",
        "    logprob = torch.log(prob)\n",
        "    log_likelihood += logprob\n",
        "    n += 1\n",
        "\n",
        "nll = -log_likelihood\n",
        "print(f'Logaritmo negativo de verosimilitud: {nll}')\n",
        "print(f'Logaritmo negativo de verosimilitud promedio: {nll/n}')"
      ]
    },
    {
      "cell_type": "code",
      "execution_count": null,
      "metadata": {
        "colab": {
          "base_uri": "https://localhost:8080/"
        },
        "id": "bqldf2fVrz-e",
        "outputId": "f26a9c57-4bdf-42c0-ccaf-29fb7acda574"
      },
      "outputs": [
        {
          "name": "stdout",
          "output_type": "stream",
          "text": [
            ".d | prob: 0.0493446 | logaritmo de la verosimilitud: -3.0089\n",
            "da | prob: 0.3054336 | logaritmo de la verosimilitud: -4.1949\n",
            "an | prob: 0.1229762 | logaritmo de la verosimilitud: -6.2907\n",
            "nt | prob: 0.0515025 | logaritmo de la verosimilitud: -9.2568\n",
            "te | prob: 0.1527994 | logaritmo de la verosimilitud: -11.1355\n",
            "e. | prob: 0.0674018 | logaritmo de la verosimilitud: -13.8326\n",
            "logaritmo negativo de la verosimilitud: 13.832551956176758\n",
            "promedio del logaritmo negativo: 2.3054254055023193\n"
          ]
        }
      ],
      "source": [
        "log_likelihood = 0.0\n",
        "n = 0.0\n",
        "\n",
        "for bi in ['dante']:\n",
        "  cs = ['.'] + list(bi) + ['.']\n",
        "  for c1, c2 in zip(cs, cs[1:]):\n",
        "    ix1 = paf[c1]\n",
        "    ix2 = paf[c2]\n",
        "    prob = P[ix1,ix2]\n",
        "    logprob = torch.log(prob)\n",
        "    log_likelihood += logprob\n",
        "    n += 1\n",
        "    print(f'{c1}{c2} | prob: {prob:.7f} | logaritmo de la verosimilitud: {log_likelihood:.4f}')\n",
        "\n",
        "nll = -log_likelihood\n",
        "print(f'logaritmo negativo de la verosimilitud: {nll}')\n",
        "print(f'promedio del logaritmo negativo: {nll/n}')"
      ]
    },
    {
      "cell_type": "markdown",
      "metadata": {
        "id": "M2hHJunjxWHB"
      },
      "source": [
        "### Red neuronal\n",
        "\n",
        "Ahora que tenemos una función de pérdida, podemos adaptar nuestro modelo a una red neuronal y optimizarlo. Crearemos bigramas de la misma manera, pero ahora crearemos un vector $x$ con el primer elemento del bigrama y otro $y$ con el segundo. Las $x$ serán entonces nuestras entradas y las $y$ nuestros objetivos:"
      ]
    },
    {
      "cell_type": "code",
      "execution_count": null,
      "metadata": {
        "colab": {
          "base_uri": "https://localhost:8080/"
        },
        "id": "O8brd5t6xvj5",
        "outputId": "34ef7ba1-549c-4a4a-872d-39c84aa9067d"
      },
      "outputs": [
        {
          "name": "stdout",
          "output_type": "stream",
          "text": [
            ". m\n",
            "m a\n",
            "a r\n",
            "r i\n",
            "i a\n",
            "a .\n"
          ]
        },
        {
          "data": {
            "text/plain": [
              "(tensor([ 0, 13,  1, 18,  9,  1]), tensor([13,  1, 18,  9,  1,  0]))"
            ]
          },
          "execution_count": 28,
          "metadata": {},
          "output_type": "execute_result"
        }
      ],
      "source": [
        "# Juntaremos los bigramas para el set de entrenamiento (inputs x, objetivos y)\n",
        "# Primero un ejemplo:\n",
        "\n",
        "xs, ys = [], []\n",
        "\n",
        "for p in palabras[:1]:\n",
        "  cs = ['.'] + list(p) + ['.']\n",
        "  for c1, c2 in zip(cs, cs[1:]):\n",
        "    ix1 = paf[c1]\n",
        "    ix2 = paf[c2]\n",
        "    print(c1, c2)\n",
        "    xs.append(ix1)\n",
        "    ys.append(ix2)\n",
        "\n",
        "xs = torch.tensor(xs)\n",
        "ys = torch.tensor(ys)\n",
        "xs, ys"
      ]
    },
    {
      "cell_type": "code",
      "execution_count": null,
      "metadata": {
        "colab": {
          "base_uri": "https://localhost:8080/"
        },
        "id": "mow3o5dDb0bi",
        "outputId": "8867daca-f2f0-4e15-e994-09334cbc6ebb"
      },
      "outputs": [
        {
          "data": {
            "text/plain": [
              "tensor([ 0, 13,  1,  ..., 12, 12,  1])"
            ]
          },
          "execution_count": 29,
          "metadata": {},
          "output_type": "execute_result"
        }
      ],
      "source": [
        "# Ahora todas las palabras\n",
        "\n",
        "xs, ys = [], []\n",
        "\n",
        "for p in palabras:\n",
        "  cs = ['.'] + list(p) + ['.']\n",
        "  for c1, c2 in zip(cs, cs[1:]):\n",
        "    ix1 = paf[c1]\n",
        "    ix2 = paf[c2]\n",
        "    xs.append(ix1)\n",
        "    ys.append(ix2)\n",
        "\n",
        "xs = torch.tensor(xs) # Pasamos cada bigrama a tensores x (inputs) e y (predicción deseada)\n",
        "ys = torch.tensor(ys)\n",
        "xs"
      ]
    },
    {
      "cell_type": "markdown",
      "metadata": {
        "id": "H27cTedAzqFq"
      },
      "source": [
        "Para pasar esta información a una red neuronal, primero la codificaremos (haremos un *encoding*) en vectores vía *one-hot encoding*, ya que este formato es más conveniente para una red neuronal. Esto significa que nuestros vectores tendrán 27 elementos, y todos serán de valor 0 salvo aquel que ocupe el lugar del carácter correspondiente, el cual será 1. \n",
        "\n",
        "Visualicemos, por ejemplo, el vector correspondiente a la letra «a», que se encuentra en la posición 1 de nuestro vocabulario (el punto `.` ocupa la posición 0):"
      ]
    },
    {
      "cell_type": "code",
      "execution_count": null,
      "metadata": {
        "colab": {
          "base_uri": "https://localhost:8080/"
        },
        "id": "1ZbsLepT44s8",
        "outputId": "a57d8491-306b-4c15-f018-284020a5dbbf"
      },
      "outputs": [
        {
          "data": {
            "text/plain": [
              "tensor([0., 1., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0.,\n",
              "        0., 0., 0., 0., 0., 0., 0., 0., 0.])"
            ]
          },
          "execution_count": 30,
          "metadata": {},
          "output_type": "execute_result"
        }
      ],
      "source": [
        "import torch.nn.functional as F\n",
        "\n",
        "# Primero veamos un ejemplo:\n",
        "xenc = F.one_hot(xs[0:6], num_classes=27).float()\n",
        "xenc[2]"
      ]
    },
    {
      "cell_type": "markdown",
      "metadata": {
        "id": "Wb-Ik9LdGuUy"
      },
      "source": [
        "Podemos crear una visualización más gráfica de 6 vectores codificados. Como digo, la posición del 1 en cada vector indica el índice de la letra a la que corresponde:"
      ]
    },
    {
      "cell_type": "code",
      "execution_count": null,
      "metadata": {
        "colab": {
          "base_uri": "https://localhost:8080/",
          "height": 139
        },
        "id": "DvF-_xFF0bf5",
        "outputId": "1b318f7f-dfe0-4e4c-99eb-9fba539ed1d5"
      },
      "outputs": [
        {
          "data": {
            "text/plain": [
              "<matplotlib.image.AxesImage at 0x7f7b02839610>"
            ]
          },
          "execution_count": 31,
          "metadata": {},
          "output_type": "execute_result"
        },
        {
          "data": {
            "image/png": "iVBORw0KGgoAAAANSUhEUgAAAWoAAABpCAYAAAATO2n5AAAABHNCSVQICAgIfAhkiAAAAAlwSFlzAAALEgAACxIB0t1+/AAAADh0RVh0U29mdHdhcmUAbWF0cGxvdGxpYiB2ZXJzaW9uMy4yLjIsIGh0dHA6Ly9tYXRwbG90bGliLm9yZy+WH4yJAAAG5UlEQVR4nO3dQYhdZxnG8f/jNK2k7aK1pdQkmirdFBetDN20SCmobRWjm5KAUldxYSEFQasbuxFEtHQjQrSBitUgtGqQQizaom5iJjGkTUJjKJEmxqTaRVvBxjavi3ui0zAzuQP33Pvl3v8Pwtw5586c9813eebMd+75JlWFJKld75l0AZKklRnUktQ4g1qSGmdQS1LjDGpJatxlfXzT666dq40b1gz9/KMH1/ZRhiRdMv7Nvzhbb2Wpfb0E9cYNa/jT7g1DP/+T77+1jzIk6ZKxp3677D6nPiSpcUMFdZJ7kryU5FiSh/suSpL0fxcN6iRzwPeBe4FbgC1Jbum7MEnSwDBn1LcDx6rq5ao6C+wENvVbliTpvGGCeh3wyqLPT3TbJEljMLKLiUm2JllIsvDqP98Z1beVpJk3TFCfBBa/1259t+1dqmp7Vc1X1fz175sbVX2SNPOGCeq9wM1JbkpyObAZ2NVvWZKk8y56w0tVvZ3kQWA3MAfsqKpDvVcmSQKGvDOxqp4Bnum5FknSEnq5hfzowbXeFq6J2v23A6v+Gl+zapW3kEtS4wxqSWqcQS1JjTOoJalxBrUkNc6glqTGGdSS1DiDWpIaZ1BLUuMMaklqnEEtSY0zqCWpcb0syrRaLqCjUfP1oWniGbUkNc6glqTGXTSok2xI8lySw0kOJdk2jsIkSQPDzFG/DXylqvYnuRrYl+TZqjrcc22SJIY4o66qU1W1v3v8BnAEWNd3YZKkgVW96yPJRuA2YM8S+7YCWwHey9oRlCZJglVcTExyFfAU8FBVvX7h/qraXlXzVTW/hitGWaMkzbShgjrJGgYh/WRVPd1vSZKkxYZ510eAx4EjVfVo/yVJkhYb5oz6DuALwN1JDnT/7uu5LklS56IXE6vqj0DGUIskaQlNrPXhugzSaLhuznTyFnJJapxBLUmNM6glqXEGtSQ1zqCWpMYZ1JLUOINakhpnUEtS4wxqSWqcQS1JjTOoJalxBrUkNa6JRZnUltUu7OOiPu1wLKaTZ9SS1DiDWpIat5o/bjuX5M9Jft1nQZKkd1vNGfU24EhfhUiSljbsXyFfD3wK+FG/5UiSLjTsGfVjwFeBc8s9IcnWJAtJFv7DWyMpTpI0RFAn+TRwpqr2rfS8qtpeVfNVNb+GK0ZWoCTNumHOqO8APpPkOLATuDvJT3qtSpL0PxcN6qr6elWtr6qNwGbgd1X1+d4rkyQBvo9akpq3qlvIq+p54PleKpEkLamJtT5Wu7YEuKZBn/y/ldri1IckNc6glqTGGdSS1DiDWpIaZ1BLUuMMaklqnEEtSY0zqCWpcQa1JDXOoJakxhnUktQ4g1qSGpeqGv03TV4F/rrEruuAf4z8gO2z79li37NlVH1/sKquX2pHL0G9nCQLVTU/tgM2wr5ni33PlnH07dSHJDXOoJakxo07qLeP+XitsO/ZYt+zpfe+xzpHLUlaPac+JKlxBrUkNW4sQZ3kniQvJTmW5OFxHLMFSY4neSHJgSQLk66nT0l2JDmT5MVF265N8mySv3Qfr5lkjX1Ypu9Hkpzsxv1AkvsmWeOoJdmQ5Lkkh5McSrKt2z7V471C372Pd+9z1EnmgKPAx4ETwF5gS1Ud7vXADUhyHJivqqm/CSDJx4A3gR9X1Ue6bd8BXquqb3c/oK+pqq9Nss5RW6bvR4A3q+q7k6ytL0luBG6sqv1Jrgb2AZ8FvsgUj/cKfd9Pz+M9jjPq24FjVfVyVZ0FdgKbxnBcjVFV/R547YLNm4AnusdPMHhRT5Vl+p5qVXWqqvZ3j98AjgDrmPLxXqHv3o0jqNcBryz6/ARjaq4BBfwmyb4kWyddzATcUFWnusd/B26YZDFj9mCSg93UyFRNASyWZCNwG7CHGRrvC/qGnsfbi4n9urOqPgrcC3y5+zV5JtVgjm1W3gv6A+DDwK3AKeB7ky2nH0muAp4CHqqq1xfvm+bxXqLv3sd7HEF9Etiw6PP13bapV1Unu49ngF8wmAaaJae7eb3z83tnJlzPWFTV6ap6p6rOAT9kCsc9yRoGYfVkVT3dbZ768V6q73GM9ziCei9wc5KbklwObAZ2jeG4E5Xkyu6CA0muBD4BvLjyV02dXcAD3eMHgF9NsJaxOR9Wnc8xZeOeJMDjwJGqenTRrqke7+X6Hsd4j+XOxO7tKo8Bc8COqvpW7wedsCQfYnAWDXAZ8NNp7jvJz4C7GCz5eBr4JvBL4OfABxgse3t/VU3Vhbdl+r6Lwa/BBRwHvrRo7vaSl+RO4A/AC8C5bvM3GMzXTu14r9D3Fnoeb28hl6TGeTFRkhpnUEtS4wxqSWqcQS1JjTOoJalxBrUkNc6glqTG/Rf9fSnIkBX9igAAAABJRU5ErkJggg==",
            "text/plain": [
              "<Figure size 432x288 with 1 Axes>"
            ]
          },
          "metadata": {
            "needs_background": "light"
          },
          "output_type": "display_data"
        }
      ],
      "source": [
        "plt.imshow(xenc)"
      ]
    },
    {
      "cell_type": "markdown",
      "metadata": {
        "id": "M-FskRsJHbm-"
      },
      "source": [
        "Ahora haremos lo mismo con todos los datos:"
      ]
    },
    {
      "cell_type": "code",
      "execution_count": null,
      "metadata": {
        "colab": {
          "base_uri": "https://localhost:8080/"
        },
        "id": "LQh_XkYx6NHK",
        "outputId": "90854426-65f8-487d-cdbd-39302e98f46f"
      },
      "outputs": [
        {
          "data": {
            "text/plain": [
              "(tensor([[1., 0., 0.,  ..., 0., 0., 0.],\n",
              "         [0., 0., 0.,  ..., 0., 0., 0.],\n",
              "         [0., 1., 0.,  ..., 0., 0., 0.],\n",
              "         ...,\n",
              "         [0., 0., 0.,  ..., 0., 0., 0.],\n",
              "         [0., 0., 0.,  ..., 0., 0., 0.],\n",
              "         [0., 1., 0.,  ..., 0., 0., 0.]]), torch.Size([165469, 27]))"
            ]
          },
          "execution_count": 166,
          "metadata": {},
          "output_type": "execute_result"
        }
      ],
      "source": [
        "xenc = F.one_hot(xs, num_classes=27).float()\n",
        "xenc, xenc.shape"
      ]
    },
    {
      "cell_type": "markdown",
      "metadata": {
        "id": "PZFTRWmxHqa3"
      },
      "source": [
        "Ahora crearemos una capa de neuronas (*i. e.,* una matriz de pesos, o sea, una *linear layer*)[^3], asignando pesos aleatorios a nuestro modelo para que se multipliquen con las entradas y se optimicen mediante la propagación hacia atrás. Más adelante explicaremos cómo eligiremos las dimensiones de la matriz de pesos.\n",
        "\n",
        "Primero, procuremos entender cómo funcionará la multiplicación de nuestros vectores con la matriz de pesos. Ejemplifiquemos con los primeros tres vectores (o sea, los primeros tres caracteres) de nuestra incrustación:"
      ]
    },
    {
      "cell_type": "code",
      "execution_count": null,
      "metadata": {
        "colab": {
          "base_uri": "https://localhost:8080/"
        },
        "id": "vfBZ3xmsT2lZ",
        "outputId": "6284ddd8-e217-4221-e6b9-28819e36ce0b"
      },
      "outputs": [
        {
          "data": {
            "text/plain": [
              "(torch.Size([3, 27]), torch.Size([27, 4]))"
            ]
          },
          "execution_count": 167,
          "metadata": {},
          "output_type": "execute_result"
        }
      ],
      "source": [
        "w = torch.randn(27, 4)\n",
        "xenc[:3].shape, w.shape"
      ]
    },
    {
      "cell_type": "markdown",
      "metadata": {
        "id": "xyjvr_LOUTKe"
      },
      "source": [
        "Nuestra matriz de pesos luce así:"
      ]
    },
    {
      "cell_type": "code",
      "execution_count": null,
      "metadata": {
        "colab": {
          "base_uri": "https://localhost:8080/"
        },
        "id": "4KDgmeHdUV-J",
        "outputId": "ca0298b5-10e1-4170-f80f-bab4cedca50c"
      },
      "outputs": [
        {
          "data": {
            "text/plain": [
              "tensor([[ 1.6804, -0.3333,  0.1523,  1.0912],\n",
              "        [ 0.0711, -1.5924,  0.6650, -1.9040],\n",
              "        [ 0.2606,  0.2247, -0.6540, -0.6477],\n",
              "        [-0.4081, -2.2263, -0.6014, -1.3560],\n",
              "        [ 1.3712,  0.4519,  1.1165,  0.4909],\n",
              "        [ 0.5392, -0.9536, -0.5489,  0.5621],\n",
              "        [-0.1191,  1.0517, -0.5388,  0.0509],\n",
              "        [-0.2328,  0.5691, -0.1776, -0.8785],\n",
              "        [-0.9944,  0.1690,  0.4808, -0.9270],\n",
              "        [-1.9163, -0.4442, -0.8332,  0.2094],\n",
              "        [-1.5595,  0.3131,  0.3176, -1.0424],\n",
              "        [-0.8103,  0.0612, -0.3940, -0.6969],\n",
              "        [ 1.6637,  0.1493,  0.2939,  0.4968],\n",
              "        [ 0.8579, -0.4684, -0.5580, -0.5566],\n",
              "        [-2.3027, -0.3928,  0.9376,  0.2877],\n",
              "        [ 0.1478, -0.5560,  0.2106,  1.4563],\n",
              "        [ 0.8955,  0.3372, -2.2538,  1.4221],\n",
              "        [ 1.2976, -0.4296, -0.0524, -1.1490],\n",
              "        [ 1.8105,  1.5439,  1.2894,  1.5108],\n",
              "        [-0.9403, -1.0278, -1.1975, -1.4744],\n",
              "        [-1.0490, -0.5257,  0.0466,  0.1303],\n",
              "        [ 0.9318,  0.4428,  0.6996, -1.0788],\n",
              "        [-1.5708, -0.7023, -1.2703, -0.9609],\n",
              "        [ 0.3845,  1.9697, -0.0413,  0.8551],\n",
              "        [-0.2153,  1.3822,  0.0026, -0.8545],\n",
              "        [ 0.6023, -2.3813, -1.3161, -1.5124],\n",
              "        [ 0.3529,  0.2896, -0.4342,  1.6535]])"
            ]
          },
          "execution_count": 168,
          "metadata": {},
          "output_type": "execute_result"
        }
      ],
      "source": [
        "w"
      ]
    },
    {
      "cell_type": "markdown",
      "metadata": {
        "id": "wS7JQVU-dSIi"
      },
      "source": [
        "Nuestra matriz de vectores:"
      ]
    },
    {
      "cell_type": "code",
      "execution_count": null,
      "metadata": {
        "colab": {
          "base_uri": "https://localhost:8080/"
        },
        "id": "Jd9_vn2OdRam",
        "outputId": "5ddf2ecc-2bbb-483d-d915-ec3b4f84f33e"
      },
      "outputs": [
        {
          "data": {
            "text/plain": [
              "tensor([[1., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0.,\n",
              "         0., 0., 0., 0., 0., 0., 0., 0., 0.],\n",
              "        [0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 1., 0., 0., 0., 0.,\n",
              "         0., 0., 0., 0., 0., 0., 0., 0., 0.],\n",
              "        [0., 1., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0.,\n",
              "         0., 0., 0., 0., 0., 0., 0., 0., 0.]])"
            ]
          },
          "execution_count": 169,
          "metadata": {},
          "output_type": "execute_result"
        }
      ],
      "source": [
        "xenc[:3]"
      ]
    },
    {
      "cell_type": "markdown",
      "metadata": {
        "id": "BJosxvnVUXvK"
      },
      "source": [
        "Si multiplicamos ambas, obtenemos:"
      ]
    },
    {
      "cell_type": "code",
      "execution_count": null,
      "metadata": {
        "colab": {
          "base_uri": "https://localhost:8080/"
        },
        "id": "GGrTSjL5UB_k",
        "outputId": "a8ebbcee-1964-4cd1-ba6f-482c07913916"
      },
      "outputs": [
        {
          "data": {
            "text/plain": [
              "tensor([[ 1.6804, -0.3333,  0.1523,  1.0912],\n",
              "        [ 0.8579, -0.4684, -0.5580, -0.5566],\n",
              "        [ 0.0711, -1.5924,  0.6650, -1.9040]])"
            ]
          },
          "execution_count": 170,
          "metadata": {},
          "output_type": "execute_result"
        }
      ],
      "source": [
        "ejemplo = xenc[:3] @ w\n",
        "ejemplo"
      ]
    },
    {
      "cell_type": "markdown",
      "metadata": {
        "id": "mqFqSVulUaC4"
      },
      "source": [
        "El resultado de la multiplicación es una matriz con dimensiones 3x4. Para entender cómo se generó esta matriz, podemos tomar el primer vector de `xenc` y multiplicar cada uno de sus elementos por la primera columna de `w`. El primer vector luce así:"
      ]
    },
    {
      "cell_type": "code",
      "execution_count": null,
      "metadata": {
        "colab": {
          "base_uri": "https://localhost:8080/"
        },
        "id": "sjHdAAujVbMI",
        "outputId": "98819424-c09e-4aa4-ef60-4eddb53c54d5"
      },
      "outputs": [
        {
          "data": {
            "text/plain": [
              "tensor([1., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0.,\n",
              "        0., 0., 0., 0., 0., 0., 0., 0., 0.])"
            ]
          },
          "execution_count": 171,
          "metadata": {},
          "output_type": "execute_result"
        }
      ],
      "source": [
        "xenc[0]"
      ]
    },
    {
      "cell_type": "markdown",
      "metadata": {
        "id": "Va4oIDmxVq4t"
      },
      "source": [
        "De manera que al multiplicarlo por la primera columna, elemento por elemento (es decir, realizando una multiplicación Hadamard, denotada comúnmente por el signo $\\odot$), obtenemos:"
      ]
    },
    {
      "cell_type": "code",
      "execution_count": null,
      "metadata": {
        "colab": {
          "base_uri": "https://localhost:8080/"
        },
        "id": "o6L9FHdjUsKk",
        "outputId": "ef1bb4a5-9943-4a5d-c3c7-c9eb5beed0fb"
      },
      "outputs": [
        {
          "data": {
            "text/plain": [
              "tensor([1.6804, 0.0000, 0.0000, -0.0000, 0.0000, 0.0000, -0.0000, -0.0000, -0.0000,\n",
              "        -0.0000, -0.0000, -0.0000, 0.0000, 0.0000, -0.0000, 0.0000, 0.0000, 0.0000,\n",
              "        0.0000, -0.0000, -0.0000, 0.0000, -0.0000, 0.0000, -0.0000, 0.0000, 0.0000])"
            ]
          },
          "execution_count": 172,
          "metadata": {},
          "output_type": "execute_result"
        }
      ],
      "source": [
        "xenc[0] * w[:,0]"
      ]
    },
    {
      "cell_type": "markdown",
      "metadata": {
        "id": "PUMHm9bHWOAw"
      },
      "source": [
        "Y la sumatoria de este vector claramente resulta:"
      ]
    },
    {
      "cell_type": "code",
      "execution_count": null,
      "metadata": {
        "colab": {
          "base_uri": "https://localhost:8080/"
        },
        "id": "xA3l-t9HWSRi",
        "outputId": "57472b58-da6f-4c46-c147-06e963ff7675"
      },
      "outputs": [
        {
          "data": {
            "text/plain": [
              "tensor(1.6804)"
            ]
          },
          "execution_count": 173,
          "metadata": {},
          "output_type": "execute_result"
        }
      ],
      "source": [
        "(xenc[0] * w[:,0]).sum()"
      ]
    },
    {
      "cell_type": "markdown",
      "metadata": {
        "id": "A3SuQaEJWVM9"
      },
      "source": [
        "Que podemos observar en el primer valor de nuestra multiplicación de `xenc` con `w`:"
      ]
    },
    {
      "cell_type": "code",
      "execution_count": null,
      "metadata": {
        "colab": {
          "base_uri": "https://localhost:8080/"
        },
        "id": "3mHX2t-XEJvG",
        "outputId": "08d8869a-dca8-4bab-9022-f8d379a9f5a3"
      },
      "outputs": [
        {
          "data": {
            "text/plain": [
              "tensor([[ 1.6804, -0.3333,  0.1523,  1.0912],\n",
              "        [ 0.8579, -0.4684, -0.5580, -0.5566],\n",
              "        [ 0.0711, -1.5924,  0.6650, -1.9040]])"
            ]
          },
          "execution_count": 174,
          "metadata": {},
          "output_type": "execute_result"
        }
      ],
      "source": [
        "ejemplo"
      ]
    },
    {
      "cell_type": "markdown",
      "metadata": {
        "id": "pqbG3CyJM8sN"
      },
      "source": [
        "Exactamente lo mismo, aunque de manera más eficiente, sucede cuando multiplicamos ambas matrices. En síntesis: al multiplicar nuestra matriz `w` por la matriz `xenc`, cada columna de pesos evalúa cada vector de `xenc`. Es decir, obtenemos una matriz de dimensiones 3x4 donde cada fila corresponde a cada vector (*i. e.*, cada carácter), pero esta fila tiene 4 valores correspondientes a la evaluación del vector por cada una de las columnas de la matriz `w`."
      ]
    },
    {
      "cell_type": "markdown",
      "metadata": {
        "id": "wt-1qLVTYjpW"
      },
      "source": [
        "### Hacia la formulación de un modelo\n",
        "\n",
        "Antes de programar nuestra red neuronal, detengámonos a entender lo que estamos haciendo: en primer lugar, podemos conceptualizar a una red neuronal como una función: nosotros esperamos que nos proporcione un resultado con base en las entradas que le suministremos:\n",
        "\n",
        "<img src='https://miro.medium.com/max/640/1*sPg-0hha7o3iNPjY4n-vow.jpeg' width=400 class='center'>\n",
        "\n",
        "Lo característico de esta función es que podemos entrenarla para que se configure a sí misma, es decir, la función encontrará (o «aprenderá») los parámetros necesarios para transformar las entradas que le proporcionemos en las salidas que queremos. En este caso particular, queremos que «transforme» una letra de entrada en otra de salida, y que realice este proceso hasta conseguir un nombre. La transformación que procuraremos a continuación será lineal y se realizará mediante la matriz de pesos `w`.\n",
        "\n",
        "Antes, recapitulemos: hemos separado cada bigrama de nuestro conjunto de datos en tensores $\\mathbf{x}$ e $\\mathbf{y}$. El tensor $\\mathbf{x}$ contiene las entradas, es decir, el primer carácter de cada bigrama que creamos por cada nombre que tenemos. El tensor $\\mathbf{y}$ contiene el segundo carácter de cada uno de los bigramas. Utilizaremos $\\mathbf{y}$ para entrenar al modelo e indicarle cuál carácter debe suceder a cualquier carácter dado de $\\mathbf{x}$. Por ejemplo, si mi carácter de entrada a la red neuronal es «a», mi modelo podrá aprender que existen altas probabilidades de que esté acompañada por la letra «n»; después, partirá de «n» para generar el siguiente carácter y así sucesivamente hasta generar un nombre.\n",
        "\n",
        "Pero para poder introducir nuestras letras en una red neuronal, debemos transformarlas en números con los que pueda operar. Para ello, codificamos nuestro tensor $\\mathbf{x}$ vía vectores *one-hot* que, concatenados, constituyen la matriz `xenc`. A esta codificación —que equivale a $\\mathbf{x}$ pero bajo una representación numérica basada en el índice de nuestra tabla de consulta— la multiplicamos por `w`, una capa lineal que evaluará nuestras entradas `xenc` por cada una de las neuronas que tenga.\n",
        "\n",
        "Entonces, el resultado de esta multiplicación de matrices nos da un conteo de todos los caracteres de $\\mathbf{x}$ —codificados en vectores—, evaluados por cada neurona de la capa lineal `w`. En ese sentido, este resultado es equivalente a la matriz `N` que graficamos anteriormente, aunque con un grado de complejidad mayor debido a las transformaciones numéricas que hemos realizado.\n",
        "\n",
        "En realidad, lo que queremos hacer a continuación es entrenar nuestra red neuronal para que, con base en cada vector de entrada (de la matriz `xenc`), ese mismo vector sea transformado (mediante la multiplicación por los pesos) en probabilidades correspondientes a cada *token* que debería acompañarlo.\n",
        "\n",
        "Manos a la obra: primero, crearemos una matriz `W` de dimensiones 27x27: necesitamos 27 filas para nuestros 27 *tokens* del vocabulario, y necesitamos 27 evaluaciones (columnas) para cada *token*. Estas evaluaciones tendrán que especificarnos las probabilidades asignadas a cada *token* de acompañar al *token* inicial evaluado."
      ]
    },
    {
      "cell_type": "code",
      "execution_count": null,
      "metadata": {
        "colab": {
          "base_uri": "https://localhost:8080/"
        },
        "id": "PlADRGTTE_vj",
        "outputId": "15dd6e9a-6734-4d60-8f70-0a828e644a9b"
      },
      "outputs": [
        {
          "data": {
            "text/plain": [
              "torch.Size([165469, 27])"
            ]
          },
          "execution_count": 175,
          "metadata": {},
          "output_type": "execute_result"
        }
      ],
      "source": [
        "W = torch.randn((27, 27), requires_grad=True) # Creamos weights aleatorios\n",
        "logits = xenc @ W #multiplicamos valores de xenc por W para obtener log-counts\n",
        "logits.shape"
      ]
    },
    {
      "cell_type": "markdown",
      "metadata": {
        "id": "hyvUSeEqFFWq"
      },
      "source": [
        "Por lo pronto, nuestros valores son aleatorios y no han sido entrenados. Ahora, dado que nuestros `logits`[^4] tienen valores pequeños, negativos y positivos, queremos transformarlos para que puedan reflejar mejor la naturaleza de un «conteo» y nos faciliten su conversión en probabilidades. Para ello, únicamente necesitamos exponenciarlos, puesto que los números negativos terminarán en un rango del 0 al 1, y los positivos se convertirán en números mayores a 1. Visualicemos la función exponencial y después apliquémosla a nuestra matriz:"
      ]
    },
    {
      "cell_type": "code",
      "execution_count": null,
      "metadata": {
        "colab": {
          "base_uri": "https://localhost:8080/",
          "height": 265
        },
        "id": "Fnrxk59yFExv",
        "outputId": "26029410-c599-46e7-bf87-a7c24316c9d8"
      },
      "outputs": [
        {
          "data": {
            "image/png": "",
            "text/plain": [
              "<Figure size 432x288 with 1 Axes>"
            ]
          },
          "metadata": {
            "needs_background": "light"
          },
          "output_type": "display_data"
        }
      ],
      "source": [
        "plt.plot(np.arange(-3, 3, 0.1), np.exp(np.arange(-3, 3, 0.1)));"
      ]
    },
    {
      "cell_type": "code",
      "execution_count": null,
      "metadata": {
        "id": "dK3-4qCf6eYY"
      },
      "outputs": [],
      "source": [
        "counts = logits.exp() # exponenciamos para obtener valores mayores a 0, equivalentes a matriz N"
      ]
    },
    {
      "cell_type": "markdown",
      "metadata": {
        "id": "m1drjyCHLvHR"
      },
      "source": [
        "Ahora, convertiremos nuestros conteos en probabilidades, dividiéndolos entre la sumatoria de todos los elementos de su fila correspondiente:"
      ]
    },
    {
      "cell_type": "code",
      "execution_count": null,
      "metadata": {
        "colab": {
          "base_uri": "https://localhost:8080/"
        },
        "id": "jI3psWjSLzfc",
        "outputId": "bac17c5a-52e5-48cf-c8d8-066df80a8568"
      },
      "outputs": [
        {
          "data": {
            "text/plain": [
              "torch.Size([165469, 27])"
            ]
          },
          "execution_count": 178,
          "metadata": {},
          "output_type": "execute_result"
        }
      ],
      "source": [
        "probs = counts / counts.sum(1, keepdims=True) # normalizar los counts para obtener probabilidades\n",
        "probs # estos últimos dos pasos son equivalentes a la función softmax\n",
        "probs.shape"
      ]
    },
    {
      "cell_type": "markdown",
      "metadata": {
        "id": "VmM4puUmMCZW"
      },
      "source": [
        "Ahora, nuestra primera fila contiene probabilidades que lucen así:"
      ]
    },
    {
      "cell_type": "code",
      "execution_count": null,
      "metadata": {
        "colab": {
          "base_uri": "https://localhost:8080/"
        },
        "id": "ChqRnqShZ4uG",
        "outputId": "aee822e4-6df9-405c-8d53-40d902c10dad"
      },
      "outputs": [
        {
          "data": {
            "text/plain": [
              "tensor([0.0096, 0.0704, 0.0243, 0.0560, 0.0687, 0.0090, 0.0270, 0.0457, 0.0506,\n",
              "        0.0017, 0.0289, 0.0205, 0.0080, 0.0471, 0.0213, 0.0887, 0.0838, 0.0318,\n",
              "        0.0142, 0.0524, 0.0047, 0.0464, 0.0985, 0.0197, 0.0227, 0.0201, 0.0283],\n",
              "       grad_fn=<SelectBackward0>)"
            ]
          },
          "execution_count": 179,
          "metadata": {},
          "output_type": "execute_result"
        }
      ],
      "source": [
        "probs[0]"
      ]
    },
    {
      "cell_type": "markdown",
      "metadata": {
        "id": "YN4JhhUkMHH7"
      },
      "source": [
        "Antes de continuar, podemos visualizar el arreglo de información que tenemos. Tomemos como base nuestro primer nombre («María», que ha quedado ajustado a «.maria.»):"
      ]
    },
    {
      "cell_type": "code",
      "execution_count": null,
      "metadata": {
        "colab": {
          "base_uri": "https://localhost:8080/"
        },
        "id": "DpdM-K0AaFSi",
        "outputId": "0c86938a-2c5f-41fc-bbf5-ed22a141096d"
      },
      "outputs": [
        {
          "name": "stdout",
          "output_type": "stream",
          "text": [
            "-----------\n",
            "Bigrama ejemplo 1: .m, índices 0,13\n",
            "Input: 0\n",
            "Probabilidades de cada output calculadas por la red neuronal: tensor([0.0096, 0.0704, 0.0243, 0.0560, 0.0687, 0.0090, 0.0270, 0.0457, 0.0506,\n",
            "        0.0017, 0.0289, 0.0205, 0.0080, 0.0471, 0.0213, 0.0887, 0.0838, 0.0318,\n",
            "        0.0142, 0.0524, 0.0047, 0.0464, 0.0985, 0.0197, 0.0227, 0.0201, 0.0283],\n",
            "       grad_fn=<SelectBackward0>)\n",
            "Output correcto: 13\n",
            "Probabilidad asignada por la red neuronal al carácter correcto: 0.04705430194735527\n",
            "Logaritmo de la verosimilitud -3.056452989578247\n",
            "Logaritmo negativo de la verosimilitud: 3.056452989578247\n",
            "-----------\n",
            "Bigrama ejemplo 2: ma, índices 13,1\n",
            "Input: 13\n",
            "Probabilidades de cada output calculadas por la red neuronal: tensor([0.0171, 0.0113, 0.0380, 0.0324, 0.0241, 0.0180, 0.0223, 0.0269, 0.0354,\n",
            "        0.0124, 0.0092, 0.0323, 0.0372, 0.0657, 0.1751, 0.0092, 0.0080, 0.1024,\n",
            "        0.0069, 0.0092, 0.0266, 0.0315, 0.0494, 0.0146, 0.1493, 0.0156, 0.0198],\n",
            "       grad_fn=<SelectBackward0>)\n",
            "Output correcto: 1\n",
            "Probabilidad asignada por la red neuronal al carácter correcto: 0.011345318518579006\n",
            "Logaritmo de la verosimilitud -4.478950023651123\n",
            "Logaritmo negativo de la verosimilitud: 4.478950023651123\n",
            "-----------\n",
            "Bigrama ejemplo 3: ar, índices 1,18\n",
            "Input: 1\n",
            "Probabilidades de cada output calculadas por la red neuronal: tensor([0.0121, 0.0177, 0.0048, 0.1065, 0.0027, 0.0480, 0.0031, 0.0411, 0.0335,\n",
            "        0.0278, 0.1691, 0.0037, 0.0235, 0.0201, 0.0221, 0.0541, 0.0329, 0.0447,\n",
            "        0.0453, 0.0087, 0.0131, 0.0272, 0.0486, 0.0452, 0.0956, 0.0360, 0.0130],\n",
            "       grad_fn=<SelectBackward0>)\n",
            "Output correcto: 18\n",
            "Probabilidad asignada por la red neuronal al carácter correcto: 0.04529079794883728\n",
            "Logaritmo de la verosimilitud -3.094651460647583\n",
            "Logaritmo negativo de la verosimilitud: 3.094651460647583\n",
            "-----------\n",
            "Bigrama ejemplo 4: ri, índices 18,9\n",
            "Input: 18\n",
            "Probabilidades de cada output calculadas por la red neuronal: tensor([0.1148, 0.0210, 0.0277, 0.0906, 0.0275, 0.0093, 0.0087, 0.0190, 0.0039,\n",
            "        0.0451, 0.0309, 0.0589, 0.1442, 0.0375, 0.0079, 0.0652, 0.0272, 0.0082,\n",
            "        0.0084, 0.0355, 0.0327, 0.0257, 0.0086, 0.0225, 0.0264, 0.0722, 0.0203],\n",
            "       grad_fn=<SelectBackward0>)\n",
            "Output correcto: 9\n",
            "Probabilidad asignada por la red neuronal al carácter correcto: 0.04506437107920647\n",
            "Logaritmo de la verosimilitud -3.099663257598877\n",
            "Logaritmo negativo de la verosimilitud: 3.099663257598877\n",
            "-----------\n",
            "Bigrama ejemplo 5: ia, índices 9,1\n",
            "Input: 9\n",
            "Probabilidades de cada output calculadas por la red neuronal: tensor([0.0452, 0.0301, 0.1283, 0.0392, 0.0107, 0.0309, 0.1220, 0.0093, 0.1139,\n",
            "        0.0111, 0.0087, 0.0042, 0.0337, 0.0945, 0.0093, 0.0085, 0.0163, 0.0475,\n",
            "        0.0031, 0.0154, 0.0541, 0.0090, 0.0990, 0.0133, 0.0252, 0.0098, 0.0078],\n",
            "       grad_fn=<SelectBackward0>)\n",
            "Output correcto: 1\n",
            "Probabilidad asignada por la red neuronal al carácter correcto: 0.030115216970443726\n",
            "Logaritmo de la verosimilitud -3.5027246475219727\n",
            "Logaritmo negativo de la verosimilitud: 3.5027246475219727\n",
            "-----------\n",
            "Bigrama ejemplo 6: a., índices 1,0\n",
            "Input: 1\n",
            "Probabilidades de cada output calculadas por la red neuronal: tensor([0.0121, 0.0177, 0.0048, 0.1065, 0.0027, 0.0480, 0.0031, 0.0411, 0.0335,\n",
            "        0.0278, 0.1691, 0.0037, 0.0235, 0.0201, 0.0221, 0.0541, 0.0329, 0.0447,\n",
            "        0.0453, 0.0087, 0.0131, 0.0272, 0.0486, 0.0452, 0.0956, 0.0360, 0.0130],\n",
            "       grad_fn=<SelectBackward0>)\n",
            "Output correcto: 0\n",
            "Probabilidad asignada por la red neuronal al carácter correcto: 0.0121311629191041\n",
            "Logaritmo de la verosimilitud -4.411977767944336\n",
            "Logaritmo negativo de la verosimilitud: 4.411977767944336\n",
            "----------\n",
            "Promedio de la nll, i. e. pérdida total = 3.607403516769409\n"
          ]
        }
      ],
      "source": [
        "nlls = torch.zeros(6)\n",
        "for i in range(6):\n",
        "  x = xs[i].item()\n",
        "  y = ys[i].item()\n",
        "  print('-----------')\n",
        "  print(f'Bigrama ejemplo {i+1}: {fap[x]}{fap[y]}, índices {x},{y}')\n",
        "  print(f'Input: {x}')\n",
        "  print(f'Probabilidades de cada output calculadas por la red neuronal: {probs[i]}')\n",
        "  print(f'Output correcto: {y}')\n",
        "  p = probs[i, y]\n",
        "  print(f'Probabilidad asignada por la red neuronal al carácter correcto: {p.item()}')\n",
        "  logp = torch.log(p)\n",
        "  print('Logaritmo de la verosimilitud', logp.item())\n",
        "  nll = -logp\n",
        "  print('Logaritmo negativo de la verosimilitud:', nll.item())\n",
        "  nlls[i] = nll\n",
        "\n",
        "print('----------')\n",
        "print(f'Promedio de la nll, i. e. pérdida total = {nlls.mean().item()}')"
      ]
    },
    {
      "cell_type": "markdown",
      "metadata": {
        "id": "BiORP0mmM6Bg"
      },
      "source": [
        "Bien, tenemos los 6 bigramas del nombre, el índice de cada input y output de cada bigrama, etcétera. Ahora, queremos ajustar nuestro modelo para que, con base en la pérdida de cada bigrama —medida por el logaritmo negativo de la verosimilitud, igual que anteriormente—, optimicemos los pesos de la matriz `W` de tal forma que, al multiplicarla por cada vector input (`xenc`), nos devuelva otro vector con probabilidades asignadas a cada carácter que puede suceder el carácter en cuestión, pero con probabilidad alta asignada al carácter que debe acompañarlo.\n",
        "\n",
        "Tomemos en cuenta que todas las operaciones que hemos realizado hasta ahora son diferenciables (se pueden derivar). Ahora, para poder programar una función de pérdida que entrene todos nuestros términos, ejemplifiquemos también con nuestro primer nombre:"
      ]
    },
    {
      "cell_type": "code",
      "execution_count": null,
      "metadata": {
        "colab": {
          "base_uri": "https://localhost:8080/"
        },
        "id": "lpvfnq1qiyvz",
        "outputId": "5de74c08-c479-4871-dab8-aa455035d75e"
      },
      "outputs": [
        {
          "data": {
            "text/plain": [
              "tensor([ 0, 13,  1, 18,  9,  1])"
            ]
          },
          "execution_count": 181,
          "metadata": {},
          "output_type": "execute_result"
        }
      ],
      "source": [
        "xs[:6]"
      ]
    },
    {
      "cell_type": "code",
      "execution_count": null,
      "metadata": {
        "colab": {
          "base_uri": "https://localhost:8080/"
        },
        "id": "8s8cMAdLk7dr",
        "outputId": "09875f08-f11b-4eac-bb52-bd7d416c682f"
      },
      "outputs": [
        {
          "data": {
            "text/plain": [
              "tensor([13,  1, 18,  9,  1,  0])"
            ]
          },
          "execution_count": 182,
          "metadata": {},
          "output_type": "execute_result"
        }
      ],
      "source": [
        "ys[:6]"
      ]
    },
    {
      "cell_type": "markdown",
      "metadata": {
        "id": "Q0c4mz7GTDPg"
      },
      "source": [
        "Obtenemos el índice de cada bigrama en nuestros tensores `x` e `y` y, con base en ellos, rastreamos la probabilidad asignada a `y` dado `x`:"
      ]
    },
    {
      "cell_type": "code",
      "execution_count": null,
      "metadata": {
        "colab": {
          "base_uri": "https://localhost:8080/"
        },
        "id": "sxjighDTk0H-",
        "outputId": "4d41e380-d3e0-46e7-8cb6-0f969a53619a"
      },
      "outputs": [
        {
          "data": {
            "text/plain": [
              "(tensor(0.0471, grad_fn=<SelectBackward0>),\n",
              " tensor(0.0113, grad_fn=<SelectBackward0>),\n",
              " tensor(0.0453, grad_fn=<SelectBackward0>),\n",
              " tensor(0.0451, grad_fn=<SelectBackward0>),\n",
              " tensor(0.0301, grad_fn=<SelectBackward0>),\n",
              " tensor(0.0121, grad_fn=<SelectBackward0>))"
            ]
          },
          "execution_count": 183,
          "metadata": {},
          "output_type": "execute_result"
        }
      ],
      "source": [
        "probs[0,13], probs[1,1], probs[2,18], probs[3,9], probs[4,1], probs[5,0]"
      ]
    },
    {
      "cell_type": "markdown",
      "metadata": {
        "id": "sLM16b8ObLmC"
      },
      "source": [
        "Que sería equivalente a hacer algo como:"
      ]
    },
    {
      "cell_type": "code",
      "execution_count": null,
      "metadata": {
        "colab": {
          "base_uri": "https://localhost:8080/"
        },
        "id": "nkDbTPQhbO2F",
        "outputId": "9bb086fc-7521-4ae3-fd07-f277870da7d7"
      },
      "outputs": [
        {
          "data": {
            "text/plain": [
              "tensor([0.0471, 0.0113, 0.0453, 0.0451, 0.0301, 0.0121],\n",
              "       grad_fn=<IndexBackward0>)"
            ]
          },
          "execution_count": 184,
          "metadata": {},
          "output_type": "execute_result"
        }
      ],
      "source": [
        "probs[torch.arange(6), ys[:6]]"
      ]
    },
    {
      "cell_type": "markdown",
      "metadata": {
        "id": "xdLwxUvvbjeQ"
      },
      "source": [
        "Y para obtener el promedio general del logaritmo negativo de la verosimilitud, únicamente agregamos:"
      ]
    },
    {
      "cell_type": "code",
      "execution_count": null,
      "metadata": {
        "colab": {
          "base_uri": "https://localhost:8080/"
        },
        "id": "EFIIyx-jbwt7",
        "outputId": "79cde7a1-bb61-49b9-a14b-06aebbed9eab"
      },
      "outputs": [
        {
          "data": {
            "text/plain": [
              "tensor(3.6074, grad_fn=<NegBackward0>)"
            ]
          },
          "execution_count": 185,
          "metadata": {},
          "output_type": "execute_result"
        }
      ],
      "source": [
        "-probs[torch.arange(6), ys[:6]].log().mean()"
      ]
    },
    {
      "cell_type": "markdown",
      "metadata": {
        "id": "6MrKwqeTbhFL"
      },
      "source": [
        "Finalmente, agregaremos un componente de regularización —el cual explicaremos en otra ocasión, aunque de momento se puede visualizar [este video](https://youtu.be/EehRcPo1M-Q)— a nuestra pérdida. Ahora ya podemos entrenar nuestro modelo:"
      ]
    },
    {
      "cell_type": "code",
      "execution_count": null,
      "metadata": {
        "colab": {
          "base_uri": "https://localhost:8080/"
        },
        "id": "OntNtXegBWOy",
        "outputId": "7adb07f6-5304-49b5-ccad-c0fd6c6d429c"
      },
      "outputs": [
        {
          "name": "stdout",
          "output_type": "stream",
          "text": [
            "step: [00]   loss=3.806062\n",
            "step: [05]   loss=2.672217\n",
            "step: [10]   loss=2.497344\n",
            "step: [15]   loss=2.428483\n",
            "step: [20]   loss=2.393344\n",
            "step: [25]   loss=2.371606\n",
            "step: [30]   loss=2.356778\n",
            "step: [35]   loss=2.346093\n",
            "step: [40]   loss=2.338058\n",
            "step: [45]   loss=2.331840\n"
          ]
        }
      ],
      "source": [
        "num = xs.nelement()\n",
        "losses = []\n",
        "\n",
        "# FORWARD PASS\n",
        "for i in range(50):\n",
        "  xenc = F.one_hot(xs, num_classes=27).float() # one-hot encoding\n",
        "  logits = xenc @ W #multiplicamos valores de x por w para obtener logits\n",
        "  counts = logits.exp() # exponenciamos para obtener valores mayores a 0, equivalentes a matriz N\n",
        "  probs = counts / counts.sum(1, keepdims=True) # normalizar los conteos para obtener probabilidades\n",
        "  loss = -probs[torch.arange(num), ys].log().mean() + 0.01*(W**2).mean() # creamos función de pérdida (este último término es la regularización) \n",
        "  \n",
        "  # BACKWARD PASS\n",
        "  W.grad = None # equivalente a reiniciar los gradientes a 0\n",
        "  loss.backward() # propagación hacia atrás\n",
        "  losses.append(loss.item())\n",
        "  if i % 5 == 0:\n",
        "    print(f\"step: [{i:>02d}]   loss={loss:.6f}\")\n",
        "\n",
        "  # UPDATE\n",
        "  W.data += -50 * W.grad # actualizamos los valores de W con base en sus gradientes"
      ]
    },
    {
      "cell_type": "markdown",
      "metadata": {
        "id": "8SZOt4JbH_Y3"
      },
      "source": [
        "Podemos visualizar nuestra pérdida a lo largo del entrenamiento:"
      ]
    },
    {
      "cell_type": "code",
      "execution_count": null,
      "metadata": {
        "colab": {
          "base_uri": "https://localhost:8080/",
          "height": 369
        },
        "id": "YxkgJhRFFhZk",
        "outputId": "a0bbd0d1-1403-429a-eac3-b8d8dad872fa"
      },
      "outputs": [
        {
          "data": {
            "image/png": "",
            "text/plain": [
              "<Figure size 576x360 with 1 Axes>"
            ]
          },
          "metadata": {
            "needs_background": "light"
          },
          "output_type": "display_data"
        }
      ],
      "source": [
        "fig, ax = plt.subplots(figsize=(8, 5))\n",
        "ax.plot(losses, color='red') \n",
        "ax.set_facecolor('black')\n",
        "ax.set_xlabel('Pérdida')\n",
        "ax.set_ylabel('Step')\n",
        "plt.tight_layout();"
      ]
    },
    {
      "cell_type": "markdown",
      "metadata": {
        "id": "LnGqKPE5LPsg"
      },
      "source": [
        "Nuestra distribución de probabilidades para cada carácter ahora luce así (por detalles técnicos, debemos leer «.» en lugar de «`»):"
      ]
    },
    {
      "cell_type": "code",
      "execution_count": null,
      "metadata": {
        "colab": {
          "base_uri": "https://localhost:8080/",
          "height": 369
        },
        "id": "rzfgpkO5JGHb",
        "outputId": "a2462257-e4dc-4d81-8036-ba4daf4dd548"
      },
      "outputs": [
        {
          "data": {
            "image/png": "",
            "text/plain": [
              "<Figure size 576x360 with 1 Axes>"
            ]
          },
          "metadata": {
            "needs_background": "light"
          },
          "output_type": "display_data"
        }
      ],
      "source": [
        "fig, ax = plt.subplots(figsize=(8, 5))\n",
        "ax.bar(list(map(chr, range(96, 123))), probs[0].data) \n",
        "ax.set_facecolor('black')\n",
        "plt.tight_layout();"
      ]
    },
    {
      "cell_type": "markdown",
      "metadata": {
        "id": "qQF9Olygo__T"
      },
      "source": [
        "Una vez entrenado el modelo, podemos obtener muestras con base en él:"
      ]
    },
    {
      "cell_type": "code",
      "execution_count": null,
      "metadata": {
        "colab": {
          "base_uri": "https://localhost:8080/"
        },
        "id": "JwPHLba5CrFC",
        "outputId": "3d3debe2-7ee8-4199-fc37-f3da200a2861"
      },
      "outputs": [
        {
          "name": "stdout",
          "output_type": "stream",
          "text": [
            "a.\n",
            "o.\n",
            "r.\n",
            "osama.\n",
            "dan.\n",
            "iolidenarteceliugialdeminalbqs.\n",
            "cin.\n",
            "limo.\n",
            "enima.\n",
            "cincejumiliva.\n"
          ]
        }
      ],
      "source": [
        "for i in range(10):\n",
        "  out = []\n",
        "  ix = 0\n",
        "  while True:\n",
        "    xenc = F.one_hot(torch.tensor([ix]), num_classes=27).float()\n",
        "    logits = xenc @ W\n",
        "    counts = logits.exp()\n",
        "    p = counts / counts.sum(1, keepdims=True).item()\n",
        "\n",
        "    ix = torch.multinomial(p, num_samples=1, replacement=True).item()\n",
        "    out.append(fap[ix])\n",
        "\n",
        "    if ix == 0:\n",
        "      break\n",
        "\n",
        "  print(''.join(out))"
      ]
    },
    {
      "cell_type": "markdown",
      "metadata": {
        "id": "f4IDrtTdMdn4"
      },
      "source": [
        "Finalmente, comparemos las matrices entrenadas de ambos métodos:"
      ]
    },
    {
      "cell_type": "code",
      "execution_count": null,
      "metadata": {
        "colab": {
          "base_uri": "https://localhost:8080/",
          "height": 316
        },
        "id": "IRFECAJ6MoMb",
        "outputId": "3e8154ca-90c0-4a99-9b0c-dfcf4dd933a4"
      },
      "outputs": [
        {
          "data": {
            "image/png": "",
            "text/plain": [
              "<Figure size 576x360 with 2 Axes>"
            ]
          },
          "metadata": {
            "needs_background": "light"
          },
          "output_type": "display_data"
        }
      ],
      "source": [
        "W_exp = W.exp()\n",
        "P_nn = W_exp / W_exp.sum(dim=1, keepdim=True)\n",
        "P_nn.shape\n",
        "\n",
        "fig, ax = plt.subplots(1, 2, figsize=(8, 5))\n",
        "ax[0].imshow(P.data, cmap='plasma')\n",
        "ax[0].set_title(\"Método de conteo\")\n",
        "ax[1].imshow(P_nn.data, cmap='plasma')\n",
        "ax[1].set_title(\"Red neuronal\")\n",
        "plt.tight_layout();"
      ]
    },
    {
      "cell_type": "markdown",
      "metadata": {
        "id": "z6b3GflupLuh"
      },
      "source": [
        "Aunque nuestro modelo de red neuronal no haya superado al de simple conteo y probabilidad, puesto que en realidad los implementamos de tal manera que son prácticamente iguales, lo cierto es que esta estructura de red neuronal contiene ya los rudimentos esenciales para superar con creces al modelo anterior. En realidad, una implementación más compleja y óptima de nuestra red neuronal solo consistirá en cambiar la manera en que lidiamos con los datos (nuestro vocabulario, *tokens*, tabla de consulta, `xenc`, por ejemplo) y con las capas de neuronas (nuestra `W`, por ejemplo). Todo lo demás permanecerá igual. En la próxima lección profundizaremos en esto."
      ]
    },
    {
      "cell_type": "markdown",
      "metadata": {
        "id": "coUiwWDvWaiY"
      },
      "source": [
        "[^1]: La modelación probabilística del lenguaje tiene origen —no podía ser de otra forma— en el trabajo de Claude Shannon {cite}`Shannon1950`.\n",
        "\n",
        "[^2]: La función de pérdida siempre dependerá de la naturaleza del problema. Dado que este es un problema de clasificación relacionado con probabilidades, hemos elegido una función apta. Durante la implementación de `pequegrad`, habíamos empleado la regresión lineal. <br><br>La formulación matemática de esta nueva función de pérdida puede hacerse como sigue: <br><br>$-\\log\\left(p(X\\mid\\boldsymbol{\\theta})\\right) = -\\log(p(x_1\\mid\\boldsymbol{\\theta})) - \\log(p(x_2\\mid\\boldsymbol{\\theta})) \\cdots - \\log(p(x_n\\mid\\boldsymbol{\\theta})) = -\\sum_{i} \\log(p(x_i \\mid \\theta))$<br><br> Para saber más, véase el apéndice [*Mathematics for deep learning*](https://d2l.ai/chapter_appendix-mathematics-for-deep-learning/maximum-likelihood.html#maximum-likelihood) de {cite}`DIVE`.\n",
        "\n",
        "[^3]: Comúnmente se denomina capa lineal o *lineal layer* a la serie de pesos y/o sesgos que creamos para multiplicarlos y sumarlos por nuestras entradas. Como hemos visto, tanto la función multiplicación como la función suma siempre resultan una línea recta en el plano cartesiano, y de ahí el adjetivo «lineal». Estamos transformando linealmente nuestras entradas, puesto que la graficación de la multiplicación y la suma con los pesos y sesgos es una línea.\n",
        "\n",
        "[^4]: Hemos denominado «logit» al resultado de nuestra multiplicación de matrices, sin embargo, en el ámbito del *deep learning*, el término «logit» puede llegar a ser [bastante ambiguo](https://stackoverflow.com/a/50511692/19440446). En nuestro caso, denominamos así a nuestra matriz porque es la última (y única) capa de la red neuronal, y está representando un conteo en bruto de la ocurrencia de cada $x$ que luego utilizaremos para convertir en probabilidades. Aunque nuestra explicación también sea insatisfactoria, debemos conformarnos con ella por el momento. La ambigüedad del término es tal que su misma composición es extraña: no está prefijado con base en «logaritmo», sino en «logístico», pues es una abreviación de «unidad logística» (*logistic unit*); pero nunca ha estado clara la razón detrás del término «logístico» en matemáticas y, para más inri, el uso de «logit» en *deep learning* no siempre tiene un fundamento matemático riguroso. En fin, no nos perdamos entre las ramas y volvamos a lo nuestro."
      ]
    }
  ],
  "metadata": {
    "colab": {
      "provenance": []
    },
    "kernelspec": {
      "display_name": "Python 3",
      "name": "python3"
    },
    "language_info": {
      "name": "python"
    }
  },
  "nbformat": 4,
  "nbformat_minor": 0
}