21 de noviembre de 2025 20 min lectura

Más allá de SQL y NoSQL: Un mapa más claro de la pila de datos moderna

El debate SQL contra NoSQL ha sobrevivido a su utilidad. Los sistemas modernos no se dividen en dos bandos; se organizan en reinos de propósito — verdad transaccional, recuperación semántica, travesía de caminos, búsqueda léxica y escala analítica. Una guía de campo para elegir con honestidad.

database-architecturepostgresqldistributed-sqlmongodbcassandraneo4jpgvectorrediselasticsearchclickhousenosqlvector-databasesgraph-databasescolumnardata-stackarchitecture

Tabla de Contenidos

Durante años, la conversación técnica ha estado atrapada en un binario perezoso: SQL contra NoSQL. Siempre fue un mapa tosco. Ahora se ha vuelto un mapa engañoso.

Los sistemas modernos no eligen entre dos bandos. Eligen entre varias formas diferentes de almacenar verdad, recuperar significado, modelar relaciones, servir análisis y ocultar latencia. La verdadera tarea de la arquitectura no es elegir una base de datos de moda. Es entender qué tipo de pregunta debe responder el sistema, y luego elegir herramientas que sean honestas sobre sus fortalezas.

PostgreSQL sigue anclando los sistemas transaccionales. El SQL distribuido extiende ese modelo a través de nodos. MongoDB y Cassandra resuelven distintos tipos de problemas de escala y forma. Neo4j se especializa en caminos. pgvector, Redis y Elastic traen la recuperación vectorial a plataformas de uso común. Los motores de búsqueda siguen siendo la columna vertebral del descubrimiento léxico. Los sistemas columnares como ClickHouse manejan cargas de trabajo analíticas que las bases de datos transaccionales nunca fueron diseñadas para amar.

Eso no es un debate entre dos lados. Es una división del trabajo.

El viejo lema ha sobrevivido a su utilidad

Hay un momento en la vida de todo término técnico en que deja de aclarar y comienza a oscurecer. «NoSQL» cruzó ese umbral hace mucho. Sobrevive porque es corto, rebelde y vagamente memorable. Pero como categoría, es un cajón lleno de instrumentos no relacionados.

Una base de datos de documentos no es una base de datos de grafos. Un sistema de columnas anchas no es una caché. Un índice vectorial no es un motor de búsqueda. Sin embargo, todos ellos han sido, en algún momento, barridos dentro del cubo «NoSQL». El resultado es pereza conceptual disfrazada de modernidad.

Esto importa porque los errores de arquitectura rara vez comienzan como errores de código. Comienzan como errores de nombramiento.

Un equipo dice que necesita NoSQL cuando en realidad necesita un motor de búsqueda. Otro dice que necesita una base de datos vectorial cuando lo que realmente le falta es una fuente transaccional de verdad. Un tercero escapa al almacenamiento «sin esquema» solo para redescubrir, meses después, que abandonar el esquema formal no elimina la estructura; simplemente traslada la disciplina desde la base de datos al código de aplicación, los scripts de migración y el folclore operativo. La propia documentación de MongoDB, notablemente, no romantiza esto. Enfatiza el modelado de datos, los índices, la atomicidad y la planificación del ciclo de vida como preocupaciones de diseño de primera clase.

La pregunta correcta, entonces, ya no es «¿SQL o NoSQL?». Es: ¿qué tipo de problema estamos resolviendo? — verdad transaccional, recuperación semántica, travesía de caminos, búsqueda de documentos, reportes analíticos o reducción de latencia.

Ahí es donde la arquitectura moderna comienza a madurar.

I. El primer reino: verdad transaccional

La mayoría de los productos, a pesar de toda su retórica sobre IA y personalización y magia en tiempo real, siguen sosteniéndose por la exactitud. Un usuario tiene acceso o no lo tiene. Una factura está pagada o impaga. Una suscripción está activa o expirada. Un reembolso se emitió o no.

Estas no son preguntas de similitud. No son preguntas de grafo. Son preguntas de estado comprometido.

Ese sigue siendo el reino natural de la base de datos relacional.

PostgreSQL es una buena ilustración de por qué SQL ha perdurado. Soporta tipos JSON ricos, operadores JSON, búsqueda de texto completo con ranking y resaltado, e índices GIN explícitamente diseñados para valores compuestos como documentos y arreglos. Su documentación sobre búsqueda de texto completo y tipos de índices muestra cuánto se ha estirado el mundo relacional clásico sin renunciar a los cimientos transaccionales.

Esto importa porque muchos equipos recurren a arquitecturas exóticas antes de haber agotado lo que un sistema relacional maduro ya puede hacer. Tratan a SQL como si estuviera congelado en la era del software de nómina, cuando en realidad ha aprendido silenciosamente a almacenar JSON, indexar documentos y soportar cargas de trabajo cada vez más híbridas.

Aun así, los sistemas relacionales tienen un horizonte. En el momento en que un producto debe abarcar regiones, sobrevivir a fallos amplios de nodos o crecer horizontalmente sin sharding hecho a mano, el viejo modelo mental de nodo único empieza a tensarse. Ahí es donde entra el SQL distribuido, a menudo llamado NewSQL.

La documentación de CockroachDB plantea el objetivo de diseño con claridad: transacciones ACID fuertemente consistentes sobre datos distribuidos, con la semántica SQL intacta. Por defecto usa aislamiento serializable y se presenta como un clúster de nodos que funciona como una sola base de datos SQL distribuida.

NewSQL no es, por tanto, «mejor SQL». Es SQL bajo el peso de la geografía. Compra resiliencia, crecimiento horizontal y una historia más limpia para operaciones distribuidas. Pero también hereda el viejo precio de los sistemas distribuidos: coordinación, latencia y complejidad. Las leyes de la física no han sido derogadas solo porque el lenguaje de consulta siga siendo familiar.

II. El segundo reino: objetos de aplicación flexibles

Algunos sistemas no se describen mejor como filas unidas a través de tablas cuidadosamente normalizadas. Se describen mejor como documentos: registros de productos con atributos heterogéneos, entradas de CMS que evolucionan en forma, cargas útiles de eventos que cambian cuando cambia el producto, registros compuestos que quieren moverse y leerse juntos.

Ese es el territorio que las bases de datos de documentos hicieron legible.

MongoDB sigue siendo el caso canónico. Su documentación describe el modelado de datos en torno a la incrustación y la referenciación, y su modelo de sharding posiciona la plataforma para grandes conjuntos de datos y operaciones de alto rendimiento repartidas en múltiples máquinas. Soporta transacciones distribuidas cuando la atomicidad a través de múltiples documentos, colecciones o bases de datos se vuelve necesaria.

Esa es una combinación seria y útil. Pero no debe confundirse con un escape general del diseño.

El compromiso central de los almacenes de documentos no es libertad contra restricción. Es forma contra relación. Ganas flexibilidad en cómo se forman los registros, y a menudo una adaptación natural con los objetos de aplicación, pero no escapas a la necesidad de modelar en torno a patrones de acceso, duplicación y límites de consistencia.

Aquí es donde muchos equipos se vuelven sentimentales. Tratan el esquema flexible como si fuera libertad intelectual. En realidad, es una asignación de responsabilidad. Si la base de datos impone menos, el sistema en otro lugar debe imponer más.

III. El tercer reino: distribución masiva de escritura

Los sistemas de columnas anchas merecen un lugar separado en el mapa porque resuelven un problema distinto al de los almacenes de documentos, aunque a menudo se confunden bajo el estandarte NoSQL.

La arquitectura de Cassandra describe una base de datos distribuida con datos particionados y consistencia ajustable, diseñada para alta disponibilidad y distribución a gran escala. No es principalmente una historia sobre almacenamiento elegante de objetos. Es una historia sobre sobrevivir a cargas de trabajo intensivas en escritura, distribuidas globalmente, donde la estrategia de particionamiento importa tanto como el esquema.

Esa distinción es importante. Un equipo que elige entre MongoDB y Cassandra no elige entre dos sabores del mismo postre. Elige entre dos filosofías operativas muy distintas.

Una enfatiza documentos flexibles y forma de aplicación en evolución. La otra enfatiza distribución particionada, rendimiento de escritura predecible y una forma de pensar más orientada a patrones de acceso. El peligro radica en pretender que estos sistemas son intercambiables porque ambos están fuera de la ortodoxia relacional clásica. No lo son.

IV. El cuarto reino: relaciones explícitas

Las bases de datos de grafos no se inventaron porque SQL no pudiera representar relaciones. SQL siempre ha representado relaciones.

Las bases de datos de grafos importan porque algunos sistemas se definen no solo por relaciones, sino por caminos.

La documentación de Cypher de Neo4j es inusualmente clara en este punto. El emparejamiento de patrones no es un accesorio en el mundo de los grafos. Es el centro del lenguaje. Cypher soporta patrones simples y de longitud variable, consultas de camino más corto, expresiones de camino y travesía declarativa sobre datos conectados.

Esto es lo que hace a las bases de datos de grafos convincentes para redes de fraude, cadenas de propiedad, citas legales, dependencias de software, conexiones sociales, herencia de permisos y análisis de redes en general. El valor no está solo en almacenar entidades. Está en moverse a través de las aristas entre ellas.

Una base de datos de grafos, entonces, debe elegirse cuando el verbo clave del sistema no es «almacenar» ni «buscar», sino «recorrer». Cuando la inteligencia de un producto depende de preguntar quién está conectado con quién, a través de qué camino, bajo qué restricciones y a través de cuántos saltos, el grafo deja de parecer exótico y empieza a parecer obvio.

Pero aquí también hay que resistir la embriaguez. Un grafo no es un solvente universal. Es pobre como motor primario para la recuperación de texto a gran escala y a menudo innecesario para sistemas cuyas relaciones son superficiales y estables. Existe una especie de teatro arquitectónico en el que cada concepto de negocio se convierte en un nodo y cada asociación en una arista, produciendo un pizarrón hermoso y un sistema confundido.

La mejor prueba es severa y simple: si el camino en sí importa, el grafo es plausible. Si no, quizás no.

V. El quinto reino: similitud semántica

Luego llegamos a la categoría que ha capturado la imaginación contemporánea: la recuperación vectorial.

Los sistemas vectoriales responden a una pregunta profundamente distinta a la de los sistemas de grafos. Un grafo pregunta: ¿cómo están estas entidades explícitamente conectadas? Un índice vectorial pregunta: ¿qué está más cerca de este elemento en un espacio semántico de alta dimensión?

Esa distinción debería estar impresa en la pared de todo equipo de producto de IA.

El proyecto pgvector resume bien el compromiso. La búsqueda exacta del vecino más cercano ofrece recall perfecto. Los índices aproximados como HNSW e IVFFlat intercambian recall por velocidad. Esa es la geometría de la recuperación moderna en una sola frase.

Redis ahora describe el soporte de búsqueda vectorial con consultas de k-vecinos más cercanos, consultas de rango y filtros de metadatos. Elastic presenta Elasticsearch como una plataforma de recuperación que almacena datos estructurados, no estructurados y vectoriales en tiempo real y soporta búsqueda híbrida y vectorial.

Por eso la recuperación vectorial se ha vuelto central para la búsqueda semántica, las recomendaciones, los pipelines RAG, la recuperación multimodal y la deduplicación. Es la herramienta correcta siempre que los usuarios no sepan las palabras exactas que necesitan, pero puedan expresar una intención cuyo significado debería ser reconocido.

Sin embargo, una advertencia debe expresarse con cierta fuerza: la similitud no es verdad.

Dos pasajes pueden ser semánticamente cercanos sin que uno cite al otro. Dos contratos pueden agruparse sin compartir fuerza legal. Dos tickets de soporte pueden parecerse entre sí mientras pertenecen a flujos de trabajo muy distintos. Los sistemas vectoriales son motores de relevancia, no motores de ley. Recuperan lo que se siente cerca, no lo que se ha establecido formalmente.

Esa diferencia es donde muchísimas arquitecturas de IA van a madurar o van a fracasar.

VI. El sexto reino: búsqueda léxica

Una cantidad sorprendente de confusión en arquitectura proviene de olvidar que los motores de búsqueda existen como su propia categoría.

Elasticsearch se describe a sí mismo como un motor distribuido de búsqueda y análisis construido sobre Lucene, optimizado para velocidad y relevancia, y capaz de indexación y búsqueda casi en tiempo real sobre datos estructurados, no estructurados y vectoriales. Su documentación distingue explícitamente enfoques de texto completo, vectorial, semántico e híbrido.

Esto importa porque los motores de búsqueda siguen siendo el hogar natural para la recuperación léxica a gran escala, la facetación, el filtrado, el resaltado y el descubrimiento clasificado de documentos. Siguen siendo esenciales para la búsqueda de sitios, el análisis de logs, las interfaces pesadas en documentos y los sistemas de recuperación híbridos donde la precisión de palabras clave debe coexistir con la amplitud semántica.

El viejo error fue reducir todo a SQL contra NoSQL. El error más nuevo es reducir todo a «vector». En ambos casos, la categoría desatendida es la búsqueda.

Los motores de búsqueda no son sistemas transaccionales. Por lo general, no son donde debería vivir la verdad del negocio. Pero a menudo son donde los productos se vuelven utilizables. Una plataforma con datos fuertes y recuperación débil es como una biblioteca sin catálogo. Todo puede estar presente; nada se encuentra.

VII. El séptimo reino: analítica

La arquitectura se enturbia especialmente cuando los equipos pretenden que la misma base de datos alimente tanto el procesamiento transaccional como la analítica pesada.

La documentación de ClickHouse es admirablemente directa. Describe a ClickHouse como una base de datos SQL orientada a columnas de alto rendimiento para OLAP, y su explicación de las bases de datos columnares enfatiza que columnar y relacional no son opuestos. Una base de datos puede ser relacional en el modelo y columnar en el almacenamiento físico. Los sistemas columnares leen solo las columnas necesarias para una consulta, mientras que las actualizaciones orientadas a filas se vuelven relativamente más costosas.

Por eso exactamente la analítica pertenece a su propia categoría.

La observabilidad, la telemetría de producto, los dashboards, los reportes históricos, los embudos de eventos y las cargas BI tienen un metabolismo distinto al de las sesiones de usuario y las comprobaciones de suscripción. Quieren escaneos grandes, agregación barata y alta compresión. Los motores OLTP quieren integridad, concurrencia y mutación predecible. Son apetitos relacionados pero distintos.

Los equipos que los colapsan en un solo sistema a menudo descubren que han construido un compromiso que nadie disfruta realmente.

VIII. El octavo reino: velocidad, calor y estado temporal

Y luego está la categoría que calladamente impide que las demás se avergüencen en producción: la caché y la infraestructura en memoria.

Redis se documenta a sí mismo como un servidor de estructuras de datos con tipos de datos nativos útiles para caché, colas y procesamiento de eventos. Redis Streams, específicamente, se comportan como logs de solo adición con estrategias de consumo más ricas, incluidos los grupos de consumidores.

Esto no es solo un detalle de implementación. Es un recordatorio de que muchos requisitos de sistema no tratan sobre verdad o recuperación, sino sobre calor: la necesidad de servir datos calientes rápidamente, coordinar estado transitorio, limitar la tasa de solicitudes, almacenar sesiones, distribuir contadores o desacoplar productores y consumidores sin escribir todo directamente al sistema de referencia.

Por tanto, la caché debe entenderse como un rol separado, no como una base de datos disminuida. Suele ser la sombra proyectada por sistemas más duraderos. Usada bien, da al producto entero una sensación de inmediatez. Usada mal, se convierte en una segunda fuente de verdad mantenida por superstición.

Lo que realmente es la pila moderna

Una vez separadas estas categorías, algo importante sucede. La arquitectura deja de parecer un campo de batalla ideológico y empieza a parecer una división del trabajo.

Un producto moderno serio puede querer:

un núcleo relacional para estado duradero y corrección transaccional
una capa SQL distribuida solo si la geografía y la escala horizontal realmente lo exigen
un almacén de documentos cuando los objetos de aplicación evolucionan en forma y quieren almacenarse enteros
una capa de grafo solo cuando los caminos y las relaciones explícitas son valor de producto de primera clase
una capa vectorial para recuperación semántica
un motor de búsqueda para descubrimiento léxico y facetación
un almacén analítico columnar para eventos y reportes
una capa en memoria para latencia, colas y coordinación efímera

Esto no es redundancia. Es especialización.

La alternativa — obligar a un motor a hacerse pasar por todos los demás — suele producir una forma familiar de confusión técnica. Elasticsearch se convierte en una base de datos. MongoDB se convierte en un motor de búsqueda. Redis se convierte en un sistema de flujo de trabajo. PostgreSQL se convierte en almacén universal, almacén vectorial, cola y backend de observabilidad al mismo tiempo.

Ninguno de estos movimientos es imposible. Algunos son incluso temporalmente ingeniosos. Pero cuanto más se aleja un sistema de sus fortalezas nativas, más energía gasta el equipo compensando.

La madurez arquitectónica consiste, en parte, en saber dónde dejar de improvisar.

Una mejor forma de plantear la pregunta

Entonces, ¿qué reemplaza al viejo lema?

No un nuevo lema. Un mejor conjunto de preguntas.

Pregunta:

¿Qué debe comprometerse con exactitud?
¿Qué debe buscarse léxicamente?
¿Qué debe recuperarse semánticamente?
¿Qué debe recorrerse a través de caminos explícitos?
¿Qué debe analizarse a escala?
¿Qué debe servirse desde memoria porque el retraso es intolerable?

Cada una de esas preguntas apunta hacia una categoría distinta de sistema. Ninguna se responde bien con la frase «NoSQL».

Esta es quizás la lección más profunda. Las bases de datos no son meras herramientas de almacenamiento. Son respuestas a distintos tipos de epistemología. Algunas te dicen qué es verdad. Algunas te dicen qué está cerca. Algunas te dicen qué está conectado. Algunas te dicen qué pasó en agregado. Algunas simplemente mantienen la máquina lo suficientemente rápida como para que los usuarios no noten su trabajo.

La arquitectura de un producto moderno no es, por tanto, la búsqueda de una única base de datos perfecta. Es la disposición de varias imperfectas pero honestas.

Conclusión

El viejo debate SQL-contra-NoSQL sobrevive porque halaga el deseo de oposiciones simples. Pero los sistemas modernos no se construyen con oposiciones. Se construyen con capas de propósito.

PostgreSQL muestra hasta dónde puede estirarse el mundo relacional. El SQL distribuido muestra cómo ese mundo puede trasladarse a través de nodos. MongoDB y Cassandra nos recuerdan que «NoSQL» oculta filosofías de diseño genuinamente distintas. Neo4j hace de las relaciones explícitas algo de primera clase. pgvector, Redis y Elasticsearch muestran que la recuperación semántica pertenece ahora a la arquitectura de uso común. ClickHouse demuestra que la analítica merece su propio motor. Redis, nuevamente, nos recuerda que la velocidad no es una ocurrencia tardía sino una preocupación aparte.

Así que el mejor mapa no es SQL contra NoSQL.

Es este:

Los sistemas relacionales almacenan verdad comprometida. Los almacenes de documentos contienen objetos de aplicación flexibles. Los sistemas de columnas anchas absorben escrituras distribuidas. Los grafos modelan caminos. Los vectores capturan similitud. Los motores de búsqueda recuperan lenguaje. Los sistemas columnares explican eventos a escala. Las cachés mantienen vivo al organismo entero.

El trabajo de la arquitectura es saber qué pregunta se está haciendo antes de elegir la máquina que la responde.

Referencias

Documentación de PostgreSQL — Búsqueda de texto completo. postgresql.org/docs/current/textsearch.html
Documentación de PostgreSQL — Tipos de índice (GIN, GiST). postgresql.org/docs/current/indexes-types.html
CockroachDB — Arquitectura SQL distribuida. cockroachlabs.com/docs/stable/architecture/overview.html
MongoDB — Introducción al modelado de datos. mongodb.com/docs/manual/core/data-modeling-introduction
MongoDB — Sharding. mongodb.com/docs/manual/sharding
Apache Cassandra — Visión general de la arquitectura. cassandra.apache.org/doc/latest/cassandra/architecture
Neo4j — Lenguaje de consulta Cypher: Patrones. neo4j.com/docs/cypher-manual/current/patterns
pgvector — Búsqueda de similitud vectorial de código abierto para Postgres. github.com/pgvector/pgvector
Redis — Búsqueda vectorial. redis.io/docs/latest/develop/interact/search-and-query/query/vector-search
Redis Streams — Introducción. redis.io/docs/latest/develop/data-types/streams
Elastic — ¿Qué es Elasticsearch? elastic.co/elasticsearch
ClickHouse — ¿Qué es ClickHouse? clickhouse.com/docs/en/intro

¿Listo para construir algo genial?

Hablemos de tu proyecto

Leer en otros idiomas

Inglés Beyond SQL and NoSQL: A Clearer Map of the Modern Data Stack Noruego Forbi SQL og NoSQL: Et klarere kart over den moderne datastakken