Blog | Data/AI Strategy | | 11 min read

An Efficient Permission Management System for a Data Catalog

permission-management-sets-zeenea-data-catalog

Summary

  • Los catálogos de datos combinan metadatos técnicos automatizados con metadatos de negocio actualizados manualmente, lo que requiere un control estricto para garantizar su fiabilidad.
  • Un sistema de gestión de permisos es esencial para controlar quién puede acceder, editar o gestionar el contenido del catálogo.
  • Entre los requisitos clave se incluyen permisos flexibles y detallados, una visión clara de los derechos de acceso y una administración sencilla.
  • Existen tres enfoques principales: el enfoque abierto (crowdsourcing), los permisos basados en el usuario y los permisos basados en los recursos.
  • Los permisos basados en recursos ofrecen el mejor equilibrio, ya que permiten un control preciso, transparencia y escalabilidad a medida que aumentan los datos.

El catálogo de datos de una organización mejora todos los activos de datos disponibles basándose en dos tipos de información: por un lado, información puramente técnica que se sincroniza automáticamente desde sus fuentes; y, por otro lado, información empresarial que proviene del trabajo de los administradores de datos. Esta última se actualiza manualmente y, por lo tanto, conlleva una serie de riesgos para toda la organización.

A permission management system is therefore essential to define and control the access rights of catalog users. In this article, we detail the fundamental characteristics and the possible approaches to building an efficient permission management system, as well as the solution implemented by the Actian Data Intelligence Platform Data Catalog.

Permission Management System: An Essential Tool for the Entire Organization

For data catalog users to trust in the information they are viewing, it is essential that the documentation of cataloged objects is relevant, of high quality, and, above all, reliable. Your users must be able to easily find, understand, and use the data assets at their disposal.

The Origin of Catalog Information and Automation

A data catalog generally integrates two types of information. On the one hand, there is purely technical information that comes directly from the data source. This information is synchronized in a completely automated and continuous way between the data catalog and each data source to guarantee its veracity and freshness. On the other hand, the catalog contains all the business or organizational documentation, which comes from the work of the Data Stewards. This information cannot be automated; it is updated manually by the company’s data management teams.

A Permission Management System is a Prerequisite for Using a Data Catalog

To manage this second category of information, the catalog must include access and input control mechanisms. Indeed, it is not desirable that any user of your organization’s data catalog can create, edit, import, export or even delete information without having been given prior authorization. A user-based permission management system is therefore a prerequisite; it plays the role of a security guard for the access rights of users.

The 3 Fundamental Characteristics of a Data Catalog’s Permission Management System

The implementation of an enterprise-wide permission management system is subject to a number of expectations that must be taken into account in its design. Among them, we have chosen in this article to focus on three fundamental characteristics of a permission management system: its level of granularity and flexibility, its readability and auditability, and its ease of administration.

Granularity and Flexibility

First of all, a permission management system must have the right level of granularity and flexibility. Some actions should be available to the entire catalog for ease of use. Other actions should be restricted to certain parts of the catalog only. Some users will have global rights related to all objects in the catalog, while others will be limited to editing only the perimeter that has been assigned to them. The permission management system must therefore allow for this range of possibilities, from global permission to the fineness of an object in the catalog.

Our clients are of all sizes, with very heterogeneous levels of maturity regarding data governance. Some are start-ups, others are large companies. Some have a data culture that is already well integrated into their processes, while others are only at the beginning of their data acculturation process. The permission management system must therefore be flexible enough to adapt to all types of organizations.

Readability and Auditability

En segundo lugar, un sistema de gestión de permisos debe ser legible y fácil de seguir. Durante una auditoría o una revisión de los permisos del sistema, un administrador que examine un objeto debe poder determinar rápidamente quién tiene la capacidad de modificarlo. Por el contrario, cuando un administrador consulta los detalles del conjunto de permisos de un usuario, debe poder determinar rápidamente el ámbito que se le ha asignado a ese usuario y las acciones autorizadas que puede realizar en él.

Esto simplemente garantiza que las personas adecuadas tengan acceso a las áreas correspondientes y dispongan del nivel de permisos adecuado para su función en la empresa.

¿Alguna vez te has encontrado con un sistema de permisos tan complejo que te resultaba imposible entender por qué un usuario podía acceder a cierta información? ¿O, por el contrario, por qué no podía hacerlo?

Simplicity of Administration

Por último, un sistema de gestión de permisos debe ser capaz de hacer frente al creciente volumen del catálogo. Hoy en día sabemos que vivimos en un mundo de datos: en 2020 se generaban 2,5 exabytes de datos al día, y se estima que en 2025 se generarán 463 exabytes de datos al día. Nuevos proyectos, nuevos productos, nuevos usos: las empresas deben lidiar a diario con la explosión de sus activos de datos.

To remain relevant, a data catalog must evolve with the company’s data. The permission management system must therefore be resilient to changes in content or even to the movement of employees within the organization.

Different Approaches to Designing a Data Catalog Permission Management System

There are different approaches to designing a data catalog permission management system, which more or less meet the main characteristics expected and mentioned above. We have chosen to detail three of them in this article.

Crowdsourcing

En primer lugar, el enfoque de crowdsourcing, en el que se confía en que la comunidad se autocorrija. Un pequeño grupo de administradores puede moderar el contenido, y todos los usuarios pueden contribuir a la documentación. Normalmente, un sistema de auditoría completa el conjunto para garantizar que no se pierda información por error o por malicia. En este caso, no hay control previo a la documentación, sino una corrección colectiva posterior. Este es el sistema que suelen elegir las enciclopedias en línea, como Wikipedia. Para que estos sistemas funcionen bien, dependen del número de colaboradores y de sus propios conocimientos, ya que la autocorrección solo puede ser eficaz a través de la comunidad.

This system perfectly meets the need for readability – all users have the same level of rights, so there is no question about the access control of each user. It is also simple to administer – any new user has the same level of rights as everyone else, and any new object in the data catalog is accessible to everyone. On the other hand, there is no way to manage the granularity of rights. Everyone can do and see everything.

Permission Attached to the User

El segundo enfoque para diseñar el sistema de gestión de permisos consiste en utilizar soluciones en las que el ámbito se vincula al perfil del usuario. Cuando se crea un usuario en el catálogo de datos, los administradores le asignan un ámbito que define los recursos que podrá ver y modificar. En este caso, todos los controles se realizan en una fase previa, por lo que un usuario no puede acceder a un recurso de forma involuntaria. Este es el tipo de sistema que utiliza, por ejemplo, un sistema operativo como Windows.

Este sistema tiene la ventaja de ser muy seguro; no existe el riesgo de que un nuevo recurso sea visible o modificable por personas que no tengan autorización para ello. Este enfoque también satisface la necesidad de legibilidad: para cada usuario, todos los recursos accesibles son fáciles de encontrar. El nivel de granularidad esperado también es adecuado, ya que es posible asignar los datos del sistema recurso por recurso.

Por otro lado, la gestión es más compleja: cada vez que se añade un nuevo recurso al catálogo, hay que incorporarlo a los perímetros de dichos usuarios. Es posible superar esta limitación creando ámbitos dinámicos. Para ello, se pueden definir reglas que asignen recursos a los usuarios; por ejemplo, que todos los archivos PDF sean accesibles para tal o cual usuario. Sin embargo, pueden surgir fácilmente reglas contradictorias, lo que complica la legibilidad del sistema.

Permission Attached to the Resource

El último enfoque importante para diseñar el sistema de gestión de permisos de un catálogo de datos consiste en utilizar soluciones en las que las acciones autorizadas se asocian al recurso que se va a modificar. Para cada recurso, los permisos posibles se definen usuario por usuario. Por lo tanto, es el recurso el que tiene su propio conjunto de permisos. Al examinar el recurso, es posible saber de inmediato quién puede verlo o editarlo. Este es, por ejemplo, el tipo de sistema que se utiliza en un sistema operativo tipo UNIX.

The need for readability is perfectly fulfilled – an administrator can immediately see the permissions of different users when viewing the resource. The same goes for the need for granularity – this approach allows permissions to be given at the most macro level through an inheritance system, or at the most micro level directly on the resource. Finally, in terms of ease of administration, it is necessary to attach each new user to the various resources, which is potentially tedious. However, there are group systems that can mitigate this complexity.

El modelo de gestión de permisos del catálogo de datos: sencillo, claro y flexible

Among these approaches, let’s detail the one chosen by the Actian Data Intelligence Platform and how it is applied.

The Resource Approach was Preferred

Let’s summarize the various advantages and disadvantages of each of the approaches discussed above. In both resource and user-level permission management systems, the need for granularity is well addressed – these systems allow for resource-by-resource permission to be assigned. In contrast, in the case of crowdsourcing, the basic philosophy is that anyone can access anything. Readability is clearly better in crowdsourcing systems or in systems where permissions are attached to the resource. It remains adequate in systems where permissions are attached to the user, but often at the expense of simplicity of administration. Finally, the simplicity of administration is very much optimized for the crowdsourcing approach and depends on what you are going to modify the most – the resource or the users.

Since the need for granularity is not met in the crowdsourcing approach, we eliminated it. We were then left with two options: resource-based permission or user-based permission models. Since the readability is a bit better with resource-based permission, and since the content of the catalog will evolve faster than the number of users, the user-based permission option seemed the least relevant.

The option we have chosen at the Actian Data Intelligence Platform was therefore the third one: user permissions are attached to the resource.

How the Data Catalog Permission Management System Works

En el Catálogo de datos de la plataforma Actian Data Intelligence, es posible definir para cada usuario si tiene derecho a manipular los objetos de todo el catálogo, uno o varios tipos de objetos, o solo aquellos que se encuentran dentro de su ámbito de competencia. Esto permite una granularidad máxima, pero también la definición de roles más generales. Por ejemplo, los «superadministradores» podrían tener permiso para actuar sobre partes completas del catálogo, como el glosario.

We then associate a list of Curators with each object in the catalog, i.e., those responsible for documenting that object. Thus, simply by exploring the details of the object, one can immediately know who to contact to correct or complete the documentation, or to answer a question about it. The system is therefore readable and easy to understand. The users’ scope of action is precisely determined through a granular system, right down to the object in the catalog.

Cuando se añade un nuevo usuario al catálogo, es necesario definir su ámbito de actuación. Por el momento, esta configuración se realiza mediante la edición masiva de objetos. Con el fin de simplificar aún más la gestión, pronto será posible definir grupos específicos de usuarios, de modo que, cuando llegue un nuevo colaborador, ya no será necesario añadirlo por su nombre a cada objeto de su ámbito de actuación. En su lugar, bastará con añadirlo al grupo y se le asignará automáticamente su ámbito de actuación.

Por último, hemos decidido voluntariamente no implementar un flujo de trabajo de validación de la documentación en el catálogo. Creemos que la responsabilidad del equipo es una de las claves del éxito en la adopción de un catálogo de datos. Por eso, el único control que hemos establecido es el que determina los derechos y el ámbito de actuación del usuario. Una vez definidos estos dos elementos, las personas responsables de la documentación tienen libertad para actuar. El sistema se completa con un registro de eventos sobre las modificaciones para permitir una auditabilidad completa, así como un sistema de debate sobre los objetos. Esto permite a todo el mundo sugerir cambios o informar de errores en la documentación.

If you would like to learn more about our permission management model, or get more information about our Data Catalog.