Diccionarios libres

Recursos y estrategias necesarias

Juan Rafael Fernández García

Permission is granted to copy, distribute and/or modify this document under the terms of the GNU Free Documentation License, Version 1.1 or any later version published by the Free Software Foundation.

Nota del 28 de marzo de 2009: Puesto a escribir documentación para ayudar a mis alumnos a usar los diccionarios digitales recordé que tenía el típico artículo en el cajón. Y es que en enero de 2004 escribí un artículo técnico sobre diccionarios digitales que sinceramente no sé si se ha publicado en algún lugar. Lo envié a la primera Open Source World Conference de Málaga y nunca he tenido ocasión de ver la actas que sé que se presentaron en la segunda edición. Cosas que pasan. No he cambiado ni una coma, simplemente he actualizado el código html. Quizás sirva a alguien. Y el cajón tiene menos trastos inútiles.

Historial de revisiones
Revisión 0.2 2009-03-28 jrf
Actualizo html y publico
Revisión 0.1 2004-01-12 jrf
Versión inicial

Resumen

Estudio pormenorizado de los recursos léxicos y terminológicos libres disponibles y de las estrategias que la comunidad de software libre debe emprender para solucionar sus deficiencias en este campo.

El autor, uno de los coordinadores de TLDP-ES, traductor y miembro de la comunidad educativa andaluza, se plantea ante la nueva situación causada por el apoyo de la Administración autonómica qué necesidades están cubiertas, cuáles son las líneas de trabajo de la comunidad de software libre y qué necesidades perentorias se presentan tanto a educadores como a traductores.

Se distinguen en este artículo diccionarios generales de consulta (destaca la ausencia de un diccionario castellano libre), diccionarios de especialidad y diccionarios para que sean utilizados por máquinas. Examina la forma en que se han creado los diccionarios y plantea propuestas para la implementación de los que faltan.


Tabla de contenidos

Introducción
Corrección ortográfica
Listas de palabras
ispell, aspell, myspell
Diccionarios generales de consulta
La red DICT
Diccionarios de especialidad
Diccionarios .dict en inglés
Un modelo: el tesauro informático de ORCA
Glosario de la ATI
El glosario terminológico de Fernández Serrador
¿Cómo escribir diccionarios?
Los estándares TEI y XCES
Propuesta
Terminologías
Conceptos previos
Estándares SALT y LISA
Estandarizando lexicones computacionales: OLIF2

Introducción

En primer lugar evitemos una confusión generalizada, de verba non est disputandum. Diccionarios son listas de palabras de un idioma, entradas léxicas con su definición, tablas de equivalencias entre dos o más lenguas y cualesquiera otras variaciones que se nos planteen; nomenclatura, glosario, lexicón, lemario etc. son términos que se usan de manera no estable en la literatura y no deben impedir que nos entendamos[1]. Mucho más interesante es plantearnos el campo de realidad cubierto por el diccionario y la información que proporciona (morfológica, de uso, terminológica…). Por último, distinguiremos diccionarios destinados a ser usados por humanos (en forma de libro o como consultas a través de una interfaz) de aquellos creados para ser usados por máquinas. También deberemos distinguir los que tienen una ambición descriptiva y verbal de los diccionarios terminológicos, que son como sabemos normativos y su objeto son los conceptos de un campo. Al fin y al cabo por lo pronto sólo queremos traducir documentación informática ¿o no?

Corrección ortográfica

Quizás resulte paradójico para el que se acerca al tema por primera vez, pero para hablar de correctores ortográficos primero hay que hablar de diccionarios.

En primer lugar encontramos probablemente de forma diferenciada listas de palabras y diccionarios para correctores ortográficos. Los dos tipos, aunque interrelacionados, tienen un uso diferenciado. Ambos tipos de diccionarios están centralizados en GNU Debian, y dependen en su totalidad del paquete dictionaries-common.

Listas de palabras

Siguiendo con las paradojas aparentes, uno de los usos principales de las listas de palabras («wordlists») ordenadas alfabéticamente es el del ataque o comprobación de la robustez de claves criptográficas y contraseñas (no estoy diciendo que sea su única utilidad, pero es significativo examinar los programas que dependen de su existencia). Por supuesto también forma la base de los correctores ortográficos de la sección siguiente, y sirven para comprobar la completud de los diccionarios. Según las normas de Debian (la Debian Spelling Dictionaries and Tools Policy, se distribuyen en paquetes que empiezan por w seguida del nombre de un idioma: wspanish

La lista que utilizará el sistema se decide mediante la orden

        [root@Máquina]#/usr/sbin/select-default-wordlist  
      

Quizás la mayor lista de palabras del español sea la que anunció el 28 de octubre de 2002 Ismael Olea en la lista de :

Estamos recopilando listas de palabras del español para crear un lemario[2] de la más alta calidad con la intención de que sea comparable e incluso superior al del DRAE.

La idea es publicarlo en http://lemarios.olea.org poniéndolo a disposición de todo el mundo, con la mayor libertad de uso posible.

Relacionado con este tema, y después de una discusión también en , Felipe Perafán anunció el 26 de abril de 2003 una lista de topónimos españoles (“he elaborado una tabla que contiene en español e inglés los nombres de países y territorios, sus códigos ISO, ciudades capitales, gentilicios, monedas y otros.”). Es una hoja de cálculo que puede descargarse de http://www.perafan.com/toponimos.zip.

ispell, aspell, myspell

Los tres mencionados son programas que permiten realizar la revisión y corrección de la ortografía de varios tipos de formatos de fichero. ispell puede recibir su entrada en los formatos de texto puro, TeX y LaTeX, nroff/troff, html, sgml y xml. myspell es el formato que ha introducido el proyecto OpenOffice.

Los diccionarios para los correctores ortográficos se nombran con i seguido del lenguaje: ispanish (porque se utilizaban originariamente por ispell, el corrector internacional). Los paquetes para diccionarios myspell deben recibir el nombre myspell-<isocode> (donde <isocode> es el código ISO de dos dígitos del país, por ejemplo myspell-es). Si hay más de una variante para un idioma (por ejemplo es_AR —variante argentina—, es_CU —cubana—, es_ES) entonces el paquete se llamará myspell-<langcode>-<countrycode>, myspell-es-es en nuestro caso.

Para elegir el español el superusuario utilizará

        [root@Máquina]# /usr/sbin/select-default-ispell
      

En el origen de todos está en el proyecto «COES»: Herramientas para Procesamiento de Lenguaje Natural en Español (http://www.datsi.fi.upm.es/coes/), de Santiago Rodríguez y Jesús Carretero, que se distribuye como software de libre disposición desde finales de 1994.

COES consta de un diccionario de unos 53.000 términos y un corrector ortográfico integrado en la utilidad Unix ispell y desarrollos derivados. Hay que señalar que se ha ampliado el conjunto de herramientas lingüísticas con un diccionario de sinónimos/antónimos. Su particularidad es ser sensible a las reglas morfológicas de las palabras y no sólo a las raíces. Un corrector ortográfico «inteligente» tiene que hacer algo más que comparar las palabras del texto con una lista de palabras correctas; para distinguir «a» de «ha» tiene que tener reglas — acabaremos necesitando un mínimo análisis morfológico y sintáctico.

Diccionarios generales de consulta

Existen varios diccionarios consultables en línea y hay varias interfaces de consulta disponibles. Por ejemplo cf. los paquetes hdico para consultar el diccionario Hachette de francés o gnuvd para el diccionario Van Dale holandés. Por supuesto, el diccionario de la Real Academia Española de la Lengua también es consultable en línea.[3]

Nos interesan más los diccionarios que pueden ser descargados libremente, por dos motivos: no requieren conexión a internet para su consulta (esta puede hacerse desde un CD o el servidor de una intranet) y la libertad de descarga y distribución nos garantizan su carácter libre.[4] Hay además varias interfaces de consulta disponibles.

La red DICT

El Grupo de Desarrollo de DICT pretende dar solución a un problema: ¿cómo estandarizar el acceso a los múltiples diccionarios disponibles?

La RFC 2229 describe el protocolo DICT como un protocolo de consulta/respuesta sobre TCP que permite a un cliente acceder a un diccionario de definiciones utilizando un conjunto de bases de datos de diccionarios de lenguajes naturales.

El grupo de desarrollo de este proyecto de licencia GPL tiene su página en http://www.dict.org. El protocolo sigue el modelo cliente/servidor, con clientes de texto (dict e incluso una interfaz para emacs: dictionary-el) y con numerosas interfaces gráficas (gsdict, kdict, gdict (del paquete gnome-utils), wordinspect o el wordtrans de Ricardo Villalba[5] y servidores que sirven información de bases de datos léxicas.

La gran ventaja es la existencia de diccionarios y tesoros que pueden instalarse localmente, en la máquina donde se va a realizar la consulta o en un servidor de área local. Examinemos los diccionarios de más interés de los ¡61! incluidos en la distribución que administro (GNU Debian Sarge), para después pasar a comprender cómo se crea un diccionario nuevo (no traduzco la información proporcionada por los diccionarios en inglés porque de todos modos su utilidad requerirá la comprensión del inglés):

dict-gcide

the GNU version of the Collaborative International Dictionary of English. The GCIDE contains the full text of the 1913 Webster's Unabridged Dictionary, supplemented by many definitions from WordNet, the Century Dictionary, 1906, and by numerous definitions contributed by volunteers.

dict-wn

este paquete es la adaptación al formato .dict de WordNet 2.0 (a Lexical Database for English from the Cognitive Science Laboratory de la Universidad de Princeton). Este diccionario sólo contiene nombres, verbos, adverbios, and adjectivos. Debe ser considerado como un suplemento al diccionario que encontramos en dict-gcide, que aunque más anticuado, es más completo.

dict-moby-thesaurus

Moby Thesaurus is the largest and most comprehensive thesaurus data source in English available. This second edition has been thoroughly revised adding more than 5.000 root words (to total more than 30.000) with an additional million synonyms and related terms (to total more than 2.5 million synonyms and related terms).

dict-devil

The Devil's Dictionary, a cynical and irreverent dictionary of common words.

dict-elements

Jay Kominek's compilation of physical and chemical data about the elements.

No hay que ser muy perspicaces para percatarse de que un vez más el conjunto de conocimiento hecho público en la comunidad angloparlante es abrumadoramente superior al disponible en la cacareante hispanidad. No hay un diccionario español libre digno de ese nombre (sí decenas de esbozos de diccionarios informáticos, pero no es ese el tema que nos concierne ahora).

En el ámbito de los diccionarios bilingües libres destaca el proyecto Freedict, con 42 diccionarios de y a las principales lenguas. Destacaremos la disponibilidad de

  • dict-freedict-eng-spa, dict-freedict-spa-eng

  • dict-freedict-fra-eng, dict-freedict-eng-fra

  • dict-freedict-eng-ita, dict-freedict-lat-eng (sí, latín-inglés)

Para el alemán disponemos, además de dict-freedict-deu-eng y dict-freedict-eng-deu, de las aproximadamente 124.000 entradas de dict-de-en.

Debemos añadir

i2e

diccionario inglés-español, empaquetado por Ricardo Villalba[6], con unas 24.500 entradas. Por lo que recuerdo el diccionario fue creado por Alfredo Casademunt, a su vez basándose en el trabajo de José Luis Triviño, y Villalba anunciaba su conversión al formato .dict en la lista en abril de 2000.

Ejemplo de uso de DICT

Un ejemplo nos mostrará el uso del protocolo:

          [UsuarioMáquina]$ dict font
        

da la siguiente salida

          
8 definitions found

From WordNet (r) 2.0 (August 2003) [wn]:

  font
       n 1: a specific size and style of type within a type family [syn:
             {fount}, {typeface}, {face}]
       2: bowl for baptismal water [syn: {baptismal font}, {baptistry},
           {baptistery}]

From The Collaborative International Dictionary of English v.0.48 [gcide]:

  Font \Font\, n. [F. fonte, fr. fondre to melt or cast. See
     {Found} to cast, and cf. {Fount} a font.] (Print.)
     A complete assortment of printing type of one size, including
     a due proportion of all the letters in the alphabet, large
     and small, points, accents, and whatever else is necessary
     for printing with that variety of types; a fount.
     [1913 Webster]

From The Collaborative International Dictionary of English v.0.48 [gcide]:

  Font \Font\, n. [AS. font, fant, fr. L. fons, fontis, spring,
     fountain; cf. OF. font, funt, F. fonts, fonts baptismaux, pl.
     See {Fount}.]
     1. A fountain; a spring; a source.
        [1913 Webster]
  
              Bathing forever in the font of bliss. --Young.
        [1913 Webster]
  
     2. A basin or stone vessel in which water is contained for
        baptizing.
        [1913 Webster]
  
              That name was given me at the font.   --Shak.
        [1913 Webster]

From The Free On-line Dictionary of Computing (19 Sep 2003) [foldoc]:

  font
  
     <text> A set of {glyphs} ({images}) representing the
     {characters} from some particular {character set} in a
     particular size and {typeface}.  The image of each character
     may be encoded either as a {bitmap} (in a {bitmap font}) or by
     a higher-level description in terms of lines and areas (an
     {outline font}).
  
     There are several different computer representations for
     fonts, the most widely known are {Adobe Systems, Inc.}'s
     {PostScript} font definitions and {Apple}'s {TrueType}.
     {Window systems} can display different fonts on the screen and
     print them.
  
     [Other types of font?]
  
     (2001-04-27)
  

From i2e [i2e]:

  font : tipo (de letra)

From i2e [i2e]:

  font : fuente

From ORCA - Glosario de Informática Inglés-Español [glosario]:

  font
    fuente, tipo de letra, (TIPO DE LETRA, fuente, en español, tiene que 
    ver con agua, no con tipografía)
          
        

Creación de un diccionario .dict

La creación de un diccionario .dict depende de los paquetes dictfmt[7], dictzip y claro, su utilidad depende de la presencia de dictd.

1) se convierte el fichero fuente al formato .dict con dictfmt (en el manual se explican distintos tipos de ficheros fuente) a la vez se crean los ficheros índices. Quizás convenga explicarlo con un ejemplo. Vamos a crear el diccionario test, con el siguiente texto:

        
Este texto debe aparecer
aunque sean varias líneas. Aquí irá
la licencia, etc.

%h Esta línea desaparece
%h aaaaa
%d
la letra a

%h eeeee
%d
la letra e

%h iiiii
%d
la letra i

%h ooooo
%d
la letra o

%h uuuuu
%d
la letra u

¿Este texto dónde aparece?
        
      

Ahora hacemos (recuerde: en una sola línea)

        [Usuario@Máquina]% cat test | dictfmt -p -u http://localhost  \
-s "Bonita Prueba" --locale es_ES test 
      

que nos ha generado test.dict

        
00-database-8bit

00-database-url
     http://localhost
00-database-short
     Bonita Prueba
00-database-info
This file was converted from the original database on:
          Wed Jan  7 00:47:20 2004


The original data is available from:
     http://localhost

The original data was distributed with the notice shown below.  
No additional restrictions are claimed.  Please redistribute this 
changed version under the same conditions and restriction that apply 
to the original version.

   Este texto debe aparecer
   aunque sean varias líneas. Aquí irá
   la licencia, etc.
   
aaaaa
la letra a

eeeee
la letra e

iiiii
la letra i

ooooo
la letra o

uuuuu
la letra u

¿Este texto dónde aparece?
        
      

y test.index. Es conveniente comprimir el fichero .dict resultante con dictzip.

2) copie los *.dict.dz y *.index a /usr/local/share/dictd

3) informe al servidor de la presencia de los nuevos diccionarios en /etc/dictd/dictd.order

4) en /etc/dictd/dictd.conf se fija el fichero que listará los diccionarios del sistema, en mi caso la línea que nos interesa dice (en Debian es dictdconfig el que crea el fichero db.list)

        
          include /var/lib/dictd/db.list
        
      

5)

        [root@Máquina]# /usr/sbin/dictdconfig --write 
      

6)

        [root@Máquina] #/etc/init.d/dictd restart 
      

Diccionarios de especialidad

En esta sección nos vamos a referir a obras también lexicográficas, pero cuyo campo sea el de una única disciplina. Es lógico que una comunidad de informáticos y traductores haya desarrollado de forma más productiva y exigente la traducción de sus propios textos, y por tanto abundan los diccionarios de informática, de mayor o menor calidad y riqueza.

Diccionarios .dict en inglés

Los siguientes diccionarios en inglés están empaquetados en la distribución GNU Debian Sarge estándar:

dict-foldoc, dict-jargon

the Free On-line Dictionary of Computing, and the Hacker's Jargon file. There is a great deal of overlap between the Jargon file and the FOLDOC. Although the FOLDOC is much larger than the Jargon file, there are numerous entries in the Jargon file that are not found in FOLDOC.

dict-vera

Virtual Entity of Relevant Acronyms,a dictionary of acronyms used in the computer field.

Un modelo: el tesauro informático de ORCA

El objetivo de este «tesauro»[8] no es explicar el significado de los términos de informática usados en inglés, sino dar una lista de sugerencias para su traducción al español, para quien ya tenga suficientes conocimientos de informática en inglés. No obstante, Jaime Villate ha expresado su intención de que ORCA se convierta en un verdadero glosario, y ya aparecen algunas explicaciones.

Para muestra, un botón; consultamos «driver» en la versión 2.0.178, de 16 de marzo de 2002. Esta es la salida:

        
          driver
          controlador, manejador, gestor, driver video
        
      

Como curiosidad, señalemos que el proyecto ORCA nació en febrero de 2000 con una encuesta sobre cómo traducir la expresión «powered by». Ganó «con el poder de», seguido de «potenciado por».[9]

La principal fuente para este glosario ha sido la comunidad hispano-parlante que desarrolla y usa software libre, participando directamente en la edición del glosario a través de su interfaz web http://quark.fe.up.pt/orca, o indirectamente a través de sus discusiones en las listas de correo sobre el tema. Distingue entre «colaboradores» y «editor»: un colaborador no puede borrar lo que ya ha sido escrito por otro, pero puede escribir comentarios; el editor después va a leer esos comentarios, y altera la definición respectivamente. Los números de versiones terminados en .0 quieren decir que el glosario acaba de ser revisado por el editor; si el último número no es cero, indica el número de contribuciones que han sido introducidas desde la última revisión. La última versión revisada es la 2.1.0, de mayo de 2002, e incluye 887 términos.

En el sitio de ORCA puede descargarse la versión .dict del diccionario. En la salida de dict tenemos otro ejemplo de consulta, con un comentario de un colaborador.

Glosario de la ATI

Se trata del «glosario» de la Asociación de Técnicos de Informática, http://www.ati.es/novatica/glointv2.txt ó http://www.ati.es/PUBLICACIONES/novatica/glointv2.html , coordinado por Rafael Fernández Calvo.

Hay que recordar las objeciones que desde el mundo del software libre se ponen a su licencia: es bastante discutible que el glosario de la ATI sea libre. Según las «normas»

1. © 1994—2002 Rafael Fernández Calvo

2. El autor autoriza la reproducción y difusión de este documento, por cualquier medio, sea en su totalidad o parcialmente, si es realizado sin ánimo de lucro por organizaciones sin ánimo de lucro. Estas organizaciones pueden también enlazar este glosario desde sus sitios web, si bien se agradece a los enlazantes que lo comuniquen al autor.

3. Si las actividades citadas en 2. las realizan organizaciones con ánimo de lucro, o si las realizan con ánimo de lucro organizaciones sin ánimo de lucro, se requiere siempre el permiso previo por escrito del autor.

4. En todos los casos es obligatoria la mención completa de la fuente.

Según Javier Fernández-Sanguino Peña, uno de los desarrolladores principales del equipo español de Debian, en mensaje a de 24 de mayo de 2002 en respuesta a una consulta mía

No se llegó a un acuerdo con el autor con respecto a las condiciones/licencia de distribución (…) No sé si las condiciones han variado.

En el mismo hilo y mismo día Jaime Villate confirma

El glosario de Rafael Fernández Calvo no ha sido convertido a formato .dict y no se puede crear un paquete Debian con él, por no ser un glosario libre. Mi plan actual es dejar que ORCA se convierta en glosario, en vez de tesauro, y ya comienzan a aparecer algunas explicaciones.

El glosario terminológico de Fernández Serrador

En http://cvs.hispalinux.es/cgi-bin/cvsweb/rl-po-compendia/glosario.db mantiene Francisco Javier Fernández Serrador un glosario de términos basado en ORCA y ampliado. A enero de 2004 contiene 1027 entradas.

Como denuncia Fernández Serrador

La actual dispersión de proyectos de localización tiende a aislar a los grupos de traducción en base al proyecto en el que están desarrollando su trabajo. No existe comunicación entre los grupos a la hora de adoptar una terminología unificada, y los entornos de escritorio libres usan un léxico dispar, la documentación del SO tiende a dispersarse entre distintos grupos individuales y el resultado final del conjunto da la sensación de un formidable caos.

Su objetivo es proporcionar una infraestructura que permita elaborar unos compendios y unos glosarios unificados de términos de traducción aplicables a las Interfaces Gráficas de Usuario, fundamentalmente de los proyectos de KDE y Gnome.

El formato es el siguiente:


término:$(extra)traducción(contexto) [!traduccion desaconsejada] [!!traducción errónea]

Donde el símbolo $ es un indicador de léxico de un lenguaje de programación.
    

Este es el comienzo


abort:abortar,interrumpir,[!!cancelar=cancel]:Interrumpir abruptamente un proceso
absolutely not:en absoluto,[!!absolutamente baduse]
abstract:sinopsis,resumen,abstracto:3Una clase que tiene un método diferido,1Un resumen esquematizado de los principales puntos de una teoría
accesories:accesorios::plugin,extension
access:acceso,acceder,[!!accesar basuse]:La operación consistente el leer o escribir información almacenada::
account:cuenta:Conjunto de privilegios concedidos a un usuario en un sistema de cómputo::
accounting:contabilidad:::
acelerator:combinación de teclas,accelerador:"En un menú, letra señalada que permita ejecutar una acción mediante el teclado"::
acept:aceptar:"Dar una respuesta afirmativa"
acknoledgement:(n)confirmación,asentimiento
acknoledge:(v)confirmar,asentir
    

¿Cómo escribir diccionarios?

Esperamos haber mostrado que el formato estándar para la distribución de diccionarios es .dict. Para consultas el estándar es la red DICT, mediante clientes específicos o interfaz web. Otro tema es cómo escribir diccionarios: la gran pregunta, que normalmente no se hace cuando se está haciendo un diccionario, es qué información debe contener. Ponernos a escribir diccionarios nos convierte en lexicógrafos; pero escribir un diccionario técnico nos obliga a plantearnos los problemas de la terminología. Además, si logramos crear una estructura para la confección de terminologías (partiendo de nuestro corpus de informática pero no quedándonos ahí) podremos crear glosarios y diccionarios, presentar colocaciones y listas de ejemplos. Y hacer un uso normativo (estandarizado, coherente) de nuestra terminología. Estaremos por ejemplo en condiciones de definir como término informático el que aparece en nuestro fondo documental y no aparece recogido en nuestro diccionario general de español (por ahora inexistente).Si queremos poder utilizar herramientas avanzadas de ayuda a la traducción nuestro diccionario debe contener además información gramatical leíble por máquinas.

Tenemos que ser capaces de responder a una serie de preguntas:

  • Cómo incorporar términos a los diccionarios: ¿modelo ORCA? (contribuciones públicas, revisadas por un moderador) ¿modelo lista spanglish? (discusiones inter pares)

    Utilizar herramientas de confección de glosarios. Debemos ir hacia diccionarios basados en corpus, con herramientas de extracción terminológica que cubren de forma exhaustiva un campo (y nos señalan fehacientemente qué términos faltan por definir) y abandonar el método manual de adición de entradas.

  • Cómo garantizar la calidad de las incorporaciones: Crear sistema de mantenimiento de calidad (incluir entre las marcas de cada término autor, fecha, revisión…)

    Ismael Olea ha propuesto un sistema de ponderación de la autoridad de las aportaciones similar al del sistema advogato ( http://advogato.org/trust-metric.html).

Distingamos un diccionario pensado para su impresión en papel o en pantalla, destinado a ser consultado por humanos, de una base de datos terminológicos (un lexicón computacional), pensada para su utilización en la traducción automática.

Los estándares TEI y XCES

La versión XML de las TEI P4 Guidelines[10], en su capítulo 12 ‘Print Dictionaries’ afirma:

A simple dictionary entry may contain information about the form of the word treated, its grammatical characterization, its definition, synonyms, or translation equivalents, its etymology, cross-references to other entries, usage information, and examples.

Interesante parece estudiar como ejemplo de aplicación de TEI http://www.human.toyogakuen-u.ac.jp/~acmuller/articles/ddb-ebti2001.htm

Los proyectos de la Comisión Europea EAGLES I y II (Expert Advisory Group on Language Engineering Standards ( http://www.ilc.pi.cnr.it/EAGLES96/intro.html )

… aims to accelerate the provision of standards for:

  • Very large-scale language resources (such as text corpora, computational lexicons and speech corpora);

  • Means of manipulating such knowledge, via computational linguistic formalisms, mark up languages and various software tools;

  • Means of assessing and evaluating resources, tools and products.

Un resultado de los trabajos fue el Corpus Encoding Standard (CES, http://www.cs.vassar.edu/CES/) y XCES ( http://www.cs.vassar.edu/XCES/), la versión XML.

The CES is designed to be optimally suited for use in language engineering research and applications, in order to serve as a widely accepted set of encoding standards for corpus-based work in natural language processing applications. The CES is an application of SGML compliant with the specifications of the TEI Guidelines.

The CES specifies a minimal encoding level that corpora must achieve to be considered standardized in terms of descriptive representation (marking of structural and typographic information) as well as general architecture (so as to be maximally suited for use in a text database). It also provides encoding specifications for linguistic annotation, together with a data architecture for linguistic corpora.

In its present form, the CES provides the following:

  • a set of metalanguage level recommendations (particular profile of SGML use, character sets, etc.);

  • tagsets and recommendations for documentation of encoded data;

  • tagsets and recommendations for encoding primary data, including written texts across all genres, for the purposes of corpus-based work in language engineering.

  • tagsets and recommendations for encoding linguistic annotation commonly associated with texts in language engineering, currently including:

    • segmentation of the text into sentences and words (tokens),

    • morpho-syntactic tagging,

    • parallel text alignment.

En el campo del desarrollo de software destaca MULTEXT (Multilingual Text Tools and Corpora, LRE 62-050, 1994-96, http://www.lpl.univ-aix.fr/projects/multext/). Estos eran sus objetivos iniciales:

Existing tools for NLP and MT corpus-based research are typically embedded in large, non-adaptable systems which are fundamentally incompatible. Little effort has been made to develop software standards, and software reusability is virtually non-existent. As a result, there is a serious lack of generally usable tools to manipulate and analyze text corpora that are widely available for research, especially for multi-lingual applications. At the same time, the availability of data is hampered by a lack of well-established standards for encoding corpora. Although the TEI has provided guidelines for text encoding, they are so far largely untested on real-scale data, especially multi-lingual data. Further, the TEI guidelines offer a broad range of text encoding solutions serving a variety of disciplines and applications, and are not intended to provide specific guidance for the purposes of NLP and MT corpus-based research. MULTEXT proposes to tackle both of these problems. First, MULTEXT will work toward establishing a software standard, which we see as an essential step toward reusability, and publish the standard to enable future development by others. Second, MULTEXT will test and extend the TEI standards on real-size data, and ultimately develop TEI-based encoding conventions specifically suited to multi-lingual corpora and the needs of NLP and MT corpus-based research.

Herramientas elaboradas por el proyecto MULTEXT son

Propuesta

  1. Propongo adoptar TEI P4 + XCES como la DTD de nuestros diccionarios específicos. En este sentido, es necesario también implementar herramientas generales que puedan utilizarse para el desarrollo de nuevos diccionarios.

  2. Una cuestión previa imprescindible es analizar ISO 12620 (sobre recordable properties of terms) y llegar a un acuerdo (parts of speech, gender, context, subject field…) sobre las propiedades que nos es útil recoger en el diccionario.

Terminologías

Conceptos previos

El Informe Final del proyecto POINTER se esfuerza —y creo que lo consigue— por aclarar los términos ‘lexicología’, ‘lexicografía’, ‘terminología’ y ‘terminografía’ (http://www.computing.surrey.ac.uk/ai/pointer/report/section1.html#2). La cita es larga pero creo que no tiene desperdicio.

While lexicology is the study of words in general, terminology is the study of special-language words or terms associated with particular areas of specialist knowledge[11]. Neither lexicology nor terminology is directly concerned with any particular application. Lexicography, however, is the process of making dictionaries, most commonly of general-language words, but occasionally of special-language words (i.e. terms). Most general-purpose dictionaries also contain a number of specialist terms, often embedded within entries together with general-language words. Terminography (or often misleadingly "terminology"), on the other hand, is concerned exclusively with compiling collections of the vocabulary of special languages. The outputs of this work may be known by a number of different names —often used inconsistently— including "terminology", "specialised vocabulary", "glossary", and so on.

Dictionaries are word-based: lexicographical work starts by identifying the different senses of a particular word form. The overall presentation to the user is generally alphabetical, reflecting the word-based working method. Synonyms —different form same meaning— are therefore usually scattered throughout the dictionary, whereas polysemes (related but different senses) and homonyms (same form, different meaning) are grouped together.

While a few notable attempts have been made to produce conceptually-based general-language dictionaries — or "thesauri", the results of such attempts are bound to vary considerably according to the cultural and chronological context of the author.

By contrast, high-quality terminologies are always in some sense concept-based, reflecting the fact that the terms which they contain map out an area of specialist knowledge in which encyclopaedic information plays a central role. Such areas of knowledge tend to be highly constrained (e.g. "viticulture"; "viniculture"; "gastronomy"; and so on, rather than "food and drink"), and therefore more amenable to a conceptual organisation than is the case with the totality of knowledge covered by general language. The relations between the concepts which the terms represent are the main organising principle of terminographical work, and are usually reflected in the chosen manner of presentation to the user of the terminology. Conceptually-based work is usually presented in the paper medium in a thesaurus-type structure, often mapped out by a system of classification (e.g. UDC) accompanied by an alphabetical index to allow access through the word form as well as the concept. In terminologies, synonyms therefore appear together as representations of the same meaning (i.e. concept), whereas polysemes and homonyms are presented separately in different entries.

Dictionaries of the general language are descriptive in their orientation, arising from the lexicographer's observation of usage. Terminologies may also be descriptive in certain cases (depending on subject field and/or application), but prescription (also: "normalisation" or "standardisation") plays an essential role, particularly in scientific, technical and medical work where safety is a primary consideration. Standardisation is normally understood as the elimination of synonymy and the reduction of polysemy/homonymy, or the coinage of neologisms to reflect the meaning of the term and its relations to other terms.

«Terminology management», itself a neologism, was coined to emphasise the need for a methodology to collect, validate, organise, store, update, exchange and retrieve individual terms or sets of terms for a given discipline. This methodology is put into operation through the use of computer-based information management systems called «Terminology Management Systems» (TMS).

Dice Martínez de Sousa, sub voce terminología, en el Diccionario de lexicografía práctica

Hoy la terminología es una ciencia bien estructurada que se ocupa en crear los catálogos léxicos propios de las ciencias, las técnicas, los oficios, etc., partiendo de sistemas coherentes establecidos por organismos nacionales e internacionales.

El proyecto SALT distingue entre «lexbases» y «termbases», pensadas para ser usadas en traducción automática las primeras y como recursos de ayuda a la traducción las segundas; EAGLES habla de «termbanks».

Estándares SALT y LISA

«SALT» (Standards-based Access to multilingual Lexicons and Terminologies) fue un proyecto integrado en el V Programa Marco (2000-2001).

Una de sus páginas web está en http://www.loria.fr/projets/SALT/saltsite.html. El proyecto nace de la toma de conciencia de una necesidad:

This project responds to the fact that many organizations in the localization industry are now using both human translation enhanced by productivity tools and MT with or without human post-editing. This duality of translation modes brings with it the need to integrate existing resources in the form of (a) the NLP lexicons used in MT (which we categorize as lexbases) and (b) the concept-oriented terminology databases used in human-translation productivity tools (which we call termbases). This integration facilitates consistency among various translation activities and lever-ages data from expensive information sources for both lex side and the term side of language processing.

The SALT project combines two recently finalized interchange formats: «OLIF» (Open Lexicon Interchange Format), which focuses on the interchange of data among lexbase resources from various machine translation systems, (Thurmaier et al. 1999), and «MARTIF» (ISO 12200:1999, MAchine-Readable Terminology Interchange Format), which facilitates the interchange of termbase resources with conceptual data models ranging from simple to sophisticated. The goal of SALT is to integrate lexbase and termbase resources into a new kind of database, a lex/term-base called «XLT» (eXchange format for Lex/Term-data).

XLT se basa en XML. El «Default XLT» se conoce como «TBX»: ‘TermBase eXchange format’.

Control of TBX has been handed over from the SALT project (…) to LISA (and its OSCAR SIG).

Encontramos una interesante lista de estándares relativos a la terminología, en un mensaje de Kara Warburton al foro de discusión sobre «localización» y terminología de LISA, http://www.lisa.org/sigs/phpBB/viewtopic.php?topic=69&forum=1&1 Como no tiene desperdicio lo parafraseo:

Here is a list of Terminology Standards that I am familiar with and which I find useful. This is a starting point for a SIG list. Please post as a reply any additional ones which you find useful.

  1. TBX - TermBase eXchange format. This is the XML terminology markup format proposed by the LISA/OSCAR standards group as an standard for the localization industry. More info here: http://www.lisa.org/tbx/

  2. OLIF2 - Open Lexicon Interchange Format. This is an interchange format specifically for machine-readable lexicographical data, such as for machine translation systems. OLIF data will be recordable in TBX.

ISO TC 37 Standards

  1. ISO DIS 16642:2002 - TMF - Terminology Markup Framework. This is a high-level standard framework for defining individual TMLs (terminology markup languages). It covers basic structure and architecture of TMLs and terminology databases.

  2. ISO 12620:1999 (under revision) - Terminology Data Categories. This standard is being revised into 2 parts. The first part describes a standard generic method for defining data categories for terminology collections (what standard properties they should have, etc.). The second part is an inventory of all the possible types of data categories in lexicology and terminology (term, part of speech, definition, context, variants, etc., etc.). This part is very useful as a catalog for picking data categories for your own terminology database.

  3. ISO 12200:1999 - MARTIF - If you're still into SGML, this is a good established standard markup format. MARTIF is the basis for TBX and is also supported by a number of terminology tools. MARTIF will be integrated as an appendix in the final version of ISO 16642.

  4. ISO 17241 - GENETER. Another standard SGML format for terminology, used by some databases in Europe. GENETER will be integrated as an appendix in the final version of ISO 16642.

  5. ISO 704:2000 - Terminology Work - Principles and methods. Provides all kinds of useful information about terminology research methods and writing definitions, and other process-oriented tasks.

  6. ISO 12616 - Translation-oriented terminography. Provides useful guidelines for terminology work specifically to support the translation process.

  7. ISO 1087-1 and 1087-2 - Terminology Work - Vocabulary. These basically contain definitions of standard terms in terminology. A useful reference point for the SIG.

Sirve para confirma nuestras posiciones las conclusiones del proyecto del «Marco de trabajo Okapi» ( http://okapi.sourceforge.net/, con licencia modelo MIT).

The goal of the «Okapi Framework» is to provide public specifications, open components and libraries to allow tools developers and localizers to build their own processes the way they want it, while staying compatible and interoperable with each others.

Propone XLIFF 1.0 para la extracción de texto, TMX 1.3 para intercambiar TMs, TBX para el intercambio de terminologías y OLIF para el de lexicones (glosarios para sistemas de MT).

Estandarizando lexicones computacionales: OLIF2

«OLIF», the «Open Lexicon Interchange Format» [12]

is a user-friendly vehicle for exchanging terminological and lexical data.

What is special about OLIF?

OLIF is XML-compliant and offers support for natural language processing (NLP) systems, such as machine translation, by providing coverage of a wide and detailed range of linguistic features.



[1] Basta consultar la clasificación de dos páginas del término «diccionario» que hace Martínez De Sousa Diccionario de lexicografía práctica para llegar a la conclusión de que lo importante no es cómo se llama sino qué clase de diccionario queremos.

[2] «el conjunto de entradas sobre el que se construye un diccionario» explica él mismo varios días después.

[4] Hay bastantes más que los que vamos a examinar, de interés especializado: pydict de inglés y chino; skk y edict de japonés, mueller para inglés-alemán…

[6] http://wordtrans.sourceforge.net. No podemos pasar por alto el diccionario español/alemán de más de 23.000 entradas que se está desarrollando por su iniciativa y la de Cristina Embid en http://diccionario.escomposlinux.org.

[7] Allá por año 1999 se utilizaba un paquete ruso llamado dicttools, pero el servidor ya no responde. Se puede encontrar documentación alternativa sobre este tema en los manuales de dictfmt y dictzip, en las RFC pertinentes y en http://www.freedict.de/How_make_dictionaries.html, donde se menciona un enfoque muy interesante en el que entraremos más adelante (http://www.physik.fu-berlin.de/tburnus/freedict/).

[8] Proyecto ORCA — Herramientas de ayuda para los traductores y productores de software libre en español (programas y documentación), http://quark.fe.up.pt/orca/index.es.html ; proyecto responsabilidad de Jaime E. Villate bajo los términos de la Licencia GNU Para Documentación Libre. Realmente es un tesauro, como reconoce el propio Villate en correo a la lista de fecha 29 de marzo de 2000: un «glosario» explica con detalle los términos, mientras que un «tesauro» sugiere simplemente sinónimos.

[9] Mensaje de Jaime Villate a de 26 de septiembre de 2002.

[11] Abaitua habla de «lenguajes de especialidad».