Hee-Soo Choi


2024

pdf bib
Beyond Model Performance: Can Link Prediction Enrich French Lexical Graphs?
Hee-Soo Choi | Priyansh Trivedi | Mathieu Constant | Karen Fort | Bruno Guillaume
Proceedings of the 2024 Joint International Conference on Computational Linguistics, Language Resources and Evaluation (LREC-COLING 2024)

This paper presents a resource-centric study of link prediction approaches over French lexical-semantic graphs. Our study incorporates two graphs, RezoJDM16k and RL-fr, and we evaluated seven link prediction models, with CompGCN-ConvE emerging as the best performer. We also conducted a qualitative analysis of the predictions using manual annotations. Based on this, we found that predictions with higher confidence scores were more valid for inclusion. Our findings highlight different benefits for the dense graph compared to the sparser graph RL-fr. While the addition of new triples to RezoJDM16k offers limited advantages, RL-fr can benefit substantially from our approach.

2023

pdf bib
Des ressources lexicales du français et de leur utilisation en TAL : étude des actes de TALN
Hee-Soo Choi | Karën Fort | Bruno Guillaume | Mathieu Constant
Actes de CORIA-TALN 2023. Actes de la 30e Conférence sur le Traitement Automatique des Langues Naturelles (TALN), volume 2 : travaux de recherche originaux -- articles courts

Au début du XXIe siècle, le français faisait encore partie des langues peu dotées. Grâce aux efforts de la communauté française du traitement automatique des langues (TAL), de nombreuses ressources librement disponibles ont été produites, dont des lexiques du français. À travers cet article, nous nous intéressons à leur devenir dans la communauté par le prisme des actes de la conférence TALN sur une période de 20 ans.

2022

pdf bib
État de l’art : Liage de ressources lexicales du français (State of the art : Linking French Lexical Resources)
Hee-Soo Choi
Actes de la 29e Conférence sur le Traitement Automatique des Langues Naturelles. Volume 2 : 24e Rencontres Etudiants Chercheurs en Informatique pour le TAL (RECITAL)

Les ressources lexicales informatisées constituent des données indispensables à l’élaboration d’outils et de méthodes répondant aux différentes tâches de Traitement Automatique des Langues (TAL). Celles-ci sont hétérogènes dans leur taille, leur construction et leur niveau de description linguistique. Cette variété ouvre la porte à un regroupement des ressources ou à des tentatives de liage. Dans cet article, nous présentons un état de l’art sur les ressources lexicales du français. Plus précisément, nous abordons les différentes caractéristiques d’une ressource lexicale, les ressources construites à partir de liage ainsi que les approches employées à cette fin.

2021

pdf bib
Investigating Dominant Word Order on Universal Dependencies with Graph Rewriting
Hee-Soo Choi | Bruno Guillaume | Karën Fort | Guy Perrier
Proceedings of the International Conference on Recent Advances in Natural Language Processing (RANLP 2021)

This paper details experiments we performed on the Universal Dependencies 2.7 corpora in order to investigate the dominant word order in the available languages. For this purpose, we used a graph rewriting tool, GREW, which allowed us to go beyond the surface annotations and identify the implicit subjects. We first measured the distribution of the six different word orders (SVO, SOV, VSO, VOS, OVS, OSV) in the corpora and investigated when there was a significant difference in the corpora within a given language. Then, we compared the obtained results with information provided in the WALS database (Dryer and Haspelmath, 2013) and in ( ̈Ostling, 2015). Finally, we examined the impact of using a graph rewriting tool for this task. The tools and resources used for this research are all freely available.

pdf bib
Corpus-based language universals analysis using Universal Dependencies
Hee-Soo Choi | Bruno Guillaume | Karën Fort
Proceedings of the Second Workshop on Quantitative Syntax (Quasy, SyntaxFest 2021)