mardi 7 juillet 2015

Le Projet Papillon

 http://www.papillon-dictionary.org/papillon/Home.po

Je recopie un message paru sur la liste électronique sciencescope

Projet Jibiki de dictionnaire français-japonais :
De l'exemplaire imprimé à la base lexicale consultable et modifiable en ligne.

Orateur : Mathieu Mangeot-Nagata, chercheur invité à l'université Hosei (Hosei International Fellow) pour l'année 2014-2015,  enseignant-chercheur à l'Université Savoie-Mont-Blanc, chercheur dans l'équipe GETALP, au laboratoire d'informatique de Grenoble (LIG).

Date : 28 juillet 2015 de 14h à 15h

Lieu : Université Hosei, campus de Ichigaya, Tour Boissonade, salle 706.

Résumé :

Le projet Jibiki est né d'un réel besoin : contrairement à d'autres couples de langues (français-anglais, japonais-anglais, etc.), il n'existe toujours pas à l'heure actuelle de dictionnaire français-japonais à large couverture disponible sur le Web. D'autre part, les dictionnaires existants sont bien souvent conçus pour une catégorie spécifique d'utilisateurs (les dictionnaires pour japonophones ne contiennent pas de romaji ou de furigana, ceux pour les francophones ne contiennent pas d'informations sur la prononciation des mots français).

Le but est de construire de manière contributive sur le Web une base lexicale multilingue autour du français et du japonais, de bonne qualité et à large couverture. Cette base doit servir pour les humains, qu'ils soient francophones ou japonophones, ainsi que pour les machines pour le traitement automatique des langues. Les données ainsi construites sont disponibles gratuitement au téléchargement et versées dans le domaine public.

Afin de constituer un premier ensemble de données, nous avons choisi de récupérer des dictionnaires existants libres de droits tel que le dictionnaire japonais->français (和仏大辞典) de Gustave Cesselin. Celui-ci contient 82 634 articles et plus de 150 000 exemples japonais traduits en français. Le dictionnaire a été scanné puis lu optiquement. Ensuite, nous avons effectué un travail de repérage des mots-vedettes, d'adaptation et enrichissement des données : mise à jour du romaji, remplacement des vieux kanji avec des variantes plus fréquentes, ajout du furigana, etc., de vérification des vedettes à l'aide d'autres dictionnaires, de détection des erreurs provenant de la lecture optique  et enfin de structuration des informations (mot-vedette, catégories grammaticales, domaine, sens, exemples, traductions, etc.).

Les données ainsi constituées sont ensuite mises en ligne sur la plate-forme jibiki. Celle-ci permet de consulter et de modifier des ressources lexicales en ligne sur le Web. Nous avons conçu autour de la plate-forme un site Web proposant plusieurs modules :
une interface de consultation de corpus bilingues français-japonais (concordancier) ;
un module de lecture active (aide à la lecture) de textes français et japonais proposant des prononciations et traductions de mots ;
une interface de consultation simple du dictionnaire avec, sur la partie gauche de la fenêtre de résultats une navigation dans l'ordre alphabétique du dictionnaire ;
une interface de consultation avancée permettant de combiner plusieurs critères de recherche (par exemple, tous les mots de botanique dont le romaji commence par la lettre b)

Les erreurs de lecture optique peuvent être corrigées directement en ligne par les utilisateurs du dictionnaire. Chaque article comporte un bouton « Éditer » en haut à droite. Celui-ci ouvre une interface d'édition qui permet de corriger les données, d'ajouter ou supprimer des parties d'information (par exemple, ajouter un exemple). Une fois le travail d'édition terminé, l'utilisateur enregistre ses modifications directement dans la base.
「字引き」仏和辞書プロジェクト
紙の辞書からオンライン辞書データベースの構築

講師:マチュー マンジョー・ナガタ(2014-2015年法政大学国際交流基金(HIF)よる外国人招聘研究員/サボア・モンブラン大学教授/仏グレノーブル研究所情報研究室GETALPチーム所属)

日時14001530
場所法政大学市ヶ谷キャンパスボアソナードタワー7階 BT0706

要旨

「字引き」プロジェクトはその必要性から生まれた。仏英や和英などと異なり、ウェブ上で使用可能な大規模な仏和辞典は、現在のところ存在しない。その上、現存の辞書は特定のユーザを対象にしたものである。(例えば、日本語話者用辞書にはローマ字やふり仮名がないし、フランス語話者用辞書には、フランス語の単語の発音に関する情報がない。)

私の研究目的は、ウェブ上で使用可能な、フランス語と日本語の多言語辞書データベース、特に登録語数が多くて高品質なものを構築することである。この辞書データベースは、フランス語話者や日本語話者にも役に立つばかりでなく、コンピュータ・携帯などの機械で自然言語処理応用ソフトの開発用にも役に立つ。このデジタル化されたデータは、パブリックドメインライセンスがあれば、誰でも自由にダウンロードが可能である。

最初のデータ作成には、Gustave Cesselin著の著作権の切れた和仏大辞典を使用した。(収録語数は、82,634語で、日本語からフランス語に訳されている例は、150,000以上である。)(まず)辞書スキャンされ、そのデータ文字認識ソフトによって文字として保存されたした。次に、コンピュータプ ログラムを書き、次のことを自動で行った。辞書の見出し語項目および項目中の情報の整理・強化。(例えば、ローマ字書き誤字の訂正、旧漢字を頻度の高い最 新のものに変更、ふり仮名の追加など)他の辞書からの情報を利用して、見出し語のチェック、文字認識過程に生じたエラー箇所の発見および辞書項目の情報を (見出し語、品詞、意味、例、翻訳などと)統一のとれた構造にした。

この整理されたデータを、「字引き」サイトにアップロードし、オンライン上で利用可能にした。そしてオンライン上での閲覧・編集を可能にした。以下のモジュールをこのホームページに用意した。
仏和コーパス検索インターフェース(用語索引)
アクティブリーダー・モジュール(単語にふりがなを打ったり、テキストを翻訳したりできる。)
全項目閲覧モジュール(左側のスクロールバーを動かすことによって、辞書の全項目をアルファベット順に閲覧できる。)
辞書横断検索モジュール(語・文字検索によって、辞書の全項目中にある語を表示する。例えば、「b」で検索すると、「植物学」分野の単語を表示する。)

文字認識ソフトが認識に失敗した箇所は、オンライン上でユーザが訂正できるようにした。各ページの右上に「編集」ボタンがあるので、ボタンを押せば、編集モードとなり、そのページにある間違いを訂正・削除できる。編集後、訂正されたページは即更新・保存される。クエリでその箇所を検索し、訂正個所が確認できる。


Aucun commentaire:

Enregistrer un commentaire