Nagamese言語に対するCRFを用いた品詞タグ付け

Nagamese言語に対するCRFを用いた品詞タグ付け

なぜ重要か: 企業や社会への影響が見込まれ、一般メディアにも波及する可能性があります。

ソースを読む(export.arxiv.org)

arXiv:2509.19343v1発表タイプ:クロス

概要:本論文は、自然言語処理(NLP)における重要な課題である、ナガメース語の品詞タグ付けについて調査する。ナガメース語(別名ナガ・ピジン)は、インド北東部においてナガ族とアッサムの人々の間の交易におけるコミュニケーション手段として主に発展した、アッサム語を基盤とするクレオール語である。英語やヒンディー語などのリソース豊富な言語については、品詞タグ付けに関する多くの研究が行われている。しかし、ナガメース語については、これまで研究がなされていない。本研究は、ナガメース語における品詞タグ付けに関する初めての試みであると認識している。本研究の目的は、ナガメース語の文において品詞を識別することである。16,112トークンからなるアノテーション済みコーパスを作成し、条件付き確率場(CRF)として知られる機械学習手法を適用した。CRFを用いることで、全体的なタグ付け精度85.70%、適合率、再現率86%、F1スコア85%を達成した。

キーワード:ナガメース語、NLP、品詞、機械学習、CRF

原文(英語)を表示

Title (EN): Part-of-speech tagging for Nagamese Language using CRF

arXiv:2509.19343v1 Announce Type: cross
Abstract: This paper investigates part-of-speech tagging, an important task in Natural Language Processing (NLP) for the Nagamese language. The Nagamese language, a.k.a. Naga Pidgin, is an Assamese-lexified Creole language developed primarily as a means of communication in trade between the Nagas and people from Assam in northeast India. A substantial amount of work in part-of-speech-tagging has been done for resource-rich languages like English, Hindi, etc. However, no work has been done in the Nagamese language. To the best of our knowledge, this is the first attempt at part-of-speech tagging for the Nagamese Language. The aim of this work is to identify the part-of-speech for a given sentence in the Nagamese language. An annotated corpus of 16,112 tokens is created and applied machine learning technique known as Conditional Random Fields (CRF). Using CRF, an overall tagging accuracy of 85.70%; precision, recall of 86%, and f1-score of 85% is achieved.
Keywords. Nagamese, NLP, part-of-speech, machine learning, CRF.

Published: 2025-09-24 19:00 UTC


コメントする