文章を読む際の眼球運動を記録し、言語処理の研究に用いることは盛んに行われています。本研究では、日本語を母語とする英語学習者が文章を読解した際の眼球運動データを収集し、総計で約41万語以上に対する眼球運動データセットをTsukuba Eye-tracking Corpus (TECO)として構築・公開しました。
言葉を処理する人間の過程は非常に複雑であり、これまで心理学や教育学の分野で人間の言語処理に関する多くの研究が行われてきました。特に書き言葉については、文章を読む際の眼球運動を記録する視線計測と呼ばれる方法が有用とされています。近年では、特にヨーロッパやその周辺地域の英語学習者について、母語や外国語での読解における眼球運動データを大規模に収集し、体系的に整理して公開する取り組みが盛んに行われています。しかしながら、これまで、日本語母語話者の英語による文章読解を対象としたものはありませんでした。
本研究では、日本語母語話者の英文読解を対象に、総計41万語以上に対する眼球運動データセットを構築・公開しました。本データセットは、日本語を母語とする大学生・大学院生41名が、英検準2級~準1級に相当する文章を読解した際の、1人あたり約1万語に対する眼球運動データから構成されています。これより、文章に含まれる各単語について、注視の回数、注視の継続時間、単語の読み飛ばしや読み戻りなどを示す、合計9つの指標を算出し、さまざまな分析を行ったところ、収集したデータの信頼性や妥当性が高いことが確認されました。
本データセットは、Tsukuba Eye-tracking Corpus (TECO)としてオープンサイエンスのプラットフォームにて公開しています。文章理解や第二言語習得の研究だけでなく、自然言語処理やAI研究にも活用が可能であり、幅広い学術分野への波及効果が期待されます。
PDF資料
プレスリリース
研究代表者
筑波大学人間系
名畑目 真吾 助教
掲載論文
【題名】 TECO: An Eye-tracking Corpus of Japanese L2 English Learners’ Text Reading
(TECO: 日本語母語英語学習者による文章読解の視線計測コーパス) 【掲載誌】 Research Methods in Applied Linguistics 【DOI】 10.1016/j.rmal.2024.100123