51“tea”を機械翻訳・音声合成し地図上に表示地図上に表示された複数の旅行ブログと動画を自動要約Checkビッグデータ時代に欠かせない自然情報処理技術 イギリスで製作されたテレビドラマの一場面、仕事を探しているインド系の男性にシステムエンジニアが尋ねます。「君、どの言語ができる?」男性の答えは「英語とパンジャブ語を少し」――情報系で言語といえばPythonやJavaのようなプログラミング言語を指します。これに対して英語やパンジャブ語は自然言語と呼ばれています。 人間の言語と機械の言語の橋渡しをして、膨大な情報を機械で迅速に処理する技術を自然言語処理といいます。人工知能の一分野である自然言語処理は、これまでもローマ字入力から漢字かな混じりの日本語に変換したり、英語を日本語に機械翻訳したりする際に用いられてきましたが、ChatGPTのような大規模言語モデルの登場により、ここ数年でめざましく発展しました。 これらは大量のテキストデータを学習し、人間の言葉を理解し、生成することができます。質問に答えたり、文章を要約したり、さらには画像処理など他分野の技術と組み合わせて、例えば「アボカドの形をした緑のイス」と文字入力することによって、そのような画像を描くことも可能です。英語とパンジャブ語を少しだけできる青年でも、自分が普段使っている言語で何らかの成果物を生み出せる、その土台となっているのが自然言語処理なのです。ことばと地理空間の情報処理 私の研究室では、ある単語を100以上の言語に機械翻訳・音声合成し、地図上にマッピングして言語の伝播の様子を可視化するシステムを作っています。例えば、「お茶」は英語では“tea”、スペイン語では“té”、フランス語では“thé”という一方、トルコ語では “çay”、ロシア語も”чай”と書いて「チャイ」と読みます。ポルトガル語では“chá”です。これらの違いは中国の「茶」が陸や海など異なる経路で各地に伝わったことを示しています。 このほか、自然言語処理や画像処理の技術を使い、世界中の旅行ブログや動画を分析して地図上にマッピングする研究も行っています。自然言語処理を含めた人工知能の研究では、プログラミング言語を学ぶことだけにとどまらない幅広い知識と関心も必要です。未知の世界を旅するように、まだまだ進化を続けるこの分野を一緒に研究してみませんか。ビジネスデータサイエンス学科の詳しい研究内容はこちらから自然言語処理ビジネスデータサイエンス学科難波 英嗣 教授自然言語処理研究室世界にあふれる大量のテキストデータから価値ある情報を「見える化」する
元のページ ../index.html#51