このプログラムは、テスト・研究用の短いプログラムで、辞書を使わずにアルゴリズムのみで解析しているので、正確な解析はできません。語頭・語末を漢字・カタカナ・平仮名の区別を頼りに解析しているので、平仮名ばかりの文に対応できません。言語解析の困難さがこのプログラムからもお分かりになるでしょう。
正しく解析するには、人間が持っている知識、すなわち日本語の規則、辞書、実世界における知識、推論などが必要です。その知識とは膨大な量のものですが、まずは部分的にも妥当な規則、辞書を作ってみることが大切でしょう。アルゴリズムだけからなるこのプログラムとは異なり、今研究中の規則や辞書の構成は言語学的にも妥当と思えるかどうか、という観点から研究しています。
この解析の中で、「HEAD」とは、品詞などを決定する上で、また文中における語句の役割を決める上で大切な部分を指します。
下から解析する文を選択してください、あるいは下のテキストエリアに解析する文を貼り付けてください。
This short program is prepared to test
the behaviors of Japanese morphemes. It parses Japanese sentences by using algorithms
without reference to a dictionary, clearly resulting in the limitations. It relies
on the orthographic differences of Japanese to find word or morpheme boundaries.
Japanese sentences do not leave spaces between words or morphemes. Therefore,
when a sentence is written only in Hiragana, the program fails. It is not easy
to process Japanese computationally. A proper parsing of sentences would require
knowledge and ability humans possess such as knowledge on the rules of a language,
the lexicon and the world we are in, and inference skills. The amount of the necessary
knowledge is enormous, but it would be important to start with a manageable size
of the grammatical rules and dictionaries. Research has been conducted from the
perspective as to whether rules and contents of dictionaries are deemed to be
linguistically natural. The word "HEAD" appearing in the parsing refers to a portion
of a word or phrase that determines the part of speech or the grammatical role
in the sentence.
Select a text from among the ones given or paste a text in the text area. (The
program was created by Yukiko Sasaki Alam. It was made
possible thanks to open resources such as Java Technology, Tomcat and Apache.
)