Shigeki Moro
s-mor****@hanaz*****
2003年 10月 22日 (水) 14:10:06 JST
もろです。 On Mon, 20 Oct 2003 11:13:20 +0900 Takahito Yamada <shuir****@akane*****> san wrote: > 先日も、守岡さんとウィッテルンさんと「師さんは偉大だ〜!」という話をし > ていました。返す刀で「道具は自分で作らんとだめ!」とも説教されましたが… 私は偉大というよりエライのです。学務の他にいろんなプロジェクトに 首をつっこんでいるため休みなし、まじでエライっす (^_^;) > どうも、世間的? な誤解として(というか自らの願望も含めて)、N-gramで > 何でも出来る! 夢のツールだ! というのがあるみたいなので。 それはあるかも知れませんね。 この間も大学院の授業でSPSSをいじらせつつクラスター分析の概説をし たんですが、例えばウォード法と最短距離法のどちらが有意かは、有意 だと思う研究者の判断に委ねられる、みたいなことを言ったら、院生の 姿勢が緩んでました (^_^;) 私は最近、Nグラムとかクラスター分析とかを説明するときに「発想支 援」という言葉を使っています。 やっぱり数学的な分析には、それ自体に何らかの真理が宿っているよう な幻想があるんでしょう。帰納とか演繹とかを、高校生ぐらいまでにき ちんと教えないとだめなんじゃないかとか思っちゃう今日この頃です (^_^;) > 結局N-gramって、テキストの切り分けの手段にしか過ぎないわけですよねえ。 うーん、私は「モデル化のひとつ」と言いますけどね。 言語活動の中に存在する無数の性質の中から、重要そうなある部分(N グラムであれば発話や文の一直線的な性質)だけを取り出してきて、そ れを分析の対象とするのがモデル化。 無数の性質は分析できっこないので、うまくモデル化することによって、 完璧ではないけどかなり有意な結果を得ることができるんじゃないか、 という発想ですね。Nグラム・モデルは、作業コストが低い割に思った よりいい結果(場合によっては形態素解析では得られないいい結果)が でるので使えそうじゃん、ということですよね。 > 先日の京大の研究会で突っ込まれたのが、切り分けた手段をどう次のステップ > に持って行くかという部分でした。その時は、単純に千分率でデータを正規化し > たのですが、正規化の手段やノイズデータも含めてクラスター分析をするのでは > なく、間に何らかのフィルターを入れる必要があるのではないか? という点で > した。ここらへんって永遠に悩む点ですねえ。 千分率ですか。イメージが湧かないのであとで教えてください。私は同 じ長さのベクトルとして正規化しました。これは、キーワードを使うや つですが、先行研究があったので。 フィルターの問題も、モデル化の問題ですねぇ。 > 後は、手法の正当性を示すために、著作者が明らかとなっている複数の漢字文 > 献をN-gram+クラスター分析を実行して、その傾向を見てゆく、で、その次に不 > 明なのをやってみるという事です。 先行研究との比較による妥当性の検証と言うのは、村上『真贋の科学』 以来の手法ですね。私も、今のところそれしかないと思います。 > ここで問題なのが、私がやろうとしている先秦文献では、作者が確定している > ものが無いと言う点、また漢代以降となると、儒家の経書を中心とした先行著作 > の引用を中心として文章を組み立てるというスタイルの関係上、どれだけクラス > ターが分かれるのかが難しいという点があります。 この問題については、私もやろうと思っています。題材は玄奘訳の経典 です。訳経は一人でやるわけではなく、また訳者の著作でもありません。 複数の手が加わったテキスト群をクラスター分析することで何かおもし ろい結果をひっぱってこれないかと思っています(というか、それが科 研のテーマだったりする)。 > この辺は試行錯誤をくり返していくしかないかなあ、という気もします。単に > クラスターをかけるのではなくて、主成分分析や分散分析でおいしいところだけ > を見てゆくという事も考えられますからねえ。 そうですね。おいしいデータを楽に見つけ出す方法って言うのは、これ からいろいろ試行錯誤したいですね。そういうツールも作ってみて、こ こで公開できたらと思っています。アイデアを頂ければ、作れる範囲で 作りますので (^_^;) Shigeki Moro Hanazono University s-mor****@hanaz***** http://www.ya.sakura.ne.jp/~moro/