OHTAKE Kiyonori
otake****@fw*****
2006年 8月 2日 (水) 11:46:25 JST
大竹です。 mecab で自分のコーパスを使って学習させたいなら 64bit環境は必須に思います。 From: nomoto <nomot****@la*****> Subject: [mecab-users 150] コーパスからの学習について Date: Wed, 2 Aug 2006 01:55:02 +0900 > 野本です。 > mecab のメモリ不足の件についての報告です。 > > mecab の使用環境は > mecab-0.91 > mecab-jumandic-5.1 > また、今回は mecab-ipadic-2.7.0-20060408 も使って検証してみました。 > > mecab-jumandic-5.1 に8万行のコーパスを学習させると、 最終的に学習させたいコーパスの量はどれくらいですか? ちなみに、京大コーパスをipadicフォーマットにコンバートした先頭の 2882文(80017形態素 EOS含む)を学習するときに 私のところでは、 600MB 程度のメモリをプロセスが利用します。 また、model ファイルを書き出すときにはこれが、700MB以上に増えるところ までは確認しています。 # これは 64bit マシンの値です。32bitマシンでは、400MB->500MBくらいでした。 ちなみに wc -l *.csv は 692940 total です。 > >> メモリを増設すればこのエラーは解決するのでしょうか? > > >はい。解決します。 > > なので、早速メモリを増設し 512M から 1G にメモリを増設し再度8万行のコーパスを学習させてみました。 > ところが、また同じエラーが発生してしまいました。 > これはおかしいな。と思ったので、コーパスから学習している間、パソコンのメモリ使用状況を監視してやってみたのですが、8万行の場合に1Gのメモリをフルに使っていないにもかかわらず上記のようなエラーが発生してしまいます。 swap のサイズと使用状況、 OS や他のアプリケーションが使用しているメモリ量 によっては発生するように思います。 > また、juman5.0 の辞書を使うとメモリをかなり食うということなので、mecab-ipadic-2.7 を使ってコーパスを学習させてみたのですが、結果は mecab-jumandic-5.1 と同じ結果になりました。 最終的に何をしたいのかよくわからないのですが、 品詞体系は juman がいいのですか? # 学習につかうコーパスの体系を簡単にコンバートできるのでしょうか? # それとも、両方の体系でタグ付けしてある? ところで、 [mecab-users 92] から始まる野首さんの一連の メールはご覧になりましたか。 [mecab-users 141] で工藤さんも答えてらっしゃいますが、 どうしてもメモリが用意できないのなら分割学習もできる ようですが...(私はしたことありません) ---- 大竹清敬(おおたけ きよのり) otake [at] fw.ipsj.or.jp