<< 「7つの言語 7つの世界」 Io 1日目 | top | JJUG CCC 2011 Fallに参加してきました。 >>

スポンサーサイト

一定期間更新がないため広告を表示しています

スポンサードリンク | - | | - | - | - | - |

lucene-gosenで文章からキーワード抽出(イレギュラー?)

昨日、文章から特定の単語(リストあり)を探したいという話を聞き、lucene-gosenでもできるねぇという話になりました。
まぁ、考えてみればごくごく当たり前なのですが。。。(その筋の方たちにしてみれば常識なのかもしれないですが。。。)
一応やってみたので、こんなこともできるなという一例ですということで、記録を残しておきます。

今回の例文として野田首相の所信表明演説の一部を活用させてもらいます。
単語のリストは次のようにします。
  • 内閣総理大臣
  • 正心誠意
  • 東日本
  • 日本

今回も結果をわかりやすくするためにSolrのanalysis画面を利用します。
作業手順は以下のとおり。
  1. dictionary.csvの編集
  2. 辞書のコンパイル
  3. fieldTypeの定義(Solrのschema.xmlの設定)
  4. 文章からキーワード抽出(Solrのanalysis画面)

1.dictionary.csvの編集
今回はnaist-chasenディレクトリで作業します。
なお、今回利用するlucene-gosenはここで紹介した辞書分離バージョンです。(はやくtrunkにコミットせねば。。。)
dictionary.csvを先ほど上げた単語だけのエントリに変更します。
キーワードだけを抽出したいので、他の単語は必要ないからです。

"内閣総理大臣",1,名詞,一般,*,*,*,*,"内閣総理大臣","ナイカクソウリダイジン","ナイカクソウリダイジン"
"正心誠意",1,名詞,一般,*,*,*,*,"正心誠意","セイシンセイイ","セイシンセイイ"
"東日本",1,名詞,一般,*,*,*,*,"東日本","ヒガシニホン","ヒガシニホン"
"日本",1,名詞,一般,*,*,*,*,"日本","ニホン","ニホン"

2.辞書のコンパイル
先ほど作成した辞書をコンパイルし、lucene-gosen用バイナリ辞書を作成します。

 $ cd $LUCENE_GOSEN_HOME¥dictionary
 $ ant -Ddictype=naist-chasen clean-sen compile 

3.fieldTypeの定義(Solrのschema.xmlの設定)
Solrのschema.xmlにlucene-gosenを利用するフィールドタイプを定義します。
追加するのは次の通り

    <fieldType name="text_ja" class="solr.TextField" positionIncrementGap="100" autoGeneratePhraseQueries="false">
      <analyzer>
        <tokenizer class="solr.JapaneseTokenizerFactory" compositePOS="compositePOS.txt" dictionaryDir="keyword-dic"/>
        <filter class="solr.JapanesePartOfSpeechKeepFilterFactory" tags="keeptags_ja.txt" enablePositionIncrements="true"/>
      </analyzer>
    </fieldType>

また、ここで定義しているcompositePOS.txt、keeptags_ja.txtは次のようになります。

compositePOS.txt
未知語

keeptags_ja.txt
名詞-一般

未知語がバラバラに出現しないようにして見やすくするためと、必要な単語(今回は「名詞-一般」しか利用しないため。)だけを抽出したいための設定です。

4.文章からキーワード抽出(Solrのanalysis画面)
あとは、analysis画面で解析して見るだけになります。
キーワード抽出結果
ということで、辞書に登録された単語だけが抽出されてますね。
この例ではインデックスに登録となりますが。
ただし、「東日本」「日本」のような一部を含む単語の場合、「東日本」が見つかった場合は「日本」は抽出されません。
あくまでも、ベストな解が見つかるのみという形です。
すべての単語を出したい場合はもう少しやり方を考えたほうがいいかもしれません。
(まぁ、このやり方でキーワードを抽出するかも考えたほうがいいかもしれませんが。。。)
最近、頭が硬くなってきてるなぁと実感してしまいました。まぁ、こんな使い方もあるかなぁと。
もっと頭を柔らかくして問題を解けるけるようになりたいなぁと。
johtani | lucene-gosen | 12:17 | comments(0) | trackbacks(0) | - | - |

スポンサーサイト

スポンサードリンク | - | 12:17 | - | - | - | - |
Comment









Trackback
URL:

09
--
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
--
>>
<<
--
PR
RECOMMEND
[改訂新版] Apache Solr入門 ~オープンソース全文検索エンジン (Software Design plus)
[改訂新版] Apache Solr入門 ~オープンソース全文検索エンジン (Software Design plus) (JUGEMレビュー »)
大谷 純,阿部 慎一朗,大須賀 稔,北野 太郎,鈴木 教嗣,平賀 一昭
Solr 4系に対応した改訂版を出しました!興味ある方はぜひ。
RECOMMEND
Apache Solr入門 ―オープンソース全文検索エンジン
Apache Solr入門 ―オープンソース全文検索エンジン (JUGEMレビュー »)
関口 宏司,三部 靖夫,武田 光平,中野 猛,大谷 純
RECOMMEND
RECENT COMMENT
  • ポモドーロ回してます。(ポモドーロテクニック入門読みました)
    おーたに (05/07)
  • Lucene 4.3.0のChangesにあるChanges in backwards compatibility policyが気になったので訳してみた。
    おーたに (04/26)
  • メインMBAをMountain Lionにアップデート(いろいろ確認中)
    おーたに (09/04)
  • メインMBAをMountain Lionにアップデート(いろいろ確認中)
    m_nori (09/03)
  • メインMBAをMountain Lionにアップデート(いろいろ確認中)
    おーたに (09/03)
  • メインMBAをMountain Lionにアップデート(いろいろ確認中)
    ho4kawa (09/03)
  • メインMBAをMountain Lionにアップデート(いろいろ確認中)
    おーたに (09/03)
  • メインMBAをMountain Lionにアップデート(いろいろ確認中)
    まろか (09/03)
  • Lucene/Solr 3.6.0リリース / 「Apache Solr入門」のサンプルのKuromojiとlucene-gosen対応(1章)
    おーたに (08/07)
  • Lucene/Solr 3.6.0リリース / 「Apache Solr入門」のサンプルのKuromojiとlucene-gosen対応(1章)
    moco (08/07)
RECENT TRACKBACK
MOBILE
qrcode
OTHERS