スポンサーサイト

一定期間更新がないため広告を表示しています

スポンサードリンク | - | | - | - | - | - |

辞書のjarファイルからの分離

ひさびさに、lucene-gosenの話題です。

lucene-gosenはjarファイルに辞書も同梱されており、jarファイルをクラスパスに取り込むだけで、
簡単に形態素解析器が利用できるといお手軽さがあり、便利です。

ですが、以前カスタム辞書の登録について記事を書いたように、カスタム辞書の登録は思いのほか手間がかかります。
lucene-gosenのソースをダウンロードし、lucene-gosenを一度コンパイルし、カスタム辞書のcsvファイルを作成し、カスタム辞書を取り込んだ辞書のバイナリを生成し、最後にjarファイルにするという作業です。(書くだけでいやになってきました。。。)
さらに作成したjarファイルをSolrや各プログラムに再度配布するという具合です。

そこで、辞書ファイルの外部化ができないかという話があがっていました。
すこし時間ができたので、山積みになっているissueを横目に軽く実装をしてpatchをissueにアップしました。

機能としてはごく簡単で、JapaneseTokenizerのコンストラクタに辞書のディレクトリ(*.senファイルのあるディレクトリ)を指定可能にしただけです。
また、JapaneseTokenizerFactoryでもdictionaryDir属性で指定可能になっています。
まずは、コンパイルの方法から。
trunkをSVNでcheckoutし、issueにあるpatchをダウンロードして適用します。(svnのチェックアウトについてはこちらを参考にしてください。)
$ cd lucene-gosen-trunk
$ patch -p0 --dry-run < lucene-gosen-separate-dictionary.patch
$ patch -p0 < lucene-gosen-separate-dictionary.patch

次に、antを実行し辞書なし版のjarファイルをビルドします。
$ ant nodic-jar
これで、dictディレクトリに「lucene-gosen-1.2-dev.jar」というjarファイルが出来上がります。
(※ただし、これだけでは動作しないので、別途辞書のコンパイルは必要です。)

次に、指定の仕方です。JapaneseTokenizerのコンストラクタは第3引数に辞書のディレクトリ(フルパスor実行ディレクトリからの相対パス)を渡すだけです。
  Tokenizer tokenizer = new JapaneseTokenizer(reader, compositeTokenFilter, dictionaryDir);

最後に、Solrのtokenizerタグでの指定方法です。
    <fieldType name="text_ja" class="solr.TextField" positionIncrementGap="100">
    <analyzer>
        <tokenizer class="solr.JapaneseTokenizerFactory" dictionaryDir="/hoge/dictionarydir"/>
    </analyzer>
    </fieldType>


以上が、簡単な設定の仕方です。なお、辞書を内包したjarファイルでもdictionaryDirは利用可能です。優先度としては、dictionaryDirが指定されている場合はdictionaryDirを探索しファイルがなければRuntimeExceptionです。指定がnullもしくは空文字の場合はjarファイルの辞書の読み込みを行います。


次に利用シーン、制限事項についてです。
利用シーンとしてはカスタム辞書を定期的にメンテナンス(追加更新)しながらSolrを運用するというのが想定されます。定期的に辞書の再読み込みをしたい場合です。
利用方法は次のようになります。
  • Solrのマルチコア構成を利用する
  • 各コアごとにlib/lucene-gosen-1.2-dev.jarを用意
  • 辞書の更新が終わったらコアのRELOADを実施

コアをリロードすることで、lucene-gosenが辞書を再読み込みようになります。(現状でも再読み込みするが、jarファイルを再配置しないといけない。)あとは、定期的に辞書ファイルを更新、再構築しコアをリロードすれば、 リロード後に新しい辞書が利用できるという具合です。
(もちろん、辞書更新後に入った単語は辞書更新以前に作成したインデックスにはでてこないですが。。。)
また、コアごとにdictinaryDirを別々に指定することも可能です。
制限事項は次のようになります。
  • マルチコアの設定でsharedLibにlucene-gosenのjarを含まない
  • 同一コア内で異なるdictinaryDirの指定はできない

以上が、辞書の外部ファイル化のパッチについてでした。
少しテストケースを追加したら、trunkにコミットする予定です。興味があれば、パッチを利用してみてください。

SyntaxHighlighterの導入をしないとソースコードが見にくいですね。。。導入を検討しないと。。。どこかにWebサーバ用意しないとダメかも

johtani | lucene-gosen | 10:26 | comments(0) | trackbacks(0) | - | - |

NAIST-JDic for MeCabのPreprocessorの実装に関する備忘録

忘れてしまうので、備忘録を残しておきます。
一応、ソースには少しずつコメントをいれてはいるのですが。
私は残念ながら、自然言語処理は初心者に毛が生えた程度(現在、鋭意勉強中)で、対応方法に問題があるかもしれません。気づいた方はコメントをいただけると助かります。

辞書ファイルについて

NAIST-JDic for MeCabの辞書ファイルは以下の構成になっています。

ファイル名 メモ
char.def 文字種の設定
feature.def 辞書学習用の設定?
left-id.def左文脈IDのマスタ(左文脈ID、品詞情報)
matrix.def 連接コスト表(前件文脈ID,後件文脈ID,連接コスト)
pos-id.def 品詞IDのマスタ(品詞情報、ID)
rewrite.def rewrite情報(左右文脈に出現した場合のそれぞれの品詞情報のrewriteルール。辞書学習で主に利用)
right-id.def 右文脈IDのマスタ(右文脈ID、品詞情報)
unk.def 未知語の品詞情報(文字種ごとに未知語のコスト、左右文脈ID、品詞情報が記載されている)
naist-jdic.csv 単語辞書(単語、左右文脈ID、単語コスト、品詞情報、読みなど記載)

現時点では、MeCabDicPreprocessorでは以下のファイルを利用しています。
  • left-id.def
  • matrix.def
  • right-id.def
  • naist-jdic.csv

上記以外のファイルは現時点では利用しない実装になっています。
ただし、rewrite.def、unk.def、char.defについては利用したほうがよりMeCabに近い結果が得られるような気がしています。(特に文字種ごとのコストを利用することは有効と思われます。)


Preprocessorでの処理について

lucene-gosenはSenの後継であり、MeCabの昔のバージョンを移植したものがベースとなっています。
lucene-gosenとMeCabの現時点での実装の大きな違いとして、連接コスト表の違いがあります。
ここからは憶測になってしまいますので、注意してください。(論文を探せばどこかにこの実装の変化の過程が記載してあるかもしれないですが、まだ探していません、すみません。)
過去のMeCabではChaSen向けの辞書を利用していました。
ChaSenでは連接コスト表が3つの項(前の前、前、後)から構成されていました。(n項まで定義可能らしい)
ですので、lucene-gosenのViterbiアルゴリズムの引数も3つのノードが引数となっています。
lucene-gosen向けの連接コスト辞書も同様の作りになっています。
一方、現在のMeCabは先ほど書いたとおり、matrix.defでは2項の連接コスト表(前、後)となっています。この違いを保管するために、Preprocessorでは、matrix.defを3項にするために一番左(前の前)については任意の品詞を採用できるように「*,*,*,*,*,*,*」のみを設定しています。

現時点では、Preprocessorの出力である中間ファイルを共通の形式に出力することで、DictinaryBuilder以降の処理に変更を加えることなくNAIST-JDic for MeCabへの対応を行う形を取りました。まずは使えるようにするのが先かと思いまして。
ただ、MeCabの辞書の構成から考えると中間ファイルに落とし込む処理に無駄があると感じています。
matrix.defでせっかく、IDによる連接コスト表を構成しているのに、IDを品詞情報の文字列に戻したconnection.csvを生成していますので。

ということで、備忘録でした。
あとは、テストをどうするか(正解をどう考えるか)なども考える必要があります。現時点での悩みの種です。。。アイデア募集中です。
johtani | lucene-gosen | 10:06 | comments(0) | trackbacks(0) | - | - |

lucene-gosen 1.1.1リリース

lucene-gosen 1.1.1をリリースしました。
先日お知らせしたバグ修正を取り込んだjarを用意いしました。

ダウンロードはこちらから
johtani | lucene-gosen | 20:00 | comments(0) | trackbacks(0) | - | - |

compositePOS(CompositeTokenFilter)のバグ修正

以前、こちらで話題に上がっていた「未知語」に関するcompositePOSのエラーの件を調査しました。(Twitterでも流れてました。)

次のような条件の場合にエラーが発生するようです。

  • compositePOSの設定に構成品詞として「未知語」が指定されたエントリが存在する。
  • 未知語が連続して出現する文字列をanalyzeする。(例:ニンテンドーDSi)

ということで、trunkに修正版をコミットしました。
Issueはこちら。

※お茶をにごす感じの日記になってしまいました。次回はマシな記事を書く予定です。。。


6/29追記:恥ずかしいバグをいれこんでしましました。。。
ということで、trunkに再度修正版をコミットしました。
johtani | lucene-gosen | 12:36 | comments(0) | trackbacks(0) | - | - |

NAIST-JDic for MeCab対応版(仮実装)

lucene-gosenのtrunkbranches/impl-mecab-dicにNAIST-JDic for MeCabの辞書を利用出来るPreprocessorをコミットしました。

ビルド方法は次のとおりです。
$ cd lucene-gosen-trunk
$ ant -Ddictype=naist-mecab

現在のstable版で利用できる辞書は「ipadic」「naist-chasen」の2種類でした。
以前の記事に書きましたが、naist-chasenの辞書でも2008年の更新となっています。
今回コミットしたPreprocessorではNAIST-JDicのサイトで公開されているMeCab向けの辞書である「mecab-naist-jdic-0.6.3-20100801」を利用出来るようになります。

ただし、lucene-gosenは昔のMeCabから派生したSenをもとにしていますので、最新のMeCabが持っている機能は
利用できません。
MeCab向けの辞書のうち一部のもの(matrix.def、naist-jdic.csvなど)を利用してlucene-gosen向けの辞書の中間ファイルを生成する仕組みになっています。

まだ、仮実装版ということで、とりあえず動作するバージョンとなっています。
まだテストが不十分ですが。。。
利用してみて問題などあれば、lucene-gosenのissueに登録していただくか、コメントを頂ければと思います。

※更新が週1回に落ちてきてるので、もう少し頑張らねば。

続きを読む >>
johtani | lucene-gosen | 07:38 | comments(0) | trackbacks(0) | - | - |

compositePOSの利用例(naist-chasenでの英単語の出力方法例)

前回、naist-chasenではアルファベットが別々の単語としてanalyzeされてしまうという話をしました。

ただ、これだと、英単語が含まれた文章を形態素解析すると、英単語がアルファベット単位に区切られてしまい、 単語の意味をなさなくなってしまいます。

lucene-gosenでは、この問題に対応するための方法が提供されています。
CompositeTokenFilter(compositePOS)という機能です。

文字通り「トークン」を「合成」するための機能になります。

利用するためには以下の作業が必要です。(※Solrでのの利用方法を説明します。)

  1. compositePOS設定ファイル(composite_pos_ja_naist-chasen.txt)の用意
  2. schema.xmlのtokenizerにcompositePOS設定を追加

まずは、compositePOS設定ファイルの記述方法について説明します。
compositePOS設定ファイルには1行につき1つのcompositeの設定を記述していきます。
記述方法は次のようになります。品詞名を半角スペース区切りで記述します。
連結品詞名 構成品詞名1 構成品詞名2 ... 構成品詞名n
それぞれは次のような意味を持ちます。
  • 連結品詞名:合成したあとのトークンの品詞として出力する品詞名
  • 構成品詞名:合成したい品詞名(スペース区切りで複数指定可能)

TokenizerのcompositePOS機能は、構成品詞に定義されたトークンが連続して出力された場合に、 結合(合成)して1つのトークン(連結品詞名)として出力します。
また、以下のように構成品詞名が1種類で連続品詞名としても利用する場合は次のように省略した記述も可能です。

以下にcompositePOSファイルの設定例を上げます。
※なお、現時点では#によるコメント機能はありません。ので、記述した内容がそのまま利用されます。
名詞-数 
未知語 記号-アルファベット

1行目は連続した数字を1つのトークン(名詞-数)として出力する設定です。(連続品詞名=構成品詞名として省略して記述した例になります。)
2行目は連続したアルファベットを1つのトークン(未知語)として出力する設定です。

次にSolrのschema.xmlにlucene-gosenのtokenizerを利用するフィールドタイプの設定を記述します。
$SOLR_HOME/conf/schema.xmlに以下を追加します。<types>〜</types>タグの間に記載します。
...
 <types>
 ...

    <fieldType name="text_ja" class="solr.TextField" positionIncrementGap="100">
    <analyzer>
        <tokenizer class="solr.JapaneseTokenizerFactory" compositePOS="composite_pos_ja_naist-chasen.txt"/>
    </analyzer>
    </fieldType>
 </types>
...

重要なのはtokenizerタグのcompositePOS属性になります。ここに1.で記載したファイルを指定します。指定したファイルはschema.xmlと同じディレクトリに配置します。
以上が利用するための設定です。

前回同様、「このComputerは、10回に1回の割合で起動中に青い画面が表示されます。」という文章をanalyze画面で解析した結果を示します。
compositePOS設定済み
とまぁ、記事を書きましたが、すでにこちらで出ている話ですね。。。
みなさん手が早くて困ってますw

ちなみに、上記の設定の場合、「100,000」や「3.14」といった文字列は「100」「,」「000」という形で出力されてしまいます。これらも数字とみなしたい場合は「名詞-数 名詞-数 記号-句点 記号-読点」という設定で1つのトークンとして出力されます。
ただし、「。」も「記号-句点」なので注意が必要です。
※なお、今回はlucene-gosen-1.1.0、Solr3.2を利用した例になっています。
johtani | lucene-gosen | 00:00 | comments(0) | trackbacks(0) | - | - |

lucene-gosen 1.1.0 リリース

lucene-gosenの1.1.0がリリースされました。

大きな目玉はJapaneseTokenizerが出力する形態素に関するデータを遅延ロードすることで、パフォーマンスの改善を行ったことです。
詳しくは関口さんのブログで実測されてます。さすが、早い。。。
あと、先日リリースされたLucene/Solr 3.2への対応も行われています。

lucene-gosen-1.1.0のダウンロードはこちらから。
うーん、中身がない記事だ。。。
johtani | lucene-gosen | 12:08 | comments(0) | trackbacks(0) | - | - |

lucene-gosenのTokenFilterたち

lucene-gosenをSolr/Luceneで利用する場合、TokenFilterを利用してTokenizerが出力したToken対してさまざまな処理(Tokenに対する正規化や展開など)を追加することが可能です。

今回は現在(ver. 1.0.1)用意されているTokenFilterについて説明します。
以下はTokenFilterの一覧です。
「フィルタ名」にはSolrのschema.xmlで記述するクラス名を書いてあります。

フィルタ名(Factory名) 概要
solr.JapaneseWidthFilterFactory 全角のASCII文字を半角に、半角カタカナを全角にするフィルタ。例:「Computer」->「Computer」
solr.JapanesePunctuationFilterFactory 区切り文字、記号などを除外するフィルタ。※1
solr.JapanesePartOfSpeechStopFilterFactory 設定ファイルに記載した品詞に該当するTokenを除外するフィルタ。ファイルは「tags="ファイル名"」とfilterに記載。なお、ここで記述する品詞とはanalysis画面に表示される「partOfSpeech」の完全一致となります。
solr.JapanesePartOfSpeechKeepFilterFactory 設定ファイルに記載した品詞に該当するToken"以外"を除去フィルタ。ファイルは「tags="ファイル名"」とfilterに記載。なお、ここで記述する品詞とはanalysis画面に表示される「partOfSpeech」の完全一致となります。
solr.JapaneseBasicFormFilterFactory Tokenを基本形に変換するフィルタ。例:「悲しき」->「悲しい」
solr.JapaneseKatakanaStemFilterFactory カタカナの長音(ー)の正規化フィルタ。4文字以上のカタカナのみの文字列の最後の長音(ー)を除去した文字列に変換します。例:「コンピューター」->「コンピュータ」、「コピー」->「コピー」


上記のTokenFilterをJapanizeTokenizerを利用するフィールドタイプに設定することで 各フィルタによる機能が有効になります。
schema.xmlの記載に関する詳細についてはこちらを参考にしてください。


※1 Characterクラスの以下の定数に相当する文字が。SPACE_SEPARATOR、LINE_SEPARATOR、PARAGRAPH_SEPARATOR、CONTROL、FORMAT、DASH_PUNCTUATION、START_PUNCTUATION、END_PUNCTUATION、CONNECTOR_PUNCTUATION、OTHER_PUNCTUATION、MATH_SYMBOL、CURRENCY_SYMBOL、MODIFIER_SYMBOL、OTHER_SYMBOL、INITIAL_QUOTE_PUNCTUATION、FINAL_QUOTE_PUNCTUATION
johtani | lucene-gosen | 16:23 | comments(0) | trackbacks(0) | - | - |

辞書とカスタム辞書について

辞書の特性について

現在lucene-gosenでは以下の2つの辞書が利用可能です。
簡単に違いについて説明します。
IPAdicの辞書について

  • バージョン:2.6.0(※IPAdicとして公開されている最新は2.7.0)
  • 最終更新日:2003/06/19
  • 登録単語数:約24万語
  • NAIST-Jdicができたためか、更新されていない

NAIST-Jdic-for-ChaSenの辞書について

  • バージョン:0.4.3(※NAISTとして公開されている最新はMeCab用の辞書0.6.3)
  • 最終更新日:2008/07/07
  • 登録単語数:約28万語
  • IPAdicの後継として整備。品詞の定義など大まかな仕様は共通。
  • IPAdicと異なり、アルファベットや数字が1文字ずつ単語として登録されている。

IPAdicとNAIST-Jdicで大きな違いはアルファベットと数字の扱いについてです。
次のような文章をそれぞれの辞書で解析した結果は次のようになります。(SolrのField Analysisの画面です。思いの外大きいのでサムネイルのみですが。)
「このComputerは、10回に1回の割合で起動中に青い画面が表示されます。」
○IPAdicの場合
IPAdicの解析結果
○NAIST-Jdicの場合
NAIST-Jdicの解析結果
「Computer」と「10」という単語の区切り方が異なることがわかります。
この違いは、辞書のエントリが異なるために発生します。
NAIST-Jdicでは、数字(例:「1」)やアルファベット(例:「a」)が個々のエントリで登録されているため、分割された単語として認識されます。
※この問題への対応方法はまた後日。

カスタム辞書について

実際のデータを形態素解析したい場合、辞書に存在しない単語を登録して、1単語として認識させたい場合があります。(固有名詞など)
このような場合にカスタム辞書を利用することで、新しい単語を辞書に登録することが可能になります。
カスタム辞書を利用する手順としては次のようになります。
  1. カスタム辞書ファイルの作成
  2. 作成した辞書ファイルを利用したjarファイルの生成

まずは辞書ファイルの作成についてです。
以下では、naist-chasen(NAIST-Jdic)の辞書を例として説明します。(ディレクトリの違いだけで、IPAdicでも同じ方法でOKです。)

lucene-gosenでは辞書のコンパイルに2つのフェーズが存在します。

  1. gosen用辞書を生成する前処理(中間csvファイルの生成)
  2. gosen用バイナリ辞書の生成

カスタム辞書は1の出力の形式(=中間csvファイル=dictionary.csv)にあわせたCSVファイルとして作成します。
CSVの各カラムは次のような意味を持っています。
単語 単語の生起コスト 品詞 品詞細分類1 品詞細分類2 品詞細分類3 活用型 活用形 基本形 読み 発音

3カラム目以降は「素性(そせい?)」と呼ばれる項目です。ipadic、naist-jdicでは「品詞」「品詞細分類1」「品詞細分類2」「品詞細分類3」「活用型」「活用形」「基本形」「読み」「発音」となります。
※「見出し語」「形態素生起コスト」「素性」と呼ばれる項目を表形式にする。
厳密な品詞の体系に関してはIPAdicやNAIST-Jdicのサイトをご覧ください(説明できるレベルにはまだまだなっていないので。。。)

今回は、固有名詞(人名、地名など)を追加するという例でカスタム辞書について説明します。
固有名詞として「達川」という人名を追加してみましょう。
まずは、次のようなエントリをもつ「custom-dic.csv」ファイルを作成します。ファイルはUTF-8で保存してください。
コストはすでにあるエントリで似たようなエントリのコストを真似します。(今回は固有名詞,人名で似ているものを採用)。ちなみに、コストは小さいほど単語として出てきやすくなります。
※カスタム辞書にはSenで利用していたものが利用できます。

"達川",2245,名詞,固有名詞,人名,名,*,*,"達川","タツカワ","タツカワ"


上記ファイルを、先日紹介した$LUCENE-GOSEN/dictionary/ディレクトリにコピーします。
では、カスタム辞書を含んだlucene-gosenのjarを作成しましょう。
カスタム辞書のビルドは$LUCENE-GOSEN/dictionary/で行います。
また、カスタム辞書の指定はCSVファイル名をantの引数で指定します。次がコマンドの例になります。

$ cd lucene-gosen-trunk
$ cd dictionary
$ ant -Ddictype=naist-chasen clean-sen
$ ant -Ddictype=naist-chasen -Dcustom.dics="../custom-dic.csv" compile
$ cd ..
$ ant -Ddictype=naist-chasen

上記コマンドの例で"clean-sen"というタスクを実行しています。これは、すでに出来上がっているgosen用のバイナリ辞書を削除するタスクになります。すでにgosen用の辞書が作成されている場合には辞書の再生成が行われないためです。
また、複数のファイルを利用したい場合は-Dcustom.dics="custom-dic.csv custom-dic2.csv"という形でスペース区切りでファイル名を記述すればOKです。

カスタム辞書を適用する前と適用後の違いは次のとおりです。
適用前
カスタム辞書適用前
適用後
カスタム辞書適用後

簡単ですが、以上がカスタマイズ辞書を利用する方法でした。
ちなみに、この記事を書く前にすでにカスタム辞書の件を書いているブログがありました。。。こちらも参考にしてください。

今回の例でいくつかSolrのanalysis画面を利用して説明してきました。Solrでのlucene-gosenの利用方法についてはまた後日記載したいと思います。
※参考までに。Solrでの利用方法はこちらにも記載してあります。
また、IPAdicなどの辞書について記載のある書籍を見つけましたので、参考になれば。

評価:
---
明治書院
¥ 2,520
(2011-05)
コメント:現状ある、形態素解析のアプリ(JUMAN、ChaSen、MeCab)について辞書の説明などが記載してあり、役に立ちそうです。

johtani | lucene-gosen | 17:16 | comments(0) | trackbacks(0) | - | - |

ソースからのビルドと構成

今回はソースのダウンロードとビルドについてです。

最新版のソースを利用したり、JavaDocを見たい場合はソースをダウンロードしてからビルドすることになります。
ソースのダウンロードからビルドまでの手順について説明します。

まずはソースのダウンロードです。
$ mkdir ~/work
$ cd work
$ svn co http://lucene-gosen.googlecode.com/svn/trunk/ lucene-gosen-trunk
$ cd lucene-gosen-trunk

ダウンロードしたソースは次のようなディレクトリ構成です。
.classpathEclipse用ファイル
.projectEclipse用ファイル
.settingsEclipse用ファイル
AUTHORS作者のリスト(Sen、GoSen)
CHANGES.txtlucene-gosenにおける更新履歴
COPYING.LGPLライセンス
README.txtReadme
build.xmlAntのビルドファイル
dictionary辞書コンパイル用ディレクトリ
docsAPIドキュメント用ディレクトリ
libライブラリ
prettifyGoogle Code Prettify用ディレクトリ(APIドキュメントでの色づけ用)
srcソースコード

また、辞書やソースのコンパイルにはAntを利用します。
通常利用するAntのタスクには次のようなものがあります。
cleanプロジェクトのクリーンアップ
build-dic辞書のコンパイル(辞書のダウンロードも行う)
jarjarファイル生成
dist配布パッケージの生成(2つのjarファイル生成)
javadocJavaDocの生成

jarファイルの生成までの大まかな流れは「javaソースのコンパイル」〜「辞書のダウンロード」〜「辞書のプレコンパイル」〜「辞書のコンパイル」〜「jarファイルの生成」となります。
Antのタスク以外にjarファイルを生成する場合に利用するオプションは以下の通りです。
-Dproxy.hostプロキシのホスト
-Dproxy.portプロキシのポート
-Ddictype辞書の指定(指定可能なものは次の通り。naist-chasen、ipadic)

以下はNaist-Jdicのjarファイルを生成するコマンドの実行例になります。プロキシサーバを利用する環境の場合は-Dproxy.hostと-Dproxy.portも指定してください。(※認証が必要なプロキシの場合はAntのビルドファイルを修正する必要が出てきます。)
$ ant -Ddictype=naist-chasen

jarファイルはdistディレクトリに生成されます。
これで、jarファイルが利用できるようになります。

次回は、ipadicとNaist-chasenの辞書の違いとカスタム辞書を利用する方法について書こうと思います。
johtani | lucene-gosen | 17:34 | comments(0) | trackbacks(0) | - | - |
3/4PAGES | << >> |

09
--
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
--
>>
<<
--
PR
RECOMMEND
[改訂新版] Apache Solr入門 ~オープンソース全文検索エンジン (Software Design plus)
[改訂新版] Apache Solr入門 ~オープンソース全文検索エンジン (Software Design plus) (JUGEMレビュー »)
大谷 純,阿部 慎一朗,大須賀 稔,北野 太郎,鈴木 教嗣,平賀 一昭
Solr 4系に対応した改訂版を出しました!興味ある方はぜひ。
RECOMMEND
Apache Solr入門 ―オープンソース全文検索エンジン
Apache Solr入門 ―オープンソース全文検索エンジン (JUGEMレビュー »)
関口 宏司,三部 靖夫,武田 光平,中野 猛,大谷 純
RECOMMEND
RECENT COMMENT
  • ポモドーロ回してます。(ポモドーロテクニック入門読みました)
    おーたに (05/07)
  • Lucene 4.3.0のChangesにあるChanges in backwards compatibility policyが気になったので訳してみた。
    おーたに (04/26)
  • メインMBAをMountain Lionにアップデート(いろいろ確認中)
    おーたに (09/04)
  • メインMBAをMountain Lionにアップデート(いろいろ確認中)
    m_nori (09/03)
  • メインMBAをMountain Lionにアップデート(いろいろ確認中)
    おーたに (09/03)
  • メインMBAをMountain Lionにアップデート(いろいろ確認中)
    ho4kawa (09/03)
  • メインMBAをMountain Lionにアップデート(いろいろ確認中)
    おーたに (09/03)
  • メインMBAをMountain Lionにアップデート(いろいろ確認中)
    まろか (09/03)
  • Lucene/Solr 3.6.0リリース / 「Apache Solr入門」のサンプルのKuromojiとlucene-gosen対応(1章)
    おーたに (08/07)
  • Lucene/Solr 3.6.0リリース / 「Apache Solr入門」のサンプルのKuromojiとlucene-gosen対応(1章)
    moco (08/07)
RECENT TRACKBACK
MOBILE
qrcode
OTHERS