「XREA&CORE SUPPORT BOARD > 一般カテゴリー > 要望フォーラム」
「s253サーバのNamazu全文検索に文書フィルタ(excel,msword,pdf)のインストール・・・」にこれまでの経緯など記載しましたので、ご覧下さい。
http://sb.xrea.com/showthread.php?t=11699
Namazu 全文検索システムでは、
特定のメディアタイプについては、文書フィルターをサーバ内
/usr/local/bin/
にインストールする必要があります。
もし、未インストールないしフィルターが不足していると、
/usr/local/bin/mknmz --media-type='・・・
のオプションを下記のように全ファイル対象に変更しても、
/usr/local/bin/mknmz --all
ログは(例)
Unsupported media type (application/msword) skipped.
Unsupported media type (application/excel) skipped.
Unsupported media type (application/powerpoint) skipped.
となり、アップロードしたファイルを全く検索できません。
いろいろと検討したところ、
free office suite「OpenOffice.org」(フリーのオフィススイート「オープンオフィス・ドット・オルグ、オープンオフィス・オルグ」)を利用することで解決(もちろん代用ですが)しました。
本家サイトではversion 2.2 stable 安定版が公開されていますが、「OpenOffice.org日本ユーザー会」のホームページ
http://ja.openoffice.org/
などから、
日本語版 OpenOffice.org 2.1
をPCにダウンロード・インストールして、Microsoft® Word, Excel, Powerpoint で作成したファイルをそれぞれ、
拡張子
ワープロ .odt
表計算 .ods
プレゼンテーション .odp
で別名保存し、アップロードすると、
全文検索システム Namazu v2.0.17 との相性が抜群に優れており、MicrosoftやAcrobat関連ファイルの文書フィルターが全く機能していない現状(サーバ環境)であっても、全文検索でこれらのOpenDocumentフォーマット(Format ODF)は確実に文字化けなしに見事ヒットします。
最新ログ
@@ find_target finished: Tue Apr 3 12:12:02 2007
@@ Using ooo.pl # «- OpenOffice.org の文書フィルターです。
@@ Unsupported media type application/msword
@@ Unsupported media type application/excel
@@ Unsupported media type application/pdf
@@ Unsupported media type application/powerpoint
◆ NAMAZU はもちろん Cronで自動化しています。
エントリー「mt-search.cgi vs Namazu mknmz cron ジョブ」
http://www.osbsd.net/2005/01/mtsearchcgi_vs__8d8a.html
◆ 文書フィルター
http://www.namazu.org/doc/manual.html#doc-filter
※ エントリー「OpenOffice.org 2.1とMIMEタイプ」
http://www.osbsd.net/2007/04/openofficeorg_2_4663.html

コメント