Xrea.comさんのサーバでは、
■ルール
http://www.xrea.com/?action=rules
●禁止事項
10. ウェブ目的以外で利用すること。データ・プログラムを格納するのみ、FTPでダウンロード・ファイル交換するのみ、CGIの実験など。
のとおり、WWWサーバを単なるファイルサーバの目的で使用することは固く禁止されています。
WWWサーバにアップロードしたhtml以外のファイル(たとえば、拡張子 xls, doc, ppt, pdf)も検索を行い、かつ http/httpsプロトコルでURLにアクセスし閲覧するために、NAMAZUを最大限に活用する方法 Tipsをお知らせします。
s***サーバでは、Xrea.comさんにNamazu全文検索サービスに対応した文書フィルターをいくつかインストールしていただきましたので、下記のメディアタイプの使用可能です。
重要 ⇒ メディアタイプ pdf, xls, doc, pptを cronジョブでmknmz する時、shellscript に$PATH 必須です!!!
[参照ページ]
「cronからmknmzを実行するとPDFのインデックスが更新されない」
http://www.namazu.org/ml/namazu-users-ja/msg03159.html
「cron からの場合 pdftotext が実行されない」
http://www.namazu.org/ml/namazu-users-ja/msg03167.html
解決方法
http://www.namazu.org/ml/namazu-users-ja/msg03167.html
#!/bin/sh
PATH=/bin:/sbin:/usr/bin:/usr/sbin:/usr/local/bin:/usr/local/sbin:/usr/bin/X11:/usr/X11R6/bin:/usr/local/bin:/root/bin
export PATH
この2行 ⇒ エンコードutf8で表示 txt
すべてのPATHが現サーバにマッチしているか?確認していませんが、
$PATHなし
@@ Unsupported media type application/msword
@@ Unsupported media type application/excel
@@ Unsupported media type application/pdf
@@ Unsupported media type application/powerpoint
$PATH行の追記後
@@ Using msword.pl
@@ Processing ms-word file ... (using '/usr/local/bin/wvHtml')
@@ Using excel.pl
@@ Processing ms-excel file ... (using '/usr/local/bin/xlhtml')
@@ Using pdf.pl
@@ Processing pdf file ... (using '/usr/local/bin/pdftotext')
@@ Using powerpoint.pl
@@ Processing powerpoint file ... (using '/usr/local/bin/ppthtml')
となり、indexingできるようになります。
また、ユーザー別の設定のため、 /virtual/ユーザーID/.mknmzrc を利用することもできます。
mknmzrcの設定ファイル
http://www.namazu.org/doc/manual.html#mknmzrc
の読込み順序2 となる
.mknmzrc
をホームディレクトリの最上位
/virtual/ユーザーID/ # (Xrea.comさんのサーバ)
/~ # 一般的に /チルダ(Tilde)
に置いて、設定します。
注) Webに公開できる最上位のディレクトリのことをドキュメントルート
⇒ /virtual/ユーザーID/public_html/ # (Xrea.comさんのサーバ)
と呼びますが、このディレクトリではありません。
SSH接続し、制限シェルを使って
エントリー「Restricted Shell SSH2 WinSCP puTTYgen」
http://www.osbsd.net/2005/01/restricted_shel.html
など参照して下さい。
shellコマンドにて
cp /usr/local/etc/namazu/mknmzrc-sample ~/.mknmzrc
を実行します。
編集前のサンプル[mknmzrc-sample] mknmzrc-sample.txtをダウンロード (エンコード utf8)
作成されたドットファイル .mknmzrc をテキストエディタで編集します。
[20-30行目あたり]
$HTML_SUFFIX = "html?|[ps]html|html\\.[a-z]{2}"; # 行頭のコメントアウトを解除する。
$ALLOW_FILE = ".*\\.(?:$HTML_SUFFIX)|.*\\.txt|.*\\.pdf|.*\\.doc|.*\\.xls|.*\\.ppt|.*\\.rtf|.*\\.odt|.*\\.ods|.*\\.odp"; # 許可するファイルを列記し、行頭のコメントアウトを解除する。
※ また、cronジョブで実行する mknmz のオプション設定とindexing用ログ作成は下記のとおりです(Xrea.comさんのサーバ例)。
/usr/local/bin/mknmz ---verbose -a --use-chasen --indexing-lang=ja /virtual/ユーザ ID/public_html/検索対象ディレクトリ/ > /virtual/ユーザ ID/namazu/make_index.log
[s***サーバのnamazu稼動環境]
/virtual/ユーザーID/namazu$ mknmz -C
Loaded rcfile: /virtual/ユーザーID/.mknmzrc
System: linux
Namazu: 2.0.17
Perl: 5.008008
File-MMagic: 1.27
NKF: /usr/local/bin/nkf
KAKASI: /usr/local/bin/kakasi -ieuc -oeuc -w
ChaSen: /usr/local/bin/chasen -i e -j -F "%m "
情報の一部(数行)省略
Supported media types: (40)
Unsupported media types: (8) marked with minus (-) probably missing application in your $path.
application/excel: excel.pl
application/gnumeric: gnumeric.pl
application/ichitaro5: taro56.pl
application/ichitaro6: taro56.pl
- application/ichitaro7: taro7_10.pl
application/macbinary: macbinary.pl
application/msword: msword.pl
application/pdf: pdf.pl
- application/postscript: postscript.pl
application/powerpoint: powerpoint.pl
- application/rtf: rtf.pl
application/vnd.kde.kivio: koffice.pl
application/vnd.kde.kpresenter: koffice.pl
application/vnd.kde.kspread: koffice.pl
application/vnd.kde.kword: koffice.pl
application/vnd.oasis.opendocument.graphics: ooo.pl
application/vnd.oasis.opendocument.presentation: ooo.pl
application/vnd.oasis.opendocument.spreadsheet: ooo.pl
application/vnd.oasis.opendocument.text: ooo.pl
application/vnd.openxmlformats-officedocument.presentationml: msofficexml.pl
application/vnd.openxmlformats-officedocument.spreadsheetml: msofficexml.pl
application/vnd.openxmlformats-officedocument.wordprocessingml: msofficexml.pl
application/vnd.sun.xml.calc: ooo.pl
application/vnd.sun.xml.draw: ooo.pl
application/vnd.sun.xml.impress: ooo.pl
application/vnd.sun.xml.writer: ooo.pl
application/vnd.visio: visio.pl
application/x-apache-cache: apachecache.pl
application/x-bzip2: bzip2.pl
application/x-compress: compress.pl
- application/x-deb: deb.pl
- application/x-dvi: dvi.pl
application/x-gzip: gzip.pl
- application/x-js-taro: taro7_10.pl
application/x-rpm: rpm.pl
- application/x-tex: tex.pl
application/x-zip: zip.pl
- audio/mpeg: mp3.pl
message/news: mailnews.pl
message/rfc822: mailnews.pl
text/hnf: hnf.pl
text/html: html.pl
text/html; x-type=mhonarc: mhonarc.pl
text/html; x-type=pipermail: pipermail.pl
text/plain
text/plain; x-type=rfc: rfc.pl
text/x-hdml: hdml.pl
text/x-roff: man.pl
以上


最近のコメント