PDF文章の検索
投稿者: soyogi | 投稿日時: 2012/5/1 19:02 | 閲覧: 12093回
はじめまして。
xoopsは触り始めたばかりなのですが、色々検索してて答えが見つからなかったので
ご存知の方がいらっしゃいましたら、ご教授願います。
XOOPS Cube Legacy 2.1.7 にて、サイト運営をしておりまして、ログインしての
会員公開コンテンツがあります。
会員側コンテンツにあるPDF文書の本文検索を行いたいのですが、xoops検索では
出来ないようなので、namazuやHyperEstraierを検討しています。
(会員側資料なのでGoogleカスタム検索は使えません)
PDF文書の本文検索は出来るようになったのですが、xoopsのコンテンツはDBに書かれて
いる為、全文検索エンジンのコンテンツ側のインデックスが作れません。
xoopsモジュールとしては無いようなので、コンテンツのインデックス作成は
DBと連携させるようなプログラムを書かないといけないでしょうか?
以下の、公式のニュースは見つけましたが、モジュールについての情報が見つけられ
なかったので、namazuやHyperEstraierでxoopsのインデックスを作る方法を
ご存知の方がおりましたら、教えていただけますでしょうか。
http://xoopscube.jp/news/452
よろしくお願い致します。
コメント(4)
新しいものから |
古いものから |
ネスト表示 |

Re: PDF文章の検索
投稿者: marine | 投稿日時: 2012/5/2 8:48
HyperEstraier に同封されているクローラーを使ったら、HyperEstraier単体で実現できるような気がしますけど・・・
(というか、私の会社のイントラネットで実際にそうしています。)
一度、お試しされてはいかがでしょうか?
(詳しい説明は、HyperEstraier のサイトに記載されているので、そちらをご覧下さい。)
ちなみに、http://xoopscube.jp/news/452 で書かれているプラグイン? は期待薄かと・・・
多分、開発者様が開発継続されていないように思います。
HyperEstraier を使って、xoops内で動いているように見せるには、noneなどのモジュールを使って、その中で HyperEstraier を表示すれば良いように思いますね。
Re: PDF文章の検索
marine 様
ご回答ありがとうございます。
クローラーで可能なのですね。
少し試してみたのですが、一点分からない事があるのですが、もしよろしければで構いませんので
教えて頂けますでしょうか。
テスト環境としてWindows上でApache、xoops、HyperEstraierを入れて試していますが、
WEBクローラーを行うとxoopsのインデックスは作成されません。
試しに、その環境から公開している外部サーバー(同コンテンツ内容)へWEBクローラーを動作させると、
xoopsのインデックスが作られました。
WEBクローラーの設定の問題なのでしょうか…
引用:
ちなみに、http://xoopscube.jp/news/452 で書かれているプラグイン? は期待薄かと・・・
多分、開発者様が開発継続されていないように思います。
そうでしたか。
ここは頑張って、自力で実装したいと思います。
Re: PDF文章の検索
soyogi 様
こんばんわ。早速のレスで、嬉しいですね。
お返事した甲斐があります。
引用:
テスト環境としてWindows上でApache、xoops、HyperEstraierを入れて試していますが、
WEBクローラーを行うとxoopsのインデックスは作成されません。
う~ん、これはなんでなのかな?
うちの場合は、Windows server 2003 で IIS6、XOOPS、HyperEstraier という組み合わせですが、上手く動作しています。
外部サイトなら上手くクロールができているようなので・・・
もしかして、そのXOOPSのURLを localhost から始まるものにしていたり・・・なんてないですよね?
余り答えになっていないと思いますけど、頑張ってくださいませ。
HyperEstraierは、google と比べても素晴らしいと思います。
良いサイトができあがるといいですね。
で、面白いのができたら、またフィードバックしていただければ幸いです。
Re: PDF文章の検索
marine 様
こちらこそ、ありがとうございます。
レスを見て「あ…」と。
localhostで接続していました(^^;;
mainfile.phpを直して、ローカルのxoopsクロールは、うまくいきました。
あまりスマートな方法(合ってるのか微妙です)ではないのかもしれませんが、同じような事で困ってる方が
居たらと思うので現時点での成功した情報を以下に。
HyperEstraierクローラは
・WEB上のドキュメント用の「estwaver」というコマンド
・ファイルシステム上のドキュメント用の「estcmd」というコマンド
とあると思いますが、
estwaverでのクロール → xoopsコンテンツ拾う PDF拾わない
estcmdでのクロール → xoopsコンテンツ拾わない PDF拾う
という感じでした。
これをWEB用にCGIで使おうとすると
各々のインデックス場所を「estseek.conf」の「indexname:」を書き換えないと使えませんでした。
そこで、先に
estwaverでxoopsのインデックスを作成。
次に、
estcmdでPDF等のインデックスを作るのですが、カタログ名をestwaverで作られたディレクトリの中の「_index」にします。
これで「estseek.conf」の「indexname:」は「_index」を指定する事により、xoopsコンテンツ及びPDFの検索が
CGIで出来るようになりました。
まだ、これでいいのか?は分からないので、これからもっと検証します。
marine 様、本当にありがとうございました。
閲覧している方でもし、上記の方法は違うよー等ありましたら訂正願います。