ホーム > フォーラム > 質問箱 > PDF文章の検索

PDF文章の検索
投稿者: soyogi | 投稿日時: 2012/5/1 19:02 | 閲覧: 10720回
soyogi

はじめまして。
xoopsは触り始めたばかりなのですが、色々検索してて答えが見つからなかったので
ご存知の方がいらっしゃいましたら、ご教授願います。

XOOPS Cube Legacy 2.1.7 にて、サイト運営をしておりまして、ログインしての
会員公開コンテンツがあります。

会員側コンテンツにあるPDF文書の本文検索を行いたいのですが、xoops検索では
出来ないようなので、namazuやHyperEstraierを検討しています。
(会員側資料なのでGoogleカスタム検索は使えません)

PDF文書の本文検索は出来るようになったのですが、xoopsのコンテンツはDBに書かれて
いる為、全文検索エンジンのコンテンツ側のインデックスが作れません。

xoopsモジュールとしては無いようなので、コンテンツのインデックス作成は
DBと連携させるようなプログラムを書かないといけないでしょうか?


以下の、公式のニュースは見つけましたが、モジュールについての情報が見つけられ
なかったので、namazuやHyperEstraierでxoopsのインデックスを作る方法を
ご存知の方がおりましたら、教えていただけますでしょうか。
http://xoopscube.jp/news/452


よろしくお願い致します。

コメント(4)

Re: PDF文章の検索 
投稿者: marine | 投稿日時: 2012/5/2 8:48
marine

HyperEstraier に同封されているクローラーを使ったら、HyperEstraier単体で実現できるような気がしますけど・・・
(というか、私の会社のイントラネットで実際にそうしています。)

一度、お試しされてはいかがでしょうか?
(詳しい説明は、HyperEstraier のサイトに記載されているので、そちらをご覧下さい。)

ちなみに、http://xoopscube.jp/news/452 で書かれているプラグイン? は期待薄かと・・・
多分、開発者様が開発継続されていないように思います。

HyperEstraier を使って、xoops内で動いているように見せるには、noneなどのモジュールを使って、その中で HyperEstraier を表示すれば良いように思いますね。
#21077 | | 返信する |
Re: PDF文章の検索 
投稿者: soyogi | 投稿日時: 2012/5/2 21:21 | 親コメント: #21077
soyogi

marine 様

ご回答ありがとうございます。

クローラーで可能なのですね。
少し試してみたのですが、一点分からない事があるのですが、もしよろしければで構いませんので
教えて頂けますでしょうか。

テスト環境としてWindows上でApache、xoops、HyperEstraierを入れて試していますが、
WEBクローラーを行うとxoopsのインデックスは作成されません。
試しに、その環境から公開している外部サーバー(同コンテンツ内容)へWEBクローラーを動作させると、
xoopsのインデックスが作られました。
WEBクローラーの設定の問題なのでしょうか…


引用:
ちなみに、http://xoopscube.jp/news/452 で書かれているプラグイン? は期待薄かと・・・
多分、開発者様が開発継続されていないように思います。

そうでしたか。
ここは頑張って、自力で実装したいと思います。
Re: PDF文章の検索 
投稿者: marine | 投稿日時: 2012/5/2 21:57 | 親コメント: #21078
marine

soyogi 様

こんばんわ。早速のレスで、嬉しいですね。
お返事した甲斐があります。

引用:
テスト環境としてWindows上でApache、xoops、HyperEstraierを入れて試していますが、
WEBクローラーを行うとxoopsのインデックスは作成されません。


う~ん、これはなんでなのかな?

うちの場合は、Windows server 2003 で IIS6、XOOPS、HyperEstraier という組み合わせですが、上手く動作しています。

外部サイトなら上手くクロールができているようなので・・・
もしかして、そのXOOPSのURLを localhost から始まるものにしていたり・・・なんてないですよね?

余り答えになっていないと思いますけど、頑張ってくださいませ。

HyperEstraierは、google と比べても素晴らしいと思います。
良いサイトができあがるといいですね。

で、面白いのができたら、またフィードバックしていただければ幸いです。
Re: PDF文章の検索 
投稿者: soyogi | 投稿日時: 2012/5/3 0:33 | 親コメント: #21079
soyogi

marine 様

こちらこそ、ありがとうございます。

レスを見て「あ…」と。
localhostで接続していました(^^;;
mainfile.phpを直して、ローカルのxoopsクロールは、うまくいきました。


あまりスマートな方法(合ってるのか微妙です)ではないのかもしれませんが、同じような事で困ってる方が
居たらと思うので現時点での成功した情報を以下に。

HyperEstraierクローラは
・WEB上のドキュメント用の「estwaver」というコマンド
・ファイルシステム上のドキュメント用の「estcmd」というコマンド
とあると思いますが、
estwaverでのクロール → xoopsコンテンツ拾う PDF拾わない
estcmdでのクロール → xoopsコンテンツ拾わない PDF拾う
という感じでした。

これをWEB用にCGIで使おうとすると
各々のインデックス場所を「estseek.conf」の「indexname:」を書き換えないと使えませんでした。

そこで、先に
estwaverでxoopsのインデックスを作成。
次に、
estcmdでPDF等のインデックスを作るのですが、カタログ名をestwaverで作られたディレクトリの中の「_index」にします。

これで「estseek.conf」の「indexname:」は「_index」を指定する事により、xoopsコンテンツ及びPDFの検索が
CGIで出来るようになりました。

まだ、これでいいのか?は分からないので、これからもっと検証します。
marine 様、本当にありがとうございました。


閲覧している方でもし、上記の方法は違うよー等ありましたら訂正願います。

    投票(0)

    新しいものから | 古いものから | RSS feed
     
    To Top