« 2010March »
Su Mo Tu We Th Fr Sa
  1 2 3 4 5 6
7 8 9 10 11 12 13
14 15 16 17 18 19 20
21 22 23 24 25 26 27
28 29 30 31      
このBlogについて
このブログはCMScomが公開する、公式ブログです。 Zope/Ploneのことや、Pythonのことなどを掲載しています。 また、個人的な内容も一部含まれております。
最近のエントリ
第9回開発合宿の成果 terada 2010年03月14日
Zope/Plone開発勉強会(2009年2月)の報告 terada 2010年02月25日
Zope/Plone開発勉強会(合宿バージョン)の報告2 terada 2010年02月15日
Zope/Plone開発勉強会(合宿バージョン)の報告1 terada 2010年02月01日
Ploneの英語のメーリングリスト紹介 terada 2010年01月29日
2010年も既に半月経過 terada 2010年01月17日
PloneでMS-Officeファイルを検索対象にするプロダクト公開 terada 2009年12月18日
Plone研究会&Ploneパーティー2009 terada 2009年12月10日
Plone3の日本語検索とメールバグ terada 2009年12月08日
Pythonスクリプトを使って便利な機能を実装 terada 2009年12月04日
MeCabで日本語読みを出力 on Windows terada 2009年12月03日
Plone3のメールバグ解消プロダクト公開 terada 2009年11月23日
Plone Conference 2009 の報告(4) terada 2009年11月18日
Plone Conference 2009 の報告(3) terada 2009年11月18日
Plone Conference 2009 の報告(2) terada 2009年11月10日
Plone Conference 2009 の報告(1) terada 2009年11月09日
Plone Conference 2009 がはじまりました terada 2009年10月28日
Plone Conference 2009 へ(2) terada 2009年10月23日
Plone Conference 2009 へ terada 2009年10月22日
【終了】Zope/Plone開発勉強会 #4 terada 2009年10月21日
最近のコメント
Re:第9回開発合宿の成果 t2y 2010年03月14日
Re:PloneでMS-Officeファイルを検索対象にするプロダクト公開 NK 2010年02月15日
Re:Plone3のメールバグ解消プロダクト公開 terada 2009年11月23日
Re:Zope Essentials 7 無事終了 t2y 2009年08月23日
Re:Plone3.0以降のメール送信 akiko 2009年08月10日
Re:Google App Engine と Google Apps はすい 2009年08月04日
Re:PyLuceneの日本のコミュニティが立ち上がった t2y 2009年08月04日
Re:Plone3.0以降のメール送信 siebo 2009年01月20日
Re:Plone3.0以降のメール送信 Shigeo Honda 2009年01月20日
Re:Plone Conference 2008 で知り合った人々(1) 伊藤@b-mark 2008年11月23日
Re:Plone Conference 2008 に参加 terada 2008年10月16日
Re:Plone Conference 2008 に参加 terada 2008年10月16日
Re:Plone Conference 2008 に参加 malik 2008年10月16日
Re:Plone Conference 2008 に参加 Yasu. 2008年10月16日
Re:Twitterどうでしょうか zen 2007年05月26日
Re:Plone2.5からの注意 Anonymous User 2007年04月21日
Re: Windows Vista良い感じ terada 2006年11月15日
Re: Windows Vista良い感じ ナルディ 2006年11月15日
Re:Ploneのケータイ対応 sayg 2005年12月02日
Re:Ploneのケータイ対応 terada 2005年12月02日
 
編集操作

PloneでMS-Officeファイルを検索対象にするプロダクト公開

PDF関連

Plone3からPDFの検索がデフォルトでサポートされました。これはベースOSにxpdfなどを前もってインストールしておくことで可能になります。

CentOSにおいては、popplerというパッケージがあり、それをインストールすれば日本語のPDFも検索対象になります。

ここでいう、検索対象とは、ファイルの中の本文がインデックス化されるかということです。

MS-Office関連

MS-Wordにおいても、wv(wvWare)をインストールしておくことで、拡張子にxが付かない(xml形式でない物)は検索対象になります。

また、MS-Excel, PowerPoint などを検索対象にさせるプロダクトも存在します。しかしこのプロダクトで使っている、ベースのモジュールが、xlhtmlというもので、2004年頃で開発が止まっているようです。私が試したときには、64bit版CentOSでコンパイルすることが出きませんでした。

さらに、xml形式で保存する、OpenXMLといわれる形式を持つ、MS-Word, Excel, PowerPointやOpenOfficeファイルなどを検索させるために、Products.OpenXmlというPloneのアドオンプロダクトが存在します。


今回、MS-Office関連ファイルの検索をどうしてもしたいという要求と、Plone関連の海外のコミュニティからの情報収集で、これらの検索に注目している人が多く存在しするということがわかり、きちんと使えるものを実装しようという動きになりました。

c2.transform.msoffice を公開

様々なアプローチを検討した中、Javaのモジュールで有る、Apache POIを使うのが一番いいであろうということになりました。このApache POIは、Apacheライセンスの元で公開されておリ、多くの実績があることもわかり、且つ、うちも取り組んでいるLucen検索エンジンをベースにした、Solrでも使われていることがわかりました。

また、インストールの手順を多くすると、複雑になり、環境によって動かないなどのトラブルも多く発生すると考えました。そのため、POIを同梱(jarファイルにまとめた)して、Ploneのプロダクトとして配布することとしました。

公開サイト: PyPI http://pypi.python.org/pypi/c2.transform.msoffice

Plone.org: http://plone.org/products/c2.transform.msoffice

インストール方法

[buildout]
eggs =
c2.transform.msoffice
zcml =
c2.transform.msoffice
$ ./bin/buildout

なお、動作には、JRE(Java)の実行環境が必要になります。


みなさんテストに協力いただきフィードバックをいただけると助かります。

(Windowds環境にはまだ対応していません)


Ploneは、イントラネットを構築するうえで、有効なCMSツールになってきているのだと思います。


追記(2009年12月21日): Plone3.x では日本語の検索が標準でサポートされていません。日本語でファイル検索をするには、Products.BigramSplitter を一緒に入れる必要があります。

さらに、インデックスを作る際の無駄な動きを防止するために、collective.indexing を一緒に使うことをおすすめします。
トラックバック用URL:

Re:PloneでMS-Officeファイルを検索対象にするプロダクト公開

投稿者 NK 投稿日時: 2010年02月15日 12時15分
これかなり期待してます。ウチの環境でテストしてみますね。
PDFの透明テキスト(画像PDFのOCR化)は検索の対象になりますか?
コメントを追加

下のフォームに記入してコメントを追加できます。平文テキスト形式。

(必須)
(必須)
(必須)
(Required)