2014年10月6日月曜日

Apache TikaでWORDファイル等からテキストを抽出する

Apache TikaでWORDファイル等からテキストを抽出する Apache TikaでWORDファイル等からテキストを抽出するには、以下のサンプルコードのようにTikaクラスのparseToStringメソッドを使用します。
@Grab(group='org.apache.tika', module='tika-core', version='1.5')
@Grab(group='org.apache.tika', module='tika-parsers', version='1.5')
import org.apache.tika.*

// テキストの抽出
println new Tika().parseToString(new File("test.doc"))

0 件のコメント:

コメントを投稿