2014年10月13日月曜日

Apache TikaでWORDファイル等から著者などのメタデータを抽出する

Apache TikaでWORDファイル等から著者などのメタデータを抽出するには、以下のサンプルコードを実行します。
@Grab(group='org.apache.tika', module='tika-core', version='1.5')
@Grab(group='org.apache.tika', module='tika-parsers', version='1.5')
import org.apache.tika.*
import org.apache.tika.io.*
import org.apache.tika.metadata.*
import org.apache.tika.parser.*
import org.apache.tika.sax.*

def metadata = new Metadata()
def tis = TikaInputStream.get(new File("./test.doc"), metadata)
def handler = new BodyContentHandler()
def context = new ParseContext()
def parser = new AutoDetectParser()

parser.parse(tis, handler, metadata, context)
//println handler.toString()

for(key in metadata.names()){
  println "${key}=${metadata.get(key)}"
}

0 件のコメント:

コメントを投稿