Apache TikaでWORDファイル等から著者などのメタデータを抽出するには、以下のサンプルコードを実行します。
@Grab(group='org.apache.tika', module='tika-core', version='1.5')
@Grab(group='org.apache.tika', module='tika-parsers', version='1.5')
import org.apache.tika.*
import org.apache.tika.io.*
import org.apache.tika.metadata.*
import org.apache.tika.parser.*
import org.apache.tika.sax.*
def metadata = new Metadata()
def tis = TikaInputStream.get(new File("./test.doc"), metadata)
def handler = new BodyContentHandler()
def context = new ParseContext()
def parser = new AutoDetectParser()
parser.parse(tis, handler, metadata, context)
//println handler.toString()
for(key in metadata.names()){
println "${key}=${metadata.get(key)}"
}
0 件のコメント:
コメントを投稿