@Grab(group='org.apache.tika', module='tika-core', version='1.5') @Grab(group='org.apache.tika', module='tika-parsers', version='1.5') import org.apache.tika.* import org.apache.tika.io.* import org.apache.tika.metadata.* import org.apache.tika.parser.* import org.apache.tika.sax.* def metadata = new Metadata() def tis = TikaInputStream.get(new File("./test.doc"), metadata) def handler = new BodyContentHandler() def context = new ParseContext() def parser = new AutoDetectParser() parser.parse(tis, handler, metadata, context) //println handler.toString() for(key in metadata.names()){ println "${key}=${metadata.get(key)}" }
2014年10月13日月曜日
Apache TikaでWORDファイル等から著者などのメタデータを抽出する
Apache TikaでWORDファイル等から著者などのメタデータを抽出するには、以下のサンプルコードを実行します。
登録:
コメントの投稿 (Atom)
0 件のコメント:
コメントを投稿