TIKA实验报告

                                   TIKA实验报告

1.tika是什么

        Tika 是一个文本内容检测和解析工具,主要功能包括文档类型检测、内容提取、元数据提取、语言检测。我觉得就是把文本内容可以换成你想要的格式,便于人或计算机识别和读取,比如pdf转成word,把txt转成json等。

2.Tika怎么安装

1.配置java环境

先去官网下载安装java jdk,安装成功后在本地cmd中输入java -version会有下图类似输出。

检验java

2下载Tika

下载Tika的源代码tika-1.18-src.zip和Tika的jar包tika-app-1.18.jar

tika-1.18-src.zip
tika-app-1.18.jar

3.Tika怎么使用

在本地cmd中输入java -jar E:\tika\tika-app-1.18.jar(你的本地taki.jar路径)--gui。会进入Tika的GUI界面。


Tika的GUI界面

之后把你想要解析的东西直接拖进去就行了。默认显示提取的元数据,你可以在view随意切换成其他属性,view中一共有6中。


元数据Metadata


Formatted Tex


Plain Text


Main Content


XML


json

4.实验过程的问题

1.用迅雷下java官网的java jdk会下不了,会报错,打开之后是乱码,之后用百度云下载才成功的。

报错


乱码


2.cmd打开tika的gui界面的时候,tika的路径要是自己本地jar路径,不然打不开。还有-gui有可能打不开,-g可能打开的快一点,可以去java -jar E:\tika\tika-app-1.18.jar --help 查看相应命令。

5.实验总结

从本次实验中,了解了tika是什么东西和简单的运用,只是在本地打开和用tika是比较简单的,不过要用的好还是要多琢磨的。

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
平台声明:文章内容(如有图片或视频亦包括在内)由作者上传并发布,文章内容仅代表作者本人观点,简书系信息发布平台,仅提供信息存储服务。

推荐阅读更多精彩内容