duyu5x大佬:
原始资料 PDF或者word
需求 将PDF或者word全文存入数据库(内容 从标题中提出字段)
判断重复
查询关键词模块
查询是能够查询得到关键词的上下文,将查询结果输出为csv
要求 最好是python写,java写的话,主要是怕以后维护困难,其实是我没学过
性能最好好一点
能做的大佬代价pm一下,毕竟小弟也不知道给多少,叫做公允,所以请大佬直接明牌
pdf样例
https://ws28.cn/f/3pidgcmh6cu
明早还有事要处理,所以私信大概要下午才能回
cherbim大佬:
你是想把pdf的名字导入数据库还是把pdf内容导入数据库
生蚝QAQ大佬:
es
duyu5x大佬:
es
方案也知道 但是搞不定
额头有王的喵大佬:
大佬们出来接活
生蚝QAQ大佬:
方案也知道 但是搞不定
Es也就调个Api而已,相似度用文本指纹,搜索下,局部敏感哈希
xiaohei大佬:
无非就是把内容建个索引,然后API做查询。
评论前必须登录!
注册