法律大数据系统搭建思路

2017年4月6日 | 标签:

继续买书,一本书10多万字算很薄的书,20多万字算中等厚度,50万字就是很厚的书了。系统学习必须是读书,平时碎片化的时间看看专业的微信公众号、知乎、即刻新闻等消息,做为一个知识拓展与积累,这些知识目前看来对你没什么用,但以后碰到类似问题,联想到之前有阅读收藏过,就可以快速找到。

最近研究知识管理系统,尝试了为知笔记微信收藏、微信公众号站内搜索等方法,各有利弊,但都不完美。微信收藏只能搜索文章标题,做不到全文搜索,公众号站内搜索可以做到全文搜索,但不完美,好多已发布文章内容还是搜不到。为知笔记无法批量添加知识库。

目前想到的解决方案:通过采集法律专业类公众号文章、知乎回答和专栏文章到本地PC电脑,之后有法律检索需求,通过everything(标题搜索利器)和FileSeek(全文搜索利器)相配合快速找到相关的知识。为什么不直接用微信搜索和知乎搜索?原因是信息噪音太多,经过搜不到想要的东西。

检索的最高境界就是不检索,检索-加入浏览器收藏夹-相关知识站内搜索,但站内搜索有个弊端就是当相关网站太多时,一个个网站站内搜索又会变得很不方便(类化于微信公众号号内搜索),因此必须有一个自己的专业知识库并定期维护更新,需要相关知识时,再到知识库里检索,一步到位,专业准备高效。

经常要做法律知识的背景检索(相对于法规检索和判例检索而言,就是一个法律问题你不知道检索法规和案例需要的关键词,先做背景检索),百度搜索已废,找到的都是广告信息或低质量文章,现在高质量的文章在微信公众号和知乎,但直接微信知乎搜索会有很多无用的文章被搜出来。

因此要想办法过滤掉微信搜索结果中无用的文章,微信公众号站内搜索(方法:搜索-文章-公众号名称-点击后变颜色-关键词搜索)是一个解决方法,但不好用,而且公众号太多时(劳动法类、公司法类)也不方便,因此就把这些公众号的文章全部采集到本地形成知识库,需要知识时,方便检索。

『批量添加知识库』什么意思?批量添加指快速抓取公众号内所有文章到为知笔记,就像采集软件一样,几千篇文章几分钟采集入库,分享到为知笔记必须一篇一篇手动分享,太低效,为知笔记可以发送公众号链接来采集文章,但收集公众号链接,再发送到为知笔记微信公众号也很低效。

批量采集到本地,有个不方便就是无法多平台同步(手机、电脑),坚果云好像可以解决这个问题,马上尝试下。