Depix,https://github.com/spipm/Depix,文本类打码最安全的方式还是纯色全覆盖,马赛克被还原的概率很高。
本地跑了一下这个项目,M1 电脑,十几个字符的解码需要长达 10min+ 的计算,效率还是比较低的。它的算法思路是:
1)加载模具图片,最好是相同底色、相同字体、相同字号的文字列表截图,识别时会以模具为参考对照进行文字还原
2)将马赛克内容进行方形切割以分离单个子块,然后在模具中匹配每个子块,找出与之最匹配的矩形,并记录它们在搜索图像中的位置
3)核心算法在于子块匹配,通过对比矩形块的颜色差异,找到最小差异的矩形块作为匹配结果
这个库的实现并没有用到 AI 的能力,属于较为暴力的相似度对比策略,所以效率低是可以理解了,源码中用到的模具都是英文,如要支持中文字符的识别,就需要把所有的中文都放进去,那么效率就会更低了。
看到几篇利用 AI 来实现马赛克还原的论文,主要依靠生成式内容来补充像素,对于像素本就很丰富的图片而言会比较有效,例如老照片还原;针对这种程度的文字类马赛克还原,效果要差很多,不知道市面上是否已经有成熟的工具。
转自推特,Barret李靖