KNN实现京东价格抓取,代码已经使用C#实现。
效果不错,速度快,识别率高
挺bs京东这种行为的,不过在强大的机器学习面前这种措施毫无用处!
讲一下实现的步骤
1、抓取页面价格区域的图片
2、剪切掉价格以外的图像信息,京东价格的颜色值是“ffe4393c”,至于如何去掉上下同色的信息那要你自己发挥想象力了,反正要实现下面的效果
(可以灵活使用行扫描和列扫描,还有价格下面的背景色,不是白的)
3、继续切割2图,使得成为单个字符,如图:
。。。。。。。
4、使用KNN解决(参考本人另一篇KNN实现的文章)
附:因为可以得到关于价格的数字0-9和.的像素点信息,如果抓取全图匹配像素点应该也可以实现,我想操作上会更加简单一些。