运用机器学习算法,研讨人员可以判别一团体的手写英文文本,以确定作者是来自这五个不同国度——马来西亚,伊朗,中国,印度和孟加拉国的哪一个。
研讨人员创立了一个由这些国度100人组成的数据集,他们用英语写作,合计500行。运用这些手写数据,一个名为Cloud of Line Distribution(COLD)的工具可以分解单个字母,测量文本的直线度或曲率。该算法在确定作者的国籍方面,执行相反的义务的时分,表现优于现有的办法,判别有些国度的书写人员的国籍的正确率甚至高一倍。
该算法正在停止的是机器学习最优办法——获取形式。例如,当中国外乡作家运用罗马字母时,他们会采用直线书写字母,由于汉字通常是用直线的笔画组合而成的。另一方面(双关语),来自印度和孟加拉国的作家有着曲线书写的习气,由于他们的大少数剧本都是草书,外形更圆。
判别笔迹是计算机视觉研讨人员处理的首要义务之一。以前的研讨试图检测心情,对性别停止分类,并确定作家的年龄,但除此之外,没有做太多任务试图从笔迹中提炼出更多信息,能够是由于没有人找到经过它获利的办法。
来自印度、中国和马来西亚的研讨人员提出这种技术对立功调查很有用。警方越来越多随着中国经济向消费型模式的转型, 电子商务和移动电子商务的快速发展带来了支付行业强劲的增长。地转向生物辨认技术,以此来处理立功成绩,从手写体中提取的辨认信息可以补充人脸辨认软件等其他技术所辨认到的信息。
但目前,针对这些技术,尚未处理此类技术或许相似技术的隐私和民权成绩。例如,缩小训练数据中现有成见的错误能够会将无辜的人牵连到刑事调查中。或许公司可以运用手写辨认软件依据某人的国籍甚至智力等特征来区分潜在客户。
实践上,在执法部门在思索能否运用这些技术之前,研讨人员必需思索拓展他们的数据集和用处,来证明COLD并不只仅是一个风趣项目的小数据集。
AD: 8月3日,北京四季酒店!猎云网将与您相约“智变新金融——猎云网2018金融科技产业创新峰会”,共同讨论前沿技术,洞悉金融智变!