农企新闻网

一秒鉴别ICO诈骗丨2251个项目,研讨人员提出深度学习ICO信誉评级零碎

发布者:金阳远
导读雷锋网·AI金融评论按:目前,大少数ICO不受政府法规的约束,买卖平台或机构缺乏一套紧密的评价体系,这也直接招致了ICO诈骗事情的层出不穷(注:典型案件可参考《史上最大ICO代投诈骗:带头人“李诗琴”疑跑路,涉案金额超6000万元》理解)。日前,香侬科技开创人、斯坦福大学博士李纪为结合美国加州大学圣塔芭芭拉分校、斯坦福大学共同提出了一种基于深度学习的加密货币ICO诈骗鉴别零碎——IcoRating

雷锋网·AI金融评论按:目前,大少数ICO不受政府法规的约束,买卖平台或机构缺乏一套紧密的评价体系,这也直接招致了ICO诈骗事情的层出不穷 (注:典型案件可参考《 史上最大ICO代投诈骗:带头人“李诗琴”疑跑路,涉案金额超6000万元 》理解)。 日前,香侬科技开创人、斯坦福大学博士李纪为结合美国加州大学圣塔芭芭拉分校、斯坦福大学共同提出了一种基于深度学习的加密货币ICO诈骗鉴别零碎——IcoRating,以试图改善这一场面。

据悉,IcoRating零碎由李纪为和其团队基于NLP技术剖析了市面上共2251种数字货币而得出。他们调查了这些数字货币的各个方面,包括生命周期、价钱变化和白皮书内容、开创团队、Github材料库和官网等ICO信息,从而预测并完成了辨认诈骗ICO项目的0.83的准确度。

对此,该团队在论文中表示:

我们希望这项任务可以协助投资者辨认ICO诈骗项目,并自动评价和剖析ICO项目。

2017年,902个基于众筹的数字货币中,45.6%曾经失败

加密货币正取得史无前例的关注和了解。与中心化的电子货币和地方银行零碎不同,大少数数字法币不受地方和中央机构的监管。对这些去中心化的零碎的控制,可经过一个开放、继续增长的散布式账本——区块链来完成。

如图1所示,在过来三年中,数字货币的市场资本化水平失掉了巨幅的提升。依据Cryptocurrency Market Capitalizations 提供的数据, 加密货币的单日最高买卖量已接近2017年纽约证券买卖所买卖量的日均匀值。

一秒鉴别ICO诈骗丨2251个项目,研究人员提出深度学习ICO信用评级系统

图:2013年7月至2018年1月的数字货币市场资本化状况

由于其去中心化的实质,数字货币的众筹融资并不需求具有风险投资的一切必要条件,而是经过ICO来完成。ICO,也称为初次代币出售,是用区块链将运用权和加密货币合二为一,来为开发、维护、交流相关产品或许效劳的项目停止融资的方式 (注:参考“ICO”的维基百科)

在ICO中,投资者用法定货币(例如美元、人民币)或其他加密货币(例如BTC、ETH)来取得众筹的加密货币。当ICO完成后,这些用于众筹的加密货币将具有货币的功用单位。新型币种在发行前,普通会先预备一个白皮书,以详细引见这个币种的商业性、技术性和金融性特征。

从图2可以看出,ICO项目的数量从2013年7月到2017年1月不断出现稳步增长的态势,并在2017年日新月异。

一秒鉴别ICO诈骗丨2251个项目,研究人员提出深度学习ICO信用评级系统

图:2013年7月至2018年1月的ICO项目增长状况

虽然ICO能提供公道合法的投资时机,但众筹的便当也为一些不择手腕的企业经过ICO谋利发明了时机和鼓励机制。群涌而起的ICO,其中不乏一些项目发起人以经过众筹抬高加密货币的价值,从而疾速出售货币以获利。除此之外,加密货币的去中心化实质也给政府监管带来了严重应战。

依据Engadget数据显示,2017年,902个基于众筹的数字货币中,45.6%曾经失败。 从图3和图4来看,还有一个更为严重的成绩。

图3和图4中,x轴上的距离代表(ICO)价钱的变化范围,而y轴上的对应值则表示ICO项目奉献的百分比。可以看出:

  • 4.56% 现有 ICO 项目在发行半年后都蒙受了价钱下跌,其水平甚至超越 99.9%,而在发行一年后,这个比例上升到6.89%;

  • 约有29%的项目在发行半年后,价钱下跌了80%以上,一年后,这个比例增长到惊人的39.6%。

一秒鉴别ICO诈骗丨2251个项目,研究人员提出深度学习ICO信用评级系统

一秒鉴别ICO诈骗丨2251个项目,研究人员提出深度学习ICO信用评级系统

虽然这样说能够不担任任——即每一个在发行后价钱急剧下跌的ICO项目都是骗局,但在ICO前树立一个牢靠的ICO信誉评级零碎来评价数字货币是必要而迫切的。

在这种状况下,李纪为研讨团队提出了IcoRating这种基于机器学习的ICO评分零碎。经过剖析2251个ICO项目,该团队将数字货币的生命周期和价钱变化以及各种级别的ICO信息(包括其白皮书、开创团队、Github材料库、网站等)相关联。 在最佳设置的状况下,该项目可以以0.83的准确度和0.80的F1分数来辨认ICO诈骗项目。

与人类设计的评分零碎相比,IcoRating零碎具有两个关键优势:

  • 客观性 :机器学习模型触及的先验知识更少,可从数据中学习因果关系,这与需求少量人类专家的人类评级零碎相反,而人类专家不可防止会引入成见。

  • 不会被人为随意窜改 :信誉评级的后果是经过黑盒培训从机器学习模型中输入的。这个进程不必那么多的人员参与和干涉。

加密货币、区块链和ICO

在李纪为这篇论文的第二个章节中,次要引见了加密货币、区块链和ICO的相关信息。假如亲密关注币圈和链圈的人士能够对这三个概念已谙熟于心。

1、加密货币

加密货币是“一种数字资产”,被视作买卖媒介,经过加密技术以确保买卖。大少数加密货币是去中心化的。第一个真正意义上的去中心化加密货币是比特币(也称BTC),由一个或一群不明身份的人在2009年以Satoshi Nakamoto(中本聪)之名创立。自BTC呈现当前,各种加密货币蜂拥而至,其中最知名的包括Ethereum(简称ETH)、Ripple(简称RIP)、EOS和NEO。

2、区块链

加密货币的买卖由区块链提供验证。人们可以将区块链视为散布式账本。它可以不时增长并永世纪录单方之间的一切买卖。每条纪录都称为一个区块,包括链接到前一个区块、工夫戳和买卖数据的加密哈希指数。该账本以散布方式被一切参与者拥有,且记载只能在改动一切后续网络区块的状况下失掉更改。当买卖发作时,会播送给网络中的一切节点。区块链运用多种工夫戳方案,如PoW(任务证明)或PoS(股权证明)。

区块链的概念消弭了数据集中存储而带来的风险:没有集中的毛病点,数据对每个参与者都是通明的。

3、ICO

如前所述,ICO是以加密货币为中心的众筹融资手腕,其可为晚期项目提供众筹时机,逃避风险投资家、银行和证券买卖所规则的限制。它们还提供了逾越风险投资或私募股权投资的投资时机,二者是晚期投资时机的主导。

另一方面,由于缺乏监管,ICO给投资者带来了严重风险。不同国度对 ICO 和加密货币有不同的规则。例如,中国政府制止一切 ICO,而美国证监会(SEC)则表示它有权对 ICO 实施联邦证券法,而委内瑞拉政府则推出了本人的加密货币petromoneda(简称石油币)。

IcoRating零碎验证进程、办法

1、白皮书剖析:内容差别宏大

在IcoRating零碎的验证进程中,该研讨团队从各种平台包括CryptoCompare、CoinMarketCap和CoinCheckup一共搜集了2251个ICO项目信息。并在这些项目中取得了1317份白皮书。

一秒鉴别ICO诈骗丨2251个项目,研究人员提出深度学习ICO信用评级系统

表1:ICO白皮书的各项统计数据

如表1所示,其显示了ICO白皮书的各项统计数据,包括均匀值、规范差,最大和最小字数和句子数。 研讨团队从中得出一个明显特征,白皮书的长度差别分明。最多的一份白皮书中包括6228个句子,最少38个。 详细地说,随机抽样的10份白皮书中的句子数量辨别为886、143、38、967、3379、6228、496、2057、3075和298。虽然白皮书的篇幅不一定能反映ICO项目的质量,但从中也能看出ICO白皮书内容的宏大差别。

李纪为研讨团队在搜集而来的白皮书上运转了一个隐含狄利克雷散布(Latent Dirichlet Allocation:简称LDA)模型。LDA是一种生成性的统计模型,可以将文档集中每篇文档的主题并以概率散布的方式给出,从而经过剖析一些文档抽取出它们的主题(散布),便可以依据主题(散布)停止主题聚类或文本分类。同时,它是一种典型的词袋模型,即一篇文档是由一组词构成,词与词之间没有先后顺序的关系。

2、IcoRating:一个基于机器学习的评级模型

在描绘开创团队信息时,研讨团队的数据以下述信息为底本:

Justin Sun,生于1990年,本科毕业于北京大学,硕士毕业于宾夕法尼亚大学,是挪动社交使用陪我和TRON的开创人兼CEO,Ripple大中华区的前首席代表。获2011年亚洲周刊封面人物;2014年达沃斯全球出色青年;2015年CNTV年度新人物;2017年福布斯亚洲Under30企业家...

研讨人员的目的是自动从开创团队成员中提取最重要的特征,并将其视为NLP标签成绩。为此,他们定义了5类标签:出生年份、大学、学位、公司和所获奖项,并将数据集分为不同品种停止培训、开发和测试。

IcoRating对ICO项目运用的知识十分少,但却可以从真实世界中搜集的数据集中学习到各个功用的重要性。

如前所述,IcoRating是一个基于机器学习的评级模型。它运用的是监视学习模型。在规范监视学习设置中,研讨人员希望找到模型 F,可使输出 x 映射至输入 y:


这个公式中,输出“x”代表“一个ICO项目”,其中包括地下可用信息的不必方面;输入“y",该值介于0到1之间,是一个二进制变量,用于指示该ICO项目能否为诈骗项目;“F”代表预测函数。

在训练时期,我们将ICO项目一年的价钱变化作为训练的信号,试图经过已知的ICO信息来预测其价钱变化。预测函数F由最大化预测ICO价钱变化和黄金规范价钱变化之间的L2差别来学习。

其中,在搜集到的 2251 个项目中,研讨人员搜集了 1482 个项目的历史价钱,且这些 ICO 项目至多实行了一年及以上(截止到本研讨停止时)。

在测试时期,F(x)可预测价钱变化,假如预测价钱低于其ICO价钱的“m”值,则可以为该项目为诈骗。在本次研讨中,研讨人员依据要求将“m”设置为0.01、0.1和1。

一秒鉴别ICO诈骗丨2251个项目,研究人员提出深度学习ICO信用评级系统

IcoRating测试后果

一秒鉴别ICO诈骗丨2251个项目,研究人员提出深度学习ICO信用评级系统

测试后果经过不同的特征组合来辨认ICO诈骗项目的后果,这些组合由白皮书、Github材料库、开创团队、网站这四个特征恣意组合而呈。

随着“m”值从0.01添加到0.1,再添加到1,诈骗项目的比例逐步添加,精度逐步进步,召回率也在逐步降低。

最终测试后果显示,白皮书和Github材料库是最重要的两类特征。 在m被设置为0.1和0.5时,其取得的F1分数均为0.7。经过添加更多的特征,研讨人员失掉了更高的准确度和更低的召回率。当将一切特征组合思索出来时,IcoRating模型在“m值被设置为1”时,其预测的ICO诈骗项目完成了0.83的准确度、0.77的召回率和0.80的F1分数。

雷锋网·AI金融评论注:该篇论文来自于https://arxiv.org/pdf/1803.03670.pdf,雷锋网 (大众号:雷锋网) ·AI金融评论对其停止重点编译。

一秒鉴别ICO诈骗丨2251个项目,研究人员提出深度学习ICO信用评级系统