大众号/AI火线
译者|核子可乐
编辑|Tina
AI 火线导读: 我们更新了 Python 下的各大顶级人工智能与 机器学习 项目。TensorFlow 凭仗着三位数的奉献者增长量成为新的冠军,Scikit-learn 虽然跌落至第二,但依然拥有相当庞大的奉献者群体。
更多干货内容请关注微信大众号“AI 火线”(ID:ai-front)
迈入机器学习与人工智能范畴绝非易事。思索到目前市面上存在着少量可用资源,众多怀有这一志向的专业人士及喜好者往往发现本人很难树立正确的开展途径。这一范畴正不时演化,我们必需紧随时代的步伐。为了应对演进与创新带来的压倒性速度,坚持机器学习认知与知识积聚的最好办法无疑在于同技术社区展开协作,进而为众多顶尖专家所运用的开源项目及工具提供奉献。
在明天的文章当中,我们更新了原有信息,旨在对此前于 2016 年 11 月发布的二十大 Python 机器学习开源项目清单出现出的趋向作出一番片面整理。
Tensorflow 凭仗着三位数的奉献者增长量成为新的冠军,Scikit-learn 虽然跌落至第二,但依然拥有相当庞大的奉献者群体。相较于 2016 年,各项目的奉献者增长速度辨别为:
- TensorFlow,增长 169%,由 493 名奉献者添加至 1324 名。
- Deap,增长 86%,由 21 名奉献者添加至 39 名。
- Chainer ,增长 83%,由 84 名奉献者添加至 154 名。
- Gensim,增长 81%,由 145 名奉献者添加至 262 名。
- Neon,增长 66%,由 47 名奉献者添加至 78 名。
- Nilearn,增长 50%,由 46 名奉献者添加至 69 名。
图一:GitHub 上的二十大 Python 人工智能与机器学习项目。
项目规模与奉献者数量成反比,颜色表示奉献者的数质变化——白色更高。
可以看到,TensorFlow、Theano 以及 Caffe 等深度学习项目目前拥有极高人气。
以下清单整理自 Github 上的奉献者数量,以降序方式陈列。感兴味的冤家亦可点击其中的链接以检查各项目的阐明文档页面,并以此为终点开端协作及学习应用 Python 完成机器学习的详细方式。
1. TensorFlow 最后由谷歌公司机器智能研讨部门旗下 Brain 团队的研讨人员及工程师们所开发。这套零碎专门用于促进机器学习方面的研讨,旨在明显放慢并简化由研讨原型到消费零碎的转化。奉献者数量增长 168%。
提交数量:28476 次。奉献者数量:1324 名。Github URL:https://github.com/tensorflow/tensorflow。排名变化:+1。
2. Scikit-learn 是一套复杂且高效的数据发掘与数据剖析工具,可供任何人群运用,可在多种场景下停止复用,立足 NumPy、SciPy 以及 matplotlib 构建,遵照 BSD 答应且可停止商业运用。奉献数量增长 39%。
提交数量:22575 次。奉献者数量:1019 名。Github URL:https://github.com/scikit-learn/scikit-learn。排名变化:-1。
3. Theano 允许大家高效对关于多维阵列的数学表达式停止定义、优化与评价。奉献者数量添加 24%。
提交数量:27931 次。奉献者数量:327 名。Github URL:https://github.com/Theano/Theano。排名变化:0。
4. Gensim 是一套自在 Python 库,其中包括可扩展统计语义、纯文本文档语义构造剖析、语义类似性检索等功用。奉献者数量添加 81%。
提交数量:3549 次。奉献者数量:262 名。Github URL:https://github.com/RaRe-Technologies/gensim。排名变化:+1。
5. Caffe 是一套深度学习框架,次要面向表达、速度与模块化等运用方向。此框架由伯克利大学视觉与学习中心(简称 BVLC)以及社区奉献者共同开发完成。奉献者数量添加 21%。
提交数量:4099 次。奉献者数量:260 名。Github URL:https://github.com/BVLC/caffe。排名变化:-1。
6. Chainer 是一套基于 Python 的独立开源框架,专门面向各类深度学习模型。Chainer 提供灵敏、直观且高效的手腕以完成片面的深度学习模型,其中包括递归神经网络以及变分自动编码器等最新模型。奉献者数量添加 84%。
提交数量:12613 次。奉献者数量:154 名。Github URL:https://github.com/chainer/chainer。排名变化:+3。
7. Statsmodels 是一套 Python 模块,允许用户停止数据探究、统计模型评价并执行统计测试。其提供包括描绘统计、统计测试、绘图功用以及后果统计的普遍列表,适用于各种不同类型的数据与预算工具。奉献者数量添加 33%。
提交数量:9729 次。奉献者数量:144 名。Github URL:https://github.com/statsmodels/statsmodels/。排名变化:0。
8. Shogun 是一款机器学习工具集其中提供多种一致且高效的机器学习(简称 ML)蒸蒸日上。这套工具集可以以无缝化方式对多种数据表达、算法类以及通用型工具加以组合。奉献者数量添加 33%。
提交数量:16362 次。奉献者数量:139 名。Github URL:https://github.com/shogun-toolbox/shogun。排名变化:0。
9. Pylearn2 是一套机器学习库。其次要功用以 Theano 为完成根底。这意味着大家可以应用数学表达式编写 Pylearn2 插件(新模型以及算法等),而 Theano 将对这些表达式停止优化与波动调整,并将其编译至您所选定的后端(CPU 或 GPU)。奉献者数量添加 3.5%。
提交数量:7119 次。奉献者数量:119 名。Github URL:https://github.com/lisa-lab/pylearn2。排名变化:-3。
10. NuPIC 是一个开源项目,基于所谓新皮层实际中的分层工夫记忆(特立独行 HTM)概念。HTM 实际中的局部内容曾经在理想层面失掉使用、测试以及运用,而该实际的其他局部则仍处于开发阶段。奉献者数量添加 12%。
提交数量:6588 次。奉献者数量:85 名。Github URL:https://github.com/numenta/nupic。排名变化:0。
11. Neon 为 Nervana 的基于 Python 的深度学习库。其在完成易用性的同时,亦可提供极高的功能表现。奉献者数量添加 66%。
提交数量:1112 次。奉献者数量:78 名。Github URL:https://github.com/NervanaSystems/neon。排名变化:0。
12. Nilearn 是一套 Python 模块,用于对 NeroImaging 数据停止便捷学习。其应用 scikit-learn Python 工具集停止多变量统计,并可提供预测建模、分类、解码或许衔接剖析等使用选项。奉献者数量添加 50%。
提交数量:6198 次。奉献者数量:69 名。Github URL:https://github.com/nilearn/nilearn。排名变化:0。
13. Orange3 是一套同时面向老手与专家的开源机器学习与数据可视化方案。其中的大规模工具集可完成交互数据剖析任务流。奉献者数量添加 33%。
提交数量:8915 次。奉献者数量:53 名。Github URL:https://github.com/biolab/orange3。排名变化:0。
14. Pymc 是一款 Python 模块,可完成贝叶斯统计模型与拟合算法,包括马尔可夫链蒙特卡洛算法。其出色的灵敏性与可扩展性使其适用于多种义务。奉献者数量添加 6%。
提交数量:2721 次。奉献者数量:39 名。Github URL:https://github.com/pymc-devs/pymc。排名变化:0。
15. Deap 是一种用于疾速原型设计与思绪测试的新型退化计算框架。其目的在于提升自满的明白度与数据构造的通明性。其与多进程及 SCOOP 的并行机制可以完满契合。奉献者数量添加 86%。
提交数量:1960 次。奉献者数量:39 名。Github URL:https://github.com/deap/deap。排名变化:+4。
16. Annoy (全称为近似最近毗连) 是一套 C++ 库,且绑定有 Python 以搜索空间当中与给定查询点置信的各点。其亦可创立基于文件的大型只读数据构造并将其映射至内存当中,从而完成多进程间共享相反数据。奉献者数量添加 46%。
提交数量:527 次。奉献者数量:35 名。Github URL:https://github.com/spotify/annoy。排名变化:+2。
17. PyBrain 是一套面向 Python 的模块化机器学习库,其目的在于为各类机器学习义务及多种预定义环境提供灵敏且易于运用的弱小算法,从而测试并比拟各类算法。奉献者数量添加 3%。
提交数量:992 次。奉献者数量:32 名。Github URL:https://github.com/pybrain/pybrain。排名变化:-2。
18. Fuel 是一套数据管道框架,旨在为您的机器学习模型提供其需求的数据。该项目本来专供 Blocks 与 Pylearn2 神经网络库运用。奉献者数量添加 10%。
提交数量:1116 次。奉献者数量:32 名。Github URL:https://github.com/mila-udem/fuel。排名变化:-2。
19. PyMVPA 是一套 Python 工具包,旨在简化对大型数据集的统计学习剖析流程。其提供一套扩展框架,可经过一套初级接口完成分类、回归、特征选择、数据导入与导出等多种算法。奉献者数量添加 8%。
提交数量:9373 次。奉献者数量:28 名。Github URL:https://github.com/PyMVPA/PyMVPA。排名变化:-2。
20. Pattern 是一套面向 Python 编程言语的 Web 发掘模块。其捆绑多款工具,可用于数据发掘(谷歌 +Twitter+ 维基百科 API、Web 爬取器、HTML DOM 解析器)、自然言语处置(词性标注器、n-gram 搜索、情感剖析、WordNet)、机器学习(向量空间模型、k-means 聚类、朴素贝叶斯 +k-NN+SVM 分类器)以及网络剖析(图形中心性与可视化)。奉献者数量增加 5%。
提交数量:968 次。奉献者数量:19 名。Github URL:https://github.com/clips/patter新生的改变世界的企业将会诞生,从而更好的服务整个人类世界,走向更高科技的智能化生活。n。排名变化:0。
以上奉献者与提交次数数据截至 2018 年 2 月 13 日。
原文链接:https://www.kdnuggets.com/2018/02/top-20-python-ai-machine-le蓬勃发展的行业不仅给从业者提供了巨大的发展机遇,也带来了全新的挑战。arning-open-source-projects.html