Reload Original PagePrint PageEmail Page

大数据:编程语言真的重要吗?

在大数据领域内,每一毫秒的性能损失都影响巨大。然而,像Python这样通常被认为性能不是太好的编程语言,在过去一年中却变得越来越流行了。大数据社区最近出现的一些文章和讨论,又一次点燃了用于数据科学以及大数据领域内的编程语言选择之争。

AdRoll的首席工程师Ville Tuulos认为编程语言本身的性能其实并不重要。Ville于2013年9月在旧金山将自己的调查发现发布到了一个meetup组中,向我们展示了AdRoll中使用的基于Python构建的后端架构,以及它们是如何在性能上超过那些业界中的巨头(例如Amazon的Redshift)的。他们获得成功的关键是,整个系统是基于他们自己非常特殊的用例而构建的,因此可以针对那种用例进行优化。正如Ville所说:

不管通用解决方案是采用何种编程语言实现的,你都可以使用一种高级编程语言来快速地实现出一个性能比通用方案更好的,应用于特定领域的解决方案。

但这并不意味着编程语言一点都不重要。最近有不少关于哪种语言最适合数据科学和大数据领域的争论,而这一殊荣最有力的竞争者就是Python和R语言。一些人甚至把它说成是数据科学领域内的一场战争。在LinkedIn上面也有针对这一话题的讨论,看上去大家的普遍共识是,R语言是一种学术性语言,“对数据科学家而言,R语言的优势在于它所提供的大量的包以及其多样性”。

但是对于海量数据处理这一块,总体说来Python受到更多程序员的青睐,正如来自Dish Network的数据科学家Tom Rampley所说:

我经常使用R语言的各种包中所提供的统计功能。我还使用它在小规模的数据集上面执行各种数据操作。但是对于文本解析、大数据集上的数据操作以及编写自己的算法这些任务来说,我更加喜欢使用Python并结合使用它的NumpyScipyPandas这些包。

::...
免责声明:
当前网页内容, 由 大妈 ZoomQuiet 使用工具: ScrapBook :: Firefox Extension 人工从互联网中收集并分享;
内容版权归原作者所有;
本人对内容的有效性/合法性不承担任何强制性责任.
若有不妥, 欢迎评注提醒:

或是邮件反馈可也:
askdama[AT]googlegroups.com


订阅 substack 体验古早写作:


点击注册~> 获得 100$ 体验券: DigitalOcean Referral Badge

关注公众号, 持续获得相关各种嗯哼:
zoomquiet


自怼圈/年度番新

DU22.4
关于 ~ DebugUself with DAMA ;-)
粤ICP备18025058号-1
公安备案号: 44049002000656 ...::