您现在的位置是:亿华云 > 系统运维
数据科学家不用太多 应该让大数据更好用
亿华云2025-10-08 20:55:12【系统运维】6人已围观
简介大数据是今年的热门,以至于纽约时报等媒体均宣称大数据时代已经来临。挖掘大数据可以产出洞察力以及利用大数据进行知情决策和行动所需的激励和架构。而挖掘这些金矿的矿工,就是数据科学家,所以这种矿工也被冠以未
大数据是数据今年的热门,以至于纽约时报等媒体均宣称大数据时代已经来临。科学挖掘大数据可以产出洞察力以及利用大数据进行知情决策和行动所需的家不据更激励和架构。而挖掘这些金矿的用太矿工,就是多应大数数据科学家,所以这种矿工也被冠以未来最性感职业的该让称号。但是好用,今天任何一篇有关大数据的数据文章***都不可避免地得出这样一个结论,即数据科学家严重短缺。科学麦肯锡 2011 年被热议的家不据更一项调查就指出,许多组织普遍缺乏这类熟练技能的用太人才。
但是多应大数如何绕开这一瓶颈,让大数据直接为商业***所用却很少有人讨论。该让软件产业此前已经做过这样的好用事情,现在我们还可以再效仿。数据
为了实现这一目标,首先必须理解数据科学家在大数据中的角色。目前,大数据就是类似于类似 Hadoop、NoSQL、源码下载Hive 以及 R 那样的分布式数据架构和工具的一个大熔炉。在这种高技术环境下,数据科学家充当了这些系统和业务侧领域专家之间信息传递者与中介。
总的来说数据科学家有三个主要角色:数据架构、机器学习以及分析。虽然这些角色都很重要,但是并非所有的公司都需要像 Google 和 Facebook 那样拥有一支高度专业的数据团队。只要能开发出与目的相符的产品,并让技术的复杂性尽可能的低,那么大数据的威力就可以直接交到业务用户手上。
作为例子,我们可以回顾一下世纪之交的 web 内容管理革命。网站曾风靡一时,但领域专家却屡屡碰壁,因为 IT 是瓶颈。每每有新内容添加时都需要进行编排,有时候甚至需要 IT 精英硬编码进去。这个问题后来是如何解决掉的?我们把这些基本需求概括并抽象进内容管理系统之中,服务器托管然后让它们简单到连不懂技术的人也懂使用。瓶颈于是被打破了。
接下来,我们以网上贸易为背景分别看看数据科学家的这三种角色。
数据架构
降低复杂性的关键是限制范围。几乎所有的电商都关心用户行为的捕捉—活动、购物、离线交易以及社会化数据,几乎每一个电商也都会有产品目录和客户档案。
只要把范围限制到这一基本功能上,就可以为标准数据输入创建模板,从而大大简化数据捕捉与管道连接。在 2/8 原则下(80% 的大数据用例可利用 20% 的技术实现),我们不需要把所有不同的数据架构和工具(Hadoop、Hbase、 Hive、Pig、Cassandra 以及 Mahout)都打包进来。
机器学习
好吧,数据架构似乎可以用系统搞定,机器学习总得要人来调教吧。如果需求是高度定制化的高防服务器话,也许数据科学家是必要的。这里面的很多事情都可以抽象出来,像推荐引擎和个性化系统等。比方说,数据科学家的很大一部分工作是做出“特征”模式,即把输入数据组合好,让机器有效学习。过程差不多就是数据科学家把数据摆弄好然后塞进机器,再按一下“启动”即可,数据科学家的工作只是需要帮助机器以一种有意义的方式来审视这个世界。
可是如果按照单个领域来看,特征创建也是可以模板化的。比方说,每个电子商务网站都有购买流和用户细分的概念。如果领域专家可以直接将其思路编码进系统,将领域体现到系统里面去,那么数据科学家这个翻译和中介是不是就可以省掉了?
分析
从数据当中自动分析出最有价值的东西从来都不是一件易事。但是提供针对单个领域的透视镜是有可能的—这可以让业务专家做试验,就像数据科学家那样。这似乎是一个最容易解决的问题,因为市场上早已经有了各种特定领域的分析产品。
但是这些产品对于领域专家来说约束太多,不易接近。界面友好性绝对还有改进的空间。我们还需要考虑机器如何从分析得出的结果中学习。这是关键的反馈环路,业务专家希望能修改这个环路。这又是一个提供模板化界面的机会。
正如 CMS 领域的情况一样,这些解决方案也不能包治百病。但是针对泛化的一组数据问题采用技术解决方案可以缓解数据科学家的瓶颈问题。一旦领域专家能够直接跟机器学习系统协作,我们就能够进入大数据的新时代—一个人和机器可以相互学习的新世纪。也许到了那个时候,大数据能解决的问题就能多于它制造的问题了。
原文链接:http://gigaom.com/2012/12/22/we-dont-need-more-data-scientists-just-simpler-ways-to-use-big-data/
【编辑推荐】
让大数据成为我们捕捉网络安全威胁的眼睛 大数据案例分析:电信业Hadoop应用分析 解决大数据的开源工具 媒体都在鬼扯“大数据”,如何发掘大数据的潜力? IBM BigInsights 大数据应用开发实践很赞哦!(16)
相关文章
- 只要我们做的是从目前的市场情况选择域名,从简单易记,从个性特征上,我们就可以找到一个好域名进行注册。域名注册进行域名记录和解析以及绑定网站后,客户可以通过URL登录您的网站。
- Java 8 中的这个接口真好用!炸了!
- 删库跑路大神的一生:曾在家造炸弹被捕,原是开源创业之星
- 短域名有哪些?
- 小白注册网站域名该怎么办?有什么步骤?
- MariaDB10.5.6的安装与使用详解
- 阿里一面:讲一讲 Spring、SpringMVC、SpringBoot、SpringCloud 之间的关系?
- InnoDB数据存储及事务两阶段提交原理解析
- 2、根据用户基础选择访问提供程序。由于互联问题的存在,接入商的选择也非常重要,如果用户群主要在联通,尽量选择联通接入较好的接入商,如果用户群主要在电信,那么选择电信接入较好的接入商。如果用户组位于国家/地区,则选择更好的访问提供程序进行交互。
- 聊聊DP入门之整数拆分!