主页(http://www.cnwulian.net):唯品会美研中心郭安琪:2015 Hadoop Summit见闻
Fig 4:Hadoop Summit 2015第一天下午讲座日程截图
Fig 7:Hadoop Summit 2015迪斯尼数据平台开发资深工程师Caleb介绍著名的魔法手环”Magic Bend”的Hadoop框架
当然还是说点具体的技术,spark是大家热议的一个技术,从会场爆满的情况就可以看出大家的兴趣;Apache Drill是2015年5月发布的一个新的基于Hadoop的开源技术,最早起源于谷歌的dremel系统,它的主要优势是可以让人们实现对于分布式大数据的可交互的实时数据分析;Airbnb也自己研发了一套开源的流程管理平台Airflow,吸引了很多业界关注。
当然能问出好的问题也是峰会收益最大化的有效手段。我的兴趣主要在产品方面,所以主要听的是Hadoop技术在不同公司里的usecase(使用场景),同时我也总结了一下技术新人应该如何玩转这一类型的技术峰会的经验,特此分享:
除此以外,我还参加了“使用Hadoop的女性”(Women in Hadoop)活动,大多数参与的人都是开发使用Hadoop的女性同胞们,确实是Hadoop使用者中的“少数民族”。很经典的一件事就是一场讲座结束后男洗手间门口总是排起了长队,而女洗手间则根本没有这样的烦恼。另一个我们讨论的发现就是在12位主题演讲嘉宾中没有一位女性。但是,在技术讲座中凡是有女性参与的讲座,观众都很多,讲座很有条理,效果也非常好。这就说明并不是女性同胞不适合讲座,只是大家缺乏了解参与讲座的途径,也缺少发表演讲的鼓励。所以Women in Hadoop这个活动的目的就是围绕“女士当自强”为主题讨论一下我们可以做什么样的事帮助更多聪明的女性加入到hadoop技术的大军中。参加活动的还有一些男士,比如迪士尼负责magic bend数据开发的Caleb,他说他有一个女儿虽然很小但是对技术很感兴趣,问我作为年轻的女士有什么好的建议。最后我们通过每人30秒的自我介绍环节互相认识,加了LinkedIn,希望在以后的职业发展道路上能够互帮互助。
这些是我觉得作为一个掌握的知识还不够全面的技术新人在峰会上应该多投入的地方:看看行业里都有哪些新的概念,补充一下自己的专业字典;了解围绕某个技术的上下游提供商的发展情况,谁在开发什么样的软件,谁在为什么样的软件埋单,这有助于技术新人在参与设计产品的时候有个全局的概念;最后最重要也是最容易实现的,就是联络参会的人。大家都是付了昂贵的门票($900+)来参加这次峰会的业内人士,所以每个人都像一座金矿,都有自己领域的专业知识,都会遇到相似的问题,开放的交流说不定会让一直困扰你的一个问题找到全新的解法。除此以外,同行的交流也能让你不觉得孤独,很多你想尝试的做法也许能从别的公司的执行数据反馈中找到自信。
什么是Hadoop技术峰会(Hadoop Summit 2015)?要解释这个问题就要先解释一下Hadoop对于企业的重要性。ForresterResearch(一家著名的咨询公司)的首席分析师Mike Gualtieri在峰会中预测,100%的大企业已经或将在未来2-3年内开始使用Hadoop。不管你是能源,通信,医疗,娱乐,生产制造,互联网行业的企业,你的数据总是会越来越多,而如果需要从这些海量数据中挖掘出价值,提高企业的整体竞争力,你就需要一个强大的储存和处理数据的能力,Hadoop及其泛生态圈就能帮你实现!(真的不是在打广告。。)Hadoop技术峰会就是Hadoop的开发者和使用者交流的地方。峰会为期三天,期间有160多场讲座,有来自Aetna, Facebook,谷歌,微软,迪士尼,Airbnb等公司的各路技术大拿分享他们关于开发使用Hadoop的故事。通过讲座,自由讨论,聚餐,party等形式参会者会与来自39个国家的4000+的参会者进行沟通。某种意义上来说,Hadoop Summit就像是个宗教活动,虔诚的数据爱好者相聚在一起,看看你在做什么我在做什么,共同讨论关于数据的信仰。
董飞在他的文章后Hadoop时代的大数据架构中详细介绍了围绕Hadoop的生态系统。我的总体感觉就是原来对于这么多(至少30家)企业来说,数据和Hadoop就是他们赖以生产的资源和工具,如果说数据如水的话(参考上一段的“数据湖”概念),我至少看到了有水源勘探的公司,钻井的公司,打水,教人打水的公司,教人节水的公司,消毒水的公司,还有给水流情况做报表的公司。关键是“打水”和“教人打水”的公司(hortonworks)还上市了呢!
作者简介:郭安琪,2014年5月毕业于美国康奈尔大学信息工程系,8月以实习生的身份加入唯品会美国研发中心,现走在数据产品研发的道路上。
原文链接:世界沉醉在数据里
Data Governance,Data Lineage,Data Dividend,Data wrangling
Fig 8:Hadoop Summit 2015第二天晚上在San Pedro Market有盛大的party活动,所有参会人员凭胸卡就可以参加。在这里不仅有免费的印有hadoop峰会字样的人力三轮车负责接送会场和party的人群,还有现场乐队表演,最棒的是有世界各国的美食和美酒可以品尝。晚风徐徐,竟是醉了。
其他频繁被提到的词,欢迎大家自己百科~
2015年6月9-11日,我在美国加州硅谷参加了第八届全球Hadoop技术峰会(Hadoop Summit 2015)。在短短的3天时间里我既见识到了Hortonwork、Cloudera、SAP、IBM、惠普、雅虎等25+数据服务技术提供商围绕大数据设计开发的产品,也聆听了Schlumberger(能源巨头)、verizon(通信巨头)、迪斯尼(娱乐巨头)、Airbnb(共享经济代表企业)、赛门铁克(信息安全巨头)、Aetna(医疗保险巨头)这些各行各业的领军企业用数据产品为公司创造价值的真实案例。我最大的感受就是有这么多的公司相信数据的价值,并且真真切切地将数据作为企业的重要资产来维护和使用。简单地用峰会一位嘉宾,微软分管数据平台副总裁Ranga的语言总结--“世界沉醉在数据里” (The world is drunk on data)
以下为原文
Fig 3:Hadoop Summit 2015微软数据平台副总裁Ranga主题演讲截图,展示零售业,医疗,支付,教育,机器维护和交通领域基于Hadoop技术的数据红利(Data Dividend)
新的概念概念一:“大铁遇到大数据”(Big Iron Meets Big Data)