Thank you from G.C. Guancheng Chen

Dear friends, colleagues and mentors,

Tomorrow (Jun 30th, 2015) will be my last working day at IBM Research – China. When I decided to join CRL in April 2011, I considered this adventure as a world-leading industry PhD program in the most interesting market – China. Instead of continuing my academic career as a regular PhD with my advisor Prof. Per Stenstrom, I was more interested in making real impact in real business world. Four years later, I would say I was so lucky to have enjoyed a fantastic journey with you who not only helped me, inspired me, encouraged me, mentored me, but also become life long friend with me.

Last week I visited IBM Reserach – Almaden, and I saw a saying on the lobby wall: “Science and data to extend human capability”. IBM Research was no doubt a remarkable organization for disruptive innovation in the human history. I am so proud that I could get the chance to work with you on being essential to our society. After my graduation from IBM Research, I will start a new adventure of building cool big data technology in OneAPM, a startup that has many common interest with me. Hope what I learned from CRL could help me become a person that can shape the world to come in some degree.

Please allow me to take the opportunity to thank you all for all your kind support during the years. Life is a long long journey, we will definitely have chance to meet each other again:)

Please find my contact below and wish you all the best in the future!

My wechat is threadingnow, my weibo is weibo.com/parallellabs
Linkedin: http://linkedin.com/in/guanchengchen
Personal Blog: http://www.parallellabs.com/
Email: chenguancheng # at # gmail.com

怎样做颠覆式创新?

关于怎样做颠覆式创新,普林斯顿的李凯教授给出了四个要素:

(1)找到最好的合伙人

(2)理解市场需求(例如你是卖维生素还是抗生素?)

(3)紧跟技术发展趋势(例如多核时代来临时,你的软件一定要充分利用多核并行)

(4)产生一个新的产品类别(比老产品好10倍甚至20倍,才能颠覆已有方案)。

何为颠覆式创新?你的产品需要能取代高中低端的所有已有产品,这就是颠覆式创新。例如用3个2U服务器的重复数据删除解决方案取代27个机柜的传统方案。这意味着你的产品比已有产品好10倍到20倍。

关于颠覆式创新,彼得·蒂尔也说过:“我判断一个项目一般有三个标准:人、技术、商业模式,必须三样同时具备。

首先对人来说,我觉得我们不够重视团队的结合。可能一个团队的成员背景、履历都很厉害,但这些人在一起工作时是怎样的却是另一个问题,他们也许都很有才华,认为自己比别人聪明,而风险在于有一个“很大的自我”的人也许很难在一起工作,有时你能看到几个很优秀的人组成了一个很糟糕的团队。所以我会问这些人怎么相遇的,在一起多久了,之前的关系等等。

技术方面,如果只是比别人好10%或20%是不行的,要好上10倍、20倍。

还有一个标准是商业战略。对硅谷的投资者来说有太多的牛人、太好的技术,但在商业战略上是比较缺乏的。在我的理念中,要成功,首先你要能够实现垄断,你要有一个专属于你自己的类别,不是说你很快就有一个非常大的市场,而是可以从一个较小的市场做起,在早期就有一个较高的使用频度,人们很喜欢你的产品、推荐给朋友。”

 

基于OpenStack, Docker和Spark打造SuperVessel大数据公有云

今年4月的Spark技术峰会上我做了《SuperVessel:基于OpenStack, Docker和Spark打造大数据公有云》的技术分享:

基于OpenStack和Docker打造Spark大数据服务

新浪微盘下载链接

1.首先请介绍下您自己,以及您在 Spark 技术方面所做的工作。

我是IBM中国研究院的高级研究员,大数据云方向的技术负责人,我的微博是@冠诚。我们围绕Spark主要做两方面的事情:

(1) 在IBM研究院的SuperVessel公有云(http://www.ptopenlab.com)上开发和运维Spark as a Service大数据服务。
(2) 在OpenPOWER架构的服务器上做Spark的性能分析与优化。

2.您所在的企业是如何使用 Spark 技术的?带来了哪些好处?

Spark作为新一代的大数据处理引擎主要带来了两方面的好处:
(1)相比于MapReduce在性能上得到了很大提升;
(2)在一个统一的平台上将批处理,SQL,流计算,图计算,机器学习算法等多种范式集中在一起,使得混合计算变得更加的容易。

3.您认为 Spark 技术最适用于哪些应用场景?

大规模机器学习,图计算,SQL等类型数据分析业务是非常适合使用Spark的。当然,在企业的技术选型过程中,并不是说因为Spark很火就一定要使用它。例如还有很多公司在用Impala做数据分析,一些公司在用Storm和Samaza做流计算,具体的技术选型应该根据自己的业务场景,人员技能等多方面因素来做综合考量。

4.企业在应用 Spark 技术时,需要做哪些改变吗?企业如果想快速应用 Spark 应该如何去做?

企业想要拥抱Spark技术,首先需要技术人员改变。是否有给力的Spark人才会是企业能否成功应用Spark最重要的因素。多参与Spark社区的讨论,参加Spark Meetup,给upstream贡献代码都是很好的切入方式。如果个人开发者想快速上手Spark,可以考虑使用SuperVessel免费的Spark公有云服务,它能快速创建一个Spark集群供大家使用。

5.您所在的企业在应用 Spark 技术时遇到了哪些问题?是如何解决的?

我们在对Spark进行性能调优时遇到很多问题。例如JVM GC的性能瓶颈,序列化反序列化的开销,多进程好还是多线程好等等。在遇到这些问题的时候,最好的方法是做好Profiling,准确的将性能瓶颈找到,再去调整相关的参数去优化这些性能瓶颈。
另一方面,我们发现如果将Spark部署在云环境里(例如OpenStack管理的Docker Container)时,它的性能特征和在物理机上部署又会有很大的不同,目前我们还在继续这方面的工作,希望以后能有机会跟大家继续分享。

6.作为当前流行的大数据处理技术,您认为 Spark 还有哪些方面需要改进?

在与OpenStack这样的云操作系统的集成上Spark还是有很多工作可以做的。例如与Docker Container更好的集成,对Swift对象存储的性能优化等等。

7.您在本次演讲中将分享哪些话题?

我将分享的话题是“基于OpenStack, Docker和Spark打造SuperVessel大数据公有云”:

随着Spark在2014年的蓬勃发展,Spark as a Service大数据服务正成为OpenStack生态系统中的新热点。另一方面,Docker Container因为在提升云的资源利用率和生产效率方面的优势而备受瞩目。在IBM中国研究院为高校和技术爱好者打造的SuperVessel公有云(www.ptopenlab.com)中,我们使用OpenStack, Docker和Spark三项开源技术,在OpenPOWER服务器上打造了一个大数据公有云服务。本次演讲我们会向大家介绍如何一步一步使用Spark, Docker和OpenStack打造一个大数据公有云,并分享我们在开发过程中遇到的问题和经验教训。

8.哪些听众最应该了解这些话题?您所分享的主题可以帮助听众解决哪些问题?

对如何构造一个大数据云感兴趣的同学应该会对这个话题感兴趣。对于开发SuperVessel的Spark as a Service服务过程中我们做的技术选型,架构设计,以及解决的问题应该能对大家有所帮助。

9. 您有什么需要对读者补充的吗?

Spark与云的结合将会是未来一个非常热的方向,希望有更多关注这个方向的同学与我交流,谢谢大家。