Spark Summit 2017 Boston에 다녀왔습니다.^^ 간단히 느낀점만 공유드리면,
1. Spark Ecosystem이 이제 곧 Hadoop Ecosystem을 능가할 것으로 예상합니다. 기존 분산처리시스템이 Store를 담당하는 부분은 거대하지만 정작 Execute에 대한 부분은 취약한 것을 몸은 크고 뇌는 작은 공룡에 비유하고 있습니다. 이와 반대로 뇌를 담당하는 execute영역에서는 Spark가 선두주자이며 storage는 필요에 따라 선택가능하고 HDFS외의 사례가 많음을 보이고 있습니다.
2. 특히 Spark는 기존의 약점이었던 실시간처리영역을 보완하기 위해서 많은 부분을 준비하고 있으며 Structered Streaming을 키워드로 내세우고 2.2 2.3릴리즈 준비에 박차를 가하고 있습니다. High Level API를 통해서 기존과 동일한 방식으로 코딩환경을 제공할 것으로 예상되며 Apache Beam과 유사성이 보이는데 더 지켜봐야할 것 같습니다.
3. 2010년이후 현재까지 Cpu의발전속도는 거의 없으나 Network,storage는 10배의성장을 보여주는 부분에 주목하여 이를 분산병렬처리의 핵심요소로 보고 여러가지 프로젝트가 진행되고 있었습니다. (ex, carnobdata tungsten parquet등)
전체적으로 방향성은 Store와 Execute를 분리하고 각자요건에 맞게 다양한 요소를 조합하여 사용하는 것이 대세입니다. 특히 streaming에서는 kafka를 안쓰는 곳이 없는 것 같습니다. 또한 분석영역에서 language의 점유율이 scala는 감소한반면 python은 2배가까이 증가하였습니다.
마지막으로 databricks를 포함한 많은 업체가 이러한 기능들을 클라우드상에서 서비스로 제공하기 위해서 노력하고 있습니다.
상세한 내용들은 시간을 내어 정리하고 공부해야 할 것 같습니다^^
1. Spark Ecosystem이 이제 곧 Hadoop Ecosystem을 능가할 것으로 예상합니다. 기존 분산처리시스템이 Store를 담당하는 부분은 거대하지만 정작 Execute에 대한 부분은 취약한 것을 몸은 크고 뇌는 작은 공룡에 비유하고 있습니다. 이와 반대로 뇌를 담당하는 execute영역에서는 Spark가 선두주자이며 storage는 필요에 따라 선택가능하고 HDFS외의 사례가 많음을 보이고 있습니다.
2. 특히 Spark는 기존의 약점이었던 실시간처리영역을 보완하기 위해서 많은 부분을 준비하고 있으며 Structered Streaming을 키워드로 내세우고 2.2 2.3릴리즈 준비에 박차를 가하고 있습니다. High Level API를 통해서 기존과 동일한 방식으로 코딩환경을 제공할 것으로 예상되며 Apache Beam과 유사성이 보이는데 더 지켜봐야할 것 같습니다.
3. 2010년이후 현재까지 Cpu의발전속도는 거의 없으나 Network,storage는 10배의성장을 보여주는 부분에 주목하여 이를 분산병렬처리의 핵심요소로 보고 여러가지 프로젝트가 진행되고 있었습니다. (ex, carnobdata tungsten parquet등)
전체적으로 방향성은 Store와 Execute를 분리하고 각자요건에 맞게 다양한 요소를 조합하여 사용하는 것이 대세입니다. 특히 streaming에서는 kafka를 안쓰는 곳이 없는 것 같습니다. 또한 분석영역에서 language의 점유율이 scala는 감소한반면 python은 2배가까이 증가하였습니다.
마지막으로 databricks를 포함한 많은 업체가 이러한 기능들을 클라우드상에서 서비스로 제공하기 위해서 노력하고 있습니다.
상세한 내용들은 시간을 내어 정리하고 공부해야 할 것 같습니다^^
'컨퍼런스' 카테고리의 다른 글
Azure Everywhere 2019 후기 (0) | 2019.01.12 |
---|---|
Red Hat Forum 2018 Seoul 후기 (0) | 2018.11.07 |