Doris

领导不会看猛犸，会看有数。

Doris On ES，两个ES实现Join。

ES和MySQL进行Join。在Doris上注册。

跨库查询和联邦查询区别？

FLink写TiDB，Source Kafka写Doris。

starrocks

同时写入TiDB和Doris？场景。

rollup和物化视图区别？

定时调度，定时crud，猛犸，Azkaban。写入Doris。

FE（Java，交互，MySQL协议）和BE（C++），物理机部署，十台左右，FE三台左右。

写入LSM Tree。确定？前缀索引，稀疏索引。写入快，查询慢？Compact操作：merge on read，copy on write。

写入模型，多点还是单点。

LSM Tree和列产生关系？

向量化存储引擎。什么是向量化？https://doris.apache.org/zh-CN/docs/advanced/vectorized-execution-engine/?_highlight=%E9%87%8F%E5%8C%96

索引种类不行，多租户，资源隔离不好。贵在SSD，都是物理机。

Doris即席分析，其他架构：Hive To Doris。有道：Doris To Hive。

数仓：

Doris还是TiDB？查询性能，不一定。

看板需求，Doris做存储末端，Kafka->Hive。

Doris Manager. 普罗米修斯监控。

TiCDC4.0有了，子航集群，没有TiCDC。

Doris建立索引，

online，offline 资源隔离，租户。

Arctic:Hive T+1取代。因为比较慢。

Hive元数据。执行引擎Hive不考虑，Spark on hive，Persteo on hive。

BE:存算结合 FE:调度节点。

SelectDB：云数仓。Doris的云数仓。

湖仓一体。

TiDB 是TiCDC。TiDB当MySQL的从。

https://selectdb.com/。

SelectDB Cloud

数据集成工具：https://github.com/alibaba/DataX：阿里云开源离线同步工具和canal不一样。

Ceph Vs 网易开源Curve

网易数帆实时数据湖 Arctic 的探索和实践：https://www.infoq.cn/article/wgjrwk7bhrsjbh8uddhg

Doris Compaction机制解析：https://mp.weixin.qq.com/s?__biz=Mzg5MDEyODc1OA==&mid=2247485136&idx=1&sn=a10850a61f2cb6af42484ba8250566b5&chksm=cfe016c9f8979fdf100776d9103a7960a524e5f16b9ddc6220c0f2efa84661aaa95a9958acff&scene=21#wechat_redirect

Apache Iceberg

Apache DolphinScheduler

Apache SeaTunnel

你问我DataX是谁？对不起，我活在Apache SeaTunnel的时代！：https://jishuin.proginn.com/p/763bfbd707f5

Comparison of Data Lake Table Formats (Apache Iceberg, Apache Hudi and Delta Lake) ：https://www.dremio.com/subsurface/comparison-of-data-lake-table-formats-iceberg-hudi-and-delta-lake/#toc_item_Delta%20Lake

箱子博客：https://blog.boluotou.tech/post/20220807-offline-data-warehouse/ https://github.com/gcnyin/hive-metastore-image/blob/master/build-hive-metastore.sh

深度对比 Delta、Iceberg 和 Hudi 三大开源数据湖方案

https://www.infoq.cn/article/fjebconxd2sz9wloykfo

读书笔记

Doris