Doris
领导不会看猛犸,会看有数。
Doris On ES,两个ES实现Join。
ES和MySQL进行Join。在Doris上注册。
跨库查询和联邦查询区别?
FLink写TiDB,Source Kafka写Doris。
starrocks
同时写入TiDB和Doris?场景。
rollup和物化视图区别?
定时调度,定时crud,猛犸,Azkaban。写入Doris。
FE(Java,交互,MySQL协议)和BE(C++),物理机部署,十台左右,FE三台左右。
写入LSM Tree。确定?前缀索引,稀疏索引。写入快,查询慢?Compact操作:merge on read,copy on write。
写入模型,多点还是单点。
LSM Tree和列产生关系?
向量化存储引擎。什么是向量化?https://doris.apache.org/zh-CN/docs/advanced/vectorized-execution-engine/?_highlight=%E9%87%8F%E5%8C%96
索引种类不行,多租户,资源隔离不好。贵在SSD,都是物理机。
Doris即席分析,其他架构:Hive To Doris。 有道:Doris To Hive。
数仓:
Doris还是TiDB?查询性能,不一定。
看板需求,Doris做存储末端,Kafka->Hive。
Doris Manager. 普罗米修斯监控。
TiCDC4.0有了,子航集群,没有TiCDC。
Doris建立索引,
online,offline 资源隔离,租户。
Arctic:Hive T+1取代。因为比较慢。
Hive元数据。执行引擎Hive不考虑,Spark on hive,Persteo on hive。
BE:存算结合 FE:调度节点。
SelectDB:云数仓。Doris的云数仓。
湖仓一体。
TiDB 是TiCDC。TiDB当MySQL的从。
https://selectdb.com/。
SelectDB Cloud
数据集成工具:https://github.com/alibaba/DataX:阿里云开源离线同步工具 和canal不一样。
Ceph Vs 网易开源Curve
网易数帆实时数据湖 Arctic 的探索和实践:https://www.infoq.cn/article/wgjrwk7bhrsjbh8uddhg
Doris Compaction机制解析:https://mp.weixin.qq.com/s?__biz=Mzg5MDEyODc1OA==&mid=2247485136&idx=1&sn=a10850a61f2cb6af42484ba8250566b5&chksm=cfe016c9f8979fdf100776d9103a7960a524e5f16b9ddc6220c0f2efa84661aaa95a9958acff&scene=21#wechat_redirect
Apache Iceberg
Apache DolphinScheduler
Apache SeaTunnel
你问我DataX是谁?对不起,我活在Apache SeaTunnel的时代!:https://jishuin.proginn.com/p/763bfbd707f5
Comparison of Data Lake Table Formats (Apache Iceberg, Apache Hudi and Delta Lake) :https://www.dremio.com/subsurface/comparison-of-data-lake-table-formats-iceberg-hudi-and-delta-lake/#toc_item_Delta%20Lake
箱子博客:https://blog.boluotou.tech/post/20220807-offline-data-warehouse/ https://github.com/gcnyin/hive-metastore-image/blob/master/build-hive-metastore.sh
深度对比 Delta、Iceberg 和 Hudi 三大开源数据湖方案
https://www.infoq.cn/article/fjebconxd2sz9wloykfo