心智圖資源庫 數據開發團隊規劃
這是一篇關於資料開發團隊規劃的心智圖,包含能力建構、 醫療業務能力、 工程技術能力、團隊建立等。
編輯於2024-01-09 18:05:58Microbiologia medica, Infezioni batteriche e immunità riassume e organizza i punti di conoscenza per aiutare gli studenti a comprendere e ricordare. Studia in modo più efficiente!
La teoria cinetica dei gas rivela la natura microscopica dei fenomeni termici macroscopici e le leggi dei gas trovando la relazione tra quantità macroscopiche e quantità microscopiche. Dal punto di vista del movimento molecolare, vengono utilizzati metodi statistici per studiare le proprietà macroscopiche e modificare i modelli di movimento termico delle molecole di gas.
Este é um mapa mental sobre uma breve história do tempo. "Uma Breve História do Tempo" é um trabalho científico popular com influência de longo alcance. Ele não apenas introduz os conceitos básicos da cosmologia e da relatividade, mas também discute os buracos negros e a expansão. Do universo. questões científicas de ponta, como inflação e teoria das cordas.
Microbiologia medica, Infezioni batteriche e immunità riassume e organizza i punti di conoscenza per aiutare gli studenti a comprendere e ricordare. Studia in modo più efficiente!
La teoria cinetica dei gas rivela la natura microscopica dei fenomeni termici macroscopici e le leggi dei gas trovando la relazione tra quantità macroscopiche e quantità microscopiche. Dal punto di vista del movimento molecolare, vengono utilizzati metodi statistici per studiare le proprietà macroscopiche e modificare i modelli di movimento termico delle molecole di gas.
Este é um mapa mental sobre uma breve história do tempo. "Uma Breve História do Tempo" é um trabalho científico popular com influência de longo alcance. Ele não apenas introduz os conceitos básicos da cosmologia e da relatividade, mas também discute os buracos negros e a expansão. Do universo. questões científicas de ponta, como inflação e teoria das cordas.
數據開發團隊
能力建構
醫療業務能力
需求對接
資料探查項目
通用資料治理
數據生產項目
專病
迎春花
一院多區
國家報告
其他產品
解決方案及交付
需求分析及評審
專案管理及資料交付
模型設計與最佳化
模型設計
版本控制
工程技術能力
需求實現方案拆解
數據範圍及數據流
數據更新方案
開發計劃及人力成本
儲存成本
資料存取
jdbc/odbc
restful/webservice
資料庫備份恢復
cdc/ogg
檔案/ftp
數據生產
sql
spark
dsl udf
udf封裝NLP
多重資料來源同時存取
數據生產工具開發
開發語言
java
Python直譯
dsl
功能分類
模型映射
dsl
sql
spark任務
數據增強
清洗/字典歸一
empi/emoi
病歷解析
通用html/xml
預處理
分割
文件類型標準化
章節解析
純文字病歷處理
轉xml
正規提取
品管工具
單一字段
規範性
標準率(有字典或值域範圍)
規範率(正規規範)
主鍵唯一性
空值率
多字段
關聯性
業務合理性
傳輸差異
行數差異
欄位有值率/空值率差異
數據血緣
生產效率、穩定性、一致性
離線資料流
spark
即時數據串流
kafka/flink/spark streaming
批流一體化/資料湖
hudi/kudu
團隊建立
工具、知識沉澱
HIT字典/醫學知識
git/wiki/工具平台
項目SOP
人員需求
數據開發(3-4人)
文書解析
empi、emoi、清洗、字典歸一
NLP生產、病患層級聚合
數據品控
資料交付(by專案)
交付負責人
數據生產
數據品控
A庫
資料分層
通用分層理論
操作資料層(Operational Data Store):ODS
明細資料層(Data Warehouse Detail):DWD
匯總資料層(Data Warehouse Summary):DWS
應用資料層(Application Data Store):ADS
場景適配
ods(原c1)
ods_clean(原c2)
資料期間內小文件合併
通用資料清洗(預處理)
hive索引
dwd
empi
院內
跨院
empi相關表結構設計
病人註冊
患者更新
患者拆分
變更記錄
患者交叉索引
虛擬患者
emoi
visit_sn補全
虛擬就診
NLP歸一
分區(資料期)降維
業務唯一鍵設計(pkid)
電子病歷解析
大文檔拆分
文檔類型標化
章節解析
診斷全表、手術全表等
dws/mid std(NLP生產及資料聚合層)
結構化 歸一
ads(標籤表/專病庫)
生產任務分類
mapping
Spark
DSL
映射規範
效能最佳化
大表join
數據傾斜
快取復用中間數據
精簡資料流
跨資料來源執行
支援串流計算
clean/norm
執行框架:Spark DataFrame config
業務邏輯:udf
數據增強
Spark
資料期降維
empi
emoi
udtf/udf
電子病歷解析
NLP字段生產及資料聚合
數據品控
單一欄位規則
空值率
標準率
違規率
有值數
主鍵唯一率
跨表規則
孤兒數據
客製化業務規則
跨庫規則
資料層間傳輸差異
同資料層更新差異
生產規範
立項生產流程
需求輸入分析及拆解
時間範圍
醫院列表
詳細字段
特殊處理需求(脫敏、empi、資料品質要求等)
需求評估
人力需求評估
儲存及運算資源評估
資料模型滿足情況評估
解決方案評審
生產方案
品控方案
排期
生產及交付
資料模型設計
數據開發
數據生產
數據品控
數據交付
生產任務管理
任務命名規範
儲存路徑規範
使用者管理、佇列權限、資源管理
品控標準及方案