Từ điển dữ liệu (Data Dictionary) là một tập hợp các mô tả về các đối tượng hoặc mục dữ liệu trong một mô hình dữ liệu vì lợi ích của các lập trình viên và những người khác cần tham khảo chúng. Thường thì một từ điển dữ liệu là một kho meta data (Meta Data) tập trung .
Bước đầu tiên trong phân tích hệ thống các đối tượng tương tác là xác định từng đối tượng và mối quan hệ của nó với các đối tượng khác. Quá trình này được gọi là mô hình hóa dữ liệu và dẫn đến một bức tranh về các mối quan hệ đối tượng. Sau khi mỗi đối tượng hoặc mục dữ liệu được đặt một tên mô tả, mối quan hệ của nó sẽ được mô tả hoặc nó trở thành một phần của cấu trúc nào đó mô tả ngầm mối quan hệ. Loại dữ liệu, chẳng hạn như văn bản hoặc hình ảnh hoặc giá trị nhị phân, được mô tả, các giá trị mặc định có thể xác định trước được liệt kê và cung cấp mô tả ngắn gọn bằng văn bản. Việc thu thập dữ liệu này có thể được sắp xếp để tham khảo thành một cuốn sách gọi là Từ điển dữ liệu (Data Dictionary).
Trong công việc số hóa và chuyển đổi số của doanh nghiệp, dữ liệu là nguồn nhiên liệu chính cho công việc này, và Từ điển dữ liệu là 1 anh hùng thầm lặng sau lưng. Vậy thì vai trò cụ thể của Từ Điển Dữ Lệu là gì, chúng ta hãy xem bài chia sẻ của Beth Crane là phó chủ tịch phụ trách dữ liệu tại công ty Sight Machine nhé.
“Tôi đã làm việc với một nhóm công nghệ thông tin và nhóm OT đa chức năng từ một trong những nhà sản xuất đồ gia dụng lớn nhất thế giới. Chúng tôi đã thảo luận về cách thúc đẩy chuyển đổi kỹ thuật số bằng cách cung cấp thông tin chi tiết về dữ liệu sản xuất để tối ưu hóa quy trình. Họ muốn đưa dữ liệu của họ vào nền tảng năng suất sản xuất của chúng tôi một cách nhanh chóng và bắt đầu. Họ hỏi tôi : “Khi nào chúng ta có thể bắt đầu sử dụng dữ liệu và xem kết quả?”
Phản ứng của tôi lúc đó : “Trước tiên, hãy xây dựng một từ điển dữ liệu.”
Sau khi làm việc với hàng trăm nhà sản xuất trong các ngành công nghiệp ở nhiều giai đoạn khác nhau trong hành trình chuyển đổi kỹ thuật số của họ, tôi đã biết rằng từ điển dữ liệu là một anh hùng thầm lặng. Từ điển dữ liệu có thể giảm thời gian định giá, tăng độ tin cậy vào dữ liệu, cung cấp khả năng truy xuất nguồn gốc và cải thiện khả năng bảo trì. Việc tạo từ điển dữ liệu có thể mất một tuần hoặc lên đến một tháng, tùy thuộc vào độ phức tạp của dữ liệu và tốc độ ra quyết định. Điều đó nói rằng, không dành thời gian để tạo từ điển dữ liệu có thể phá hoại quá trình chuyển đổi kỹ thuật số bằng cách xây dựng toàn bộ nỗ lực chuyển đổi trên nền tảng dữ liệu không ổn định, điều này làm suy yếu cả thẩm quyền và độ chính xác của các quyết định dựa trên dữ liệu.
Tại sao chúng ta cần một từ điển dữ liệu ?
Một từ điển dữ liệu cho một dự án chuyển đổi kỹ thuật số sản xuất là một tài liệu phục vụ như là một lối đi và cung cấp bối cảnh cần thiết cho dữ liệu. Một từ điển dữ liệu tốt bao gồm các thẻ tag để ánh xạ nội dung, giá trị mong đợi, trường được tính toán, meta data khác và định nghĩa thuật ngữ. Các yếu tố này được yêu cầu để tích hợp hiệu quả và hiệu quả dữ liệu từ sàn nhà máy vào nền tảng dữ liệu và sử dụng dữ liệu một cách chiến lược.
Từ điển dữ liệu cung cấp nền tảng cho tính minh bạch và khả năng truy xuất nguồn gốc bằng cách chứa tất cả thông tin ánh xạ chính, định nghĩa, công thức, meta data và kỳ vọng. Theo một nghĩa nào đó, từ điển dữ liệu kết hợp các yếu tố của giản đồ luồng dữ liệu ban đầu, lược đồ dữ liệu và bảng thuật ngữ.
Kích thước và độ phức tạp của từ điển dữ liệu phụ thuộc vào số lượng dữ liệu đầu vào bạn cần theo dõi, định dạng của dữ liệu đầu vào (truyền trực tuyến so với rời rạc) và mối quan hệ giữa các đầu vào dữ liệu.
Nghe có vẻ phức tạp phải không ? Chúng tôi xây dựng bảng tính đơn giản và sử dụng các thuật ngữ mà bất kỳ ai trong công ty sản xuất cũng có thể hiểu được.
Không chỉ là danh sách các thẻ tag, nội dung và thuật ngữ, từ điển dữ liệu còn phục vụ nhiều mục đích:
Tạo ra một nơi chia sẻ về sự hiểu biết: Khi một nhóm tạo ra một dữ liệu từ điển với nhau, hiểu biết quá trình alighment của mọi người về dữ liệu gì là quan trọng và tại sao.
Nắm bắt “kiến thức rời rạc”: Từ điển dữ liệu ghi lại “kiến thức bộ lạc” về các hoạt động sản xuất mà có thể đã bị khóa trong đầu mọi người.
Tăng tốc người dùng tham gia: Từ điển cũng có thể giúp dễ dàng thêm người mới vào nhóm dữ liệu và dự án dữ liệu bằng cách cung cấp cho họ một tài liệu duy nhất với tất cả thông tin họ cần để hiểu nền tảng của dự án.
Đơn giản hóa việc sửa đổi khóa học và thay đổi định nghĩa: Từ điển dữ liệu đóng vai trò như một đường cơ sở vững chắc, giúp mọi người dễ dàng hiểu những thay đổi đã được thực hiện ở đâu trong định nghĩa dữ liệu, số liệu, mục tiêu và sơ đồ quy trình làm việc.
Xác định khoảng trống trong dữ liệu hiện có : Việc xây dựng từ điển dữ liệu buộc các nhóm phải xác định sớm khoảng trống dữ liệu trong một dự án để đảm bảo rằng các KPI cần thiết có thể tính toán hoặc bắt đầu quá trình nắm bắt và định dạng chính xác các nguồn và loại dữ liệu còn thiếu.
Cho phép xác thực thông tin : Từ điển dữ liệu là một tạo tác cần thiết để xác thực các giả thuyết chính của quá trình chuyển đổi kỹ thuật số và các kết quả thu được, cung cấp cơ sở để so sánh thực tế (những gì đã được triển khai) với dự kiến (những gì đã được lên kế hoạch).
Kích hoạt khả năng scale up: Bằng cách tạo ra một kế hoạch chi tiết dễ dàng sao chép cho dữ liệu để thúc đẩy chuyển đổi kỹ thuật số, từ điển dữ liệu đơn giản hóa đáng kể và tăng tốc độ mở rộng quy mô cho nhiều nhà máy. (Ví dụ: đảm bảo một cấu trúc gắn thẻ tag duy nhất cho tất cả dữ liệu PLC)
Cho phép bảo trì trên quy mô lớn : Từ điển dữ liệu giúp bạn có thể duy trì và liên tục cải thiện khía cạnh dữ liệu của quá trình chuyển đổi kỹ thuật số bằng cách cho phép tạo các thẻ tag hoặc trường mới và tự động chia sẻ các cập nhật này trên toàn bộ công ty sản xuất.
Cách tạo từ điển dữ liệu
Việc xây dựng từ điển dữ liệu đòi hỏi nỗ lực và cam kết từ trước, nhưng làm giảm công việc làm lại, tạo điều kiện xác thực và tăng giá trị của tài sản dữ liệu. Các đại diện từ OT, CNTT, và kỹ thuật quy trình, quản lý chất lượng và khoa học dữ liệu đều phải tham gia và đã mua vào quy trình.
Dưới đây là các bước chính mà chúng tôi thực hiện để xây dựng từ điển dữ liệu:
Xác định và tập hợp đúng người : Các dự án thành công nhất của chúng tôi bắt đầu bằng cách tập hợp các cá nhân trong IT và OT. Chúng tôi đã học được rằng chỉ làm việc với (những) cá nhân có thể cung cấp quyền truy cập dữ liệu là một công thức dẫn đến thất bại. Bạn cần bao gồm những người sẽ sử dụng dữ liệu để đưa ra quyết định. Bằng cách tập hợp những người phù hợp lại với nhau ngay từ đầu, bạn sẽ ít có khả năng bỏ lỡ các yêu cầu của người dùng hoặc cần thực hiện các thay đổi quan trọng đối với kiến trúc dữ liệu của mình.
Quyết định những gì bạn cần đo lường : Chọn các phép đo cụ thể, chính xác có thể ảnh hưởng đến các kết quả quan trọng và làm việc lùi. Nếu bạn muốn đo lường năng suất ca làm việc, dữ liệu cần có có thể là khối lượng hàng hóa được sản xuất, thời gian ngừng hoạt động, mức chất lượng và khối lượng phế liệu hoặc vỡ. Bằng cách quyết định những gì bạn cần đo lường và chia nhỏ nó thành các phần tử dữ liệu, sau đó bạn có thể làm việc ngược lại để thu thập nó.
Viết các định nghĩa rõ ràng về dữ liệu được yêu cầu: Đồng ý về các định nghĩa rõ ràng cho từng loại dữ liệu bạn muốn thu thập. Bao gồm mô tả về dữ liệu và ngữ cảnh, chẳng hạn như dữ liệu được lấy ở đâu và tại sao dữ liệu lại quan trọng. Những người khác nhau trong một công ty sản xuất có thể có những ý tưởng khác nhau về cách xác định quy trình và phép đo. Ví dụ, chúng tôi thường thấy các nhóm ở năm nhà máy giống nhau, mỗi nhóm có định nghĩa riêng về OEE. Việc tạo ra các định nghĩa nhất quán đảm bảo mọi người đều đồng ý về cách mô tả dữ liệu.
Vạch ra các nguồn dữ liệu của dữ liệu và cách dữ liệu đó được thu thập và báo cáo: PLC, Historian , MES, hệ thống kiểm soát chất lượng đều thu thập các loại dữ liệu khác nhau ở nhiều định dạng khác nhau. Nhiều nhà máy đã thực hiện các dự án IIoT, thêm các cảm biến khác nhau vào hỗn hợp. Điều quan trọng là phải hiểu tất cả các nguồn dữ liệu bạn cần và xác định những khoảng trống mà bạn phải thêm cảm biến hoặc khả năng thu thập dữ liệu.
Ánh xạ thẻ tag với nội dung : Một phần quan trọng của phần này của bài tập là lập bản đồ mối quan hệ giữa các thẻ tag riêng lẻ (ví dụ: một trường chẳng hạn như nhiệt độ) và máy được liên kết với thẻ tag . Hệ thống phân cấp và danh sách thẻ tag được xác định rõ và duy trì tốt là lý tưởng và việc tạo từ điển dữ liệu có thể tiết lộ những khoảng trống hoặc xung đột tồn tại trong ánh xạ thẻ tag . Quan trọng hơn, việc tạo từ điển dữ liệu có thể tiết lộ nơi các nhóm có thể bắt đầu tạo ra giá trị với dữ liệu của họ trong khi các phần chưa hoàn thiện có sẵn.
Xác định kiến trúc dữ liệu của bạn: Khi bạn hiểu những phần dữ liệu nào cần thiết cho dự án chuyển đổi kỹ thuật số của mình, thì bạn có thể xác định cách tất cả các phần dữ liệu đó phải khớp với nhau để nắm bắt và tính toán thông tin bạn muốn đo lường. Bước này thường yêu cầu lặp lại. Từ điển dữ liệu rất cần thiết để theo dõi dữ liệu từ các nguồn khác nhau có liên quan như thế nào, các trường hợp cạnh được phát hiện trong các dự án dữ liệu và các trường mới hoặc chuyển đổi dữ liệu bắt buộc.
Tạo bảng chú giải thuật ngữ: Bảng chú giải thuật ngữ phải bao gồm những gì được đo lường nhưng cũng có những thuật ngữ quan trọng bổ sung ngữ cảnh nhưng không được đo lường. Điều này sẽ cung cấp hiểu biết về ngữ cảnh tốt hơn về dự án và những gì bạn hy vọng đạt được với dự án.
Chia sẻ và thu hút phản hồi và đánh giá: Bằng cách hiển thị từ điển dữ liệu của bạn cho nhiều đối tượng hơn, bạn sẽ chỉ ra các vấn đề bị bỏ qua và đưa ra các đề xuất để cải thiện. Chia sẻ từ điển dữ liệu sẽ giáo dục những người còn lại trong nhóm của bạn về dự án chuyển đổi kỹ thuật số và cách nó sẽ được thực hiện. Những nhân viên có tham vọng, ham học hỏi sẽ muốn tìm hiểu những điều mới và xem dự án như một cách để hoàn thành công việc của họ tốt hơn.
Từ điển dữ liệu phải là một tài liệu sống
Mọi công ty sản xuất luôn thay đổi. Đôi khi những thay đổi rất đột ngột. Đôi khi chúng được lập kế hoạch hoặc dần dần. Điều kiện shop-floor thay đổi. Lỗi cơ học vốn hiếm gặp có thể trở nên phổ biến hơn khi máy móc cũ kỹ. Một phần mềm mới có thể được cài đặt và sau đó phải được ánh xạ vào từ điển. Nhà máy có thể nâng cấp phần sụn trên hệ thống, thay đổi định dạng đầu ra của dữ liệu. Nhân viên mới có thể tham gia và cần hiểu nhanh một dự án dữ liệu.
Vì những lý do này và hơn thế nữa, từ điển dữ liệu phải là tài liệu sống được xem xét và sửa đổi theo nhịp thường xuyên. Để có hiệu quả, từ điển dữ liệu phải vượt qua ranh giới giữa việc cung cấp thẩm quyền và hướng dẫn và phản ứng với các thay đổi.
Ngoài từ ngữ, định nghĩa dữ liệu, gắn thẻ tag và lược đồ, xây dựng từ điển dữ liệu là một cách mạnh mẽ để chuẩn bị cho một tổ chức sản xuất trước những thách thức văn hóa cần thiết cho sự thành công của chuyển đổi kỹ thuật số hoặc các dự án theo hướng dữ liệu.
Xây dựng sự hiểu biết chung về những gì bạn muốn đo lường là bước đầu tiên để xây dựng sự đồng thuận về cách cải thiện các phép đo đó. Nếu bạn muốn dự án chuyển đổi kỹ thuật số của mình thành công; nếu bạn muốn giảm thiểu rủi ro thất bại; nếu bạn muốn tạo một môi trường làm việc tích cực xung quanh dự án của mình — hãy tạo một từ điển dữ liệu trước khi bạn làm bất cứ điều gì khác