Thách thức của giải pháp tích hợp dữ liệu ETL trong công nghiệp

Hệ thống ETL trích xuất dữ liệu từ các hệ thống nguồn, thực thi các tiêu chuẩn về chất lượng và tính nhất quán của dữ liệu, tuân thủ dữ liệu để các nguồn riêng biệt có thể được sử dụng cùng nhau và cuối cùng cung cấp dữ liệu ở định dạng sẵn sàng trình bày để các nhà phát triển ứng dụng có thể xây dựng ứng dụng và người dùng cuối có thể ra quyết định. Vậy tại sao 50 năm sau chúng ta vẫn nói về từ viết tắt này? Bởi vì những thách thức đặc biệt khi làm việc với dữ liệu hoạt động công nghiệp đòi hỏi một cái nhìn mới về một khái niệm cũ.
Thách thức của giải pháp ETL công nghiệp

Giới thiệu

Đến nay, mọi người đều đã nghe nói về Công nghiệp 4.0, Sản xuất thông minh và Công nghiệp Internet vạn vật. Những khái niệm này được sử dụng để mô tả những thay đổi to lớn trong công nghệ hoạt động do sự bùng nổ của các công nghệ cơ bản bao gồm Đám mây, dữ liệu lớn, cảm biến thông minh, máy tính trạng thái rắn bảng mạch đơn, mạng không dây, phân tích, nền tảng phát triển ứng dụng và thiết bị di động.

Một số công nghệ này không phải là mới nhưng việc giảm giá gần đây và cải thiện tính dễ sử dụng đã làm tăng đáng kể mức sử dụng của chúng. Những công nghệ này đang được kết hợp với công nghệ hoạt động truyền thống như hệ thống điều khiển và hệ thống thực thi sản xuất để cải thiện hoạt động và chức năng kinh doanh của các công ty công nghiệp bằng cách cung cấp thêm dữ liệu — và các công cụ để tận dụng dữ liệu đó.Nhiều công nghệ này lần đầu tiên được phát triển cho các bộ phận CNTT để tương tác với các bộ phận kinh doanh khác như Tiếp thị, Bán hàng, Hậu cần và Tài chính. Với lượng dữ liệu khổng lồ trong sản xuất và mong muốn cải thiện hoạt động ngày càng cao, những công cụ này đang được CNTT đánh giá và áp dụng rộng rãi. Tuy nhiên, các nhóm Vận hành đang tìm cách tận dụng dữ liệu công nghiệp phải đối mặt với những thách thức đặc biệt xung quanh việc tích hợp dữ liệu đã làm chậm lại và tăng nỗ lực cần thiết để triển khai các hệ thống như vậy.

Ngành công nghệ thông tin đã giải quyết các thách thức tích hợp dữ liệu của riêng mình bằng cách tạo ra các giải pháp ETL tích hợp hệ thống kinh doanh với hệ thống phân tích. Các giải pháp này được thiết kế để trích xuất dữ liệu từ các hệ thống và cơ sở dữ liệu khác như Quản lý quan hệ khách hàng (CRM) và Hoạch định nguồn lực doanh nghiệp (ERP), kết hợp dữ liệu này trong một kho lưu trữ dữ liệu trung gian, sau đó chuyển đổi dữ liệu bằng cách làm sạch, căn chỉnh và chuẩn hóa nó. Sau đó, dữ liệu có thể được tải vào kho dữ liệu cuối cùng để được sử dụng bởi các công cụ phân tích, xu hướng và tìm kiếm.

Vậy tại sao các giải pháp ETL này không thể được các Hoạt động sử dụng để chuẩn bị dữ liệu công nghiệp ngày nay? Nói một cách đơn giản, dữ liệu công nghiệp từ hệ thống điều khiển trong nhà máy có những thách thức khác với dữ liệu giao dịch từ các hệ thống kinh doanh. Hãy xem xét những thách thức này sâu hơn.

Giai đoạn một: Trích xuất – Extract

Dữ liệu hoạt động không được lưu trữ trong cơ sở dữ liệu vì các giao dịch đang chờ được trích xuất một cách sạch sẽ. Thay vào đó, nó có sẵn trong thời gian thực từ PLC, bộ điều khiển máy, hệ thống SCADA và/hoặc cơ sở dữ liệu chuỗi thời gian trong toàn bộ nhà máy. Vì vậy, thay vì trích xuất dữ liệu từ một số ít cơ sở dữ liệu lớn, dữ liệu phải được truyền trực tuyến từ hàng trăm thiết bị và hệ thống.Hệ thống xử lý giao dịch lưu trữ các bản ghi đầy đủ cho mỗi giao dịch, nhưng trong các nhà máy, dữ liệu quy trình không được ghi lại dưới dạng “giao dịch”. Một nhà sản xuất rời rạc khối lượng lớn không thể lưu trữ toàn bộ tập dữ liệu cho từng thành phần xuất xưởng và nhà sản xuất hàng loạt thường cần lưu trữ nhiều hơn một giá trị duy nhất cho mỗi lô. Dữ liệu công nghiệp phải được thu thập với tốc độ cao để phát hiện bất kỳ điểm bất thường nào và sau đó được lưu trữ ở các tốc độ khác nhau tùy theo trường hợp sử dụng. Điều này làm cho việc trích xuất trở nên phức tạp hơn nhiều (xem Hình 1).

Thách thức của giải pháp ETL công nghiệp
So sánh dữ liệu công nghiệp và truyền thống. Nguồn : Highbyte.

Giai đoạn hai: Chuyển đổi – Transform

Dữ liệu thu thập từ dữ liệu hoạt động đòi hỏi nhiều điều kiện hơn là chuyển đổi. Việc lưu trữ dữ liệu hoạt động thường diễn ra theo định kỳ — mỗi giây, phút hoặc giờ. Dữ liệu được lưu trữ có thể là một giá trị thực tế như số lượng được tạo ra hoặc nó có thể là các tính toán thống kê của dữ liệu thô như giá trị nhiệt độ trung bình, tối thiểu và tối đa được kiểm tra mỗi giây nhưng được ghi lại mỗi giờ.Các điểm dữ liệu trên Bộ điều khiển Logic Lập trình (PLC) thường có địa chỉ hoặc tên và giá trị. Tuy nhiên, những điểm dữ liệu này chỉ cung cấp chế độ xem dữ liệu tập trung vào quá trình hoặc kiểm soát. Không có mô tả, đơn vị đo lường, phạm vi hoạt động hoặc thông tin mô tả khác. Điều này tạo ra những thách thức khi dữ liệu công nghiệp được sử dụng bên ngoài môi trường kiểm soát để bảo trì máy móc, tối ưu hóa quy trình, chất lượng và truy xuất nguồn gốc.

Trong những trường hợp này, dữ liệu phải được phân tích và căn chỉnh bằng máy để bảo trì máy, theo quy trình để tối ưu hóa quy trình và theo sản phẩm để đảm bảo chất lượng và khả năng truy xuất nguồn gốc. Dữ liệu yêu cầu thường có sẵn nhưng phải được tương quan một cách thích hợp và đôi khi được chuyển đổi thành một định dạng có thể sử dụng được.

Hơn nữa, các nhà máy điển hình có máy móc từ nhiều nhà cung cấp khác nhau và thiết bị đã được mua trong khoảng thời gian từ 10 đến 30 năm. Sự đa dạng về máy móc này dẫn đến nhiều loại dữ liệu có sẵn. Một số điểm dữ liệu có thể đơn giản có tên khác nhau trong khi những điểm khác có thể có các đơn vị đo khác nhau hoặc các phép đo khác hoàn toàn. Để có thể thực hiện được phân tích, xu hướng hoặc bất kỳ loại phân tích dữ liệu nào, các điểm dữ liệu phải được chuẩn hóa, chuẩn hóa và trong một số trường hợp được tính toán dựa trên các thước đo thành phần.

Cuối cùng, dữ liệu phân tích thường không quan trọng bằng dữ liệu kiểm soát, vì vậy các công ty đã bắt đầu sử dụng các cảm biến chi phí thấp hơn để thu thập dữ liệu cho các phân tích không quan trọng. Tuy nhiên, các cảm biến này có thể bị lỗi hoặc trôi vì vậy các cảm biến dự phòng có xác nhận dữ liệu bên ngoài là rất quan trọng để đảm bảo dữ liệu tốt đang được lưu trữ.

Giai đoạn 3: Tải – Load

Với sự ra đời của các công nghệ mới này, cũng có nhiều người dùng doanh nghiệp hơn muốn truy cập vào nguồn cấp dữ liệu tự động, độ phân giải cao từ các hoạt động. Họ sử dụng các hệ thống duy nhất để phân tích và sử dụng dữ liệu và có các yêu cầu khác nhau. Những người dùng doanh nghiệp này khác nhau tùy theo công ty nhưng thường bao gồm hoạt động sản xuất, bảo trì, chất lượng và kỹ thuật giá trị. Ngoài ra, các nhà cung cấp máy đã bắt đầu bán các hợp đồng dịch vụ với các yêu cầu về thu thập dữ liệu thời gian thực của họ.Quản lý việc cung cấp dữ liệu là quan trọng. Có những rủi ro bảo mật cũng như chi phí đáng kể liên quan đến việc lưu trữ dữ liệu không chính xác, bị hỏng hoặc vô ích.

Việc trích xuất và chuyển đổi dữ liệu công nghiệp phải diễn ra gần với máy móc sản xuất. Điều này cho phép dữ liệu được sử dụng bởi phân tích biên cục bộ, được gửi đến các trung tâm dữ liệu tại chỗ hoặc được gửi đến Đám mây dựa trên việc sử dụng hiệu quả nhất.

Kết luận

Nhu cầu trích xuất, chuyển đổi và tải dữ liệu hoạt động cũng lớn như — nếu không muốn nói là lớn hơn — nhu cầu về ETL trong tích hợp hệ thống kinh doanh CNTT điển hình. Tuy nhiên, ETL công nghiệp có những yêu cầu độc đáo và phức tạp. Điều này đòi hỏi phải suy nghĩ lại về kiến ​​trúc dữ liệu và tạo ra các giải pháp cơ sở hạ tầng dữ liệu công nghiệp mới. Các giải pháp cơ sở hạ tầng dữ liệu công nghiệp mới này phải đơn giản hóa và hợp lý hóa việc tích hợp dữ liệu cho các công ty công nghiệp để đạt được giá trị mong đợi từ Công nghiệp 4.0, Sản xuất thông minh và Internet vạn vật công nghiệp.
0 0 vote
Article Rating
Subscribe
Notify of
guest
0 Comments
Inline Feedbacks
View all comments