Sau khi vẫn cùng shop chúng tôi phân tích về BigData ở các bài viết trước, chắc hẳn các bạn đã sở hữu cái nhìn tổng thể nhất về nó rồi buộc phải không? kế bên ra, liên quan đến BigData, công ty chúng tôi cũng vẫn có nội dung bài viết về công nghệ Hadoop, hiểu rằng cơ chế hoạt động vui chơi của MapReduce, những ứng dụng bên trong của Hadoop bao gồm những gì? với ở nội dung bài viết tiếp theo này, chúng ta sẽ cùng nhau tìm hiểu thêm một thành phần bên phía trong Hadoop nữa, kia là ngôn từ lập trình Hive. Vậy Hive là gì? HiveSQL là gì? Đặc trưng, phong cách xây dựng và cách thao tác của Hive? với Ưu điểm của Apache Hive là gì? toàn bộ những thông tin trên sẽ được công ty chúng tôi phân tích thật cẩn thận đến cho những ban, nào cùng nhau bước đầu nhé!

Ngôn ngữ thiết kế Hive là gì?

*
Ngôn ngữ lập trình Hive là gì?

Hive ko phải là 1 cơ sở dữ liệu theo kiểu dáng mối quan lại hệ, chưa phải là một kiến thiết để xử lý các giao dịch online (OLTP – Online Transaction Processing), với cũng ko phải là 1 trong những ngôn ngữ cho các truy vấn thời hạn thực… nhưng ngôn ngữ xây dựng Hive đó là công cụ hạ tầng để xử lý tài liệu có cấu trúc bên phía trong công nghệ Hadoop. Vị trí của chính nó là nằm trong đỉnh của Hadoop để tóm tắt, truy vấn cùng phần tích dữ liệu được dễ ợt hơn. Các bạn có biết, ban đầu Hive được cách tân và phát triển bởi ai không, vâng, đó chính là gã to đùng mạng xóm hội facebook. Nhưng sau đó, Apache đã lấy và cách tân và phát triển thành mã mối cung cấp mở như hiện nay và đánh tên là Apache Hive. Hiện nay nay, có khá nhiều công ty và tập đoàn lớn thực hiện Hive, như Amazon, Alibaba, Nike…

HiveSQL (hay được gọi tắt là HQL) là gì ?

Cũng y như SQL, ngữ điệu truy vấn Hive cũng cung cấp các toán tử cơ bản để xử lý cửa hàng dữ liệu, HiveSQL hoàn toàn có thể tạo và cai quản các tables với partitions dễ dàng dàng, ở kề bên đó, nó cũng hỗ trợ các toán tử Relational, Logical, Arithmetic, Evaluate functions, và nhiều các loại toán tử khác nữa. Phương thức hoạt động của HiveSQL là cài đặt về ngôn từ của một table từ thư mục toàn bộ hoặc công dụng của những câu truy tìm vấn cho thư mục HDFS.

Bạn đang xem: Apache hive là gì

Các chúng ta cũng có thể tham khảo ví dụ sau để dễ nắm bắt hơn (thật không còn xa lạ phải ko nào !)

SELECT upper(name), salespriceFROM sales;SELECT category, count(1)FROM productsGROUP BY category;

Đặc trưng của Hive

Thứ 1 nó có thiết kế dành cho OLAPThứ 2: nó lưu giữ trữ các lược thứ trong cơ sở dữ liệu và xử lý những dữ liệu này bên trong HDFSThứ 3: nó hỗ trợ ngôn ngữ đẳng cấp SQL để truy vấn cơ sở dữ liệu được dễ ợt và dễ dàng, và được call là HiveSQL (hay HQL)Thứ 4: bởi vì sử dụng ngữ điệu kiểu SQL, đề nghị trông Hive vô cùng quen thuộc, thuận lợi sử dụng cấp tốc chóng so với các lập trình viên mới bước đầu và sệt biệt có công dụng mở rộng.

Ở phần tiếp theo của bài bác viết, cũng chính là phần rất đặc biệt về Hive, đó đó là kiến trúc với cách thao tác của nó, chúng ta chú ý gọi kỹ với nếu có thời cơ làm vấn đề với nó, hãy thực hành thực tế thật các nhé !

Kiến trúc của Hive

Sơ thiết bị dưới đây diễn đạt chi tiết về phong cách thiết kế của ngôn ngữ lập trình sẵn Hive, các bạn quan giáp thật kỹ, sau đó chúng ta sẽ với mọi người trong nhà đi phân tích một trong những thành phần chủ yếu của nó nhé!

*
Kiến trúc của ngữ điệu lập trình Hive

Kiến trúc của Hive có khá nhiều thành phần khác nhau, tuy nhiên, tất cả 5 thành phần chủ yếu được sử dụng nhiều nhất dưới đây:

Thành phần đặc trưng đầu tiên với tên thường gọi User Interface: Đây đó là giao diện người dùng mà Hive hỗ trợ, bao gồm: Hive web UI, Hive command line và Hive HD Insight, nó giúp làm ra tương tác giữa người dùng với HDFS.Thành phần thứ 2. Meta Store: đây chính là nơi mà lại Hive chọn những máy chủ cơ sở tài liệu để lưu trữ như: những loại lược đồ, các metadata, những cột, các bảng, các loại tài liệu trong một bảng, một cột và dữ liệu ánh xạ của HDFS.Thành phần 3. HiveQL Process Engine: HiveQL thao tác làm việc tương trường đoản cú nhe SQL để truy vấn những thông tin về lược trang bị trên hệ thống. Xung quanh ra, đây còn là một một cách thức nhằm sửa chữa thay thế cho chương trình MapReduce. Bởi thế, các lập trình viên nắm vì nên viết lịch trình MapReduce bởi Java tương đối tinh vi và mất tương đối nhiều thời gian, thì họ có thể viết các câu tróc nã vấn bởi HiveQL nhằm xử lý công việc được thuận tiện hơn.Thành phần máy 4. Execution Engine: đây là phần phối hợp giữa 2 dụng cụ xử lý: HiveQL + MapReduce, và nó đó là công cụ triển khai Hive Execution Engine. Phương pháp này giúp triển khai và xử lý những câu truy nã vấn dữ liệu.Và cuối cùng, là thành phần sản phẩm công nghệ 5. HDFS hoặc HBASE: đây đó là hệ thống những tệp phân tán của Hadoop. Với HBASE đó là các kỹ thuật dùng làm lưu trữ dữ liệu vào khối hệ thống các tệp phân tán đó.

Cách thức làm việc của Hive

Bạn hãy quan gần kề sơ thiết bị dưới đây, nó bộc lộ quy trình thao tác giữa Hive và Hadoop.

*
Quy trình làm việc của Hive cùng HadoopBước 1: Thực thi những dòng lệnh query: giao diện thực hiện của Hive giống như Command line, hoặc những giao diện người tiêu dùng web, nhờ cất hộ truy vấn mang đến trình điều khiển để thực thi những dòng lệnhBước 2: thừa nhận kế hoạch: trình điều khiển và tinh chỉnh với sự giúp sức của trình biên dịch, tiếp đến phân tích các cú pháp truy cung cấp để kiểm tra những cú pháp, các kế hoạch với yêu mong truy vấn.Bước 3: nhận metadata: những trình biên dịch đang gửi yêu mong nhận metadata cho Metastore.Bước 4: gửi kế hoạch: các trình biên dịch sau khoản thời gian kiểm tra thật kỹ càng các yêu mong sẽ nhờ cất hộ lại planer cho trình tinh chỉnh và điều khiển xử lý tiếp. Và cho đây, thì việc phân tích cú pháp với biên dịch một truy vấn đã có được hoàn tất.Bước 5: triển khai kế hoạch: trình điều khiển và tinh chỉnh sẽ gửi planer ở bên trên đến những công vậy thực thi.Bước 6: Thực kiến tạo việc: MapReduce sẽ có nhiệm vụ thực hiện các các bước trên. Phương tiện này sẽ gửi công việc đến các JobTracker ở phía bên trong node Name, tiếp nối nó gán các bước này cho những TaskTracker.Bước 7: các buổi giao lưu của metadata: trong quá trình thực hiện, những công cụ thực thi sẽ thực thi các hoạt động vui chơi của metadata với Metastore.Bước 8: rước kết quả: những công cụ thực hiện sẽ lấy tác dụng từ các node DataBước 9: giữ hộ kết quả: sau thời điểm thực thi xong, các công cố gắng sẽ gửi tác dụng đến trình điều khiển, cuối cùng, các trình tinh chỉnh và điều khiển sẽ giữ hộ toàn bộ tác dụng xử lý được đến bối cảnh Hive.Bước 10: những lập trình viên hoàn toàn có thể sử dụng các công dụng được gửi cho Hive để phục vụ cho công việc của mình cùng hoàn thành công việc xử lý dữ liệu tiếp theo.

Xem thêm: Kê Khai Báo Thuế Tiếng Anh Là Gì, Kê Khai Thuế Tiếng Anh Là Gì

Trên phía trên là toàn bộ các thức thao tác làm việc của ngôn ngữ lập trình Hive, và ở trong phần cuối của nội dung bài viết này, bọn họ sẽ xem thêm những ưu thế vượt trội của Apache Hive, đổi mới nó đổi mới một công cụ hỗ trợ đắc lực độc nhất vô nhị của hệ thống Hadoop.

Những ưu thế vượt trội của Apache Hive

Nó là 1 trong cơ sở tài liệu SQL thực, cùng với bộ tài liệu rất lớn.Nó được tích hợp nguyên lý BI, các trường thực hiện EDW, bảng ACID, ngoài ra nó còn tích hợp cả Hbase giúp xử lý thông tin, dữ liệu đúng mực và mau lẹ hơn.Nó cung ứng Spark khỏe khoắn mẽ, tương tác xuất sắc với Druid, hình như với cơ chế bảo mật dữ liệu táo bạo mẽ, Apache Hive sẽ giúp ích không ít cho các lập trình viên trong vấn đề bảo mật tin tức người dùng.Apache Hive cung ứng lưu trữ các loại tệp dữ liệu khác nhau trên HDFS gồm những: Apache ORC, Apache Parquet, CSV, JSON, ACIDKết phù hợp SQL bên trên Hadoop (HPL và SQL)Những bài viết kiến thức lập trình cùng chủ đề: