UIT - Luận án (Dissertations)
32 ấn phẩm có sẵn
Đang tải...
Những tài liệu tải lên gần đây
- Ấn phẩmNghiên cứu các kỹ thuật phân tích ý kiến trên bình luận phản hồi của người dùng(Trường Đại học Công nghệ Thông tin, 2025) Đặng Văn Thìn; PGS.TS Nguyễn Lưu Thùy NgânĐóng góp 1: Đề xuất các phương pháp nâng cao độ chính xác cho bài toán phân tích ý kiến theo mức độ dữ liệu. Trong nội dung này, luận án đã nghiên cứu ba phương pháp nhằm giải quyết bài toán phân loại ý kiến theo các mức độ dữ liệu, bao gồm: (1) phương pháp học chuyển tiếp dựa trên mô hình ngôn ngữ theo hướng phân loại; (2) phương pháp học chuyển tiếp dựa trên mô hình ngôn ngữ theo hướng tạo sinh văn bản; và (3) phương pháp tổ hợp dựa trên mô hình ngôn ngữ. Ngoài các thử nghiệm được thực hiện chính trên ngôn ngữ tiếng Việt, luận án còn áp dụng các kỹ thuật và phương pháp này trên một số ngôn ngữ ít tài nguyên và thu được kết quả khả quan. Các kết quả nghiên cứu đã được công bố trong các công trình CT.01, CT.04, CT.06, và CT.08 ở Mục 6.2. • Đóng góp 2: Xây dựng các mô hình nâng cao độ chính xác cho bài toán phân tích ý kiến theo hai quan điểm: thông thường và so sánh. Trong nội dung này, nghiên cứu sinh đã đề xuất hai mô hình để giải quyết hai bài toán thách thức liên quan đến quan điểm ý kiến thông thường và quan điểm so sánh. Cụ thể, luận án giới thiệu mô hình ngôn ngữ tạo sinh kết hợp lời nhắc theo hướng đa tác vụ nhằm giải quyết bài toán trích xuất bộ bốn thuộc tính trong các quan điểm ý kiến thông thường. Đối với bình luận so sánh, luận án đề xuất một kiến trúc hai giai đoạn để xác định bình luận so sánh và trích xuất bộ năm thuộc tính của ý kiến so sánh. Các kết quả nghiên cứu này đã được 5 công bố tại các tạp chí quốc tế và trong nước uy tín qua các công trình CT.05 và CT.07 . • Đóng góp 3: Đề xuất các phương pháp cho vấn đề dữ liệu hạn chế dữ liệu huấn luyện trong bài toán phân tích ý kiến. Vấn đề hạn chế dữ liệu hoặc không có dữ liệu huấn luyện trong một số lĩnh vực hoặc ngôn ngữ ít tài nguyên là một thách thức lớn trong nghiên cứu và ứng dụng thực tế. Để giải quyết vấn đề này, luận án đã nghiên cứu hai phương pháp cụ thể. Thứ nhất, luận án trình bày phương pháp tận dụng sức mạnh của các mô hình đa ngôn ngữ, kết hợp với dữ liệu từ các ngôn ngữ giàu tài nguyên, trong hai tình huống: không có dữ liệu ở ngôn ngữ thử nghiệm và bổ sung dữ liệu từ ngôn ngữ giàu tài nguyên để nâng cao tập mẫu huấn luyện. Thứ hai, luận án nghiên cứu cách thiết kế lời nhắc (prompt) dựa trên sức mạnh của các mô hình ngôn ngữ lớn, nhằm hỗ trợ phân tích ý kiến ở các cấp độ khác nhau và trên nhiều miền dữ liệu đa dạng. Kết quả nghiên cứu đã được công bố tại một tạp chí và một hội nghị quốc tế trong các công trình CT.03 và CT.09.
- Ấn phẩmConception d’antenne reconfigurable et intégrée pour CubeSat(2025) Nguyễn Mạnh Thảo; Fabien Ferrero
- Ấn phẩmPhát hiện sự kiện bất thường trong video(Trường Đại học Công nghệ Thông tin, 2025) Trần Minh Tùng; TS. Nguyễn Tấn Trần Minh Khang; PGS.TS. Nguyễn Văn TâmLuận án tập trung nghiên cứu vào các nội dung sau: Nội dung 1: Nghiên cứu, khảo sát các bài toán và các phương pháp giải quyết bài toán phát hiện sự kiện bất thường trong video. Nội dung này được thúc đẩy bởi một số khía cạnh. Thứ nhất, tập trung phân tích các phương pháp truyền thống dựa trên việc rút trích các đặc trưng thủ công (handcrafted features) và các phương pháp dựa trên học sâu (deep learning) để làm nổi bật những tiến bộ gần đây trong kỹ thuật học sâu cho bài toán phát hiện sự kiện bất thường trong video.Thứ hai, xác định các thách thức khi giải quyết các bài toán liên quan đến bất thường gồm: phát hiện bất thường, phân loại bất thường, dự đoán bất thường và định vị bất thường trong video cũng như phạm vi ứng dụng của các bài toán này mà các công trình khảo sát hiện có chưa đề cập đầy đủ về chủ đề này. Thứ ba, so sánh hiệu suất của các kỹ thuật tối tận hiện tại khác nhau trên các bộ dữ liệu chuẩn công khai nhằm chỉ ra tình trạng hiện tại của bài toán nghiên cứu. Cuối cùng, thảo luận về những ưu điểm, hạn chế của các phương pháp hiện đại và gợi mở các hướng nghiên cứu sâu hơn cho bài toán phát hiện sự kiện bất thường trong video ; Nội dung 2: Nghiên cứu và đề xuất phương pháp phát hiện sự kiện bất thường ở mức khung hình trong video trên không với ngữ cảnh giao thông. Xuất phát từ sự thành công và đạt được những kết quả đột phá trong lĩnh vực xử lý ngôn ngữ tự nhiên (Natural Language Processing - NLP) với khả năng khai thác thông tin ngữ cảnh mạnh mẽ của mô hình mạng Transformer [98]. Ban đầu kiến trúc mạng này được đề xuất như một mô hình ngôn ngữ theo trình tự với các cơ chế chú ý (attention mechanisms) dựa trên cấu trúc bộ mã hóa - giải mã để xử lý các tác vụ NLP khác nhau, như dịch ngôn ngữ và trả lời câu hỏi. Ý tưởng chính của mô hình Transformer là sử dụng các cơ chế tự chú ý (self-attention) với các tầng mạng nơ-ron (neural network) để tổng hợp thông tin từ toàn bộ chuỗi đầu vào. Tuy nhiên, không giống như mạng thần kinh hồi quy (Recurrent Neural Networks - RNN), với cơ chế chú ý mô hình Transformer không yêu cầu dữ liệu phải được xử lý theo trình tự vì thế mô hình này có thể học đầy đủ mối quan hệ giữa các từ ở xa trong một câu, nên mô hình này sẽ khắc phục được các vấn đề gặp phải của các mô hình tuần tự (sequence - to - sequence models) trước đó. Do đặc trưng này, mạng Transformer hỗ trợ tính toán song song hoàn toàn, huấn luyện trên các bộ dữ liệu quy mô lớn nên giảm thời gian huấn luyện. Lấy cảm hứng từ các nghiên cứu mới nhất và thành công gần đây của các state - of-the - arts [11, 15, 19] đối với các bài toán liên quan trong lĩnh vực thị giác máy tính bao gồm phân loại hình ảnh [99, 100], phân loại video [101], phát hiện đối tượng [102, 103, 150], phát hiện sự kiện bất thường trong video [77, 135, 139] và sự phổ biến của thiết bị bay không người lái (drone) trong lĩnh vực giao thông và các lĩnh vực khác [165, 166, 167, 168], luận án đề xuất phương pháp phát hiện sự kiện bất thường ở mức khung hình trong video được quay bằng thiết bị bay không người lái với ngữ cảnh giao thông ; Nội dung 3: Thu thập và xây dựng bộ dữ liệu cho bài toán phát hiện sự kiện bất thường trong video trên không với ngữ cảnh giao thông tại TP.HCM, Việt Nam. Được thúc đẩy bởi sự khan hiếm của bộ dữ liệu cho bài toán phát hiện sự kiện bất thường trong video trên không với ngữ cảnh giao thông cùng với những khó khăn và thách thức của bài toán bao gồm môi trường giao thông phức tạp, đối tượng tham gia giao thông có kích thước nhỏ và đa dạng, camera chuyển động, góc quay và độ cao thay đổi,... Luận án tiến hành thu thập và xây dựng bộ dữ liệu có tên là UIT- ADrone, với ngữ cảnh thực tế là môi trường giao thông tại TP.HCM, Việt Nam được quay bằng thiết bị bay không người lái.
- Ấn phẩmApplications of Natural Language Processing and Large Language Models to Cybersecurity(Japan Advanced Institute of Science and Technology, 2025-09) Mai Trọng Khang; Beuran RazvanLike other domains, cybersecurity knowledge can be stored in textual data to facilitate cybersecurity practitioners' analysis, interpretation, and communication. For example, Cyber Threat Intelligence (CTI) reports, network design documents, system logs, and security guidelines are cybersecurity assets in a textual format. This leads to the crucial role of Natural Language Processing (NLP) in cybersecurity. However, state-of-the-art NLP models based on Deep Learning (DL) architecture (e.g., transformer) necessitate extensive training with significant labeled data. This issue demands the strong involvement of experts to create sufficient labeled data to ensure the model's performance. Additionally, the fast-changing nature of the cybersecurity field causes training data and the developed models to be quickly outdated, diminishing the practical applicability of these approaches. As a result, addressing the labeled data insufficiency and developing models with greater generalizability have become emerging trends in NLP and DL. There are significant NLP and DL trends that can address the insufficiency of annotated data in developing and maintaining cybersecurity applications: 1. The Weak Supervision approach harnesses existing labeled data sources to create a new weak dataset suitable for model development. Weak Supervision-based approaches significantly reduce the need for extensive data labeling when developing new models for emerging problems. 2. The use of published open-source frameworks for NLP, like SpaCy, simplifies the development of NLP applications for those with limited linguistic knowledge. These frameworks provide tools to analyze sentences, paragraphs, and documents to gain linguistic insights. Then, the developers can take advantage of the analyzed results to solve their target problems. For example, the obtained grammatical relationships can be used to replace the actual cybersecurity relationships among entities. 3. The recent appearance of Large Language Models (LLMs) introduces promising approaches to resolving data insufficiency problems in cybersecurity. With billions of parameters pre-trained on vast datasets, LLMs demonstrate strong generalizability, enabling them to tackle unseen tasks with very few labeled examples. In this work, we aim to address the insufficiency problems of annotated data in developing cybersecurity applications. To achieve this goal, we studied advancements in NLP, including Weak Supervision and LLMs, and their feasibility to tackle practical downstream tasks. Additionally, we sought to create applications that can support cybersecurity experts. We applied these advancements to specific downstream tasks to develop practical applications, such as report analysis and policy generation. Our first application was a framework called RAF-AG, which supports the information-sharing process in cybersecurity. RAF-AG can transform CTI reports into simplified versions, such as attack paths. In developing RAF-AG, we utilized Weak Supervision and open-source NLP tools to utilize already annotated data from similar problems to solve the target problem. For evaluating RAF-AG, we collected 30 CTI reports from various sources and compared its results with those generated by a similar report analysis framework, AttacKG. It was shown that RAF-AG can outperform AttacKG in precision, recall, and F1 scores, recording values of 0.717, 0.722, and 0.708 compared to 0.337, 0.535, and 0.393, respectively. We recognized the limitations of RAF-AG and aimed to study new models that demonstrate high generalizability, eliminating the need for text normalization. The emergence and popularity of LLMs brought up new potential for this thesis. We utilized commercial LLMs to develop a framework for policy generation. This application aimed to assist experts in creating fine-grained access control policies tailored to a specific IT environment. We employed a typical ICS network as a case study to create 181 fine-grained ABAC policies. To enhance the access control performance of generated policies, we implemented priority optimization for policy conflict resolution. Our tests with various optimization algorithms showed that optimized priority values can significantly improve the effectiveness of the generated policies, resulting in an F1 score of 0.994. We examined the benefits and drawbacks of previous applications. This turned the focus to open-source LLMs to develop CyLLM-DAP, a framework designed to support the specialization of LLMs in cybersecurity. This effort promotes an effective DL technique for data scarcity, namely transfer learning, where we inject cybersecurity knowledge into open-source LLMs so that the models can be reused to better solve cybersecurity downstream tasks. The aim of this effort is to create cybersecurity-specific LLMs (CyLLMs). Our experiment showed that cybersecurity-specific LLMs can lead to significant performance enhancements (up to 4.75%) in downstream tasks such as text classification and Q&A when compared to the general base and instruct counterparts. Additionally, using insights from previously developed applications such as RAF-AG, CyLLM-DAP, and CyLLMs, we developed a methodology to work with cybersecurity problems where annotated data insufficiency is present. We also included a report analysis approach based on the proposed methodology. For each of the mentioned tasks, we began by conducting a survey to identify the advantages and disadvantages of current approaches. Next, we developed a novel methodology to tackle the current issues. Based on the availability of existing approaches published in other research, our experiments successfully (1) demonstrated the effectiveness of the proposed techniques and (2) identified the best methodology among those available. Ultimately, the methodologies, models, and data in this work were published to assist in addressing similar downstream tasks in cybersecurity.
- Ấn phẩmTăng cường khả năng phòng chống tấn công trong mạng SDN(Trường Đại học Công nghệ Thông tin, 2025) Phan Thế Duy; TS. Phạm Văn Hậu; PGS. TS. Lê Đình Duy
- Ấn phẩmPhylogenomics in the pandemic era(Australian National University, 2024) Lý, Trọng Nhân