Công cụ AI trong tra cứu thông tin Y Dược – Trong nghiên cứu
Bài viết nằm trong chuỗi bài viết học cách ứng dụng AI vào trong lĩnh vực y dược, một lĩnh vực yêu cầu độ chính xác cao nhưng chưa có nhiều hướng dẫn áp dụng thực hành, được thực hiện sau khoá học cùng MedLang Fantastic.
Như đã đề cập ở bài tổng quan, ChatGPT hội tụ nhiều điểm yếu khiến chúng không phải là công cụ tra cứu và không nên được sử dụng trong những ngành nghề cần sự chính xác cao. Bài viết Công cụ AI trong tra cứu thông tin Y Dược – Trong lâm sàng đề cập tới cách sử dụng OpenEvidence sử dụng trong lâm sàng. Bài viết này đề cập tới các công cụ sử dụng hỗ trợ trong nghiên cứu.
Consensus
Consensus là gì?
Consensus là công cụ tìm kiếm tài liệu, nhưng khu trú trong tài liệu khoa học. Consensus sử dụng mô hình ngôn ngữ hơn (Large Language Model – LLM) và sử dụng những công nghệ tìm kiến hiện tại để tìm kiếm những bài báo và tài liệu liên quan nhất tới câu hỏi. Consensus sẽ tổng hợp thông tin từ những tài liệu nó cho là có liên quan nhất, sau đó đưa ra kết luận cho người dùng bằng thang đo “Consensus Meter”, với tỷ lệ phần trăm những tài liệu mang bằng chứng ủng hộ (Yes), những tài liệu ở giữa (Possibly) và những tài liệu mang bằng chứng không ủng hộ (No). Do đó, công cụ này hữu ích khi tìm kiếm những câu hỏi đang ở trong vùng tranh cãi, mình sẽ biết được là có bao nhiêu % ủng hộ cho quan điểm của mình.
Thư viện Consensus tìm kiếm đến từ Semantic Scholar Database, với thông tin “được công bố” là khoảng 200 triệu bài báo. Tuy nhiên, sẽ không có đủ 100% bài báo, và hiển nhiên những bài báo được đăng trên tạp chí trong nước ở Việt Nam thì sẽ không có trong phân tích của AI này.
Consensus hoạt động như thế nào?
Sau khi nhận được câu hỏi, Consensus bỏ những từ không liên quan và lọc ra những Keyworks, sau đó dùng những keyworks đó như Vector để tìm kiếm ở tiêu đề hoặc tóm tắt của các bài báo. Đây cũng là hạn chế của công cụ này vì nếu những từ khoá không xuất hiện trong tiêu đề hoặc tóm tắt của bài báo thì Consensus không thể tìm kiếm được.
Concensus có thể tổng hợp ngắn nội dung của bài báo được yêu cầu
Ngoài ra, Consensus cũng có thể kết hợp với Copilot để đưa ra những yêu cầu khác, hoặc hỏi những câu hỏi để tương tác với các bài báo đó.
Sử dụng Consensus như thế nào cho hiệu quả?
Như đã nói phía trên, công cụ này mạnh ở điểm có thể giúp chúng ta nhìn một cách tổng quan về luận điểm trong câu hỏi có được nhiều tài liệu trong y văn ủng hộ hay không. Kết hợp với cách hoạt động của Consensus như đã đề cập ở trên, có thể sử dụng công cụ này hiệu quả bằng cách:
- Tìm kiếm bằng từ khoá chính
- Sử dụng 2 từ khoá, liên kết bằng “and”, thay vì đặt một câu hỏi dài, không cần các từ liên kết
- Sử dụng các câu hỏi mở, hoặc các cụm từ mở thay vì một câu hỏi dài
- Hỏi về mối quan hệ giữa hai khái niệm
- Hỏi câu hỏi Yes/No
- Hỏi kiểu “Lựa chọn tốt nhất cho … là gì?
- Hỏi kiểu “Làm cái này như thế nào?”
Ngoài ra, Consensus còn cung cấp những bộ lọc (filter) để lọc Năm xuất bản, phương pháp nghiên cứu, số lượng trích dẫn, đăng tải trên tạp chí nào, và chuyên ngành của các bài báo. Ví dụ, Những bộ lọc hiện có trong phần phương pháp có thể kể đến như: Meta Analysis, Systematic Review, Randomized controlled trial (RCT), Non-RCT Trial, Observational Study, Literature Review, Case Report, Animal Trial, In Vitro Trial. Ở mỗi lựa chọn trong bộ lọc Consensus còn cung cấp những thông tin chi tiết hơn (ví dụ trong bộ lọc phương pháp nghiên cứu, chỉ chọn những nghiên cứu RCT trên người, có cỡ mẫu trên 50).
Bộ lọc này sẽ cho người dùng thêm thông tin về kết quả nghiên cứu. Ví dụ như nếu chọn In Vitro Trial có 90% bài báo say “Yes”, nhưng khi chọn Animal Trial thì chỉ có 20% thui, thì cũng là một thông tin khá là đáng chú ý ấy nhỉ! ^^
Lợi ích của Consensus
- Tìm kiếm những thông tin khoa học ủng hộ cho giả thuyết nghiên cứu
- Xác định giả thuyết hoặc kết luận cho câu hỏi
- Hỗ trợ thực hiện Literature Review
- Xác định câu hỏi nghiên cứu hoặc những khoảng trống trong y văn
- Hình dung nhanh về tổng quan các kết quả và các bằng chứng hiện có về vấn đề đang quan tâm
Các công cụ lập bản đồ trích dẫn tài liệu khoa học
Trong phần này sẽ đề cập đến các phần Citation Mapping Tools – Lập bản đồ các trích dẫn tài liệu khoa học
Bình thường, khi tìm kiếm y văn, chúng ta thường sẽ có những phương pháp sau:
- Tìm kiếm theo từ khoá: Bằng các sử dụng các từ khoá để tìm kiếm trong tiêu đề và Tóm tắt của các bài báo. Những công cụ dựa trên phương pháp này có thể kể đến Google Scholar, PubMed
- Tìm kiếm theo tài liệu tham khảo và trích dẫn: Bắt nguồn từ một bài báo gốc, tìm kiếm những bài báo liên quan được bài báo gốc trích dẫn, hoặc trích dẫn bài báo gốc. Sau đó người dùng tự đọc thông tin từ các bài báo đó
- Tìm kiếm bằng AI: Đặt câu hỏi, AI sẽ tìm kiếm, so sánh từ hàng triệu bài báo và sau đó đưa ra câu trả lời. Người dùng dựa vào câu trả lời tìm đến bài viết gốc của thông tin để tìm thêm chi tiết
Trong phần này sẽ đề cập đến các phần công cụ tìm kiếm theo tài liệu tham khảo và trích dẫn, thường tạo thành một mạng lưới hoặc bản đồ, nên người ta gọi là Citation Mapping Tools (Mình đoán vậy).
Mục tiêu của các công cụ này là tìm được nhiều bài báo nhất có thể liên quan tới chủ đề quan tâm. Thuật ngữ “Citation Chaining” biểu đạt việc các bài báo sẽ liên kết với nhau thông qua việc trích dẫn lẫn nhau. Và các công cụ tìm kiếm sử dụng liên kết đó để trích xuất ra những thông tin về bài báo chính, bài báo xuất hiện đầu tiên, bài báo quan trọng (được nhiều trích dẫn), tác giả có nhiều hiểu biết (nhiều bài báo và trích dẫn), và tạp chí có nhiều bài liên quan đến chủ đề đang quan tâm. Chúng ta cũng có thể xem được ý tưởng của các bài báo có sự khác nhau và thay đổi như thế nào theo thời gian.
Các công cụ này hoạt động như thế nào?
Ghép thư mục (Bibliographic Coupling) và Đồng trích dẫn (Co-citation) là hai phương pháp chính được sử dụng trong phân tích trích dẫn để khám phá các mối quan hệ giữa các bài báo khoa học
- Ghép thư mục (Bibliographic Coupling) xảy ra khi hai bài báo có cùng trích dẫn. Khi đó, các công cụ này định nghĩa hai bài báo này có chung chủ đề và chung “thư mục”
- Đồng trích dẫn (Co-citation) xảy ra khi hai bài báo cùng được trích dẫn trong một nhóm “hoặc một thư mục” những bài báo khoa học.
Hạn chế của các công cụ lập bản đồ trích dẫn khoa học
- Hạn chế trong cơ sở dữ liệu (kiểu chưa được cập nhật, ví dụ), thì người dùng không thể tìm kiếm các bài báo
- Các công cụ này phụ thuộc nhiều và những nguồn thư viện mở, bao gồm cả những trích dẫn và tóm tắt mở.
- Một số nhà xuất bản không giới hạn tiêu đề, tóm tắt và trích dẫn tạo điều kiện để các công cụ này phát triển
- Tuy nhiên dữ liệu sẽ bị hạn chế nếu các bài báo được đăng trên các tạp chí/toà soạn đóng dữ liệu.
Cách giải quyết: thử công cụ khác thử.
Một số công cụ tiêu biểu
Litmaps
- Litmaps được bắt đầu xây dựng từ 2018
- Có thể sử dụng miễn phí
- Bản đồ đẹp, nhìn xinh, có highlight bài báo mình chọn
- Sắp xếp khoa học: Mỗi bài báo có một vị trí nhất định theo bản đồ, theo thứ tự thời gian, trích dẫn
- Có thể thay đổi thuật toán tìm kiếm: Được trích dẫn nhiều, Tìm theo tác giả, có tiêu đề và tóm tắt tương tự nhau, thời gian xuất bản, keywords,..
- Có 2 bản đồ miễn phí và 20 lượt tìm kiếm mỗi tháng
ResearchRabbit
- Nguyên tắc thì cũng giống nhưng trải nghiệm thì hơi khác
- Miễn phí hoàn toàn
- Có kết nối với Zotero (công cụ trích dẫn và quản lý trích dẫn để vừa viết vừa trích dẫn ở trong Word)
- Thêm các bài báo vào bộ sưu tập để tăng độ đặc hiệu
- Có thể tạo nhiều bản đồ tuỳ thuộc vào bộ lọc
Connected Papers
- Nguyên tắc tương tự
- Không sắp xếp báo theo thứ tự thời gian, nhưng có thể điều chỉnh phóng to thu nhỏ
- Hiển thị thời gian xuất bản theo màu sắc
- Cũng có filter
- Chỉ có 5 bản đồ miễn phí mỗi tháng
Vì mỗi công cụ sẽ sử dụng các nguồn dữ liệu khác nhau, việc sử dụng các công cụ khác nhau sẽ tăng khả năng tìm kiếm được bài báo liên quan nhất đến chủ đề tìm kiếm hoặc tìm được nhiều bài báo hơn.
Bài viết nằm trong thử thách viết 30 ngày của Writing On The Net 7
#wotn7