Optimum molecular descriptors based on 89 machine learning methods for predicting the recovery rate of pesticides in crops by GC-MS
Postery | 2020 | Agilent TechnologiesInstrumentace
Analýza zbytkových pesticidů v ovoci a zelenině pomocí GC-MS vyžaduje spolehlivé modely, které dokážou předpovědět míru rekonstrukce těchto látek v různých matricích. Výběr optimálních molekulárních popisovačů (MDs) může zásadně ovlivnit přesnost predikčních modelů a jejich robustnost v praxi.
Cílem studie bylo vyvinout postup výběru nejvhodnějších molekulárních popisovačů z celkem 178 získaných hodnot MDs a otestovat vliv tohoto výběru na výkon 89 regresních metod strojového učení pro predikci recovery pesticidů měřených GC-MS.
Instrumentace:
Postup výběru popisovačů:
Po aplikaci výběrového postupu bylo otestováno 89 regresních metod strojového učení a porovnán jejich Prediction Error (PE) s původní sadou všech 178 MDs:
Optimalizovaný výběr MDs:
Metoda může být uplatněna v laboratořích pro QA/QC potravinářských vzorků i v průmyslových aplikacích, kde je potřeba přesné kvantifikace zbytků pesticidů.
Navržený postup kombinující analýzu korelace a clusterování popisovačů efektivně odstraňuje silně korelované MDs a zachovává relevantní informace. Tento přístup významně zlepšil výkon většiny strojově-učících regresních modelů při predikci recovery pesticidů z polních vzorků.
GC/MSD, Software
ZaměřeníPotraviny a zemědělství
VýrobceAgilent Technologies
Souhrn
Význam tématu
Analýza zbytkových pesticidů v ovoci a zelenině pomocí GC-MS vyžaduje spolehlivé modely, které dokážou předpovědět míru rekonstrukce těchto látek v různých matricích. Výběr optimálních molekulárních popisovačů (MDs) může zásadně ovlivnit přesnost predikčních modelů a jejich robustnost v praxi.
Cíle a přehled studie / článku
Cílem studie bylo vyvinout postup výběru nejvhodnějších molekulárních popisovačů z celkem 178 získaných hodnot MDs a otestovat vliv tohoto výběru na výkon 89 regresních metod strojového učení pro predikci recovery pesticidů měřených GC-MS.
Použitá metodika a instrumentace
Instrumentace:
- GC-MS (plynová chromatografie spojená s hmotovou spektrometrií)
Postup výběru popisovačů:
- Výpočet Pearsonovy korelace mezi všemi 178 MDs (prahová hodnota r > 0,7 pro silnou korelaci).
- Rozdělení popisovačů na MD-r1a (r < 0,7 se všemi ostatními) a silně korelované MDs (118 MDs).
- Clusterová analýza silně korelovaných MDs pomocí DPClus (parametry CP=0,5, Density=0,9, min cluster size=2) pro identifikaci reprezentantů z každého clusteru.
- Druhá korelační analýza mezi vybranými reprezentanty, opět s prahem r > 0,7.
- Finální výběr MD-r1b (slabě korelované) pro regresní analýzu, výsledkem 83 MDs (60 MD-r1a + 23 MD-r1b).
Hlavní výsledky a diskuse
Po aplikaci výběrového postupu bylo otestováno 89 regresních metod strojového učení a porovnán jejich Prediction Error (PE) s původní sadou všech 178 MDs:
- 57 metod (např. bagEarthGCV, ppr, některé sparse modely) vykázalo snížení PE a tedy zlepšení výkonu.
- 32 metod (např. lasso, lars, jednoduché lineární modely) zaznamenalo nárůst PE.
- Metody z kategorie sparse modeling obecně profitovaly z odstranění redundantních popisovačů, zatímco některé jednoduché lineární regresory naopak ztratily na přesnosti.
Přínosy a praktické využití metody
Optimalizovaný výběr MDs:
- Redukuje multikolinearitu mezi vysvětlujícími proměnnými.
- Zvyšuje robustnost a generalizaci predikčních modelů.
- Umožňuje rychlejší trénování modelů díky nižšímu počtu vstupních proměnných.
Metoda může být uplatněna v laboratořích pro QA/QC potravinářských vzorků i v průmyslových aplikacích, kde je potřeba přesné kvantifikace zbytků pesticidů.
Budoucí trendy a možnosti využití
- Integrace dalších typů dat (např. spektrálních fingerprintů) pro obohacení modelů.
- Automatizace výběrového postupu do softwarových balíků pro širší komunitu analytiků.
- Využití pokročilých deep-learningových architektur pro automatický výběr relevantních popisovačů.
- Rozšíření na jiné typy analytických technik (LC-MS, ICP-MS apod.).
Závěr
Navržený postup kombinující analýzu korelace a clusterování popisovačů efektivně odstraňuje silně korelované MDs a zachovává relevantní informace. Tento přístup významně zlepšil výkon většiny strojově-učících regresních modelů při predikci recovery pesticidů z polních vzorků.
Reference
- Serino T, Nakamura S, Takigawa Y, Anumol T, Altaf-UI-Amin M, Kanaya S. Comprehensive Machine Learning Prediction of GC/MS Pesticide Recovery Based on Molecular Fingerprinting for Food QA/QC. Poster TP-298, 67th ASMS, Atlanta, 2019.
- Garg A, Tai K. Comparison of statistical and machine learning methods in modelling of data with multicollinearity. Int J Model Identif Control. 2013;18:295-312.
- Altaf-Ul-Amin M, Shibo Y, Mihara K, Kurokawa K, Kanaya S. Development and implementation of an algorithm for detection of protein complexes in large interaction networks. BMC Bioinformatics. 2006;7:207.
Obsah byl automaticky vytvořen z originálního PDF dokumentu pomocí AI a může obsahovat nepřesnosti.
Podobná PDF
Comprehensive machine learning prediction of GC/MS pesticide recovery based on the molecular fingerprinting for food QA/QC
2019|Agilent Technologies|Postery
Poster Reprint ASMS 2019 TP298 Comprehensive machine learning prediction of GC/MS pesticide recovery based on the molecular fingerprinting for food QA/QC Takeshi Serino* 1,2; Sadao Nakamura1; Yoshizumi Takigawa1; Norton Kitagawa3; Shigehiko Kanaya 2 1 Agilent Technologies, Hachioji City, Japan 2…
Klíčová slova
learning, learningmachine, machine𝑖𝑗, 𝑖𝑗descriptor, descriptorsmiles, smilesrecovery, recoverypek, pekgeneralization, generalizationatoms, atomspesticide, pesticideprediction, predictionpesticides, pesticidesmethods, methodsindex, index𝑦ത
Classifying the pesticides in foods between GC-amenable and LC-amenable using the prediction model with molecular descriptors
2020|Agilent Technologies|Postery
Poster Reprint ASMS 2020 WP 165 Classifying the pesticides in foods between GC-amenable and LC-amenable using the prediction model with molecular descriptors Sadao Nakamura 1, Takeshi Serino 1, 2, Takeshi Otsuka 1, Yoshizumi Takigawa 1, Tarun Anumol 3, Shigehiko Kanaya…
Klíčová slova
both, bothlearning, learningpesticides, pesticidesdescriptor, descriptormachine, machineamenable, amenableclassification, classificationatoms, atomspesticide, pesticidetech, techensemble, ensemblemethyl, methylexecution, executionlist, listqspr
Agilent ASMS 2020 Posters Book
2020|Agilent Technologies|Postery
Poster Reprint ASMS 2020 MP 176 Using ICP-MS/MS with M-Lens for the analysis of high silicon matrix samples Yu Ying1; Xiangcheng Zeng1 1Agilent China Technologies, China, Shanghai, Introduction The expansion of the connected devices and the Internet of Things (IoT)…
Klíčová slova
peptide, peptidereprint, reprintwere, wereposter, postermethod, methoddiscussion, discussionpositive, positiveresults, resultsclassification, classificationusing, usingboth, bothexperimental, experimentalanalysis, analysisrecovery, recoverysample
MestReNova Manual
2024|SciY/Mestrelab Research|Manuály
MestReNova Manual © 2023 M ESTRELAB RESEARCH Last Revision: 21st Feb 2024 MestReNova 15.0.1 by MESTRELAB RESEARCH This is the manual of MestReNova 15.0.01 MestReNova © 2024 MESTRELAB RESEARCH All rights reserved. No parts of this work may be reproduced…
Klíčová slova
mestrenova, mestrenovamnova, mnovayou, younmr, nmrclicking, clickingmschrom, mschrommultiplet, multipletspectrum, spectrummenu, menumultiplets, multipletsprocessing, processingcan, canspectra, spectraprediction, predictionstacked