Optimum molecular descriptors based on 89 machine learning methods for predicting the recovery rate of pesticides in crops by GC-MS
Postery | 2020 | Agilent TechnologiesInstrumentace
Analýza zbytkových pesticidů v ovoci a zelenině pomocí GC-MS vyžaduje spolehlivé modely, které dokážou předpovědět míru rekonstrukce těchto látek v různých matricích. Výběr optimálních molekulárních popisovačů (MDs) může zásadně ovlivnit přesnost predikčních modelů a jejich robustnost v praxi.
Cílem studie bylo vyvinout postup výběru nejvhodnějších molekulárních popisovačů z celkem 178 získaných hodnot MDs a otestovat vliv tohoto výběru na výkon 89 regresních metod strojového učení pro predikci recovery pesticidů měřených GC-MS.
Instrumentace:
Postup výběru popisovačů:
Po aplikaci výběrového postupu bylo otestováno 89 regresních metod strojového učení a porovnán jejich Prediction Error (PE) s původní sadou všech 178 MDs:
Optimalizovaný výběr MDs:
Metoda může být uplatněna v laboratořích pro QA/QC potravinářských vzorků i v průmyslových aplikacích, kde je potřeba přesné kvantifikace zbytků pesticidů.
Navržený postup kombinující analýzu korelace a clusterování popisovačů efektivně odstraňuje silně korelované MDs a zachovává relevantní informace. Tento přístup významně zlepšil výkon většiny strojově-učících regresních modelů při predikci recovery pesticidů z polních vzorků.
GC/MSD, Software
ZaměřeníPotraviny a zemědělství
VýrobceAgilent Technologies
Souhrn
Význam tématu
Analýza zbytkových pesticidů v ovoci a zelenině pomocí GC-MS vyžaduje spolehlivé modely, které dokážou předpovědět míru rekonstrukce těchto látek v různých matricích. Výběr optimálních molekulárních popisovačů (MDs) může zásadně ovlivnit přesnost predikčních modelů a jejich robustnost v praxi.
Cíle a přehled studie / článku
Cílem studie bylo vyvinout postup výběru nejvhodnějších molekulárních popisovačů z celkem 178 získaných hodnot MDs a otestovat vliv tohoto výběru na výkon 89 regresních metod strojového učení pro predikci recovery pesticidů měřených GC-MS.
Použitá metodika a instrumentace
Instrumentace:
- GC-MS (plynová chromatografie spojená s hmotovou spektrometrií)
Postup výběru popisovačů:
- Výpočet Pearsonovy korelace mezi všemi 178 MDs (prahová hodnota r > 0,7 pro silnou korelaci).
- Rozdělení popisovačů na MD-r1a (r < 0,7 se všemi ostatními) a silně korelované MDs (118 MDs).
- Clusterová analýza silně korelovaných MDs pomocí DPClus (parametry CP=0,5, Density=0,9, min cluster size=2) pro identifikaci reprezentantů z každého clusteru.
- Druhá korelační analýza mezi vybranými reprezentanty, opět s prahem r > 0,7.
- Finální výběr MD-r1b (slabě korelované) pro regresní analýzu, výsledkem 83 MDs (60 MD-r1a + 23 MD-r1b).
Hlavní výsledky a diskuse
Po aplikaci výběrového postupu bylo otestováno 89 regresních metod strojového učení a porovnán jejich Prediction Error (PE) s původní sadou všech 178 MDs:
- 57 metod (např. bagEarthGCV, ppr, některé sparse modely) vykázalo snížení PE a tedy zlepšení výkonu.
- 32 metod (např. lasso, lars, jednoduché lineární modely) zaznamenalo nárůst PE.
- Metody z kategorie sparse modeling obecně profitovaly z odstranění redundantních popisovačů, zatímco některé jednoduché lineární regresory naopak ztratily na přesnosti.
Přínosy a praktické využití metody
Optimalizovaný výběr MDs:
- Redukuje multikolinearitu mezi vysvětlujícími proměnnými.
- Zvyšuje robustnost a generalizaci predikčních modelů.
- Umožňuje rychlejší trénování modelů díky nižšímu počtu vstupních proměnných.
Metoda může být uplatněna v laboratořích pro QA/QC potravinářských vzorků i v průmyslových aplikacích, kde je potřeba přesné kvantifikace zbytků pesticidů.
Budoucí trendy a možnosti využití
- Integrace dalších typů dat (např. spektrálních fingerprintů) pro obohacení modelů.
- Automatizace výběrového postupu do softwarových balíků pro širší komunitu analytiků.
- Využití pokročilých deep-learningových architektur pro automatický výběr relevantních popisovačů.
- Rozšíření na jiné typy analytických technik (LC-MS, ICP-MS apod.).
Závěr
Navržený postup kombinující analýzu korelace a clusterování popisovačů efektivně odstraňuje silně korelované MDs a zachovává relevantní informace. Tento přístup významně zlepšil výkon většiny strojově-učících regresních modelů při predikci recovery pesticidů z polních vzorků.
Reference
- Serino T, Nakamura S, Takigawa Y, Anumol T, Altaf-UI-Amin M, Kanaya S. Comprehensive Machine Learning Prediction of GC/MS Pesticide Recovery Based on Molecular Fingerprinting for Food QA/QC. Poster TP-298, 67th ASMS, Atlanta, 2019.
- Garg A, Tai K. Comparison of statistical and machine learning methods in modelling of data with multicollinearity. Int J Model Identif Control. 2013;18:295-312.
- Altaf-Ul-Amin M, Shibo Y, Mihara K, Kurokawa K, Kanaya S. Development and implementation of an algorithm for detection of protein complexes in large interaction networks. BMC Bioinformatics. 2006;7:207.
Obsah byl automaticky vytvořen z originálního PDF dokumentu pomocí AI a může obsahovat nepřesnosti.
Podobná PDF
Comprehensive machine learning prediction of GC/MS pesticide recovery based on the molecular fingerprinting for food QA/QC
2019|Agilent Technologies|Postery
Poster Reprint ASMS 2019 TP298 Comprehensive machine learning prediction of GC/MS pesticide recovery based on the molecular fingerprinting for food QA/QC Takeshi Serino* 1,2; Sadao Nakamura1; Yoshizumi Takigawa1; Norton Kitagawa3; Shigehiko Kanaya 2 1 Agilent Technologies, Hachioji City, Japan 2…
Klíčová slova
learning, learningmachine, machine𝑖𝑗, 𝑖𝑗descriptor, descriptorsmiles, smilesrecovery, recoverypek, pekatoms, atomsgeneralization, generalizationpesticide, pesticideprediction, predictionpesticides, pesticidesindex, indexmethods, methods𝑦ത
Classifying the pesticides in foods between GC-amenable and LC-amenable using the prediction model with molecular descriptors
2020|Agilent Technologies|Postery
Poster Reprint ASMS 2020 WP 165 Classifying the pesticides in foods between GC-amenable and LC-amenable using the prediction model with molecular descriptors Sadao Nakamura 1, Takeshi Serino 1, 2, Takeshi Otsuka 1, Yoshizumi Takigawa 1, Tarun Anumol 3, Shigehiko Kanaya…
Klíčová slova
both, bothlearning, learningpesticides, pesticidesdescriptor, descriptormachine, machineamenable, amenableclassification, classificationatoms, atomspesticide, pesticidetech, techensemble, ensemblemethyl, methylexecution, executionlist, listqspr
Agilent ASMS 2020 Posters Book
2020|Agilent Technologies|Postery
Poster Reprint ASMS 2020 MP 176 Using ICP-MS/MS with M-Lens for the analysis of high silicon matrix samples Yu Ying1; Xiangcheng Zeng1 1Agilent China Technologies, China, Shanghai, Introduction The expansion of the connected devices and the Internet of Things (IoT)…
Klíčová slova
peptide, peptidereprint, reprintwere, wereposter, postermethod, methoddiscussion, discussionpositive, positiveresults, resultsclassification, classificationusing, usingboth, bothexperimental, experimentalanalysis, analysisrecovery, recoverysample
Analysis and Testing of Lithium-Ion Battery Materials
2021|Shimadzu|Brožury a specifikace
C10G-E088 Analysis and Testing of Lithium-Ion Battery Materials Multifaceted Solutions for Improving Performance and Quality of Lithium-Ion Secondary Batteries In the field of transport equipment, which long life, and safety must be resolved. Research accounts for approximately 20% of CO…
Klíčová slova
cantilever, cantileverelectrolytic, electrolyticlithium, lithiumdeflection, deflectionbatteries, batteriespiezo, piezoelectrode, electrodeseparators, separatorsxspecia, xspeciaion, ionbattery, batterylipon, liponforce, forcecarbonate, carbonateelectrolytes