Si ma tête en avait on l'appellerait mon ongle: machine learning basics

Wednesday, July 12, 2023

machine learning basics

exploration avec pandas

voir les infos completes

https://www.youtube.com/watch?v=aLphsae3PSE

code

https://github.com/AssemblyAI/youtube-tutorials/blob/main/Data%20preparation%20and%20model%20training.ipynb

import pandas as pd
import numpy as np

pd.set_option('display.max_columns', None)

I lire le fichier. remplacer les valeurs manquantes (na)

flights = pd.read_csv('flights_sampled.csv', na_values=['-'])

nb de lignes et de colonnes
flights.shape
10 premières lignes
flights.head(10)
îî Quick cleaning

Tip #2 - Only keep columns that are helpful for your goal
Target column is what you want to predict for using an ML model.
on selectionne ses colonnes 
flights = flights[['YEAR', 'MONTH', 'DAY',]] donc un subset
on affiche la quantité de données manquantes pour     chacune de colonnes

LLM
- les LLM opensource les plus connus sont llama.cpp , bloom 
bon le standard c'est llama.
on a le framework langchain qui s'impose




experimentations so far.
a partir de hackable 04/23 où les bases sont expliquées pour faire tourner sur des machines  à CPU et non pas GPU limitées en ressources
la methode pour transformer un modèle en plus petit est quantize
le format qui s'impose est gguf
un package permet de télécharger les modeles prets à l'emploi (pas besoin de quantize) depuis le site huggingface
exemple : huggingface-cli download TheBloke/Mistral-7B-Instruct-v0.2-GGUF mistral-7b-instruct-v0.2.Q4_K_M.gguf --local-dir models/7B/ --local-dir-use-symlinks False
ensuite on peut utiliser main pour interroger directement le modele ou server pour créer un serveur api

Si ma tête en avait on l'appellerait mon ongle

Wednesday, July 12, 2023

machine learning basics

îî Quick cleaning

Tip #2 - Only keep columns that are helpful for your goal

No comments:

Post a Comment

cloudflare ai

Total Pageviews

Report Abuse