Skip to content
New issue

Have a question about this project? Sign up for a free GitHub account to open an issue and contact its maintainers and the community.

By clicking “Sign up for GitHub”, you agree to our terms of service and privacy statement. We’ll occasionally send you account related emails.

Already on GitHub? Sign in to your account

Docelowy dataset do labelowania #51

Open
Adelionek opened this issue Jan 15, 2023 · 3 comments
Open

Docelowy dataset do labelowania #51

Adelionek opened this issue Jan 15, 2023 · 3 comments
Assignees
Labels
Data Ten wpis dotyczy danych - pozyskiwania, manipulacji, przechowywania

Comments

@Adelionek
Copy link
Collaborator

Adelionek commented Jan 15, 2023

W tym zadaniu należy:

  1. Ustalić jaki dataset przekazujemy do labelownia.
  • Czy jest potrzeba aby zescrapować więcej zdjęć? Te z OLX'a scrapowalem dość dawno, dodatkowo były zrobione filtry na używane i od osób prywatnych. Myślę, że mogło wjechać sporo nowych ogłoszeń. Myślicie, że warto puścić to jeszcze raz z trochę innymi filtrami lub nawet tymi samymi?
  • Czy labelujemy tylko dane z OLX'a? Te z Houzza są wstępnie poklasyfikowane (wg mnie mało precyzyjnie). Jednak chyba lepiej poświęcić zasoby do labelowania na te bardziej realne dane.
  • Co robimy z zdjęciami co mają watermarki? Center crop każdego zdjęcia? Usuwanie watermarków w jakiejś stronce? Skipowanie tych zdjęć?
  1. Wrzucić dataset do naszego środowiska na Azure.
  2. Spiąć nowy dataset z toolem do labelowania i przygotować nowy projekt do labelowania.

Punkt 1 jest pilny ponieważ nie będziemy robili labelowania wielokrotnie, tylko jeden raz. Obecnie mamy 50/50 zdjęć z Houzz i OLX.

@Adelionek Adelionek converted this from a draft issue Jan 15, 2023
@Adelionek Adelionek added the Data Ten wpis dotyczy danych - pozyskiwania, manipulacji, przechowywania label Jan 15, 2023
@Adelionek
Copy link
Collaborator Author

Według mnie:
1a. Można by doscrapować więcej zdjęć z OLX'a. Nie jestem pewien odnośnie tych filtrów. Mam wrażenie, że używane + od osób prywatnych będą bardziej realne. Z drugiej strony ta pula może mieć mniej zdjęć, które mają jakikolwiek styl.
1b. Tylko OLX.
1c. Nie mam pojęcia. Najłatwiejsza wydaje się opcja zebrania bardzo dużej ilości zdjęć i skipowania jak będzie watermark.

@Adelionek
Copy link
Collaborator Author

@emkarcinos @ulaniuk - Mogę zająć się scrapowaniem i pkt 2 i 3 ale proszę o wasz input odnośnie pkt 1.

@ulaniuk
Copy link
Collaborator

ulaniuk commented Jan 15, 2023

1a. Możesz dorzucić nowe, nie zaszkodzi. Pewnie trzeba będzie ręcznie poszukać przykładów stylu zakopiańskiego itd.
1b. Myśle że jest tak, że na danych z OLX jest dużo ciężej określić styl, a na tych z Houzz jednak coś tam jest, nawet jeśli nie jest to dokładne.
1c. Imo te ze znakiem wodnym do pominięcia póki co, jeśli chcemy się skupiać na jak najbardziej realnych zdjęciach. Jeśli na zdjęciu jest znak wodny, to foto jest zrobione przez jakieś biuro i może nie odzwierciedlać wystroju na co dzień (inne światło, kąty, poziom czystości, dekoracje itd.). Może nam starczy to co jest bez watermarków.

Sign up for free to join this conversation on GitHub. Already have an account? Sign in to comment
Labels
Data Ten wpis dotyczy danych - pozyskiwania, manipulacji, przechowywania
Projects
Status: 🏗 In progress
Development

No branches or pull requests

3 participants