카테고리 없음

post/get/스크래핑(크롤링)연습 - 기사 저장/출력

에밀오구 2022. 11. 27. 01:08

[url를 가져와 자동으로 영화제목, 이미지, 상세설명 데이터 가져오기]

[post/get]연습 

1. 클라이언트 서버 확인 

  1.1 app.py 기본 골격

  1.2 index.html 기본 골격

2. 서버 구축

#4개 설치하기 flask pymonge requests bs4 깔기
from flask import Flask, render_template, jsonify, request
app = Flask(__name__)

import requests # url 크로링 위해 임포트
from bs4 import BeautifulSoup

from pymongo import MongoClient
client = MongoClient('localhost', 27017)
db = client.dbsparta

## HTML을 주는 부분
@app.route('/')
def home():
   return render_template('index.html')

@app.route('/memo', methods=['GET'])
def listing():
    articles =list(db.articles.find({},{'_id':False}))

    return jsonify({'all_articles': articles}) # 클라이언트에 데이터 주기

## API 역할을 하는 부분
@app.route('/memo', methods=['POST'])
def saving():
    url_receive = request.form['url_give']
    comment_receive = request.form['comment_give']

    #받은 url로 스크래핑하기
    # url = url_receive
    headers = {
        'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64)AppleWebKit/537.36 (KHTML, like Gecko) Chrome/73.0.3683.86 Safari/537.36'}
    data = requests.get(url_receive, headers=headers)

    soup = BeautifulSoup(data.text, 'html.parser')

    title = soup.select_one('meta[property ="og:title"]')['content']
    image = soup.select_one('meta[property ="og:image"]')['content']
    desc = soup.select_one('meta[property ="og:description"]')['content']



    doc = {
        'title': title,
        'image': image,
        'desc': desc,
        'url' : url_receive,
        'coment' : comment_receive
    }

    db.articles.insert_one(doc)
    return jsonify({'msg':'기사저장됨.'})


if __name__ == '__main__':
   app.run('0.0.0.0',port=5000,debug=True)

3. 클라이언트 구축 

<!Doctype html>
<html lang="ko">

<head>
    <!-- Required meta tags -->
    <meta charset="utf-8">
    <meta name="viewport" content="width=device-width, initial-scale=1, shrink-to-fit=no">

    <!-- Bootstrap CSS -->
    <link rel="stylesheet" href="https://maxcdn.bootstrapcdn.com/bootstrap/4.0.0/css/bootstrap.min.css"
          integrity="sha384-Gn5384xqQ1aoWXA+058RXPxPg6fy4IWvTNh0E263XmFcJlSAwiGgFAW/dAiS6JXm"
          crossorigin="anonymous">

    <!-- JS -->
    <script src="https://ajax.googleapis.com/ajax/libs/jquery/3.5.1/jquery.min.js"></script>
    <script src="https://cdnjs.cloudflare.com/ajax/libs/popper.js/1.12.9/umd/popper.min.js"
            integrity="sha384-ApNbgh9B+Y1QKtv3Rn7W3mgPxhU9K/ScQsAP7hUibX39j7fakFPskvXusvfa0b4Q"
            crossorigin="anonymous"></script>

    <!-- 구글폰트 -->
    <link href="https://fonts.googleapis.com/css?family=Stylish&display=swap" rel="stylesheet">


    <title>스파르타코딩클럽 | 나홀로 메모장</title>

    <!-- style -->
    <style type="text/css">
            * {
                font-family: "Stylish", sans-serif;
            }

            .wrap {
                width: 900px;
                margin: auto;
            }

            .comment {
                color: blue;
                font-weight: bold;
            }

            #post-box {
                width: 500px;
                margin: 20px auto;
                padding: 50px;
                border: black solid;
                border-radius: 5px;
            }
        </style>
    <script>
            $(document).ready(function () {
                showArticles();
            });

            function openClose() {
                if ($("#post-box").css("display") == "block") {
                    $("#post-box").hide();
                    $("#btn-post-box").text("포스팅 박스 열기");
                } else {
                    $("#post-box").show();
                    $("#btn-post-box").text("포스팅 박스 닫기");
                }
            }

            function postArticle() {
             let url = $('#post-url').val()
             let comment = $('#post-comment').val()

                $.ajax({
                    type: "POST",
                    url: "/memo",
                    data: {url_give:url,comment_give: comment}, //서버로 보내기
                    success: function (response) { // 성공하면
                        alert(response["msg"]);
                        window.location.reload() //새로고침
                    }
                })
            }

            function showArticles() {
                $.ajax({
                    type: "GET",
                    url: "/memo",
                    data: {},
                    success: function (response) {
                        let articles =response['all_articles']
                        for(let i =0; i<articles.length; i++) {
                        let title = articles[i]['title']
                        let comment = articles[i]['comment']
                        let image = articles[i]['image']
                        let url = articles[i]['url']
                        let desc = articles[i]['desc']


                        let temp_html = `
 <div class="card">
                    <img class="card-img-top"
                         src="${image}"
                         alt="Card image cap">
                    <div class="card-body">
                        <a target="_blank" href="${url}" class="card-title">${title}</a>
                        <p class="card-text">${desc}</p>
                        <p class="card-text comment">${comment}</p>
                    </div>
                </div>
                        `
                        $('#cards-box').append(temp_html)


                        }

                    }
                })
            }
        </script>

</head>

<body>
<div class="wrap">
    <div class="jumbotron">
        <h1 class="display-4">나홀로 링크 메모장!</h1>
        <p class="lead">중요한 링크를 저장해두고, 나중에 볼 수 있는 공간입니다</p>
        <hr class="my-4">
        <p class="lead">
            <button onclick="openClose()" id="btn-post-box" type="button" class="btn btn-primary">포스팅 박스 열기
            </button>
        </p>
    </div>
    <div id="post-box" class="form-post" style="display:none">
        <div>
            <div class="form-group">
                <label for="post-url">아티클 URL</label>
                <input id="post-url" class="form-control" placeholder="">
            </div>
            <div class="form-group">
                <label for="post-comment">간단 코멘트</label>
                <textarea id="post-comment" class="form-control" rows="2"></textarea>
            </div>
            <button type="button" class="btn btn-primary" onclick="postArticle()">기사저장</button>
        </div>
    </div>
    <div id="cards-box" class="card-columns">

    </div>
</div>
</body>

</html>

4. 연결 확인

 



[준비]

0. db문법 모음.

#dbprac.py 
from pymongo import MongoClient # PYMONGO  쓸게요
client = MongoClient('localhost', 27017) # 내컴퓨터에 있는걸로요
db = client.dbsparta #dbsparta라는 DB이름으로 접속한다고용

# 저장 - 예시
doc = {'name':'bobby','age':21}
db.users.insert_one(doc)

# 한 개 찾기 - 예시
user = db.users.find_one({'name':'bobby'})

# 여러개 찾기 - 예시 ( _id 값은 제외하고 출력)
same_ages = list(db.users.find({'age':21},{'_id':False}))

# 바꾸기 - 예시
db.users.update_one({'name':'bobby'},{'$set':{'age':19}})

# 지우기 - 예시
db.users.delete_one({'name':'bobby'})

1.meta 태그  크롤링

import requests
from bs4 import BeautifulSoup

url = 'https://movie.naver.com/movie/bi/mi/basic.nhn?code=171539'

headers = {'User-Agent' : 'Mozilla/5.0 (Windows NT 10.0; Win64; x64)AppleWebKit/537.36 (KHTML, like Gecko) Chrome/73.0.3683.86 Safari/537.36'}
data = requests.get(url,headers=headers)

soup = BeautifulSoup(data.text, 'html.parser')

# 여기에 코딩을 해서 meta tag를 먼저 가져와보겠습니다.
# title = soup.select_one('head > meta:nth-child(9)')
# print(title) 일반적으로 해봤던 방식대로 메타태그를 크롤링하면 안됨.
# 우리가 브라우저에서 사이트를 들어갔을 때 나오는 이 meta 태그의 순서와
# 파이썬 코드가 접속했을 때 나오는 meta태그 순서가 다르기 때문

title = soup.select_one('meta[property ="og:title"]')['content']
image = soup.select_one('meta[property ="og:image"]')['content']
description = soup.select_one('meta[property ="og:description"]')['content']
print(title,image,description)